トレーニング済みモデルAPIの作成

トレーニング済みモデルを作成します。

バージョン7.8.0で作成されたモデルは、古いノードバージョンと互換性がありません。混合クラスター環境の場合、7.8.0ノードによって保存されたモデルを使用するには、すべてのノードが少なくとも7.8.0である必要があります。

リクエスト

PUT _ml/trained_models/<model_id>

前提条件

  1. ## 説明
  2. トレーニング済みモデルAPIを使用すると、データフレーム分析によって作成されていないトレーニング済みモデルを提供できます。
  3. ## パスパラメータ
  4. - `````<model_id>
  • (必須、文字列)トレーニング済みモデルの一意の識別子。

クエリパラメータ

  • defer_definition_decompression
  • (オプション、ブール値)trueに設定され、compressed_definitionが提供されている場合、リクエストは定義の解凍を遅延させ、関連する検証をスキップします。この遅延は、モデルの良好なバイトサイズの見積もりを知っているシステムやユーザーにとって便利であり、モデルが有効であり、推論中に失敗する可能性が低いことを知っています。
  • wait_for_completion
  • (オプション、ブール値)モデルのダウンロードなど、すべての子操作が完了するまで待機するかどうかを示します。デフォルトはfalseです。

Request body

  • compressed_definition
  • (必須、文字列) モデルの圧縮された (GZipped および Base64 エンコードされた) 推論定義。 compressed_definition が指定されている場合、definition は指定できません。

  • definition

  • (必須、オブジェクト) モデルの推論定義。 definition が指定されている場合、compressed_definition は指定できません。
    definition のプロパティ
    • preprocessors
    • (オプション、オブジェクト) 前処理器のコレクション。 前処理器の例 を参照してください。
      preprocessors のプロパティ
      • frequency_encoding
      • (必須、オブジェクト) フィールドの周波数エンコーディングを定義します。
        frequency_encoding のプロパティ
      • feature_name
      • (必須、文字列) 結果の特徴の名前。
      • field
      • (必須、文字列) エンコードするフィールド名。
      • frequency_map
      • (必須、オブジェクトマップ string:double) フィールド値を周波数エンコード値にマッピングするオブジェクト。
      • custom
      • (オプション、Boolean) 分析ジョブが前処理器を作成したか、ユーザーが提供したかを示すブール値。 これにより、特徴の重要度計算が調整されます。 true の場合、特徴の重要度計算は処理された特徴の重要度を返します。 false の場合、元のフィールドの総重要度が返されます。 デフォルトは false です。
      • one_hot_encoding
      • (必須、オブジェクト) フィールドのワンホットエンコーディングマップを定義します。
        one_hot_encoding のプロパティ
      • field
      • (必須、文字列) エンコードするフィールド名。
      • hot_map
      • (必須、オブジェクトマップの文字列) \
        プロパティ exponent
        • weights
        • (必須、ダブル) 入力値(訓練されたモデルの推論値)に掛ける重み。
      • classification_labels
      • (オプション、文字列) 分類ラベルの配列。
      • feature_names
      • (オプション、文字列) アンサンブルによって期待される特徴、期待される順序で。
      • target_type
      • (必須、文字列) モデルのターゲットタイプを示す文字列; regression または classification.
      • trained_models
      • (必須、オブジェクト) trained_model オブジェクトの配列。サポートされている訓練済みモデルは treeensemble です。
  • description
  • (オプション、文字列) 人間が読める推論訓練モデルの説明。
  • estimated_heap_memory_usage_bytes
  • (オプション、整数) [7.16.0] 7.16.0で非推奨。 model_size_bytes に置き換えられました。
  • estimated_operations
  • (オプション、整数) 推論中に訓練モデルを使用するための推定操作数。このプロパティは、defer_definition_decompressiontrue またはモデル定義が提供されていない場合にのみサポートされます。

  • inference_config

  • (必須、オブジェクト) 推論のデフォルト設定。これは次のいずれかです: regression, classification, fill_mask, ner, question_answering, text_classification, text_embedding または zero_shot_classificationregression または classification の場合、基盤となる definition.trained_modeltarget_type と一致する必要があります。 fill_mask, ner, question_answering, text_classification, または text_embedding の場合、model_typepytorch でなければなりません。
    プロパティ inference_config

    • classification
    • (オプション、オブジェクト) 推論のための分類設定。
      分類推論のプロパティ
      • num_top_classes
      • (オプション、整数) 戻すトップクラス予測の数を指定します。デフォルトは0です。
      • num_top_feature_importance_values
      • (オプション、整数) ドキュメントごとの最大特徴重要度値を指定します。デフォルトは0で、特徴重要度の計算は行われません。
      • prediction_field_type
      • (オプション、文字列) 書き込む予測フィールドのタイプを指定します。有効な値は: string, number, boolean です。boolean が提供されると、1.0true に変換され、0.0false に変換されます。
      • results_field
      • (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは predicted_value です。
      • top_classes_results_field
      • (オプション、文字列) トップクラスが書き込まれるフィールドを指定します。デフォルトは top_classes です。
    • fill_mask
    • (オプション、オブジェクト) fill_mask 自然言語処理 (NLP) タスクの設定。fill_mask タスクは、fill mask アクションに最適化されたモデルで動作します。たとえば、BERTモデルの場合、次のテキストが提供される場合があります:
      “フランスの首都は[MASK]です。” 応答は、[MASK] を置き換える可能性が最も高い値を示します。この場合、最も可能性の高いトークンは paris です。
      fill_mask 推論のプロパティ
      • num_top_classes
      • (オプション、整数) マスクトークンを置き換えるために戻すトップ予測トークンの数。デフォルトは 0 です。
      • results_field
      • (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは predicted_value です。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語に対して訓練されたBERTスタイルのモデルに使用。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
    • ner
    • (オプション、オブジェクト) 名前付きエンティティ認識 (NER) タスクを設定します。NERはトークン分類の特別なケースです。シーケンス内の各トークンは、提供された分類ラベルに従って分類されます。現在、NERタスクは classification_labels Inside-Outside-Beginning (IOB) 形式のラベルを必要とします。サポートされているのは、人物、組織、場所、およびその他のカテゴリのみです。
      ner推論のプロパティ
      • classification_labels
      • (オプション、文字列) 分類ラベルの配列。NERはInside-Outside-Beginningラベル (IOB) のみをサポートし、人物、組織、場所、およびその他のカテゴリのみをサポートします。例: [“O”, “B-PER”, “I-PER”, “B-ORG”, “I-ORG”, “B-LOC”, “I-LOC”, “B-MISC”, “I-MISC”]
      • results_field
      • (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは predicted_value です。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語に対して訓練されたBERTスタイルのモデルに使用。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
    • pass_through
    • (オプション、オブジェクト) pass_through タスクを設定します。このタスクはデバッグに役立ち、推論出力に対して後処理が行われず、生のプーリング層の結果が呼び出し元に返されます。
      pass_through推論のプロパティ
      • results_field
      • (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは predicted_value です。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語に対して訓練されたBERTスタイルのモデルに使用。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
    • question_answering
    • (オプション、オブジェクト) 質問応答自然言語処理 (NLP) タスクを設定します。質問応答は、大規模なテキストコーパスから特定の質問に対する回答を抽出するのに役立ちます。
      question_answering推論のプロパティ
      • max_answer_length
      • (オプション、整数) 回答の最大単語数。デフォルトは 15 です。
      • results_field
      • (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは predicted_value です。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語に対して訓練されたBERTスタイルのモデルに使用。
        max_sentence_length386 に設定し、128span に設定し、truncatenone に設定することをお勧めします。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
    • regression
    • (オプション、オブジェクト) 推論のための回帰設定。
      回帰推論のプロパティ
      • num_top_feature_importance_values
      • (オプション、整数) ドキュメントごとの最大特徴重要度値を指定します。デフォルトはゼロで、特徴重要度の計算は行われません。
      • results_field
      • (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは predicted_value です。
    • text_classification
    • (オプション、オブジェクト) テキスト分類タスク。テキスト分類は、提供されたテキストシーケンスを以前に知られているターゲットクラスに分類します。具体的な例としては、感情分析があり、テキストの感情を示す可能性のあるターゲットクラス(「悲しい」、「幸せ」、「怒っている」など)を返します。
      テキスト分類推論のプロパティ
      • classification_labels
      • (オプション、文字列) 分類ラベルの配列。
      • num_top_classes
      • (オプション、整数) 返すトップクラス予測の数を指定します。デフォルトはすべてのクラス(-1)です。
      • results_field
      • (オプション、文字列) 推論予測を含むために受信ドキュメントに追加されるフィールド。デフォルトは predicted_value です。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語用に訓練されたBERTスタイルのモデルに使用。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
    • text_embedding
    • (オブジェクト、オプション) テキスト埋め込みは、入力シーケンスを受け取り、それを数値のベクトルに変換します。これらの埋め込みは、単なるトークンだけでなく、意味や文脈を捉えます。これらの埋め込みは、強力な洞察のためにdense vectorフィールドで使用できます。
      テキスト埋め込み推論のプロパティ
      • embedding_size
      • (オプション、整数) モデルによって生成される埋め込みベクトルの次元数。
      • results_field
      • (オプション、文字列) 推論予測を含むために受信ドキュメントに追加されるフィールド。デフォルトは predicted_value です。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語用に訓練されたBERTスタイルのモデルに使用。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
    • text_similarity
    • (オブジェクト、オプション) テキスト類似性は、入力シーケンスを受け取り、別の入力シーケンスと比較します。これは一般的にクロスエンコーディングと呼ばれます。このタスクは、別の提供されたテキスト入力と比較する際にドキュメントテキストをランク付けするのに役立ちます。
      テキスト類似性推論のプロパティ
      • span_score_combination_function
      • (オプション、文字列) 提供されたテキストパッセージが max_sequence_length より長く、複数の呼び出しのために自動的に分離する必要がある場合、結果の類似性スコアをどのように組み合わせるかを特定します。これは、truncatenone で、span が非負の数である場合にのみ適用されます。デフォルト値は max です。利用可能なオプションは:
      • max: すべてのスパンからの最大スコアが返されます。
      • mean: すべてのスパンの平均スコアが返されます。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語用に訓練されたBERTスタイルのモデルに使用。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
    • zero_shot_classification
    • (オブジェクト、オプション) ゼロショット分類タスクを構成します。ゼロショット分類は、事前に決定されたラベルなしでテキスト分類を行うことを可能にします。推論時に、分類するためのラベルを調整することが可能です。このため、このタイプのモデルとタスクは非常に柔軟です。
      同じラベルを一貫して分類する場合は、微調整されたテキスト分類モデルを使用する方が良いかもしれません。
      ゼロショット分類推論のプロパティ
      • classification_labels
      • (必須、配列) ゼロショット分類中に使用される分類ラベル。分類ラベルは空またはnullであってはならず、モデル作成時にのみ設定される必要があります。すべて3つの [
        “entailment”, “neutral”, “contradiction”] でなければなりません。
        これは、ゼロショットが分類しようとしている値である labels とは異なります。
      • hypothesis_template
      • (オプション、文字列) 分類のためにシーケンスをトークン化する際に使用されるテンプレートです。
        ラベルはテキスト内の {} 値を置き換えます。デフォルト値は: This example is {}. です。
      • labels
      • (オプション、配列) 分類するラベル。デフォルトラベルの作成時に設定でき、推論中に更新できます。
      • multi_label
      • (オプション、ブール値) 入力に対して複数の true ラベルが可能かどうかを示します。これは、複数の入力ラベルに関連する可能性のあるテキストにラベルを付ける際に便利です。デフォルトは false です。
      • results_field
      • (オプション、文字列) 推論予測を含むために受信ドキュメントに追加されるフィールド。デフォルトは predicted_value です。
      • tokenization
      • (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は bert です。有効なトークン化値は
      • bert: BERTスタイルのモデルに使用
      • mpnet: MPNetスタイルのモデルに使用
      • roberta: RoBERTaスタイルおよびBARTスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 xlm_roberta: XLMRoBERTaスタイルのモデルに使用
      • [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 bert_ja: 日本語用に訓練されたBERTスタイルのモデルに使用。
        tokenizatonのプロパティを参照して、tokenizationオブジェクトのプロパティを確認してください。
  • input

  • (必須、オブジェクト) モデル定義のための入力フィールド名。

    1. - `````field_names
    • (必須、文字列) モデルのための入力フィールド名の配列。
  • location

  • (オプション、オブジェクト) モデル定義の場所。 definition または compressed_definition が指定されていない場合、location が必要です。
    1. - `````index
    • (必須、オブジェクト) モデル定義がインデックスに保存されていることを示します。このオブジェクトは空でなければなりません。モデル定義を保存するためのインデックスは自動的に構成されます。
  • metadata
  • (オプション、オブジェクト) モデルに関するメタデータを含むオブジェクトマップ。
  • model_size_bytes
  • (オプション、整数) 訓練されたモデルをメモリに保持するための推定メモリ使用量(バイト単位)。このプロパティは、defer_definition_decompressiontrue であるか、モデル定義が提供されていない場合にのみサポートされます。
  • model_type
  • (オプション、文字列) 作成されたモデルタイプ。デフォルトのモデルタイプは tree_ensemble です。適切なタイプは:
    • tree_ensemble: モデル定義は決定木のアンサンブルモデルです。
    • lang_ident: 言語識別モデル用に予約された特別なタイプです。
    • pytorch: 保存された定義はPyTorch(具体的にはTorchScript)モデルです。現在、NLPモデルのみがサポートされています。詳細については、自然言語処理を参照してください。
  • platform_architecture
  • (オプション、文字列) モデルが特定のプロセッサアーキテクチャとOSの組み合わせに対して最適化されている場合、どのプラットフォームで動作するかを指定します。文字列の形式はElasticsearchで使用されるプラットフォーム識別子と一致する必要があります。したがって、linux-x86_64linux-aarch64darwin-x86_64darwin-aarch64、または windows-x86_64 のいずれかです。ポータブルモデル(プロセッサアーキテクチャやOS機能に依存しないモデル)の場合は、このフィールドを設定しないでください。

  • prefix_strings

  • (オプション、オブジェクト) 特定のNLPモデルは、入力が評価される前に入力テキストに適用されるプレフィックス文字列を持つように訓練されています。プレフィックスは意図によって異なる場合があります。情報検索のような非対称タスクでは、インデックスされるパッセージに適用されるプレフィックスは、これらのパッセージを検索する際に適用されるプレフィックスとは異なる場合があります。
    prefix_strings には2つのオプションがあり、検索コンテキストで常に適用されるプレフィックス文字列と、ドキュメントを取り込む際に常に適用されるプレフィックス文字列があります。どちらもオプションです。
    1. - `````search
    • (オプション、文字列) 検索クエリから発信されたリクエストの入力テキストに追加するプレフィックス文字列。
    • ingest
    • (オプション、文字列) 推論取り込みプロセッサが使用される取り込み時のリクエストの入力テキストに追加するプレフィックス文字列。
  • tags
  • (オプション、文字列) モデルを整理するためのタグの配列。

トークン化のプロパティ

tokenization オブジェクトには以下のプロパティがあります。

  • bert
  • (オプション、オブジェクト)BERTスタイルのトークン化は、含まれている設定で実行されます。
    BERTのプロパティ
    • do_lower_case
    • (オプション、ブール値)トークンを構築する際に、テキストシーケンスを小文字にするかどうかを指定します。
    • max_sequence_length
    • (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
    • span
    • (オプション、整数)truncatenone の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
      デフォルト値は -1 で、ウィンドウ化やスパンは発生しません。
      通常の入力が max_sequence_length よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。
    • truncate
    • (オプション、文字列)max_sequence_length を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値は first です。
      • none: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。
      • first: 最初のシーケンスのみが切り捨てられます。
      • second: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。
        zero_shot_classification の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合 second を使用しないでください。
    • with_special_tokens
    • (オプション、ブール値)特殊トークンでトークン化します。BERTスタイルのトークン化に通常含まれるトークンは:
      • [CLS]: 分類されるシーケンスの最初のトークン。
      • [SEP]: シーケンスの分離を示します。
  • roberta
  • (オプション、オブジェクト)RoBERTaスタイルのトークン化は、含まれている設定で実行されます。
    RoBERTaのプロパティ
    • add_prefix_space
    • (オプション、ブール値)トークン化がモデルへのトークン化された入力にスペースをプレフィックスするかどうかを指定します。
    • max_sequence_length
    • (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
    • span
    • (オプション、整数)truncatenone の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
      デフォルト値は -1 で、ウィンドウ化やスパンは発生しません。
      通常の入力が max_sequence_length よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。
    • truncate
    • (オプション、文字列)max_sequence_length を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値は first です。
      • none: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。
      • first: 最初のシーケンスのみが切り捨てられます。
      • second: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。
        zero_shot_classification の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合 second を使用しないでください。
    • with_special_tokens
    • (オプション、ブール値)特殊トークンでトークン化します。RoBERTaスタイルのトークン化に通常含まれるトークンは:
      • <s>: 分類されるシーケンスの最初のトークン。
      • </s>: シーケンスの分離を示します。
  • mpnet
  • (オプション、オブジェクト)MPNetスタイルのトークン化は、含まれている設定で実行されます。
    MPNetのプロパティ
    • do_lower_case
    • (オプション、ブール値)トークンを構築する際に、テキストシーケンスを小文字にするかどうかを指定します。
    • max_sequence_length
    • (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
    • span
    • (オプション、整数)truncatenone の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
      デフォルト値は -1 で、ウィンドウ化やスパンは発生しません。
      通常の入力が max_sequence_length よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。
    • truncate
    • (オプション、文字列)max_sequence_length を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値は first です。
      • none: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。
      • first: 最初のシーケンスのみが切り捨てられます。
      • second: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。
        zero_shot_classification の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合 second を使用しないでください。
    • with_special_tokens
    • (オプション、ブール値)特殊トークンでトークン化します。MPNetスタイルのトークン化に通常含まれるトークンは:
      • <s>: 分類されるシーケンスの最初のトークン。
      • </s>: シーケンスの分離を示します。
  • xlm_roberta
  • (オプション、オブジェクト) [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 XLMRoBERTaスタイルのトークン化は、含まれている設定で実行されます。
    XLM-RoBERTaのプロパティ
    • max_sequence_length
    • (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
    • span
    • (オプション、整数)truncatenone の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
      デフォルト値は -1 で、ウィンドウ化やスパンは発生しません。
      通常の入力が max_sequence_length よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。
    • truncate
    • (オプション、文字列)max_sequence_length を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値は first です。
      • none: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。
      • first: 最初のシーケンスのみが切り捨てられます。
      • second: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。
        zero_shot_classification の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合 second を使用しないでください。
    • with_special_tokens
    • (オプション、ブール値)特殊トークンでトークン化します。RoBERTaスタイルのトークン化に通常含まれるトークンは:
      • <s>: 分類されるシーケンスの最初のトークン。
      • </s>: シーケンスの分離を示します。
  • bert_ja
  • (オプション、オブジェクト) [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 日本語テキストのためのBERTスタイルのトークン化は、含まれている設定で実行されます。
    BERTのプロパティ(日本語)
    • do_lower_case
    • (オプション、ブール値)トークンを構築する際に、テキストシーケンスを小文字にするかどうかを指定します。
    • max_sequence_length
    • (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
    • span
    • (オプション、整数)truncatenone の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
      デフォルト値は -1 で、ウィンドウ化やスパンは発生しません。
      通常の入力が max_sequence_length よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。
    • truncate
    • (オプション、文字列)max_sequence_length を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値は first です。
      • none: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。
      • first: 最初のシーケンスのみが切り捨てられます。
      • second: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。
        zero_shot_classification の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合 second を使用しないでください。
    • with_special_tokens
    • (オプション、ブール値)true の場合、特殊トークンでトークン化します。

前処理器の例

以下の例は、frequency_encoding 前処理器オブジェクトを示しています:

Js

  1. {
  2. "frequency_encoding":{
  3. "field":"FlightDelayType",
  4. "feature_name":"FlightDelayType_frequency",
  5. "frequency_map":{
  6. "Carrier Delay":0.6007414737092798,
  7. "NAS Delay":0.6007414737092798,
  8. "Weather Delay":0.024573576178086153,
  9. "Security Delay":0.02476631010889467,
  10. "No Delay":0.6007414737092798,
  11. "Late Aircraft Delay":0.6007414737092798
  12. }
  13. }
  14. }

次の例は、one_hot_encoding 前処理器オブジェクトを示しています:

Js

  1. {
  2. "one_hot_encoding":{
  3. "field":"FlightDelayType",
  4. "hot_map":{
  5. "Carrier Delay":"FlightDelayType_Carrier Delay",
  6. "NAS Delay":"FlightDelayType_NAS Delay",
  7. "No Delay":"FlightDelayType_No Delay",
  8. "Late Aircraft Delay":"FlightDelayType_Late Aircraft Delay"
  9. }
  10. }
  11. }

この例は、target_mean_encoding 前処理器オブジェクトを示しています:

Js

  1. {
  2. "target_mean_encoding":{
  3. "field":"FlightDelayType",
  4. "feature_name":"FlightDelayType_targetmean",
  5. "target_map":{
  6. "Carrier Delay":39.97465788139886,
  7. "NAS Delay":39.97465788139886,
  8. "Security Delay":203.171206225681,
  9. "Weather Delay":187.64705882352948,
  10. "No Delay":39.97465788139886,
  11. "Late Aircraft Delay":39.97465788139886
  12. },
  13. "default_value":158.17995752420433
  14. }
  15. }

モデルの例

最初の例は、trained_model オブジェクトを示しています:

Js

  1. {
  2. "tree":{
  3. "feature_names":[
  4. "DistanceKilometers",
  5. "FlightTimeMin",
  6. "FlightDelayType_NAS Delay",
  7. "Origin_targetmean",
  8. "DestRegion_targetmean",
  9. "DestCityName_targetmean",
  10. "OriginAirportID_targetmean",
  11. "OriginCityName_frequency",
  12. "DistanceMiles",
  13. "FlightDelayType_Late Aircraft Delay"
  14. ],
  15. "tree_structure":[
  16. {
  17. "decision_type":"lt",
  18. "threshold":9069.33437193022,
  19. "split_feature":0,
  20. "split_gain":4112.094574306927,
  21. "node_index":0,
  22. "default_left":true,
  23. "left_child":1,
  24. "right_child":2
  25. },
  26. ...
  27. {
  28. "node_index":9,
  29. "leaf_value":-27.68987349695448
  30. },
  31. ...
  32. ],
  33. "target_type":"regression"
  34. }
  35. }

次の例は、ensemble モデルオブジェクトを示しています:

Js

  1. "ensemble":{
  2. "feature_names":[
  3. ...
  4. ],
  5. "trained_models":[
  6. {
  7. "tree":{
  8. "feature_names":[],
  9. "tree_structure":[
  10. {
  11. "decision_type":"lte",
  12. "node_index":0,
  13. "leaf_value":47.64069875778043,
  14. "default_left":false
  15. }
  16. ],
  17. "target_type":"regression"
  18. }
  19. },
  20. ...
  21. ],
  22. "aggregate_output":{
  23. "weighted_sum":{
  24. "weights":[
  25. ...
  26. ]
  27. }
  28. },
  29. "target_type":"regression"
  30. }

集約出力の例

logistic_regression オブジェクトの例:

Js

  1. "aggregate_output" : {
  2. "logistic_regression" : {
  3. "weights" : [2.0, 1.0, .5, -1.0, 5.0, 1.0, 1.0]
  4. }
  5. }

weighted_sum オブジェクトの例:

Js

  1. "aggregate_output" : {
  2. "weighted_sum" : {
  3. "weights" : [1.0, -1.0, .5, 1.0, 5.0]
  4. }
  5. }

weighted_mode オブジェクトの例:

Js

  1. "aggregate_output" : {
  2. "weighted_mode" : {
  3. "weights" : [1.0, 1.0, 1.0, 1.0, 1.0]
  4. }
  5. }

exponent オブジェクトの例:

Js

  1. "aggregate_output" : {
  2. "exponent" : {
  3. "weights" : [1.0, 1.0, 1.0, 1.0, 1.0]
  4. }
  5. }

トレーニング済みモデルのJSONスキーマ

トレーニング済みモデルの完全なJSONスキーマについては、こちらをクリック