トレーニング済みモデルAPIの作成
トレーニング済みモデルを作成します。
バージョン7.8.0で作成されたモデルは、古いノードバージョンと互換性がありません。混合クラスター環境の場合、7.8.0ノードによって保存されたモデルを使用するには、すべてのノードが少なくとも7.8.0である必要があります。
リクエスト
PUT _ml/trained_models/<model_id>
前提条件
## 説明
トレーニング済みモデルAPIを使用すると、データフレーム分析によって作成されていないトレーニング済みモデルを提供できます。
## パスパラメータ
- `````<model_id>
- (必須、文字列)トレーニング済みモデルの一意の識別子。
クエリパラメータ
defer_definition_decompression
- (オプション、ブール値)
true
に設定され、compressed_definition
が提供されている場合、リクエストは定義の解凍を遅延させ、関連する検証をスキップします。この遅延は、モデルの良好なバイトサイズの見積もりを知っているシステムやユーザーにとって便利であり、モデルが有効であり、推論中に失敗する可能性が低いことを知っています。 wait_for_completion
- (オプション、ブール値)モデルのダウンロードなど、すべての子操作が完了するまで待機するかどうかを示します。デフォルトは
false
です。
Request body
compressed_definition
(必須、文字列) モデルの圧縮された (GZipped および Base64 エンコードされた) 推論定義。
compressed_definition
が指定されている場合、definition
は指定できません。definition
- (必須、オブジェクト) モデルの推論定義。
definition
が指定されている場合、compressed_definition
は指定できません。definition
のプロパティpreprocessors
- (オプション、オブジェクト) 前処理器のコレクション。 前処理器の例 を参照してください。
preprocessors
のプロパティfrequency_encoding
- (必須、オブジェクト) フィールドの周波数エンコーディングを定義します。
frequency_encoding
のプロパティ feature_name
- (必須、文字列) 結果の特徴の名前。
field
- (必須、文字列) エンコードするフィールド名。
frequency_map
- (必須、オブジェクトマップ string:double) フィールド値を周波数エンコード値にマッピングするオブジェクト。
custom
- (オプション、Boolean) 分析ジョブが前処理器を作成したか、ユーザーが提供したかを示すブール値。 これにより、特徴の重要度計算が調整されます。
true
の場合、特徴の重要度計算は処理された特徴の重要度を返します。false
の場合、元のフィールドの総重要度が返されます。 デフォルトはfalse
です。 one_hot_encoding
- (必須、オブジェクト) フィールドのワンホットエンコーディングマップを定義します。
one_hot_encoding
のプロパティ field
- (必須、文字列) エンコードするフィールド名。
hot_map
- (必須、オブジェクトマップの文字列) \
プロパティexponent
weights
- (必須、ダブル) 入力値(訓練されたモデルの推論値)に掛ける重み。
classification_labels
- (オプション、文字列) 分類ラベルの配列。
feature_names
- (オプション、文字列) アンサンブルによって期待される特徴、期待される順序で。
target_type
- (必須、文字列) モデルのターゲットタイプを示す文字列;
regression
またはclassification.
trained_models
- (必須、オブジェクト)
trained_model
オブジェクトの配列。サポートされている訓練済みモデルはtree
とensemble
です。
description
- (オプション、文字列) 人間が読める推論訓練モデルの説明。
estimated_heap_memory_usage_bytes
- (オプション、整数) [7.16.0] 7.16.0で非推奨。
model_size_bytes
に置き換えられました。 estimated_operations
(オプション、整数) 推論中に訓練モデルを使用するための推定操作数。このプロパティは、
defer_definition_decompression
がtrue
またはモデル定義が提供されていない場合にのみサポートされます。inference_config
(必須、オブジェクト) 推論のデフォルト設定。これは次のいずれかです:
regression
,classification
,fill_mask
,ner
,question_answering
,text_classification
,text_embedding
またはzero_shot_classification
。regression
またはclassification
の場合、基盤となるdefinition.trained_model
のtarget_type
と一致する必要があります。fill_mask
,ner
,question_answering
,text_classification
, またはtext_embedding
の場合、model_type
はpytorch
でなければなりません。
プロパティinference_config
classification
- (オプション、オブジェクト) 推論のための分類設定。
分類推論のプロパティnum_top_classes
- (オプション、整数) 戻すトップクラス予測の数を指定します。デフォルトは0です。
num_top_feature_importance_values
- (オプション、整数) ドキュメントごとの最大特徴重要度値を指定します。デフォルトは0で、特徴重要度の計算は行われません。
prediction_field_type
- (オプション、文字列) 書き込む予測フィールドのタイプを指定します。有効な値は:
string
,number
,boolean
です。boolean
が提供されると、1.0
はtrue
に変換され、0.0
はfalse
に変換されます。 results_field
- (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは
predicted_value
です。 top_classes_results_field
- (オプション、文字列) トップクラスが書き込まれるフィールドを指定します。デフォルトは
top_classes
です。
fill_mask
- (オプション、オブジェクト) fill_mask 自然言語処理 (NLP) タスクの設定。fill_mask タスクは、fill mask アクションに最適化されたモデルで動作します。たとえば、BERTモデルの場合、次のテキストが提供される場合があります:
“フランスの首都は[MASK]です。” 応答は、[MASK]
を置き換える可能性が最も高い値を示します。この場合、最も可能性の高いトークンはparis
です。
fill_mask 推論のプロパティnum_top_classes
- (オプション、整数) マスクトークンを置き換えるために戻すトップ予測トークンの数。デフォルトは
0
です。 results_field
- (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは
predicted_value
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語に対して訓練されたBERTスタイルのモデルに使用。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
ner
- (オプション、オブジェクト) 名前付きエンティティ認識 (NER) タスクを設定します。NERはトークン分類の特別なケースです。シーケンス内の各トークンは、提供された分類ラベルに従って分類されます。現在、NERタスクは
classification_labels
Inside-Outside-Beginning (IOB) 形式のラベルを必要とします。サポートされているのは、人物、組織、場所、およびその他のカテゴリのみです。
ner推論のプロパティclassification_labels
- (オプション、文字列) 分類ラベルの配列。NERはInside-Outside-Beginningラベル (IOB) のみをサポートし、人物、組織、場所、およびその他のカテゴリのみをサポートします。例: [“O”, “B-PER”, “I-PER”, “B-ORG”, “I-ORG”, “B-LOC”, “I-LOC”, “B-MISC”, “I-MISC”]
results_field
- (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは
predicted_value
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語に対して訓練されたBERTスタイルのモデルに使用。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
pass_through
- (オプション、オブジェクト)
pass_through
タスクを設定します。このタスクはデバッグに役立ち、推論出力に対して後処理が行われず、生のプーリング層の結果が呼び出し元に返されます。
pass_through推論のプロパティresults_field
- (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは
predicted_value
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語に対して訓練されたBERTスタイルのモデルに使用。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
question_answering
- (オプション、オブジェクト) 質問応答自然言語処理 (NLP) タスクを設定します。質問応答は、大規模なテキストコーパスから特定の質問に対する回答を抽出するのに役立ちます。
question_answering推論のプロパティmax_answer_length
- (オプション、整数) 回答の最大単語数。デフォルトは
15
です。 results_field
- (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは
predicted_value
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語に対して訓練されたBERTスタイルのモデルに使用。max_sentence_length
を386
に設定し、128
をspan
に設定し、truncate
をnone
に設定することをお勧めします。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
regression
- (オプション、オブジェクト) 推論のための回帰設定。
回帰推論のプロパティnum_top_feature_importance_values
- (オプション、整数) ドキュメントごとの最大特徴重要度値を指定します。デフォルトはゼロで、特徴重要度の計算は行われません。
results_field
- (オプション、文字列) 入力ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは
predicted_value
です。
text_classification
- (オプション、オブジェクト) テキスト分類タスク。テキスト分類は、提供されたテキストシーケンスを以前に知られているターゲットクラスに分類します。具体的な例としては、感情分析があり、テキストの感情を示す可能性のあるターゲットクラス(「悲しい」、「幸せ」、「怒っている」など)を返します。
テキスト分類推論のプロパティclassification_labels
- (オプション、文字列) 分類ラベルの配列。
num_top_classes
- (オプション、整数) 返すトップクラス予測の数を指定します。デフォルトはすべてのクラス(-1)です。
results_field
- (オプション、文字列) 推論予測を含むために受信ドキュメントに追加されるフィールド。デフォルトは
predicted_value
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用に訓練されたBERTスタイルのモデルに使用。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
text_embedding
- (オブジェクト、オプション) テキスト埋め込みは、入力シーケンスを受け取り、それを数値のベクトルに変換します。これらの埋め込みは、単なるトークンだけでなく、意味や文脈を捉えます。これらの埋め込みは、強力な洞察のためにdense vectorフィールドで使用できます。
テキスト埋め込み推論のプロパティembedding_size
- (オプション、整数) モデルによって生成される埋め込みベクトルの次元数。
results_field
- (オプション、文字列) 推論予測を含むために受信ドキュメントに追加されるフィールド。デフォルトは
predicted_value
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用に訓練されたBERTスタイルのモデルに使用。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
text_similarity
- (オブジェクト、オプション) テキスト類似性は、入力シーケンスを受け取り、別の入力シーケンスと比較します。これは一般的にクロスエンコーディングと呼ばれます。このタスクは、別の提供されたテキスト入力と比較する際にドキュメントテキストをランク付けするのに役立ちます。
テキスト類似性推論のプロパティspan_score_combination_function
- (オプション、文字列) 提供されたテキストパッセージが
max_sequence_length
より長く、複数の呼び出しのために自動的に分離する必要がある場合、結果の類似性スコアをどのように組み合わせるかを特定します。これは、truncate
がnone
で、span
が非負の数である場合にのみ適用されます。デフォルト値はmax
です。利用可能なオプションは: max
: すべてのスパンからの最大スコアが返されます。mean
: すべてのスパンの平均スコアが返されます。tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用に訓練されたBERTスタイルのモデルに使用。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
zero_shot_classification
- (オブジェクト、オプション) ゼロショット分類タスクを構成します。ゼロショット分類は、事前に決定されたラベルなしでテキスト分類を行うことを可能にします。推論時に、分類するためのラベルを調整することが可能です。このため、このタイプのモデルとタスクは非常に柔軟です。
同じラベルを一貫して分類する場合は、微調整されたテキスト分類モデルを使用する方が良いかもしれません。
ゼロショット分類推論のプロパティclassification_labels
- (必須、配列) ゼロショット分類中に使用される分類ラベル。分類ラベルは空またはnullであってはならず、モデル作成時にのみ設定される必要があります。すべて3つの [
“entailment”, “neutral”, “contradiction”] でなければなりません。
これは、ゼロショットが分類しようとしている値であるlabels
とは異なります。 hypothesis_template
- (オプション、文字列) 分類のためにシーケンスをトークン化する際に使用されるテンプレートです。
ラベルはテキスト内の{}
値を置き換えます。デフォルト値は:This example is {}.
です。 labels
- (オプション、配列) 分類するラベル。デフォルトラベルの作成時に設定でき、推論中に更新できます。
multi_label
- (オプション、ブール値) 入力に対して複数の
true
ラベルが可能かどうかを示します。これは、複数の入力ラベルに関連する可能性のあるテキストにラベルを付ける際に便利です。デフォルトはfalse
です。 results_field
- (オプション、文字列) 推論予測を含むために受信ドキュメントに追加されるフィールド。デフォルトは
predicted_value
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化構成は
bert
です。有効なトークン化値は bert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用に訓練されたBERTスタイルのモデルに使用。tokenizaton
のプロパティを参照して、tokenization
オブジェクトのプロパティを確認してください。
input
(必須、オブジェクト) モデル定義のための入力フィールド名。
- `````field_names
- (必須、文字列) モデルのための入力フィールド名の配列。
location
- (オプション、オブジェクト) モデル定義の場所。
definition
またはcompressed_definition
が指定されていない場合、location
が必要です。- `````index
- (必須、オブジェクト) モデル定義がインデックスに保存されていることを示します。このオブジェクトは空でなければなりません。モデル定義を保存するためのインデックスは自動的に構成されます。
metadata
- (オプション、オブジェクト) モデルに関するメタデータを含むオブジェクトマップ。
model_size_bytes
- (オプション、整数) 訓練されたモデルをメモリに保持するための推定メモリ使用量(バイト単位)。このプロパティは、
defer_definition_decompression
がtrue
であるか、モデル定義が提供されていない場合にのみサポートされます。 model_type
- (オプション、文字列) 作成されたモデルタイプ。デフォルトのモデルタイプは
tree_ensemble
です。適切なタイプは:tree_ensemble
: モデル定義は決定木のアンサンブルモデルです。lang_ident
: 言語識別モデル用に予約された特別なタイプです。pytorch
: 保存された定義はPyTorch(具体的にはTorchScript)モデルです。現在、NLPモデルのみがサポートされています。詳細については、自然言語処理を参照してください。
platform_architecture
(オプション、文字列) モデルが特定のプロセッサアーキテクチャとOSの組み合わせに対して最適化されている場合、どのプラットフォームで動作するかを指定します。文字列の形式はElasticsearchで使用されるプラットフォーム識別子と一致する必要があります。したがって、
linux-x86_64
、linux-aarch64
、darwin-x86_64
、darwin-aarch64
、またはwindows-x86_64
のいずれかです。ポータブルモデル(プロセッサアーキテクチャやOS機能に依存しないモデル)の場合は、このフィールドを設定しないでください。prefix_strings
- (オプション、オブジェクト) 特定のNLPモデルは、入力が評価される前に入力テキストに適用されるプレフィックス文字列を持つように訓練されています。プレフィックスは意図によって異なる場合があります。情報検索のような非対称タスクでは、インデックスされるパッセージに適用されるプレフィックスは、これらのパッセージを検索する際に適用されるプレフィックスとは異なる場合があります。
prefix_strings
には2つのオプションがあり、検索コンテキストで常に適用されるプレフィックス文字列と、ドキュメントを取り込む際に常に適用されるプレフィックス文字列があります。どちらもオプションです。- `````search
- (オプション、文字列) 検索クエリから発信されたリクエストの入力テキストに追加するプレフィックス文字列。
ingest
- (オプション、文字列) 推論取り込みプロセッサが使用される取り込み時のリクエストの入力テキストに追加するプレフィックス文字列。
tags
- (オプション、文字列) モデルを整理するためのタグの配列。
トークン化のプロパティ
tokenization
オブジェクトには以下のプロパティがあります。
bert
- (オプション、オブジェクト)BERTスタイルのトークン化は、含まれている設定で実行されます。
BERTのプロパティdo_lower_case
- (オプション、ブール値)トークンを構築する際に、テキストシーケンスを小文字にするかどうかを指定します。
max_sequence_length
- (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
span
- (オプション、整数)
truncate
がnone
の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
デフォルト値は-1
で、ウィンドウ化やスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。 truncate
- (オプション、文字列)
max_sequence_length
を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値はfirst
です。none
: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
with_special_tokens
- (オプション、ブール値)特殊トークンでトークン化します。BERTスタイルのトークン化に通常含まれるトークンは:
[CLS]
: 分類されるシーケンスの最初のトークン。[SEP]
: シーケンスの分離を示します。
roberta
- (オプション、オブジェクト)RoBERTaスタイルのトークン化は、含まれている設定で実行されます。
RoBERTaのプロパティadd_prefix_space
- (オプション、ブール値)トークン化がモデルへのトークン化された入力にスペースをプレフィックスするかどうかを指定します。
max_sequence_length
- (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
span
- (オプション、整数)
truncate
がnone
の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
デフォルト値は-1
で、ウィンドウ化やスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。 truncate
- (オプション、文字列)
max_sequence_length
を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値はfirst
です。none
: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
with_special_tokens
- (オプション、ブール値)特殊トークンでトークン化します。RoBERTaスタイルのトークン化に通常含まれるトークンは:
<s>
: 分類されるシーケンスの最初のトークン。</s>
: シーケンスの分離を示します。
mpnet
- (オプション、オブジェクト)MPNetスタイルのトークン化は、含まれている設定で実行されます。
MPNetのプロパティdo_lower_case
- (オプション、ブール値)トークンを構築する際に、テキストシーケンスを小文字にするかどうかを指定します。
max_sequence_length
- (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
span
- (オプション、整数)
truncate
がnone
の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
デフォルト値は-1
で、ウィンドウ化やスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。 truncate
- (オプション、文字列)
max_sequence_length
を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値はfirst
です。none
: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
with_special_tokens
- (オプション、ブール値)特殊トークンでトークン化します。MPNetスタイルのトークン化に通常含まれるトークンは:
<s>
: 分類されるシーケンスの最初のトークン。</s>
: シーケンスの分離を示します。
xlm_roberta
- (オプション、オブジェクト) [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 XLMRoBERTaスタイルのトークン化は、含まれている設定で実行されます。
XLM-RoBERTaのプロパティmax_sequence_length
- (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
span
- (オプション、整数)
truncate
がnone
の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
デフォルト値は-1
で、ウィンドウ化やスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。 truncate
- (オプション、文字列)
max_sequence_length
を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値はfirst
です。none
: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
with_special_tokens
- (オプション、ブール値)特殊トークンでトークン化します。RoBERTaスタイルのトークン化に通常含まれるトークンは:
<s>
: 分類されるシーケンスの最初のトークン。</s>
: シーケンスの分離を示します。
bert_ja
- (オプション、オブジェクト) [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために作業しますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。 日本語テキストのためのBERTスタイルのトークン化は、含まれている設定で実行されます。
BERTのプロパティ(日本語)do_lower_case
- (オプション、ブール値)トークンを構築する際に、テキストシーケンスを小文字にするかどうかを指定します。
max_sequence_length
- (オプション、整数)トークナイザーによって出力されるトークンの最大数を指定します。
span
- (オプション、整数)
truncate
がnone
の場合、推論のために長いテキストシーケンスを分割できます。この値は、各サブシーケンス間で重複するトークンの数を示します。
デフォルト値は-1
で、ウィンドウ化やスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しかありません。 truncate
- (オプション、文字列)
max_sequence_length
を超えた場合にトークンがどのように切り捨てられるかを示します。デフォルト値はfirst
です。none
: 切り捨ては発生しません; 推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
with_special_tokens
- (オプション、ブール値)
true
の場合、特殊トークンでトークン化します。
例
前処理器の例
以下の例は、frequency_encoding
前処理器オブジェクトを示しています:
Js
{
"frequency_encoding":{
"field":"FlightDelayType",
"feature_name":"FlightDelayType_frequency",
"frequency_map":{
"Carrier Delay":0.6007414737092798,
"NAS Delay":0.6007414737092798,
"Weather Delay":0.024573576178086153,
"Security Delay":0.02476631010889467,
"No Delay":0.6007414737092798,
"Late Aircraft Delay":0.6007414737092798
}
}
}
次の例は、one_hot_encoding
前処理器オブジェクトを示しています:
Js
{
"one_hot_encoding":{
"field":"FlightDelayType",
"hot_map":{
"Carrier Delay":"FlightDelayType_Carrier Delay",
"NAS Delay":"FlightDelayType_NAS Delay",
"No Delay":"FlightDelayType_No Delay",
"Late Aircraft Delay":"FlightDelayType_Late Aircraft Delay"
}
}
}
この例は、target_mean_encoding
前処理器オブジェクトを示しています:
Js
{
"target_mean_encoding":{
"field":"FlightDelayType",
"feature_name":"FlightDelayType_targetmean",
"target_map":{
"Carrier Delay":39.97465788139886,
"NAS Delay":39.97465788139886,
"Security Delay":203.171206225681,
"Weather Delay":187.64705882352948,
"No Delay":39.97465788139886,
"Late Aircraft Delay":39.97465788139886
},
"default_value":158.17995752420433
}
}
モデルの例
最初の例は、trained_model
オブジェクトを示しています:
Js
{
"tree":{
"feature_names":[
"DistanceKilometers",
"FlightTimeMin",
"FlightDelayType_NAS Delay",
"Origin_targetmean",
"DestRegion_targetmean",
"DestCityName_targetmean",
"OriginAirportID_targetmean",
"OriginCityName_frequency",
"DistanceMiles",
"FlightDelayType_Late Aircraft Delay"
],
"tree_structure":[
{
"decision_type":"lt",
"threshold":9069.33437193022,
"split_feature":0,
"split_gain":4112.094574306927,
"node_index":0,
"default_left":true,
"left_child":1,
"right_child":2
},
...
{
"node_index":9,
"leaf_value":-27.68987349695448
},
...
],
"target_type":"regression"
}
}
次の例は、ensemble
モデルオブジェクトを示しています:
Js
"ensemble":{
"feature_names":[
...
],
"trained_models":[
{
"tree":{
"feature_names":[],
"tree_structure":[
{
"decision_type":"lte",
"node_index":0,
"leaf_value":47.64069875778043,
"default_left":false
}
],
"target_type":"regression"
}
},
...
],
"aggregate_output":{
"weighted_sum":{
"weights":[
...
]
}
},
"target_type":"regression"
}
集約出力の例
logistic_regression
オブジェクトの例:
Js
"aggregate_output" : {
"logistic_regression" : {
"weights" : [2.0, 1.0, .5, -1.0, 5.0, 1.0, 1.0]
}
}
weighted_sum
オブジェクトの例:
Js
"aggregate_output" : {
"weighted_sum" : {
"weights" : [1.0, -1.0, .5, 1.0, 5.0]
}
}
weighted_mode
オブジェクトの例:
Js
"aggregate_output" : {
"weighted_mode" : {
"weights" : [1.0, 1.0, 1.0, 1.0, 1.0]
}
}
exponent
オブジェクトの例:
Js
"aggregate_output" : {
"exponent" : {
"weights" : [1.0, 1.0, 1.0, 1.0, 1.0]
}
}
トレーニング済みモデルのJSONスキーマ
トレーニング済みモデルの完全なJSONスキーマについては、こちらをクリック。