推論プロセッサ
パイプラインに取り込まれるデータに対して、事前にトレーニングされたデータフレーム分析モデルまたは自然言語処理タスク用にデプロイされたモデルを使用して推論を行います。
名前 | 必須 | デフォルト | 説明 |
---|---|---|---|
model_id . |
はい | - | (文字列) トレーニングされたモデルのIDまたはエイリアス、またはデプロイメントのID。 |
input_output |
いいえ | - | (リスト) 推論のための入力フィールドと推論結果の出力(宛先)フィールド。このオプションは、target_field およびfield_map オプションと互換性がありません。 |
target_field |
いいえ | ml.inference.<processor_tag> |
(文字列) 結果オブジェクトを含むために受信ドキュメントに追加されるフィールド。 |
field_map |
いいえ | モデルのデフォルトフィールドマップが定義されている場合 | (オブジェクト) ドキュメントフィールド名をモデルの既知のフィールド名にマッピングします。このマッピングは、モデル構成で提供されるデフォルトのマッピングよりも優先されます。 |
inference_config |
いいえ | モデルで定義されたデフォルト設定 | (オブジェクト) 推論タイプとそのオプションを含みます。 |
ignore_missing |
いいえ | false |
(ブール値) true およびinput_ouput で定義された入力フィールドが欠落している場合、欠落したフィールドは静かに無視されます。そうでない場合、欠落したフィールドは失敗を引き起こします。input_output 構成を使用して入力フィールドを明示的にリストする場合にのみ適用されます。 |
description |
いいえ | - | プロセッサの説明。プロセッサの目的や構成を説明するのに役立ちます。 |
if |
いいえ | - | 条件付きでプロセッサを実行します。プロセッサを条件付きで実行するを参照してください。 |
ignore_failure |
いいえ | false |
プロセッサの失敗を無視します。パイプラインの失敗を処理するを参照してください。 |
on_failure |
いいえ | - | プロセッサの失敗を処理します。パイプラインの失敗を処理するを参照してください。 |
tag |
いいえ | - | プロセッサの識別子。デバッグやメトリクスに役立ちます。 |
input_output
フィールドは、target_field
およびfield_map
フィールドと一緒に使用できません。NLPモデルの場合は、input_output
オプションを使用します。データフレーム分析モデルの場合は、target_field
およびfield_map
オプションを使用します。- 各推論入力フィールドは、単一の文字列でなければならず、文字列の配列ではありません。
input_field
はそのまま処理され、推論実行時にインデックスマッピング\u0026#39;のアナライザーを無視します。
入力および出力フィールドの設定
指定された`````output_field`````がすでに取り込まれたドキュメントに存在する場合、上書きされません。推論結果は`````output_field`````内の既存のフィールドに追加され、重複フィールドや潜在的なエラーを引き起こす可能性があります。これを避けるために、既存のフィールドと衝突しない一意の`````output_field`````フィールド名を使用してください。
#### Js
``````js
{
"inference": {
"model_id": "model_deployment_for_inference",
"input_output": [
{
"input_field": "content",
"output_field": "content_embedding"
}
]
}
}
`
複数入力の設定
#### Js
``````js
{
"inference": {
"model_id": "model_deployment_for_inference",
"input_output": [
{
"input_field": "content",
"output_field": "content_embedding"
},
{
"input_field": "title",
"output_field": "title_embedding"
}
]
}
}
`
データフレーム分析モデルは、`````target_field`````を使用して結果が書き込まれるルート位置を指定し、オプションで`````field_map`````を使用して入力ドキュメントのフィールド名をモデルの入力フィールドにマッピングする必要があります。
#### Js
``````js
{
"inference": {
"model_id": "model_deployment_for_inference",
"target_field": "FlightDelayMin_prediction_infer",
"field_map": {
"your_field": "my_field"
},
"inference_config": { "regression": {} }
}
}
`
分類設定オプション
推論のための分類設定。
num_top_classes
- (オプション、整数) 戻すトップクラス予測の数を指定します。デフォルトは0です。
num_top_feature_importance_values
- (オプション、整数) ドキュメントごとの特徴重要度値の最大数を指定します。デフォルトは0で、特徴重要度の計算は行われません。
results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 top_classes_results_field
- (オプション、文字列) トップクラスが書き込まれるフィールドを指定します。デフォルトは
top_classes
です。 prediction_field_type
- (オプション、文字列) 書き込む予測フィールドのタイプを指定します。有効な値は、
string
、number
、boolean
です。boolean
が提供されると、1.0
はtrue
に変換され、0.0
はfalse
に変換されます。
マスク設定オプション
num_top_classes
- (オプション、整数) 戻すトップクラス予測の数を指定します。デフォルトは0です。
results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値はbert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用にトレーニングされたBERTスタイルのモデルに使用。
トークン化のプロパティ bert
- (オプション、オブジェクト) BERTスタイルのトークン化を、含まれる設定で実行します。
BERTのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
roberta
- (オプション、オブジェクト) RoBERTaスタイルのトークン化を、含まれる設定で実行します。
RoBERTaのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
mpnet
- (オプション、オブジェクト) MPNetスタイルのトークン化を、含まれる設定で実行します。
MPNetのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
NER設定オプション
results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値はbert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用にトレーニングされたBERTスタイルのモデルに使用。
トークン化のプロパティ bert
- (オプション、オブジェクト) BERTスタイルのトークン化を、含まれる設定で実行します。
BERTのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
roberta
- (オプション、オブジェクト) RoBERTaスタイルのトークン化を、含まれる設定で実行します。
RoBERTaのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
mpnet
- (オプション、オブジェクト) MPNetスタイルのトークン化を、含まれる設定で実行します。
MPNetのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
回帰設定オプション
推論のための回帰設定。
results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 num_top_feature_importance_values
- (オプション、整数) ドキュメントごとの特徴重要度値の最大数を指定します。デフォルトは0で、特徴重要度の計算は行われません。
テキスト分類設定オプション
classification_labels
- (オプション、文字列) 分類ラベルの配列。
num_top_classes
- (オプション、整数) 戻すトップクラス予測の数を指定します。デフォルトは0です。
results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値はbert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用にトレーニングされたBERTスタイルのモデルに使用。
トークン化のプロパティ bert
- (オプション、オブジェクト) BERTスタイルのトークン化を、含まれる設定で実行します。
BERTのプロパティspan
- (オプション、整数)
truncate
がnone
の場合、長いテキストシーケンスを推論のために分割できます。値は各サブシーケンス間のトークンの重なりを示します。
デフォルト値は-1
で、ウィンドウやスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しか含まれません。 truncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
roberta
- (オプション、オブジェクト) RoBERTaスタイルのトークン化を、含まれる設定で実行します。
RoBERTaのプロパティspan
- (オプション、整数)
truncate
がnone
の場合、長いテキストシーケンスを推論のために分割できます。値は各サブシーケンス間のトークンの重なりを示します。
デフォルト値は-1
で、ウィンドウやスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しか含まれません。 truncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
mpnet
- (オプション、オブジェクト) MPNetスタイルのトークン化を、含まれる設定で実行します。
MPNetのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
テキスト埋め込み設定オプション
results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値はbert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用にトレーニングされたBERTスタイルのモデルに使用。
トークン化のプロパティ bert
- (オプション、オブジェクト) BERTスタイルのトークン化を、含まれる設定で実行します。
BERTのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
roberta
- (オプション、オブジェクト) RoBERTaスタイルのトークン化を、含まれる設定で実行します。
RoBERTaのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
mpnet
- (オプション、オブジェクト) MPNetスタイルのトークン化を、含まれる設定で実行します。
MPNetのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
テキスト拡張設定オプション
results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値はbert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用にトレーニングされたBERTスタイルのモデルに使用。
トークン化のプロパティ bert
- (オプション、オブジェクト) BERTスタイルのトークン化を、含まれる設定で実行します。
BERTのプロパティspan
- (オプション、整数)
truncate
がnone
の場合、長いテキストシーケンスを推論のために分割できます。値は各サブシーケンス間のトークンの重なりを示します。
デフォルト値は-1
で、ウィンドウやスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しか含まれません。 truncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
roberta
- (オプション、オブジェクト) RoBERTaスタイルのトークン化を、含まれる設定で実行します。
RoBERTaのプロパティspan
- (オプション、整数)
truncate
がnone
の場合、長いテキストシーケンスを推論のために分割できます。値は各サブシーケンス間のトークンの重なりを示します。
デフォルト値は-1
で、ウィンドウやスパンは発生しません。
通常の入力がmax_sequence_length
よりわずかに大きい場合は、単に切り捨てるのが最良かもしれません。2番目のサブシーケンスには非常に少ない情報しか含まれません。 truncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
mpnet
- (オプション、オブジェクト) MPNetスタイルのトークン化を、含まれる設定で実行します。
MPNetのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
ゼロショット分類の設定オプション
labels
- (オプション、配列) 分類するラベル。デフォルトのラベルを作成時に設定し、推論中に更新できます。
multi_label
- (オプション、ブール値) 入力に対して複数の
true
ラベルが可能かどうかを示します。これは、複数の入力ラベルに関連する可能性のあるテキストにラベルを付ける際に便利です。デフォルトはfalse
です。 results_field
- (オプション、文字列) 受信ドキュメントに追加されるフィールドで、推論予測を含みます。デフォルトは、モデルのトレーニングに使用されたデータフレーム分析ジョブの
results_field
値で、デフォルトは<dependent_variable>_prediction
です。 tokenization
- (オプション、オブジェクト) 実行するトークン化と希望する設定を示します。デフォルトのトークン化設定は
bert
です。有効なトークン化値はbert
: BERTスタイルのモデルに使用mpnet
: MPNetスタイルのモデルに使用roberta
: RoBERTaスタイルおよびBARTスタイルのモデルに使用- [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
xlm_roberta
: XLMRoBERTaスタイルのモデルに使用 - [プレビュー] この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
bert_ja
: 日本語用にトレーニングされたBERTスタイルのモデルに使用。
トークン化のプロパティ bert
- (オプション、オブジェクト) BERTスタイルのトークン化を、含まれる設定で実行します。
BERTのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
roberta
- (オプション、オブジェクト) RoBERTaスタイルのトークン化を、含まれる設定で実行します。
RoBERTaのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
mpnet
- (オプション、オブジェクト) MPNetスタイルのトークン化を、含まれる設定で実行します。
MPNetのプロパティtruncate
- (オプション、文字列) トークンが
max_sequence_length
を超えた場合の切り捨て方法を示します。デフォルト値はfirst
です。 none
: 切り捨ては行われず、推論リクエストはエラーを受け取ります。first
: 最初のシーケンスのみが切り捨てられます。second
: 2番目のシーケンスのみが切り捨てられます。シーケンスが1つだけの場合、そのシーケンスが切り捨てられます。zero_shot_classification
の場合、仮説シーケンスは常に2番目のシーケンスです。したがって、この場合second
を使用しないでください。
推論プロセッサの例
Js
"inference":{
"model_id": "my_model_id",
"field_map": {
"original_fieldname": "expected_fieldname"
},
"inference_config": {
"regression": {
"results_field": "my_regression"
}
}
}
この設定は regression
推論を指定し、結果は target_field
結果オブジェクト内の my_regression
フィールドに書き込まれます。field_map
設定は、ソースドキュメントの original_fieldname
フィールドをモデルが期待するフィールドにマッピングします。
Js
"inference":{
"model_id":"my_model_id"
"inference_config": {
"classification": {
"num_top_classes": 2,
"results_field": "prediction",
"top_classes_results_field": "probabilities"
}
}
}
この設定は classification
推論を指定します。予測確率が報告されるカテゴリの数は 2 (num_top_classes
) です。結果は prediction
フィールドに書き込まれ、上位クラスは probabilities
フィールドに書き込まれます。両方のフィールドは target_field
結果オブジェクトに含まれています。
自然言語処理トレーニングモデルを使用した例については、NLP推論をインジェストパイプラインに追加するを参照してください。
特徴重要度オブジェクトマッピング
特徴重要度を集約して検索する完全な利点を得るために、以下のように特徴重要度結果フィールドのインデックスマッピングを更新してください:
Js
"ml.inference.feature_importance": {
"type": "nested",
"dynamic": true,
"properties": {
"feature_name": {
"type": "keyword"
},
"importance": {
"type": "double"
}
}
}
特徴重要度のマッピングフィールド名(上記の例では ml.inference.feature_importance
)は次のように構成されます:
- `````<ml.inference.target_field>`````: デフォルトは `````ml.inference````` です。
- `````<inference.tag>`````: プロセッサ定義に提供されていない場合、それはフィールドパスの一部ではありません。
たとえば、以下のように定義にタグ `````foo````` を提供する場合:
#### Js
``````js
{
"tag": "foo",
...
}
`
この場合、特徴重要度の値は ml.inference.foo.feature_importance
フィールドに書き込まれます。
ターゲットフィールドを次のように指定することもできます:
Js
{
"tag": "foo",
"target_field": "my_field"
}
この場合、特徴重要度は my_field.foo.feature_importance
フィールドに公開されます。