トレーニング済みモデルの語彙APIの作成

トレーニング済みモデルの語彙を作成します。これは自然言語処理(NLP)モデルにのみ対応しています。

リクエスト

PUT _ml/trained_models/<model_id>/vocabulary/

前提条件

manage_ml クラスター権限が必要です。この権限は machine_learning_admin ビルトインロールに含まれています。

説明

語彙は、トレーニング済みモデル定義の inference_config.*.vocabulary に記載されているようにインデックスに保存されます。

パスパラメータ

  • <model_id>
  • (必須、文字列)トレーニング済みモデルの一意の識別子。

リクエストボディ

  • vocabulary
  • (配列)モデルの語彙。空であってはいけません。
  • merges
  • (オプション、配列)バイトペアエンコーディングで使用されるモデルのマージ。マージはサブトークンペアであり、スペースで区切られ、優先順位の順に並んでいる必要があります。例: [“f o”, “fo o”]. RoBERTaおよびBARTスタイルのモデルには提供する必要があります。
  • scores
  • (オプション、配列)センテンスピーストークン化で使用される語彙値スコア。vocabulary と同じ長さである必要があります。XLMRobertaやT5のようなユニグラムセンテンスピーストークン化モデルには必須です。

以下の例は、以前に保存されたトレーニング済みモデル構成のためのモデル語彙を作成する方法を示しています。

コンソール

  1. PUT _ml/trained_models/elastic__distilbert-base-uncased-finetuned-conll03-english/vocabulary
  2. {
  3. "vocabulary": [
  4. "[PAD]",
  5. "[unused0]",
  6. ...
  7. ]
  8. }

APIは以下の結果を返します:

コンソール-結果

  1. {
  2. "acknowledged": true
  3. }