推論API - Azure AIスタジオ推論サービス（Azure AI studio inference service）

Azure AI スタジオ推論サービス
リクエスト
パスパラメータ
リクエストボディ
- テキスト
Azure AI スタジオサービスの例

Azure AI スタジオ推論サービス

推論タスクを実行するための推論エンドポイントを azureaistudio サービスで作成します。

リクエスト

PUT /_inference/<task_type>/<inference_id>

パスパラメータ

<inference_id>
(必須、文字列) 推論エンドポイントの一意の識別子。
<task_type>
(必須、文字列) モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:
- completion,
- text_embedding.

リクエストボディ

service
(必須、文字列) 指定されたタスクタイプに対してサポートされるサービスのタイプ。この場合、azureaistudio。
service_settings
(必須、オブジェクト) 推論モデルをインストールするために使用される設定。
これらの設定は azureaistudio サービスに特有です。
- api_key
- (必須、文字列) Azure AI スタジオモデルデプロイメントの有効な API キー。このキーは、Azure AI スタジオアカウントの管理セクションのデプロイメントの概要ページで見つけることができます。
  API キーは、推論モデルの作成時に一度だけ提供する必要があります。推論 API を取得するは API キーを取得しません。推論モデルを作成した後は、関連付けられた API キーを変更することはできません。異なる API キーを使用したい場合は、推論モデルを削除し、同じ名前と更新された API キーで再作成してください。
- target
- (必須、文字列) Azure AI スタジオモデルデプロイメントのターゲット URL。この URL は、Azure AI スタジオアカウントの管理セクションのデプロイメントの概要ページで見つけることができます。
- provider
- (必須、文字列) デプロイメントのモデルプロバイダー。いくつかのプロバイダーは特定のタスクタイプのみをサポートしている場合があります。サポートされているプロバイダーには次のものが含まれます:
  - cohere - text_embedding および completion タスクタイプに利用可能
  - databricks - completion タスクタイプのみに利用可能
  - meta - completion タスクタイプのみに利用可能
  - microsoft_phi - completion タスクタイプのみに利用可能
  - mistral - completion タスクタイプのみに利用可能
  - openai - text_embedding および completion タスクタイプに利用可能
- endpoint_type
- (必須、文字列) token または realtime のいずれか。モデルデプロイメントで使用されるエンドポイントのタイプを指定します。Azure AI スタジオを通じてデプロイメントのために利用可能な2つのエンドポイントタイプがあります。”従量課金制”エンドポイントはトークンごとに請求されます。これらの場合、token を endpoint_type に指定する必要があります。”リアルタイム”エンドポイントは使用時間ごとに請求されるため、realtime を指定します。
- rate_limit
- (オプション、オブジェクト) デフォルトでは、azureaistudio サービスは、1分あたりのリクエスト数を 240 に設定します。これにより、Azure AI スタジオから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトの requests_per_minute 設定を設定します:

テキスト

"rate_limit": {
   "requests_per_minute": <<number_of_requests>>
}

task_settings
(オプション、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した <task_type> に特有です。
task_settings は completion タスクタイプのためのものです
- do_sample
- (オプション、浮動小数点) 推論プロセスにサンプリングを実行するかどうかを指示します。temperature または top_p が指定されない限り、効果はありません。
- max_new_tokens
- (オプション、整数) 生成される最大出力トークン数のヒントを提供します。デフォルトは 64 です。
- temperature
- (オプション、浮動小数点) 生成された完了の明らかな創造性を制御するサンプリング温度を指定する 0.0 から 2.0 の範囲の数値。top_p が指定されている場合は使用しないでください。
- top_p
- (オプション、浮動小数点) 核サンプリング確率を持つトークンの結果を考慮するモデルの代替値である 0.0 から 2.0 の範囲の数値。temperature が指定されている場合は使用しないでください。
  task_settings は text_embedding タスクタイプのためのものです
- user
- (オプション、文字列) リクエストを発行するユーザーを指定します。これは悪用検出に使用できます。

Azure AI スタジオサービスの例

以下の例は、azure_ai_studio_embeddings という名前の推論エンドポイントを作成して text_embedding タスクタイプを実行する方法を示しています。ここではモデルを指定していないことに注意してください。これはすでに Azure AI スタジオデプロイメントを介して定義されています。

デプロイメントで選択できる埋め込みモデルのリストは、Azure AI スタジオモデルエクスプローラーで見つけることができます。

Python

resp = client.inference.put(
   task_type="text_embedding",
   inference_id="azure_ai_studio_embeddings",
   inference_config={
   "service": "azureaistudio",
   "service_settings": {
   "api_key": "<api_key>",
   "target": "<target_uri>",
   "provider": "<model_provider>",
   "endpoint_type": "<endpoint_type>"
   }
   },
)
print(resp)

Js

const response = await client.inference.put({
  task_type: "text_embedding",
  inference_id: "azure_ai_studio_embeddings",
  inference_config: {
   service: "azureaistudio",
   service_settings: {
   api_key: "<api_key>",
   target: "<target_uri>",
   provider: "<model_provider>",
   endpoint_type: "<endpoint_type>",
   },
  },
});
console.log(response);

コンソール

PUT _inference/text_embedding/azure_ai_studio_embeddings
{
   "service": "azureaistudio",
   "service_settings": {
   "api_key": "<api_key>",
   "target": "<target_uri>",
   "provider": "<model_provider>",
   "endpoint_type": "<endpoint_type>"
   }
}

次の例は、azure_ai_studio_completion という名前の推論エンドポイントを作成して completion タスクタイプを実行する方法を示しています。

Python

resp = client.inference.put(
   task_type="completion",
   inference_id="azure_ai_studio_completion",
   inference_config={
   "service": "azureaistudio",
   "service_settings": {
   "api_key": "<api_key>",
   "target": "<target_uri>",
   "provider": "<model_provider>",
   "endpoint_type": "<endpoint_type>"
   }
   },
)
print(resp)

Js

const response = await client.inference.put({
  task_type: "completion",
  inference_id: "azure_ai_studio_completion",
  inference_config: {
   service: "azureaistudio",
   service_settings: {
   api_key: "<api_key>",
   target: "<target_uri>",
   provider: "<model_provider>",
   endpoint_type: "<endpoint_type>",
   },
  },
});
console.log(response);

コンソール

PUT _inference/completion/azure_ai_studio_completion
{
   "service": "azureaistudio",
   "service_settings": {
   "api_key": "<api_key>",
   "target": "<target_uri>",
   "provider": "<model_provider>",
   "endpoint_type": "<endpoint_type>"
   }
}

デプロイメントで選択できるチャット完了モデルのリストは、Azure AI スタジオモデルエクスプローラーで見つけることができます。