Azure AI スタジオ推論サービス
推論タスクを実行するための推論エンドポイントを azureaistudio
サービスで作成します。
リクエスト
PUT /_inference/<task_type>/<inference_id>
パスパラメータ
<inference_id>
- (必須、文字列) 推論エンドポイントの一意の識別子。
<task_type>
- (必須、文字列) モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:completion
,text_embedding
.
リクエストボディ
service
- (必須、文字列) 指定されたタスクタイプに対してサポートされるサービスのタイプ。この場合、
azureaistudio
。 service_settings
- (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
これらの設定はazureaistudio
サービスに特有です。api_key
- (必須、文字列) Azure AI スタジオモデルデプロイメントの有効な API キー。このキーは、Azure AI スタジオ アカウントの管理セクションのデプロイメントの概要ページで見つけることができます。
API キーは、推論モデルの作成時に一度だけ提供する必要があります。推論 API を取得する は API キーを取得しません。推論モデルを作成した後は、関連付けられた API キーを変更することはできません。異なる API キーを使用したい場合は、推論モデルを削除し、同じ名前と更新された API キーで再作成してください。 target
- (必須、文字列) Azure AI スタジオモデルデプロイメントのターゲット URL。この URL は、Azure AI スタジオ アカウントの管理セクションのデプロイメントの概要ページで見つけることができます。
provider
- (必須、文字列) デプロイメントのモデルプロバイダー。いくつかのプロバイダーは特定のタスクタイプのみをサポートしている場合があります。サポートされているプロバイダーには次のものが含まれます:
cohere
-text_embedding
およびcompletion
タスクタイプに利用可能databricks
-completion
タスクタイプのみに利用可能meta
-completion
タスクタイプのみに利用可能microsoft_phi
-completion
タスクタイプのみに利用可能mistral
-completion
タスクタイプのみに利用可能openai
-text_embedding
およびcompletion
タスクタイプに利用可能
endpoint_type
- (必須、文字列)
token
またはrealtime
のいずれか。モデルデプロイメントで使用されるエンドポイントのタイプを指定します。Azure AI スタジオを通じてデプロイメントのために利用可能な2つのエンドポイントタイプがあります。”従量課金制”エンドポイントはトークンごとに請求されます。これらの場合、token
をendpoint_type
に指定する必要があります。”リアルタイム”エンドポイントは使用時間ごとに請求されるため、realtime
を指定します。 rate_limit
- (オプション、オブジェクト) デフォルトでは、
azureaistudio
サービスは、1分あたりのリクエスト数を240
に設定します。これにより、Azure AI スタジオから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute
設定を設定します:
テキスト
"rate_limit": {
"requests_per_minute": <<number_of_requests>>
}
task_settings
- (オプション、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した
<task_type>
に特有です。task_settings
はcompletion
タスクタイプのためのものですdo_sample
- (オプション、浮動小数点) 推論プロセスにサンプリングを実行するかどうかを指示します。
temperature
またはtop_p
が指定されない限り、効果はありません。 max_new_tokens
- (オプション、整数) 生成される最大出力トークン数のヒントを提供します。デフォルトは 64 です。
temperature
- (オプション、浮動小数点) 生成された完了の明らかな創造性を制御するサンプリング温度を指定する 0.0 から 2.0 の範囲の数値。
top_p
が指定されている場合は使用しないでください。 top_p
- (オプション、浮動小数点) 核サンプリング確率を持つトークンの結果を考慮するモデルの代替値である 0.0 から 2.0 の範囲の数値。
temperature
が指定されている場合は使用しないでください。task_settings
はtext_embedding
タスクタイプのためのものです user
- (オプション、文字列) リクエストを発行するユーザーを指定します。これは悪用検出に使用できます。
Azure AI スタジオサービスの例
以下の例は、azure_ai_studio_embeddings
という名前の推論エンドポイントを作成して text_embedding
タスクタイプを実行する方法を示しています。ここではモデルを指定していないことに注意してください。これはすでに Azure AI スタジオデプロイメントを介して定義されています。
デプロイメントで選択できる埋め込みモデルのリストは、Azure AI スタジオモデルエクスプローラー で見つけることができます。
Python
resp = client.inference.put(
task_type="text_embedding",
inference_id="azure_ai_studio_embeddings",
inference_config={
"service": "azureaistudio",
"service_settings": {
"api_key": "<api_key>",
"target": "<target_uri>",
"provider": "<model_provider>",
"endpoint_type": "<endpoint_type>"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "text_embedding",
inference_id: "azure_ai_studio_embeddings",
inference_config: {
service: "azureaistudio",
service_settings: {
api_key: "<api_key>",
target: "<target_uri>",
provider: "<model_provider>",
endpoint_type: "<endpoint_type>",
},
},
});
console.log(response);
コンソール
PUT _inference/text_embedding/azure_ai_studio_embeddings
{
"service": "azureaistudio",
"service_settings": {
"api_key": "<api_key>",
"target": "<target_uri>",
"provider": "<model_provider>",
"endpoint_type": "<endpoint_type>"
}
}
次の例は、azure_ai_studio_completion
という名前の推論エンドポイントを作成して completion
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="completion",
inference_id="azure_ai_studio_completion",
inference_config={
"service": "azureaistudio",
"service_settings": {
"api_key": "<api_key>",
"target": "<target_uri>",
"provider": "<model_provider>",
"endpoint_type": "<endpoint_type>"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "completion",
inference_id: "azure_ai_studio_completion",
inference_config: {
service: "azureaistudio",
service_settings: {
api_key: "<api_key>",
target: "<target_uri>",
provider: "<model_provider>",
endpoint_type: "<endpoint_type>",
},
},
});
console.log(response);
コンソール
PUT _inference/completion/azure_ai_studio_completion
{
"service": "azureaistudio",
"service_settings": {
"api_key": "<api_key>",
"target": "<target_uri>",
"provider": "<model_provider>",
"endpoint_type": "<endpoint_type>"
}
}
デプロイメントで選択できるチャット完了モデルのリストは、Azure AI スタジオモデルエクスプローラー で見つけることができます。