Azure OpenAI推論サービス
## リクエスト
`````PUT /_inference/<task_type>/<inference_id>
パスパラメータ
<inference_id>
- (必須、文字列) 推論エンドポイントの一意の識別子。
<task_type>
- (必須、文字列) モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:completion
,text_embedding
.
リクエストボディ
service
- (必須、文字列) 指定されたタスクタイプに対してサポートされているサービスのタイプ。この場合、
azureopenai
。 service_settings
- (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
これらの設定はazureopenai
サービスに特有です。api_key
またはentra_id
- (必須、文字列) APIキーまたはEntra IDのいずれかを提供する必要があります。どちらも提供しない場合、または両方を提供した場合、モデルを作成しようとするとエラーが発生します。これらの認証タイプの詳細については、Azure OpenAI認証ドキュメントを参照してください。
APIキーは推論モデルの作成時に一度だけ提供する必要があります。推論APIを取得するはAPIキーを取得しません。推論モデルを作成した後は、関連付けられたAPIキーを変更することはできません。異なるAPIキーを使用したい場合は、推論モデルを削除し、同じ名前と更新されたAPIキーで再作成してください。 resource_name
- (必須、文字列) あなたのAzure OpenAIリソースの名前。これは、サブスクリプションのAzureポータルのリソースのリストから見つけることができます。
deployment_id
- (必須、文字列) デプロイされたモデルのデプロイ名。あなたのAzure OpenAIデプロイメントは、サブスクリプションにリンクされたAzure OpenAI Studioポータルを通じて見つけることができます。
api_version
- (必須、文字列) 使用するAzure APIバージョンID。私たちは最新のサポートされている非プレビュー版の使用を推奨します。
rate_limit
- (オプション、オブジェクト)
azureopenai
サービスは、タスクタイプに応じて許可されるデフォルトのリクエスト数を設定します。text_embedding
の場合は1440
に設定されています。completion
の場合は120
に設定されています。これは、Azureから返されるレート制限エラーの数を最小限に抑えるのに役立ちます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute
設定を設定します:
テキスト
"rate_limit": {
"requests_per_minute": <<number_of_requests>>
}
Azureのレート制限に関する詳細情報は、クォータ制限ドキュメントおよびクォータの変更方法で確認できます。
task_settings
- (オプション、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した
<task_type>
に特有です。- `````user
- (オプション、文字列) リクエストを発行するユーザーを指定します。これは、悪用検出に使用できます。
task_settings
はtext_embedding
タスクタイプのため user
- (オプション、文字列) リクエストを発行するユーザーを指定します。これは、悪用検出に使用できます。
Azure OpenAIサービスの例
以下の例は、azure_openai_embeddings
という名前の推論エンドポイントを作成してtext_embedding
タスクタイプを実行する方法を示しています。ここではモデルを指定していないことに注意してください。これは、すでにAzure OpenAIデプロイメントを介して定義されています。
デプロイメントで選択できる埋め込みモデルのリストは、Azureモデルドキュメントで確認できます。
Python
resp = client.inference.put(
task_type="text_embedding",
inference_id="azure_openai_embeddings",
inference_config={
"service": "azureopenai",
"service_settings": {
"api_key": "<api_key>",
"resource_name": "<resource_name>",
"deployment_id": "<deployment_id>",
"api_version": "2024-02-01"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "text_embedding",
inference_id: "azure_openai_embeddings",
inference_config: {
service: "azureopenai",
service_settings: {
api_key: "<api_key>",
resource_name: "<resource_name>",
deployment_id: "<deployment_id>",
api_version: "2024-02-01",
},
},
});
console.log(response);
コンソール
PUT _inference/text_embedding/azure_openai_embeddings
{
"service": "azureopenai",
"service_settings": {
"api_key": "<api_key>",
"resource_name": "<resource_name>",
"deployment_id": "<deployment_id>",
"api_version": "2024-02-01"
}
}
次の例は、azure_openai_completion
という名前の推論エンドポイントを作成してcompletion
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="completion",
inference_id="azure_openai_completion",
inference_config={
"service": "azureopenai",
"service_settings": {
"api_key": "<api_key>",
"resource_name": "<resource_name>",
"deployment_id": "<deployment_id>",
"api_version": "2024-02-01"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "completion",
inference_id: "azure_openai_completion",
inference_config: {
service: "azureopenai",
service_settings: {
api_key: "<api_key>",
resource_name: "<resource_name>",
deployment_id: "<deployment_id>",
api_version: "2024-02-01",
},
},
});
console.log(response);
コンソール
PUT _inference/completion/azure_openai_completion
{
"service": "azureopenai",
"service_settings": {
"api_key": "<api_key>",
"resource_name": "<resource_name>",
"deployment_id": "<deployment_id>",
"api_version": "2024-02-01"
}
}
Azure OpenAIデプロイメントで選択できるチャット完了モデルのリストは、以下の場所で確認できます: