Azure OpenAI推論サービス

  1. ## リクエスト
  2. `````PUT /_inference/<task_type>/<inference_id>

パスパラメータ

  • <inference_id>
  • (必須、文字列) 推論エンドポイントの一意の識別子。
  • <task_type>
  • (必須、文字列) モデルが実行する推論タスクのタイプ。
    利用可能なタスクタイプ:
    • completion,
    • text_embedding.

リクエストボディ

  • service
  • (必須、文字列) 指定されたタスクタイプに対してサポートされているサービスのタイプ。この場合、azureopenai
  • service_settings
  • (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
    これらの設定はazureopenaiサービスに特有です。
    • api_keyまたはentra_id
    • (必須、文字列) APIキーまたはEntra IDのいずれかを提供する必要があります。どちらも提供しない場合、または両方を提供した場合、モデルを作成しようとするとエラーが発生します。これらの認証タイプの詳細については、Azure OpenAI認証ドキュメントを参照してください。
      APIキーは推論モデルの作成時に一度だけ提供する必要があります。推論APIを取得するはAPIキーを取得しません。推論モデルを作成した後は、関連付けられたAPIキーを変更することはできません。異なるAPIキーを使用したい場合は、推論モデルを削除し、同じ名前と更新されたAPIキーで再作成してください。
    • resource_name
    • (必須、文字列) あなたのAzure OpenAIリソースの名前。これは、サブスクリプションのAzureポータルのリソースのリストから見つけることができます。
    • deployment_id
    • (必須、文字列) デプロイされたモデルのデプロイ名。あなたのAzure OpenAIデプロイメントは、サブスクリプションにリンクされたAzure OpenAI Studioポータルを通じて見つけることができます。
    • api_version
    • (必須、文字列) 使用するAzure APIバージョンID。私たちは最新のサポートされている非プレビュー版の使用を推奨します。
    • rate_limit
    • (オプション、オブジェクト) azureopenaiサービスは、タスクタイプに応じて許可されるデフォルトのリクエスト数を設定します。text_embeddingの場合は1440に設定されています。completionの場合は120に設定されています。これは、Azureから返されるレート制限エラーの数を最小限に抑えるのに役立ちます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute設定を設定します:

テキスト

  1. "rate_limit": {
  2. "requests_per_minute": <<number_of_requests>>
  3. }

Azureのレート制限に関する詳細情報は、クォータ制限ドキュメントおよびクォータの変更方法で確認できます。

  • task_settings
  • (オプション、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した<task_type>に特有です。
    1. - `````user
    • (オプション、文字列) リクエストを発行するユーザーを指定します。これは、悪用検出に使用できます。
      task_settingstext_embeddingタスクタイプのため
    • user
    • (オプション、文字列) リクエストを発行するユーザーを指定します。これは、悪用検出に使用できます。

Azure OpenAIサービスの例

以下の例は、azure_openai_embeddingsという名前の推論エンドポイントを作成してtext_embeddingタスクタイプを実行する方法を示しています。ここではモデルを指定していないことに注意してください。これは、すでにAzure OpenAIデプロイメントを介して定義されています。

デプロイメントで選択できる埋め込みモデルのリストは、Azureモデルドキュメントで確認できます。

Python

  1. resp = client.inference.put(
  2. task_type="text_embedding",
  3. inference_id="azure_openai_embeddings",
  4. inference_config={
  5. "service": "azureopenai",
  6. "service_settings": {
  7. "api_key": "<api_key>",
  8. "resource_name": "<resource_name>",
  9. "deployment_id": "<deployment_id>",
  10. "api_version": "2024-02-01"
  11. }
  12. },
  13. )
  14. print(resp)

Js

  1. const response = await client.inference.put({
  2. task_type: "text_embedding",
  3. inference_id: "azure_openai_embeddings",
  4. inference_config: {
  5. service: "azureopenai",
  6. service_settings: {
  7. api_key: "<api_key>",
  8. resource_name: "<resource_name>",
  9. deployment_id: "<deployment_id>",
  10. api_version: "2024-02-01",
  11. },
  12. },
  13. });
  14. console.log(response);

コンソール

  1. PUT _inference/text_embedding/azure_openai_embeddings
  2. {
  3. "service": "azureopenai",
  4. "service_settings": {
  5. "api_key": "<api_key>",
  6. "resource_name": "<resource_name>",
  7. "deployment_id": "<deployment_id>",
  8. "api_version": "2024-02-01"
  9. }
  10. }

次の例は、azure_openai_completionという名前の推論エンドポイントを作成してcompletionタスクタイプを実行する方法を示しています。

Python

  1. resp = client.inference.put(
  2. task_type="completion",
  3. inference_id="azure_openai_completion",
  4. inference_config={
  5. "service": "azureopenai",
  6. "service_settings": {
  7. "api_key": "<api_key>",
  8. "resource_name": "<resource_name>",
  9. "deployment_id": "<deployment_id>",
  10. "api_version": "2024-02-01"
  11. }
  12. },
  13. )
  14. print(resp)

Js

  1. const response = await client.inference.put({
  2. task_type: "completion",
  3. inference_id: "azure_openai_completion",
  4. inference_config: {
  5. service: "azureopenai",
  6. service_settings: {
  7. api_key: "<api_key>",
  8. resource_name: "<resource_name>",
  9. deployment_id: "<deployment_id>",
  10. api_version: "2024-02-01",
  11. },
  12. },
  13. });
  14. console.log(response);

コンソール

  1. PUT _inference/completion/azure_openai_completion
  2. {
  3. "service": "azureopenai",
  4. "service_settings": {
  5. "api_key": "<api_key>",
  6. "resource_name": "<resource_name>",
  7. "deployment_id": "<deployment_id>",
  8. "api_version": "2024-02-01"
  9. }
  10. }

Azure OpenAIデプロイメントで選択できるチャット完了モデルのリストは、以下の場所で確認できます: