推論API - Google AIスタジオ推論サービス（Google AI Studio inference service）

Google AI Studio推論サービス
リクエスト
パスパラメータ
リクエストボディ
- テキスト
Google AI Studioサービスの例

Google AI Studio推論サービス

推論タスクを実行するための推論エンドポイントをgoogleaistudioサービスで作成します。

リクエスト

PUT /_inference/<task_type>/<inference_id>

パスパラメータ

<inference_id>
(必須、文字列) 推論エンドポイントの一意の識別子。
<task_type>
(必須、文字列) モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:
- completion,
- text_embedding.

リクエストボディ

service
(必須、文字列) 指定されたタスクタイプに対してサポートされているサービスのタイプ。この場合、googleaistudio。
service_settings
(必須、オブジェクト) 推論モデルをインストールするために使用される設定。
これらの設定はgoogleaistudioサービスに特有です。
- api_key
- (必須、文字列) Google Gemini APIの有効なAPIキー。
- model_id
- (必須、文字列) 推論タスクに使用するモデルの名前。サポートされているモデルはGemin APIモデルで確認できます。
- rate_limit
- (オプション、オブジェクト) デフォルトでは、googleaistudioサービスは1分あたりのリクエスト数を360に設定します。これにより、Google AI Studioから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute設定を設定します:

テキスト

"rate_limit": {
   "requests_per_minute": <<number_of_requests>>
}

Google AI Studioサービスの例

以下の例は、google_ai_studio_completionという推論エンドポイントを作成してcompletionタスクタイプを実行する方法を示しています。

Python

resp = client.inference.put(
   task_type="completion",
   inference_id="google_ai_studio_completion",
   inference_config={
   "service": "googleaistudio",
   "service_settings": {
   "api_key": "<api_key>",
   "model_id": "<model_id>"
   }
   },
)
print(resp)

Js

const response = await client.inference.put({
  task_type: "completion",
  inference_id: "google_ai_studio_completion",
  inference_config: {
   service: "googleaistudio",
   service_settings: {
   api_key: "<api_key>",
   model_id: "<model_id>",
   },
  },
});
console.log(response);

コンソール

PUT _inference/completion/google_ai_studio_completion
{
   "service": "googleaistudio",
   "service_settings": {
   "api_key": "<api_key>",
   "model_id": "<model_id>"
   }
}