Google AI Studio推論サービス
推論タスクを実行するための推論エンドポイントをgoogleaistudio
サービスで作成します。
リクエスト
PUT /_inference/<task_type>/<inference_id>
パスパラメータ
<inference_id>
- (必須、文字列) 推論エンドポイントの一意の識別子。
<task_type>
- (必須、文字列) モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:completion
,text_embedding
.
リクエストボディ
service
- (必須、文字列) 指定されたタスクタイプに対してサポートされているサービスのタイプ。この場合、
googleaistudio
。 service_settings
- (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
これらの設定はgoogleaistudio
サービスに特有です。api_key
- (必須、文字列) Google Gemini APIの有効なAPIキー。
model_id
- (必須、文字列) 推論タスクに使用するモデルの名前。サポートされているモデルはGemin APIモデルで確認できます。
rate_limit
- (オプション、オブジェクト) デフォルトでは、
googleaistudio
サービスは1分あたりのリクエスト数を360
に設定します。これにより、Google AI Studioから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute
設定を設定します:
テキスト
"rate_limit": {
"requests_per_minute": <<number_of_requests>>
}
Google AI Studioサービスの例
以下の例は、google_ai_studio_completion
という推論エンドポイントを作成してcompletion
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="completion",
inference_id="google_ai_studio_completion",
inference_config={
"service": "googleaistudio",
"service_settings": {
"api_key": "<api_key>",
"model_id": "<model_id>"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "completion",
inference_id: "google_ai_studio_completion",
inference_config: {
service: "googleaistudio",
service_settings: {
api_key: "<api_key>",
model_id: "<model_id>",
},
},
});
console.log(response);
コンソール
PUT _inference/completion/google_ai_studio_completion
{
"service": "googleaistudio",
"service_settings": {
"api_key": "<api_key>",
"model_id": "<model_id>"
}
}