Anthropic inference service
anthropic
サービスを使用して推論タスクを実行するための推論エンドポイントを作成します。
Request
PUT /_inference/<task_type>/<inference_id>
Path parameters
<inference_id>
- (必須、文字列) 推論エンドポイントの一意の識別子。
<task_type>
- (必須、文字列) モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:completion
Request body
service
- (必須、文字列) 指定されたタスクタイプに対してサポートされているサービスのタイプ。この場合、
anthropic
。 service_settings
- (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
これらの設定はanthropic
サービスに特有です。api_key
- (必須、文字列) Anthropic API の有効な API キー。
model_id
- (必須、文字列) 推論タスクに使用するモデルの名前。サポートされているモデルは Anthropic models で確認できます。
rate_limit
- (オプション、オブジェクト) デフォルトでは、
anthropic
サービスは、1 分あたりのリクエスト数を50
に設定します。これにより、Anthropic から返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute
設定を設定します:
Text
"rate_limit": {
"requests_per_minute": <<number_of_requests>>
}
task_settings
- (必須、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した
<task_type>
に特有です。task_settings
はcompletion
タスクタイプのためのmax_tokens
- (必須、整数) 停止する前に生成する最大トークン数。
temperature
- (オプション、浮動小数点) 応答に注入されるランダム性の量。
サポートされている範囲の詳細については、Anthropic messages API を参照してください。 top_k
- (オプション、整数) 各後続トークンのために上位 K オプションからのみサンプリングすることを指定します。
高度な使用ケースにのみ推奨されます。通常はtemperature
を使用するだけで済みます。
詳細については、Anthropic messages API を参照してください。 top_p
- (オプション、浮動小数点) Anthropic の核サンプリングを使用することを指定します。
核サンプリングでは、Anthropic は各後続トークンのすべてのオプションに対して累積分布を計算し、確率がtop_p
で指定された特定の確率に達したときにカットオフします。temperature
またはtop_p
のいずれかを変更する必要がありますが、両方を変更することはできません。
高度な使用ケースにのみ推奨されます。通常はtemperature
を使用するだけで済みます。
詳細については、Anthropic messages API を参照してください。
Anthropic service example
以下の例は、anthropic_completion
という推論エンドポイントを作成して completion
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="completion",
inference_id="anthropic_completion",
inference_config={
"service": "anthropic",
"service_settings": {
"api_key": "<api_key>",
"model_id": "<model_id>"
},
"task_settings": {
"max_tokens": 1024
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "completion",
inference_id: "anthropic_completion",
inference_config: {
service: "anthropic",
service_settings: {
api_key: "<api_key>",
model_id: "<model_id>",
},
task_settings: {
max_tokens: 1024,
},
},
});
console.log(response);
Console
PUT _inference/completion/anthropic_completion
{
"service": "anthropic",
"service_settings": {
"api_key": "<api_key>",
"model_id": "<model_id>"
},
"task_settings": {
"max_tokens": 1024
}
}