Anthropic inference service

anthropic サービスを使用して推論タスクを実行するための推論エンドポイントを作成します。

Request

PUT /_inference/<task_type>/<inference_id>

Path parameters

  • <inference_id>
  • (必須、文字列) 推論エンドポイントの一意の識別子。
  • <task_type>
  • (必須、文字列) モデルが実行する推論タスクのタイプ。
    利用可能なタスクタイプ:
    • completion

Request body

  • service
  • (必須、文字列) 指定されたタスクタイプに対してサポートされているサービスのタイプ。この場合、anthropic
  • service_settings
  • (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
    これらの設定は anthropic サービスに特有です。
    • api_key
    • (必須、文字列) Anthropic API の有効な API キー。
    • model_id
    • (必須、文字列) 推論タスクに使用するモデルの名前。サポートされているモデルは Anthropic models で確認できます。
    • rate_limit
    • (オプション、オブジェクト) デフォルトでは、anthropic サービスは、1 分あたりのリクエスト数を 50 に設定します。これにより、Anthropic から返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトの requests_per_minute 設定を設定します:

Text

  1. "rate_limit": {
  2. "requests_per_minute": <<number_of_requests>>
  3. }
  • task_settings
  • (必須、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した <task_type> に特有です。
    task_settingscompletion タスクタイプのための
    • max_tokens
    • (必須、整数) 停止する前に生成する最大トークン数。
    • temperature
    • (オプション、浮動小数点) 応答に注入されるランダム性の量。
      サポートされている範囲の詳細については、Anthropic messages API を参照してください。
    • top_k
    • (オプション、整数) 各後続トークンのために上位 K オプションからのみサンプリングすることを指定します。
      高度な使用ケースにのみ推奨されます。通常は temperature を使用するだけで済みます。
      詳細については、Anthropic messages API を参照してください。
    • top_p
    • (オプション、浮動小数点) Anthropic の核サンプリングを使用することを指定します。
      核サンプリングでは、Anthropic は各後続トークンのすべてのオプションに対して累積分布を計算し、確率が top_p で指定された特定の確率に達したときにカットオフします。 temperature または top_p のいずれかを変更する必要がありますが、両方を変更することはできません。
      高度な使用ケースにのみ推奨されます。通常は temperature を使用するだけで済みます。
      詳細については、Anthropic messages API を参照してください。

Anthropic service example

以下の例は、anthropic_completion という推論エンドポイントを作成して completion タスクタイプを実行する方法を示しています。

Python

  1. resp = client.inference.put(
  2. task_type="completion",
  3. inference_id="anthropic_completion",
  4. inference_config={
  5. "service": "anthropic",
  6. "service_settings": {
  7. "api_key": "<api_key>",
  8. "model_id": "<model_id>"
  9. },
  10. "task_settings": {
  11. "max_tokens": 1024
  12. }
  13. },
  14. )
  15. print(resp)

Js

  1. const response = await client.inference.put({
  2. task_type: "completion",
  3. inference_id: "anthropic_completion",
  4. inference_config: {
  5. service: "anthropic",
  6. service_settings: {
  7. api_key: "<api_key>",
  8. model_id: "<model_id>",
  9. },
  10. task_settings: {
  11. max_tokens: 1024,
  12. },
  13. },
  14. });
  15. console.log(response);

Console

  1. PUT _inference/completion/anthropic_completion
  2. {
  3. "service": "anthropic",
  4. "service_settings": {
  5. "api_key": "<api_key>",
  6. "model_id": "<model_id>"
  7. },
  8. "task_settings": {
  9. "max_tokens": 1024
  10. }
  11. }