HuggingFace推論サービス
## リクエスト
`````PUT /_inference/<task_type>/<inference_id>
パスパラメータ
<inference_id>
- (必須、文字列)推論エンドポイントの一意の識別子。
<task_type>
- (必須、文字列)モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:text_embedding
.
リクエストボディ
service
- (必須、文字列)指定されたタスクタイプに対してサポートされるサービスのタイプ。この場合、
hugging_face
。 service_settings
- (必須、オブジェクト)推論モデルをインストールするために使用される設定。
これらの設定はhugging_face
サービスに特有です。api_key
- (必須、文字列)あなたのHugging Faceアカウントの有効なアクセストークン。Hugging Faceのアクセストークンを見つけるか、設定ページで新しいトークンを作成できます。
推論モデルの作成時にのみAPIキーを提供する必要があります。推論APIを取得するはあなたのAPIキーを取得しません。推論モデルを作成した後、関連付けられたAPIキーを変更することはできません。異なるAPIキーを使用したい場合は、推論モデルを削除し、同じ名前と更新されたAPIキーで再作成してください。 url
- (必須、文字列)リクエストに使用するURLエンドポイント。
rate_limit
- (オプション、オブジェクト)デフォルトでは、
huggingface
サービスは1分あたりのリクエスト数を3000
に設定します。これにより、Hugging Faceから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute
設定を設定します:
テキスト
"rate_limit": {
"requests_per_minute": <<number_of_requests>>
}
Hugging Faceサービスの例
以下の例は、hugging-face-embeddings
という推論エンドポイントを作成してtext_embedding
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="text_embedding",
inference_id="hugging-face-embeddings",
inference_config={
"service": "hugging_face",
"service_settings": {
"api_key": "<access_token>",
"url": "<url_endpoint>"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "text_embedding",
inference_id: "hugging-face-embeddings",
inference_config: {
service: "hugging_face",
service_settings: {
api_key: "<access_token>",
url: "<url_endpoint>",
},
},
});
console.log(response);
コンソール
PUT _inference/text_embedding/hugging-face-embeddings
{
"service": "hugging_face",
"service_settings": {
"api_key": "<access_token>",
"url": "<url_endpoint>"
}
}
有効なHugging Faceアクセストークン。 あなたのアカウントの設定ページで見つけることができます。 |
|
Hugging Faceで作成した推論エンドポイントのURL。 |
新しい推論エンドポイントをHugging Faceエンドポイントページで作成してエンドポイントURLを取得します。新しいエンドポイント作成ページで使用したいモデルを選択します - 例えばintfloat/e5-small-v2
- その後、詳細設定セクションでSentence Embeddings
タスクを選択します。エンドポイントを作成します。エンドポイントの初期化が完了した後にURLをコピーします。