HuggingFace推論サービス

  1. ## リクエスト
  2. `````PUT /_inference/<task_type>/<inference_id>

パスパラメータ

  • <inference_id>
  • (必須、文字列)推論エンドポイントの一意の識別子。
  • <task_type>
  • (必須、文字列)モデルが実行する推論タスクのタイプ。
    利用可能なタスクタイプ:
    • text_embedding.

リクエストボディ

  • service
  • (必須、文字列)指定されたタスクタイプに対してサポートされるサービスのタイプ。この場合、hugging_face
  • service_settings
  • (必須、オブジェクト)推論モデルをインストールするために使用される設定。
    これらの設定はhugging_faceサービスに特有です。
    • api_key
    • (必須、文字列)あなたのHugging Faceアカウントの有効なアクセストークン。Hugging Faceのアクセストークンを見つけるか、設定ページで新しいトークンを作成できます。
      推論モデルの作成時にのみAPIキーを提供する必要があります。推論APIを取得するはあなたのAPIキーを取得しません。推論モデルを作成した後、関連付けられたAPIキーを変更することはできません。異なるAPIキーを使用したい場合は、推論モデルを削除し、同じ名前と更新されたAPIキーで再作成してください。
    • url
    • (必須、文字列)リクエストに使用するURLエンドポイント。
    • rate_limit
    • (オプション、オブジェクト)デフォルトでは、huggingfaceサービスは1分あたりのリクエスト数を3000に設定します。これにより、Hugging Faceから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute設定を設定します:

テキスト

  1. "rate_limit": {
  2. "requests_per_minute": <<number_of_requests>>
  3. }

Hugging Faceサービスの例

以下の例は、hugging-face-embeddingsという推論エンドポイントを作成してtext_embeddingタスクタイプを実行する方法を示しています。

Python

  1. resp = client.inference.put(
  2. task_type="text_embedding",
  3. inference_id="hugging-face-embeddings",
  4. inference_config={
  5. "service": "hugging_face",
  6. "service_settings": {
  7. "api_key": "<access_token>",
  8. "url": "<url_endpoint>"
  9. }
  10. },
  11. )
  12. print(resp)

Js

  1. const response = await client.inference.put({
  2. task_type: "text_embedding",
  3. inference_id: "hugging-face-embeddings",
  4. inference_config: {
  5. service: "hugging_face",
  6. service_settings: {
  7. api_key: "<access_token>",
  8. url: "<url_endpoint>",
  9. },
  10. },
  11. });
  12. console.log(response);

コンソール

  1. PUT _inference/text_embedding/hugging-face-embeddings
  2. {
  3. "service": "hugging_face",
  4. "service_settings": {
  5. "api_key": "<access_token>",
  6. "url": "<url_endpoint>"
  7. }
  8. }
有効なHugging Faceアクセストークン。
あなたのアカウントの設定ページで見つけることができます。
Hugging Faceで作成した推論エンドポイントのURL。

新しい推論エンドポイントをHugging Faceエンドポイントページで作成してエンドポイントURLを取得します。新しいエンドポイント作成ページで使用したいモデルを選択します - 例えばintfloat/e5-small-v2 - その後、詳細設定セクションでSentence Embeddingsタスクを選択します。エンドポイントを作成します。エンドポイントの初期化が完了した後にURLをコピーします。

Hugging Faceサービスの推奨モデルのリスト: