Cohere推論サービス

推論タスクを実行するための推論エンドポイントをcohereサービスで作成します。

リクエスト

PUT /_inference/<task_type>/<inference_id>

パスパラメータ

  • <inference_id>
  • (必須、文字列) 推論エンドポイントの一意の識別子。
  • <task_type>
  • (必須、文字列) モデルが実行する推論タスクのタイプ。
    利用可能なタスクタイプ:
    • completion,
    • rerank,
    • text_embedding

リクエストボディ

  • service
  • (必須、文字列) 指定されたタスクタイプに対してサポートされるサービスのタイプ。この場合、cohere
  • service_settings
  • (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
    これらの設定はcohereサービスに特有です。
    • api_key
    • (必須、文字列) あなたのCohereアカウントの有効なAPIキー。あなたのCohere APIキーを見つけるか、新しいものを作成することができますAPIキー設定ページで。
      推論モデルの作成時にのみAPIキーを提供する必要があります。推論APIを取得するはあなたのAPIキーを取得しません。推論モデルを作成した後、関連付けられたAPIキーを変更することはできません。異なるAPIキーを使用したい場合は、推論モデルを削除し、同じ名前と更新されたAPIキーで再作成してください。
    • rate_limit
    • (オプション、オブジェクト) デフォルトでは、cohereサービスは1分あたりのリクエスト数を10000に設定します。この値はすべてのタスクタイプに対して同じです。これにより、Cohereから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute設定を設定します:

テキスト

  1. "rate_limit": {
  2. "requests_per_minute": <<number_of_requests>>
  3. }

Cohereのレート制限に関する詳細情報は、Cohereのプロダクションキーのドキュメントで確認できます。

  1. - `````model_id
  1. - (オプション、文字列) 推論タスクに使用するモデルの名前。利用可能な`````completion`````モデルを確認するには、[Cohereのドキュメント](https://docs.cohere.com/docs/models#command)を参照してください。
  1. - `````model_id
  1. - (オプション、文字列) 推論タスクに使用するモデルの名前。利用可能な`````rerank`````モデルを確認するには、[Cohereのドキュメント](https://docs.cohere.com/reference/rerank-1)を参照してください。
  1. - `````embedding_type
  1. - (オプション、文字列) 取得したい埋め込みのタイプを指定します。デフォルトは`````float`````です。有効な値は:
  2. - `````byte`````: 符号付きint8埋め込みに使用します(これは`````int8`````の同義語です)。
  3. - `````float`````: デフォルトの浮動小数点埋め込みに使用します。
  4. - `````int8`````: 符号付きint8埋め込みに使用します。
  5. - `````model_id`````
  6. - (オプション、文字列) 推論タスクに使用するモデルの名前。利用可能な`````text_embedding`````モデルを確認するには、[Cohereのドキュメント](https://docs.cohere.com/reference/embed)を参照してください。`````text_embedding`````のデフォルト値は`````embed-english-v2.0`````です。
  7. - `````similarity`````
  8. - (オプション、文字列) 類似度測定。`````cosine``````````dot_product``````````l2_norm`````のいずれか。デフォルトは`````embedding_type`````に基づいています(`````float````` `````dot_product``````````int8/byte````` `````cosine`````)。
  • task_settings
  • (オプション、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した<task_type>に特有です。
    1. - `````return_documents
    • (オプション、ブール値) 結果内にドキュメントテキストを返すかどうかを指定します。
    • top_n
    • (オプション、整数) 返す最も関連性の高いドキュメントの数、デフォルトはドキュメントの数です。この推論エンドポイントがtext_similarity_rerankerリトリーバークエリで使用され、top_nが設定されている場合、クエリ内のrank_window_size以上でなければなりません。
      task_settingstext_embeddingタスクタイプのため
    • input_type
    • (オプション、文字列) モデルに渡される入力のタイプを指定します。有効な値は:
      • classification: テキスト分類器を通じて渡される埋め込みに使用します。
      • clusterning: クラスタリングアルゴリズムを通じて実行される埋め込みに使用します。
      • ingest: ベクトルデータベースにドキュメント埋め込みを保存するために使用します。
      • search: ベクトルデータベースに対して実行される検索クエリの埋め込みを保存するために使用します。input_typeフィールドは、埋め込みモデルv3以上を使用する場合に必須です。
    • truncate
    • (オプション、文字列) APIが最大トークン長を超える入力をどのように処理するかを指定します。デフォルトはENDです。有効な値は:
      • NONE: 入力が最大入力トークン長を超えるとエラーが返されます。
      • START: 入力が最大入力トークン長を超えると、入力の先頭が破棄されます。
      • END: 入力が最大入力トークン長を超えると、入力の末尾が破棄されます。

Cohereサービスの例

以下の例は、cohere-embeddingsという推論エンドポイントを作成してtext_embeddingタスクタイプを実行する方法を示しています。

Python

  1. resp = client.inference.put(
  2. task_type="text_embedding",
  3. inference_id="cohere-embeddings",
  4. inference_config={
  5. "service": "cohere",
  6. "service_settings": {
  7. "api_key": "<api_key>",
  8. "model_id": "embed-english-light-v3.0",
  9. "embedding_type": "byte"
  10. }
  11. },
  12. )
  13. print(resp)

Js

  1. const response = await client.inference.put({
  2. task_type: "text_embedding",
  3. inference_id: "cohere-embeddings",
  4. inference_config: {
  5. service: "cohere",
  6. service_settings: {
  7. api_key: "<api_key>",
  8. model_id: "embed-english-light-v3.0",
  9. embedding_type: "byte",
  10. },
  11. },
  12. });
  13. console.log(response);

コンソール

  1. PUT _inference/text_embedding/cohere-embeddings
  2. {
  3. "service": "cohere",
  4. "service_settings": {
  5. "api_key": "<api_key>",
  6. "model_id": "embed-english-light-v3.0",
  7. "embedding_type": "byte"
  8. }
  9. }

以下の例は、cohere-rerankという推論エンドポイントを作成してrerankタスクタイプを実行する方法を示しています。

Python

  1. resp = client.inference.put(
  2. task_type="rerank",
  3. inference_id="cohere-rerank",
  4. inference_config={
  5. "service": "cohere",
  6. "service_settings": {
  7. "api_key": "<API-KEY>",
  8. "model_id": "rerank-english-v3.0"
  9. },
  10. "task_settings": {
  11. "top_n": 10,
  12. "return_documents": True
  13. }
  14. },
  15. )
  16. print(resp)

Js

  1. const response = await client.inference.put({
  2. task_type: "rerank",
  3. inference_id: "cohere-rerank",
  4. inference_config: {
  5. service: "cohere",
  6. service_settings: {
  7. api_key: "<API-KEY>",
  8. model_id: "rerank-english-v3.0",
  9. },
  10. task_settings: {
  11. top_n: 10,
  12. return_documents: true,
  13. },
  14. },
  15. });
  16. console.log(response);

コンソール

  1. PUT _inference/rerank/cohere-rerank
  2. {
  3. "service": "cohere",
  4. "service_settings": {
  5. "api_key": "<API-KEY>",
  6. "model_id": "rerank-english-v3.0"
  7. },
  8. "task_settings": {
  9. "top_n": 10,
  10. "return_documents": true
  11. }
  12. }

詳細な例については、Cohereのドキュメントも確認してください。