Cohere推論サービス
推論タスクを実行するための推論エンドポイントをcohere
サービスで作成します。
リクエスト
PUT /_inference/<task_type>/<inference_id>
パスパラメータ
<inference_id>
- (必須、文字列) 推論エンドポイントの一意の識別子。
<task_type>
- (必須、文字列) モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:completion
,rerank
,text_embedding
。
リクエストボディ
service
- (必須、文字列) 指定されたタスクタイプに対してサポートされるサービスのタイプ。この場合、
cohere
。 service_settings
- (必須、オブジェクト) 推論モデルをインストールするために使用される設定。
これらの設定はcohere
サービスに特有です。api_key
- (必須、文字列) あなたのCohereアカウントの有効なAPIキー。あなたのCohere APIキーを見つけるか、新しいものを作成することができますAPIキー設定ページで。
推論モデルの作成時にのみAPIキーを提供する必要があります。推論APIを取得するはあなたのAPIキーを取得しません。推論モデルを作成した後、関連付けられたAPIキーを変更することはできません。異なるAPIキーを使用したい場合は、推論モデルを削除し、同じ名前と更新されたAPIキーで再作成してください。 rate_limit
- (オプション、オブジェクト) デフォルトでは、
cohere
サービスは1分あたりのリクエスト数を10000
に設定します。この値はすべてのタスクタイプに対して同じです。これにより、Cohereから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute
設定を設定します:
テキスト
"rate_limit": {
"requests_per_minute": <<number_of_requests>>
}
Cohereのレート制限に関する詳細情報は、Cohereのプロダクションキーのドキュメントで確認できます。
- `````model_id
- (オプション、文字列) 推論タスクに使用するモデルの名前。利用可能な`````completion`````モデルを確認するには、[Cohereのドキュメント](https://docs.cohere.com/docs/models#command)を参照してください。
- `````model_id
- (オプション、文字列) 推論タスクに使用するモデルの名前。利用可能な`````rerank`````モデルを確認するには、[Cohereのドキュメント](https://docs.cohere.com/reference/rerank-1)を参照してください。
- `````embedding_type
- (オプション、文字列) 取得したい埋め込みのタイプを指定します。デフォルトは`````float`````です。有効な値は:
- `````byte`````: 符号付きint8埋め込みに使用します(これは`````int8`````の同義語です)。
- `````float`````: デフォルトの浮動小数点埋め込みに使用します。
- `````int8`````: 符号付きint8埋め込みに使用します。
- `````model_id`````
- (オプション、文字列) 推論タスクに使用するモデルの名前。利用可能な`````text_embedding`````モデルを確認するには、[Cohereのドキュメント](https://docs.cohere.com/reference/embed)を参照してください。`````text_embedding`````のデフォルト値は`````embed-english-v2.0`````です。
- `````similarity`````
- (オプション、文字列) 類似度測定。`````cosine`````、`````dot_product`````、`````l2_norm`````のいずれか。デフォルトは`````embedding_type`````に基づいています(`````float````` → `````dot_product`````、`````int8/byte````` → `````cosine`````)。
task_settings
- (オプション、オブジェクト) 推論タスクを構成するための設定。これらの設定は、指定した
<task_type>
に特有です。- `````return_documents
- (オプション、ブール値) 結果内にドキュメントテキストを返すかどうかを指定します。
top_n
- (オプション、整数) 返す最も関連性の高いドキュメントの数、デフォルトはドキュメントの数です。この推論エンドポイントが
text_similarity_reranker
リトリーバークエリで使用され、top_n
が設定されている場合、クエリ内のrank_window_size
以上でなければなりません。task_settings
はtext_embedding
タスクタイプのため input_type
- (オプション、文字列) モデルに渡される入力のタイプを指定します。有効な値は:
classification
: テキスト分類器を通じて渡される埋め込みに使用します。clusterning
: クラスタリングアルゴリズムを通じて実行される埋め込みに使用します。ingest
: ベクトルデータベースにドキュメント埋め込みを保存するために使用します。search
: ベクトルデータベースに対して実行される検索クエリの埋め込みを保存するために使用します。input_type
フィールドは、埋め込みモデルv3
以上を使用する場合に必須です。
truncate
- (オプション、文字列) APIが最大トークン長を超える入力をどのように処理するかを指定します。デフォルトは
END
です。有効な値は:NONE
: 入力が最大入力トークン長を超えるとエラーが返されます。START
: 入力が最大入力トークン長を超えると、入力の先頭が破棄されます。END
: 入力が最大入力トークン長を超えると、入力の末尾が破棄されます。
Cohereサービスの例
以下の例は、cohere-embeddings
という推論エンドポイントを作成してtext_embedding
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="text_embedding",
inference_id="cohere-embeddings",
inference_config={
"service": "cohere",
"service_settings": {
"api_key": "<api_key>",
"model_id": "embed-english-light-v3.0",
"embedding_type": "byte"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "text_embedding",
inference_id: "cohere-embeddings",
inference_config: {
service: "cohere",
service_settings: {
api_key: "<api_key>",
model_id: "embed-english-light-v3.0",
embedding_type: "byte",
},
},
});
console.log(response);
コンソール
PUT _inference/text_embedding/cohere-embeddings
{
"service": "cohere",
"service_settings": {
"api_key": "<api_key>",
"model_id": "embed-english-light-v3.0",
"embedding_type": "byte"
}
}
以下の例は、cohere-rerank
という推論エンドポイントを作成してrerank
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="rerank",
inference_id="cohere-rerank",
inference_config={
"service": "cohere",
"service_settings": {
"api_key": "<API-KEY>",
"model_id": "rerank-english-v3.0"
},
"task_settings": {
"top_n": 10,
"return_documents": True
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "rerank",
inference_id: "cohere-rerank",
inference_config: {
service: "cohere",
service_settings: {
api_key: "<API-KEY>",
model_id: "rerank-english-v3.0",
},
task_settings: {
top_n: 10,
return_documents: true,
},
},
});
console.log(response);
コンソール
PUT _inference/rerank/cohere-rerank
{
"service": "cohere",
"service_settings": {
"api_key": "<API-KEY>",
"model_id": "rerank-english-v3.0"
},
"task_settings": {
"top_n": 10,
"return_documents": true
}
}
詳細な例については、Cohereのドキュメントも確認してください。