Mistral推論サービス
## リクエスト
`````PUT /_inference/<task_type>/<inference_id>
パスパラメータ
<inference_id>
- (必須、文字列)推論エンドポイントの一意の識別子。
<task_type>
- (必須、文字列)モデルが実行する推論タスクのタイプ。
利用可能なタスクタイプ:text_embedding
.
リクエストボディ
service
- (必須、文字列)指定されたタスクタイプに対してサポートされるサービスのタイプ。この場合、
mistral
。 service_settings
- (必須、オブジェクト)推論モデルをインストールするために使用される設定。
これらの設定はmistral
サービスに特有です。api_key
- (必須、文字列)Mistralアカウントの有効なAPIキー。Mistral APIキーを見つけるか、新しいものを作成することができますAPIキーのページで。
APIキーは推論モデルの作成時に一度だけ提供する必要があります。推論APIを取得するはAPIキーを取得しません。推論モデルを作成した後は、関連付けられたAPIキーを変更することはできません。異なるAPIキーを使用したい場合は、推論モデルを削除し、同じ名前と更新されたAPIキーで再作成してください。 model
- (必須、文字列)推論タスクに使用するモデルの名前。利用可能なテキスト埋め込みモデルのリストについては、Mistralモデルのドキュメントを参照してください。
max_input_tokens
- (オプション、整数)チャンク化が発生する前に、入力ごとに最大トークン数を指定できます。
rate_limit
- (オプション、オブジェクト)デフォルトでは、
mistral
サービスは、1分あたりのリクエスト数を240
に設定します。これにより、Mistral APIから返されるレート制限エラーの数を最小限に抑えることができます。これを変更するには、サービス設定内のこのオブジェクトのrequests_per_minute
設定を設定します:
テキスト
"rate_limit": {
"requests_per_minute": <<number_of_requests>>
}
Mistralサービスの例
以下の例は、mistral-embeddings-test
という名前の推論エンドポイントを作成して、text_embedding
タスクタイプを実行する方法を示しています。
Python
resp = client.inference.put(
task_type="text_embedding",
inference_id="mistral-embeddings-test",
inference_config={
"service": "mistral",
"service_settings": {
"api_key": "<api_key>",
"model": "mistral-embed"
}
},
)
print(resp)
Js
const response = await client.inference.put({
task_type: "text_embedding",
inference_id: "mistral-embeddings-test",
inference_config: {
service: "mistral",
service_settings: {
api_key: "<api_key>",
model: "mistral-embed",
},
},
});
console.log(response);
コンソール
PUT _inference/text_embedding/mistral-embeddings-test
{
"service": "mistral",
"service_settings": {
"api_key": "<api_key>",
"model": "mistral-embed"
}
}
model は、Mistralモデルのドキュメントで見つけることができるテキスト埋め込みモデルのIDである必要があります。 |