推論APIの実行
この機能は技術プレビュー中であり、将来のリリースで変更または削除される可能性があります。Elasticは問題を修正するために取り組みますが、技術プレビューの機能は公式GA機能のサポートSLAの対象ではありません。
推論エンドポイントを使用して、入力テキストに対して推論タスクを実行します。
推論APIを使用すると、組み込みの機械学習モデル(ELSER、E5)、Elandを通じてアップロードされたモデル、Cohere、OpenAI、Azure、Google AI Studio、Google Vertex AI、またはHugging Faceなどの特定のサービスを利用できます。組み込みモデルおよびElandを通じてアップロードされたモデルの場合、推論APIはトレーニングされたモデルを使用および管理するための代替手段を提供します。ただし、これらのモデルを使用するために推論APIを使用する予定がない場合や、非NLPモデルを使用したい場合は、機械学習トレーニングモデルAPIを使用してください。
リクエスト
POST /_inference/<inference_id>
POST /_inference/<task_type>/<inference_id>
前提条件
monitor_inference
クラスター特権が必要です(組み込みのinference_admin
およびinference_user
ロールはこの特権を付与します)
説明
推論APIを使用すると、提供されたデータに対して特定のタスクを実行するために機械学習モデルを使用できます。APIはタスクの結果を含む応答を返します。使用する推論エンドポイントは、推論APIの作成でエンドポイントが作成されたときに定義された特定のタスクを実行できます。
パスパラメータ
<inference_id>
- (必須、文字列)推論エンドポイントの一意の識別子。
<task_type>
- (オプション、文字列)モデルが実行する推論タスクのタイプ。
クエリパラメータ
timeout
- (オプション、タイムアウト)推論が完了するまでの待機時間を制御します。デフォルトは30秒です。
リクエストボディ
input
- (必須、文字列または文字列の配列)推論タスクを実行したいテキスト。
input
は単一の文字列または配列であることができます。completion
タスクタイプの推論エンドポイントは、現在、入力として単一の文字列のみをサポートしています。 query
- (必須、文字列)
rerank
推論エンドポイント専用。検索クエリテキスト。 task_settings
- (オプション、オブジェクト)個々の推論リクエストのタスク設定。これらの設定は、指定した
<task_type>
に特有であり、サービスの初期化時に指定されたタスク設定を上書きします。
例
完了例
以下の例は、例の質問に対して完了を実行します。
Python
resp = client.inference.inference(
task_type="completion",
inference_id="openai_chat_completions",
input="What is Elastic?",
)
print(resp)
Ruby
response = client.inference.inference(
task_type: 'completion',
inference_id: 'openai_chat_completions',
body: {
input: 'What is Elastic?'
}
)
puts response
Js
const response = await client.inference.inference({
task_type: "completion",
inference_id: "openai_chat_completions",
input: "What is Elastic?",
});
console.log(response);
コンソール
POST _inference/completion/openai_chat_completions
{
"input": "What is Elastic?"
}
コンソール-結果
{
"completion": [
{
"result": "Elastic is a company that provides a range of software solutions for search, logging, security, and analytics. Their flagship product is Elasticsearch, an open-source, distributed search engine that allows users to search, analyze, and visualize large volumes of data in real-time. Elastic also offers products such as Kibana, a data visualization tool, and Logstash, a log management and pipeline tool, as well as various other tools and solutions for data analysis and management."
}
]
}
再ランク例
以下の例は、例の入力に対して再ランクを実行します。
Python
resp = client.inference.inference(
task_type="rerank",
inference_id="cohere_rerank",
input=[
"luke",
"like",
"leia",
"chewy",
"r2d2",
"star",
"wars"
],
query="star wars main character",
)
print(resp)
Ruby
response = client.inference.inference(
task_type: 'rerank',
inference_id: 'cohere_rerank',
body: {
input: [
'luke',
'like',
'leia',
'chewy',
'r2d2',
'star',
'wars'
],
query: 'star wars main character'
}
)
puts response
Js
const response = await client.inference.inference({
task_type: "rerank",
inference_id: "cohere_rerank",
input: ["luke", "like", "leia", "chewy", "r2d2", "star", "wars"],
query: "star wars main character",
});
console.log(response);
コンソール
POST _inference/rerank/cohere_rerank
{
"input": ["luke", "like", "leia", "chewy","r2d2", "star", "wars"],
"query": "star wars main character"
}
コンソール-結果
{
"rerank": [
{
"index": "2",
"relevance_score": "0.011597361",
"text": "leia"
},
{
"index": "0",
"relevance_score": "0.006338922",
"text": "luke"
},
{
"index": "5",
"relevance_score": "0.0016166499",
"text": "star"
},
{
"index": "4",
"relevance_score": "0.0011695103",
"text": "r2d2"
},
{
"index": "1",
"relevance_score": "5.614787E-4",
"text": "like"
},
{
"index": "6",
"relevance_score": "3.7850367E-4",
"text": "wars"
},
{
"index": "3",
"relevance_score": "1.2508839E-5",
"text": "chewy"
}
]
}
スパース埋め込み例
以下の例は、例の文に対してスパース埋め込みを実行します。
Python
resp = client.inference.inference(
task_type="sparse_embedding",
inference_id="my-elser-model",
input="The sky above the port was the color of television tuned to a dead channel.",
)
print(resp)
Ruby
response = client.inference.inference(
task_type: 'sparse_embedding',
inference_id: 'my-elser-model',
body: {
input: 'The sky above the port was the color of television tuned to a dead channel.'
}
)
puts response
Js
const response = await client.inference.inference({
task_type: "sparse_embedding",
inference_id: "my-elser-model",
input:
"The sky above the port was the color of television tuned to a dead channel.",
});
console.log(response);
コンソール
POST _inference/sparse_embedding/my-elser-model
{
"input": "The sky above the port was the color of television tuned to a dead channel."
}
コンソール-結果
{
"sparse_embedding": [
{
"port": 2.1259406,
"sky": 1.7073475,
"color": 1.6922266,
"dead": 1.6247464,
"television": 1.3525393,
"above": 1.2425821,
"tuned": 1.1440028,
"colors": 1.1218185,
"tv": 1.0111054,
"ports": 1.0067928,
"poem": 1.0042328,
"channel": 0.99471164,
"tune": 0.96235967,
"scene": 0.9020516,
(...)
},
(...)
]
}
テキスト埋め込み例
以下の例は、Cohere統合を使用して例の文に対してテキスト埋め込みを実行します。
Python
resp = client.inference.inference(
task_type="text_embedding",
inference_id="my-cohere-endpoint",
input="The sky above the port was the color of television tuned to a dead channel.",
task_settings={
"input_type": "ingest"
},
)
print(resp)
Js
const response = await client.inference.inference({
task_type: "text_embedding",
inference_id: "my-cohere-endpoint",
input:
"The sky above the port was the color of television tuned to a dead channel.",
task_settings: {
input_type: "ingest",
},
});
console.log(response);
コンソール
POST _inference/text_embedding/my-cohere-endpoint
{
"input": "The sky above the port was the color of television tuned to a dead channel.",
"task_settings": {
"input_type": "ingest"
}
}
コンソール-結果
{
"text_embedding": [
{
"embedding": [
{
0.018569946,
-0.036895752,
0.01486969,
-0.0045204163,
-0.04385376,
0.0075950623,
0.04260254,
-0.004005432,
0.007865906,
0.030792236,
-0.050476074,
0.011795044,
-0.011642456,
-0.010070801,
(...)
},
(...)
]
}
]
}