Elasticsearchにおける推論API設定
推論APIを使用するために設定を構成する必要はありません。各設定にはデフォルト値があります。
推論APIのログ設定
特定の失敗が発生した場合、ログメッセージが出力されます。再発する失敗の場合、ログのスロットラーは繰り返しメッセージがログに記録されるのを制限します。
xpack.inference.logging.reset_interval
- (Dynamic) 以前に記録されたメッセージの内部キャッシュをクリアするクリーンアップスレッドの間隔を指定します。デフォルトは1日です (
1d
)。 xpack.inference.logging.wait_duration
- (Dynamic) メッセージをログに記録した後、そのメッセージを再度ログに記録できるまでの待機時間を指定します。デフォルトは1時間です (
1h
)。
推論APIのHTTP設定
xpack.inference.http.max_response_size
- (Dynamic) HTTPレスポンスが許可される最大サイズ(バイト単位)を指定します。デフォルトは
50mb
で、最大設定可能値は100mb
です。 xpack.inference.http.max_total_connections
- (Dynamic) 内部接続プールがリースできる最大接続数を指定します。デフォルトは
50
です。 xpack.inference.http.max_route_connections
- (Dynamic) 単一のルートが内部接続プールからリースできる最大接続数を指定します。この設定が
xpack.inference.http.max_total_connections
以上の値に設定されている場合、単一のサードパーティサービスがすべての利用可能な接続をリースでき、他のサードパーティサービスは接続をリースできなくなります。デフォルトは20
です。 xpack.inference.http.connection_eviction_interval
- (Dynamic) 期限切れや古い接続を内部接続プールから削除するためにエビクションスレッドが実行される間隔を指定します。この時間値を減少させることで、複数のサードパーティサービスがプール内の利用可能な接続を争っている場合にスループットを改善できます。デフォルトは1分です (
1m
)。 xpack.inference.http.connection_eviction_max_idle_time
- (Dynamic) 接続がアイドルとしてマークされ、共有接続プールから閉じて削除される前に未使用の最大期間を指定します。デフォルトは1分です (
1m
)。 xpack.inference.http.request_executor.queue_capacity
- (Dynamic) 送信待ちのリクエストの内部キューのサイズを指定します。キューが満杯で、推論APIにリクエストが送信されると、そのリクエストは拒否されます。デフォルトは
2000
です。
推論APIのHTTPリトライ設定
サードパーティサービスが一時的な失敗コード(例えば、429)を返すと、リクエストは推論APIによって再試行されます。これらの設定はリトライの動作を管理します。リクエストが再試行されると、指数バックオフが使用されます。
xpack.inference.http.retry.initial_delay
- (Dynamic) リクエストを再試行する前の初期遅延を指定します。デフォルトは1秒です (
1s
)。 xpack.inference.http.retry.max_delay_bound
- (Dynamic) リクエストの最大遅延を指定します。デフォルトは5秒です (
5s
)。 xpack.inference.http.retry.timeout
- (Dynamic) リクエストが再試行できる最大時間を指定します。この時間を超えると、リクエストは再試行されず、失敗が返されます。デフォルトは30秒です (
30s
)。
推論APIの入力テキスト
特定のサードパーティサービス統合において、サービスがリクエスト入力が大きすぎることを示すエラーを返すと、入力は切り捨てられ、リクエストは再試行されます。これらの設定は切り捨ての方法を管理します。
xpack.inference.truncator.reduction_percentage
- (Dynamic) サードパーティサービスが長すぎることを示すエラーで応答した場合に、入力テキストを削減する割合を指定します。デフォルトは50パーセントです (
0.5
)。