時系列データストリームのダウンサンプリング
ダウンサンプリングは、時系列データのフットプリントを削減する方法を提供し、低い粒度で保存します。
メトリクスソリューションは、時間とともに増加する大量の時系列データを収集します。そのデータが古くなるにつれて、システムの現在の状態に対する関連性が低下します。ダウンサンプリングプロセスは、固定の時間間隔内のドキュメントを単一の要約ドキュメントにまとめます。各要約ドキュメントには、元のデータの統計的表現が含まれています:各メトリックのためのmin
、max
、sum
、およびvalue_count
。データストリームの時系列次元は変更されずに保存されます。
ダウンサンプリングは、実質的にデータの解像度と精度をストレージサイズと交換することを可能にします。データが古くなるにつれて、メトリクスデータのボリュームと関連コストを自動的に管理するために、インデックスライフサイクル管理(ILM)ポリシーに含めることができます。
詳細については、以下のセクションを確認してください:
仕組み
時系列は、特定のエンティティに対して時間をかけて取得された観察のシーケンスです。観察されたサンプルは、時系列次元が一定で、時系列メトリックが時間とともに変化する連続関数として表現できます。
Elasticsearchインデックスでは、各タイムスタンプに対して単一のドキュメントが作成され、不変の時系列次元とメトリック名、変化するメトリック値が含まれます。単一のタイムスタンプに対して、いくつかの時系列次元とメトリックが保存される場合があります。
最新かつ関連性の高いデータの場合、メトリックシリーズは通常、低いサンプリング時間間隔を持ち、高いデータ解像度を必要とするクエリに最適化されています。
図4. オリジナルメトリックシリーズ
ダウンサンプリングは、古い、あまり頻繁にアクセスされないデータに対して機能し、元の時系列を高いサンプリング間隔のデータストリームとそのデータの統計的表現に置き換えます。元のメトリックサンプルが例えば10秒ごとに取得されていた場合、データが古くなるにつれて、サンプルの粒度を時間単位または日単位に減らすことを選択できます。cold
のアーカイブデータの粒度を月単位またはそれ以下に減らすことを選択できます。
図5. ダウンサンプルされたメトリックシリーズ
時系列データのダウンサンプリングの実行
時系列インデックスをダウンサンプリングするには、ダウンサンプルAPIを使用し、fixed_interval
を希望する粒度のレベルに設定します:
Python
resp = client.indices.downsample(
index="my-time-series-index",
target_index="my-downsampled-time-series-index",
config={
"fixed_interval": "1d"
},
)
print(resp)
Ruby
response = client.indices.downsample(
index: 'my-time-series-index',
target_index: 'my-downsampled-time-series-index',
body: {
fixed_interval: '1d'
}
)
puts response
Js
const response = await client.indices.downsample({
index: "my-time-series-index",
target_index: "my-downsampled-time-series-index",
config: {
fixed_interval: "1d",
},
});
console.log(response);
コンソール
POST /my-time-series-index/_downsample/my-downsampled-time-series-index
{
"fixed_interval": "1d"
}
ILMの一部として時系列データをダウンサンプリングするには、ILMポリシーにダウンサンプルアクションを含め、fixed_interval
を希望する粒度のレベルに設定します:
Python
resp = client.ilm.put_lifecycle(
name="my_policy",
policy={
"phases": {
"warm": {
"actions": {
"downsample": {
"fixed_interval": "1h"
}
}
}
}
},
)
print(resp)
Ruby
response = client.ilm.put_lifecycle(
policy: 'my_policy',
body: {
policy: {
phases: {
warm: {
actions: {
downsample: {
fixed_interval: '1h'
}
}
}
}
}
}
)
puts response
Js
const response = await client.ilm.putLifecycle({
name: "my_policy",
policy: {
phases: {
warm: {
actions: {
downsample: {
fixed_interval: "1h",
},
},
},
},
},
});
console.log(response);
コンソール
PUT _ilm/policy/my_policy
{
"policy": {
"phases": {
"warm": {
"actions": {
"downsample" : {
"fixed_interval": "1h"
}
}
}
}
}
}
ダウンサンプルされたインデックスのクエリ
ダウンサンプルされたインデックスをクエリするには、_search
および_async_search
エンドポイントを使用できます。複数の生データおよびダウンサンプルされたインデックスを単一のリクエストでクエリでき、単一のリクエストには異なる粒度(異なるバケットの時間間隔)のダウンサンプルされたインデックスを含めることができます。つまり、15m
、1h
、1d
など、複数のダウンサンプリング間隔を持つダウンサンプルされたインデックスを含むデータストリームをクエリできます。
時間ベースのヒストグラム集約の結果は均一なバケットサイズであり、各ダウンサンプルされたインデックスはダウンサンプリング時間間隔を無視してデータを返します。例えば、date_histogram
集約を"fixed_interval": "1m"
でダウンサンプルされたインデックスで実行すると、クエリは分0のすべてのデータを含む1つのバケットを返し、その後59の空のバケットが続き、次の時間のために再びデータを含むバケットが返されます。
ダウンサンプルクエリに関する注意事項
ダウンサンプルされたインデックスをクエリする際に注意すべき点がいくつかあります:
- KibanaやElasticソリューションを通じてクエリを実行すると、ダウンサンプルされたインデックスがあることを通知することなく、通常の応答が返されます。
- 日付ヒストグラム集約では、
fixed_intervals
(カレンダー対応の間隔ではなく)のみがサポートされています。 - タイムゾーンのサポートには注意が必要です:
- 時間の倍数の間隔での日付ヒストグラムは、UTCで生成された値に基づいています。これは、+5:00や-3:00のように時間単位であるタイムゾーンにはうまく機能しますが、報告された時間バケットをオフセットする必要があります。例えば、ダウンサンプリングが時間ごとに集約される場合、タイムゾーン+5:30(インド)では
2020-01-01T10:30:00.000
ではなく2020-03-07T10:00:00.000
として報告されます。この場合、結果には時間バケットがシフトしていることを示すフィールドdownsampled_results_offset: true
が含まれます。15分のダウンサンプリング間隔を使用すると、シフトされたバケットの時間ごとの値を正しく計算できるため、これを回避できます。 - 日ごとの倍数の間隔での日付ヒストグラムも同様に影響を受けます。ダウンサンプリングが日ごとに集約される場合、ダウンサンプルされた値が生成されるときに各日の始まりは常にUTCで計算されるため、時間バケットをシフトする必要があります。例えば、タイムゾーン
America/New_York
の場合、2020-03-07T19:00:00.000
ではなく2020-03-07T00:00:00.000
として報告されます。この場合もフィールドdownsampled_results_offset: true
が追加されます。 - 夏時間やタイムゾーンに関する特異な点は、日付ヒストグラム集約のタイムゾーンに記載されているように、報告された結果に影響を与えます。さらに、日ごとの間隔でのダウンサンプリングは、夏時間の変更に関連する情報の追跡を妨げます。
- 時間の倍数の間隔での日付ヒストグラムは、UTCで生成された値に基づいています。これは、+5:00や-3:00のように時間単位であるタイムゾーンにはうまく機能しますが、報告された時間バケットをオフセットする必要があります。例えば、ダウンサンプリングが時間ごとに集約される場合、タイムゾーン+5:30(インド)では
制限と制約
ダウンサンプリングには以下の制限と制約が適用されます:
- 時系列データストリーム内のインデックスのみがサポートされています。
- データは時間次元のみに基づいてダウンサンプリングされます。他のすべての次元は、変更なしで新しいインデックスにコピーされます。
- データストリーム内では、ダウンサンプルされたインデックスが元のインデックスを置き換え、元のインデックスは削除されます。特定の時間期間に対しては、1つのインデックスのみが存在できます。
- ソースインデックスは、ダウンサンプリングプロセスが成功するために読み取り専用モードである必要があります。詳細については、手動でダウンサンプリングを実行の例を確認してください。
- 同じ期間のデータを何度もダウンサンプリングすること(ダウンサンプルされたインデックスのダウンサンプリング)はサポートされています。ダウンサンプリング間隔は、ダウンサンプルされたインデックスの間隔の倍数でなければなりません。
- ダウンサンプリングはILMアクションとして提供されます。ダウンサンプルを参照してください。
- 新しいダウンサンプルされたインデックスは、元のインデックスのデータティアに作成され、その設定(例えば、シャード数やレプリカ数)を継承します。
- 数値
gauge
およびcounter
メトリックタイプがサポートされています。 - ダウンサンプリング構成は、時系列データストリームのインデックスマッピングから抽出されます。唯一の追加の必須設定は、ダウンサンプリング
fixed_interval
です。
試してみる
ダウンサンプリングをテストするには、手動でダウンサンプリングを実行の例を試してみてください。
ダウンサンプリングは、ILMポリシーに簡単に追加できます。方法を学ぶには、ILMでダウンサンプリングを実行の例を試してみてください。