パイプライン集約
パイプライン集約は、ドキュメントセットからではなく、他の集約から生成された出力に基づいて動作し、出力ツリーに情報を追加します。さまざまなタイプのパイプライン集約があり、それぞれが他の集約から異なる情報を計算しますが、これらのタイプは2つのファミリーに分けることができます:
- 親
- 親集約の出力を提供され、新しいバケットや既存のバケットに追加する新しい集約を計算できるパイプライン集約のファミリー。
- 兄弟
- 兄弟集約の出力を提供され、兄弟集約と同じレベルにある新しい集約を計算できるパイプライン集約。
パイプライン集約は、buckets_path
パラメータを使用して、計算に必要な集約を参照できます。このパラメータは、必要なメトリックへのパスを示します。これらのパスを定義するための構文は、以下のbuckets_path
構文セクションにあります。
パイプライン集約はサブ集約を持つことはできませんが、タイプによってはbuckets_path
で別のパイプラインを参照でき、パイプライン集約を連鎖させることができます。たとえば、2つの導関数を連鎖させて2回目の導関数(すなわち、導関数の導関数)を計算できます。
パイプライン集約は出力にのみ追加するため、パイプライン集約を連鎖させると、各パイプライン集約の出力が最終出力に含まれます。
バケットパス構文
ほとんどのパイプライン集約は、他の集約を入力として必要とします。入力集約は、特定の形式に従うbuckets_path
パラメータを介して定義されます。
Ebnf
AGG_SEPARATOR = `>` ;
METRIC_SEPARATOR = `.` ;
AGG_NAME = <the name of the aggregation> ;
METRIC = <the name of the metric (in case of multi-value metrics aggregation)> ;
MULTIBUCKET_KEY = `[<KEY_NAME>]`
PATH = <AGG_NAME><MULTIBUCKET_KEY>? (<AGG_SEPARATOR>, <AGG_NAME> )* ( <METRIC_SEPARATOR>, <METRIC> ) ;
たとえば、パス"my_bucket>my_stats.avg"
は、"my_bucket"
バケット集約に含まれる"my_stats"
メトリックのavg
値にパスします。
以下は他のいくつかの例です:
multi_bucket["foo"]>single_bucket>multi_metric.avg
は、"multi_bucket"
マルチバケット集約の"foo"
バケット内の単一バケット"single_bucket"
の下の"multi_metric"
集約のavg
メトリックに行きます。agg1["foo"]._count
は、マルチバケット集約"multi_bucket"
の"foo"
バケットの_count
メトリックを取得します。
パスはパイプライン集約の位置から相対的であり、絶対パスではなく、パスは集約ツリーを「上」に戻ることはできません。たとえば、この導関数はdate_histogramの内部に埋め込まれており、「兄弟」メトリック"the_sum"
を参照しています:
Python
resp = client.search(
aggs={
"my_date_histo": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"the_sum": {
"sum": {
"field": "lemmings"
}
},
"the_deriv": {
"derivative": {
"buckets_path": "the_sum"
}
}
}
}
},
)
print(resp)
Ruby
response = client.search(
body: {
aggregations: {
my_date_histo: {
date_histogram: {
field: 'timestamp',
calendar_interval: 'day'
},
aggregations: {
the_sum: {
sum: {
field: 'lemmings'
}
},
the_deriv: {
derivative: {
buckets_path: 'the_sum'
}
}
}
}
}
}
)
puts response
Js
const response = await client.search({
aggs: {
my_date_histo: {
date_histogram: {
field: "timestamp",
calendar_interval: "day",
},
aggs: {
the_sum: {
sum: {
field: "lemmings",
},
},
the_deriv: {
derivative: {
buckets_path: "the_sum",
},
},
},
},
},
});
console.log(response);
コンソール
POST /_search
{
"aggs": {
"my_date_histo": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"the_sum": {
"sum": { "field": "lemmings" }
},
"the_deriv": {
"derivative": { "buckets_path": "the_sum" }
}
}
}
}
}
メトリックは"the_sum" と呼ばれます |
|
buckets_path は相対パス"the_sum" を介してメトリックを参照します |
#### Python
``````python
resp = client.search(
aggs={
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"max_monthly_sales": {
"max_bucket": {
"buckets_path": "sales_per_month>sales"
}
}
},
)
print(resp)
`
Ruby
response = client.search(
body: {
aggregations: {
sales_per_month: {
date_histogram: {
field: 'date',
calendar_interval: 'month'
},
aggregations: {
sales: {
sum: {
field: 'price'
}
}
}
},
max_monthly_sales: {
max_bucket: {
buckets_path: 'sales_per_month>sales'
}
}
}
}
)
puts response
Js
const response = await client.search({
aggs: {
sales_per_month: {
date_histogram: {
field: "date",
calendar_interval: "month",
},
aggs: {
sales: {
sum: {
field: "price",
},
},
},
},
max_monthly_sales: {
max_bucket: {
buckets_path: "sales_per_month>sales",
},
},
},
});
console.log(response);
コンソール
POST /_search
{
"aggs": {
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"max_monthly_sales": {
"max_bucket": {
"buckets_path": "sales_per_month>sales"
}
}
}
}
buckets_path は、このmax_bucket集約に対して、sales_per_month 日付ヒストグラム内のsales 集約の最大値を取得したいことを指示します。 |
兄弟パイプラインaggがterms
集約のようなマルチバケット集約を参照する場合、特定のキーを選択するオプションもあります。たとえば、bucket_script
は、計算を実行するために2つの特定のバケット(それぞれのバケットキーを介して)を選択できます:
Python
resp = client.search(
aggs={
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sale_type": {
"terms": {
"field": "type"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"hat_vs_bag_ratio": {
"bucket_script": {
"buckets_path": {
"hats": "sale_type['hat']>sales",
"bags": "sale_type['bag']>sales"
},
"script": "params.hats / params.bags"
}
}
}
}
},
)
print(resp)
Ruby
response = client.search(
body: {
aggregations: {
sales_per_month: {
date_histogram: {
field: 'date',
calendar_interval: 'month'
},
aggregations: {
sale_type: {
terms: {
field: 'type'
},
aggregations: {
sales: {
sum: {
field: 'price'
}
}
}
},
hat_vs_bag_ratio: {
bucket_script: {
buckets_path: {
hats: "sale_type['hat']>sales",
bags: "sale_type['bag']>sales"
},
script: 'params.hats / params.bags'
}
}
}
}
}
}
)
puts response
Js
const response = await client.search({
aggs: {
sales_per_month: {
date_histogram: {
field: "date",
calendar_interval: "month",
},
aggs: {
sale_type: {
terms: {
field: "type",
},
aggs: {
sales: {
sum: {
field: "price",
},
},
},
},
hat_vs_bag_ratio: {
bucket_script: {
buckets_path: {
hats: "sale_type['hat']>sales",
bags: "sale_type['bag']>sales",
},
script: "params.hats / params.bags",
},
},
},
},
},
});
console.log(response);
コンソール
POST /_search
{
"aggs": {
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sale_type": {
"terms": {
"field": "type"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"hat_vs_bag_ratio": {
"bucket_script": {
"buckets_path": {
"hats": "sale_type['hat']>sales",
"bags": "sale_type['bag']>sales"
},
"script": "params.hats / params.bags"
}
}
}
}
}
}
buckets_path は、スクリプトで特に使用するために帽子とバッグのバケット(['hat'] /['bag']` を介して)を選択します、代わりに sale_type 集約からすべてのバケットを取得するのではなく |
特別なパス
メトリックへのパスの代わりに、buckets_path
は特別な"_count"
パスを使用できます。これは、パイプライン集約にドキュメント数を入力として使用するよう指示します。たとえば、導関数は特定のメトリックの代わりに各バケットのドキュメント数に基づいて計算できます:
Python
resp = client.search(
aggs={
"my_date_histo": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"the_deriv": {
"derivative": {
"buckets_path": "_count"
}
}
}
}
},
)
print(resp)
Ruby
response = client.search(
body: {
aggregations: {
my_date_histo: {
date_histogram: {
field: 'timestamp',
calendar_interval: 'day'
},
aggregations: {
the_deriv: {
derivative: {
buckets_path: '_count'
}
}
}
}
}
}
)
puts response
Js
const response = await client.search({
aggs: {
my_date_histo: {
date_histogram: {
field: "timestamp",
calendar_interval: "day",
},
aggs: {
the_deriv: {
derivative: {
buckets_path: "_count",
},
},
},
},
},
});
console.log(response);
コンソール
POST /_search
{
"aggs": {
"my_date_histo": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"the_deriv": {
"derivative": { "buckets_path": "_count" }
}
}
}
}
}
メトリック名の代わりに_count を使用することで、ヒストグラム内のドキュメント数の導関数を計算できます |
#### Python
``````python
resp = client.search(
index="sales",
size=0,
aggs={
"histo": {
"date_histogram": {
"field": "date",
"calendar_interval": "day"
},
"aggs": {
"categories": {
"terms": {
"field": "category"
}
},
"min_bucket_selector": {
"bucket_selector": {
"buckets_path": {
"count": "categories._bucket_count"
},
"script": {
"source": "params.count != 0"
}
}
}
}
}
},
)
print(resp)
`
Ruby
response = client.search(
index: 'sales',
body: {
size: 0,
aggregations: {
histo: {
date_histogram: {
field: 'date',
calendar_interval: 'day'
},
aggregations: {
categories: {
terms: {
field: 'category'
}
},
min_bucket_selector: {
bucket_selector: {
buckets_path: {
count: 'categories._bucket_count'
},
script: {
source: 'params.count != 0'
}
}
}
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "sales",
size: 0,
aggs: {
histo: {
date_histogram: {
field: "date",
calendar_interval: "day",
},
aggs: {
categories: {
terms: {
field: "category",
},
},
min_bucket_selector: {
bucket_selector: {
buckets_path: {
count: "categories._bucket_count",
},
script: {
source: "params.count != 0",
},
},
},
},
},
},
});
console.log(response);
コンソール
POST /sales/_search
{
"size": 0,
"aggs": {
"histo": {
"date_histogram": {
"field": "date",
"calendar_interval": "day"
},
"aggs": {
"categories": {
"terms": {
"field": "category"
}
},
"min_bucket_selector": {
"bucket_selector": {
"buckets_path": {
"count": "categories._bucket_count"
},
"script": {
"source": "params.count != 0"
}
}
}
}
}
}
}
メトリック名の代わりに_bucket_count を使用することで、categories 集約のためにバケットが含まれていないhisto バケットをフィルタリングできます |
集約名のドットの取り扱い
ドットを含む集約やメトリックに対処するために、代替構文がサポートされています。たとえば、99.9
th パーセンタイル。このメトリックは次のように参照される場合があります:
Js
"buckets_path": "my_percentile[99.9]"
データのギャップの取り扱い
現実世界のデータはしばしばノイズが多く、時にはギャップ—データが単に存在しない場所を含むことがあります。これはさまざまな理由で発生する可能性があり、最も一般的な理由は次のとおりです:
- バケットに入るドキュメントが必要なフィールドを含まない
- 1つ以上のバケットに対してクエリに一致するドキュメントがない
- 計算されているメトリックが値を生成できない、他の依存バケットが値を欠いているためです。一部のパイプライン集約には、満たすべき特定の要件があります(例:導関数は前の値がないため最初の値のメトリックを計算できない、HoltWinters移動平均は計算を開始するために「ウォームアップ」データが必要など)。
ギャップポリシーは、「ギャップ」または欠落データが発生したときにパイプライン集約に望ましい動作を通知するメカニズムです。すべてのパイプライン集約はgap_policy
パラメータを受け入れます。現在、選択できるギャップポリシーは2つあります:
- スキップ
- このオプションは、欠落データをバケットが存在しないかのように扱います。バケットをスキップし、次に利用可能な値を使用して計算を続けます。
- ゼロを挿入
- このオプションは、欠落値をゼロ(
0
)で置き換え、パイプライン集約計算は通常通り進行します。 - 値を保持
- このオプションはスキップに似ていますが、メトリックが非null、非NaNの値を提供する場合はこの値が使用され、それ以外の場合は空のバケットがスキップされます。