パーセンタイルバケット集約
指定されたメトリックのすべてのバケットにわたってパーセンタイルを計算する兄弟パイプライン集約です。指定されたメトリックは数値でなければならず、兄弟集約はマルチバケット集約でなければなりません。
構文
percentiles_bucket
集約は、単独で次のようになります:
Js
{
"percentiles_bucket": {
"buckets_path": "the_sum"
}
}
表 76. percentiles_bucket
パラメータ
パラメータ名 | 説明 | 必須 | デフォルト値 |
---|---|---|---|
buckets_path |
パーセンタイルを求めるバケットへのパス(詳細については buckets_path 構文 を参照) |
必須 | |
gap_policy |
データにギャップが見つかった場合に適用するポリシー(詳細については データのギャップの処理 を参照) | オプション | skip |
format |
出力値のための DecimalFormat パターン。指定された場合、フォーマットされた値は集約の value_as_string プロパティに返されます |
オプション | null |
percents |
計算するパーセンタイルのリスト | オプション | [ 1, 5, 25, 50, 75, 95, 99 ] |
keyed |
ハッシュとして範囲を返すフラグ、キーと値のペアの配列ではなく | オプション | true |
次のスニペットは、合計月次 sales
バケットのパーセンタイルを計算します:
Python
resp = client.search(
index="sales",
size=0,
aggs={
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"percentiles_monthly_sales": {
"percentiles_bucket": {
"buckets_path": "sales_per_month>sales",
"percents": [
25,
50,
75
]
}
}
},
)
print(resp)
Ruby
response = client.search(
index: 'sales',
body: {
size: 0,
aggregations: {
sales_per_month: {
date_histogram: {
field: 'date',
calendar_interval: 'month'
},
aggregations: {
sales: {
sum: {
field: 'price'
}
}
}
},
percentiles_monthly_sales: {
percentiles_bucket: {
buckets_path: 'sales_per_month>sales',
percents: [
25,
50,
75
]
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "sales",
size: 0,
aggs: {
sales_per_month: {
date_histogram: {
field: "date",
calendar_interval: "month",
},
aggs: {
sales: {
sum: {
field: "price",
},
},
},
},
percentiles_monthly_sales: {
percentiles_bucket: {
buckets_path: "sales_per_month>sales",
percents: [25, 50, 75],
},
},
},
});
console.log(response);
コンソール
POST /sales/_search
{
"size": 0,
"aggs": {
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"percentiles_monthly_sales": {
"percentiles_bucket": {
"buckets_path": "sales_per_month>sales",
"percents": [ 25.0, 50.0, 75.0 ]
}
}
}
}
buckets_path は、このパーセンタイル_バケット集約に対して、sales 集約のパーセンタイルを計算したいことを指示します。 |
|
percents は、計算したいパーセンタイルを指定します。この場合、25パーセンタイル、50パーセンタイル、75パーセンタイルです。 |
コンソール-結果
{
"took": 11,
"timed_out": false,
"_shards": ...,
"hits": ...,
"aggregations": {
"sales_per_month": {
"buckets": [
{
"key_as_string": "2015/01/01 00:00:00",
"key": 1420070400000,
"doc_count": 3,
"sales": {
"value": 550.0
}
},
{
"key_as_string": "2015/02/01 00:00:00",
"key": 1422748800000,
"doc_count": 2,
"sales": {
"value": 60.0
}
},
{
"key_as_string": "2015/03/01 00:00:00",
"key": 1425168000000,
"doc_count": 2,
"sales": {
"value": 375.0
}
}
]
},
"percentiles_monthly_sales": {
"values" : {
"25.0": 375.0,
"50.0": 375.0,
"75.0": 550.0
}
}
}
}
パーセンタイルバケットの実装
パーセンタイルバケットは、要求されたパーセンタイルを超えない最も近い入力データポイントを返します。データポイント間の補間は行いません。
パーセンタイルは正確に計算され、近似ではありません(パーセンタイルメトリックとは異なります)。これは、実装がパーセンタイルを計算するためにデータのメモリ内のソートされたリストを維持し、その後データを破棄することを意味します。単一の percentiles_bucket
で何百万ものデータポイントにわたってパーセンタイルを計算しようとすると、メモリ圧迫の問題が発生する可能性があります。