パーセンタイルバケット集約

指定されたメトリックのすべてのバケットにわたってパーセンタイルを計算する兄弟パイプライン集約です。指定されたメトリックは数値でなければならず、兄弟集約はマルチバケット集約でなければなりません。

構文

percentiles_bucket 集約は、単独で次のようになります:

Js

  1. {
  2. "percentiles_bucket": {
  3. "buckets_path": "the_sum"
  4. }
  5. }


表 76. percentiles_bucket パラメータ

パラメータ名 説明 必須 デフォルト値
buckets_path パーセンタイルを求めるバケットへのパス(詳細については buckets_path 構文 を参照) 必須
gap_policy データにギャップが見つかった場合に適用するポリシー(詳細については データのギャップの処理 を参照) オプション skip
format 出力値のための DecimalFormat パターン。指定された場合、フォーマットされた値は集約の value_as_string プロパティに返されます オプション null
percents 計算するパーセンタイルのリスト オプション [ 1, 5, 25, 50, 75, 95, 99 ]
keyed ハッシュとして範囲を返すフラグ、キーと値のペアの配列ではなく オプション true

次のスニペットは、合計月次 sales バケットのパーセンタイルを計算します:

Python

  1. resp = client.search(
  2. index="sales",
  3. size=0,
  4. aggs={
  5. "sales_per_month": {
  6. "date_histogram": {
  7. "field": "date",
  8. "calendar_interval": "month"
  9. },
  10. "aggs": {
  11. "sales": {
  12. "sum": {
  13. "field": "price"
  14. }
  15. }
  16. }
  17. },
  18. "percentiles_monthly_sales": {
  19. "percentiles_bucket": {
  20. "buckets_path": "sales_per_month>sales",
  21. "percents": [
  22. 25,
  23. 50,
  24. 75
  25. ]
  26. }
  27. }
  28. },
  29. )
  30. print(resp)

Ruby

  1. response = client.search(
  2. index: 'sales',
  3. body: {
  4. size: 0,
  5. aggregations: {
  6. sales_per_month: {
  7. date_histogram: {
  8. field: 'date',
  9. calendar_interval: 'month'
  10. },
  11. aggregations: {
  12. sales: {
  13. sum: {
  14. field: 'price'
  15. }
  16. }
  17. }
  18. },
  19. percentiles_monthly_sales: {
  20. percentiles_bucket: {
  21. buckets_path: 'sales_per_month>sales',
  22. percents: [
  23. 25,
  24. 50,
  25. 75
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. )
  32. puts response

Js

  1. const response = await client.search({
  2. index: "sales",
  3. size: 0,
  4. aggs: {
  5. sales_per_month: {
  6. date_histogram: {
  7. field: "date",
  8. calendar_interval: "month",
  9. },
  10. aggs: {
  11. sales: {
  12. sum: {
  13. field: "price",
  14. },
  15. },
  16. },
  17. },
  18. percentiles_monthly_sales: {
  19. percentiles_bucket: {
  20. buckets_path: "sales_per_month>sales",
  21. percents: [25, 50, 75],
  22. },
  23. },
  24. },
  25. });
  26. console.log(response);

コンソール

  1. POST /sales/_search
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "sales_per_month": {
  6. "date_histogram": {
  7. "field": "date",
  8. "calendar_interval": "month"
  9. },
  10. "aggs": {
  11. "sales": {
  12. "sum": {
  13. "field": "price"
  14. }
  15. }
  16. }
  17. },
  18. "percentiles_monthly_sales": {
  19. "percentiles_bucket": {
  20. "buckets_path": "sales_per_month>sales",
  21. "percents": [ 25.0, 50.0, 75.0 ]
  22. }
  23. }
  24. }
  25. }
buckets_path は、このパーセンタイル_バケット集約に対して、sales 集約のパーセンタイルを計算したいことを指示します。
percents は、計算したいパーセンタイルを指定します。この場合、25パーセンタイル、50パーセンタイル、75パーセンタイルです。

次のような応答が返される場合があります:

コンソール-結果

  1. {
  2. "took": 11,
  3. "timed_out": false,
  4. "_shards": ...,
  5. "hits": ...,
  6. "aggregations": {
  7. "sales_per_month": {
  8. "buckets": [
  9. {
  10. "key_as_string": "2015/01/01 00:00:00",
  11. "key": 1420070400000,
  12. "doc_count": 3,
  13. "sales": {
  14. "value": 550.0
  15. }
  16. },
  17. {
  18. "key_as_string": "2015/02/01 00:00:00",
  19. "key": 1422748800000,
  20. "doc_count": 2,
  21. "sales": {
  22. "value": 60.0
  23. }
  24. },
  25. {
  26. "key_as_string": "2015/03/01 00:00:00",
  27. "key": 1425168000000,
  28. "doc_count": 2,
  29. "sales": {
  30. "value": 375.0
  31. }
  32. }
  33. ]
  34. },
  35. "percentiles_monthly_sales": {
  36. "values" : {
  37. "25.0": 375.0,
  38. "50.0": 375.0,
  39. "75.0": 550.0
  40. }
  41. }
  42. }
  43. }

パーセンタイルバケットの実装

パーセンタイルバケットは、要求されたパーセンタイルを超えない最も近い入力データポイントを返します。データポイント間の補間は行いません。

パーセンタイルは正確に計算され、近似ではありません(パーセンタイルメトリックとは異なります)。これは、実装がパーセンタイルを計算するためにデータのメモリ内のソートされたリストを維持し、その後データを破棄することを意味します。単一の percentiles_bucket で何百万ものデータポイントにわたってパーセンタイルを計算しようとすると、メモリ圧迫の問題が発生する可能性があります。