_doc_count フィールド

バケット集約は常に doc_count というフィールドを返し、各バケットで集約され、分割されたドキュメントの数を示します。 doc_count の値の計算は非常に簡単です。各バケットで収集されたドキュメントごとに doc_count が 1 増加します。

この単純なアプローチは、個々のドキュメントに対する集約を計算する際には効果的ですが、事前に集約されたデータ(histogramaggregate_metric_double フィールドなど)を格納するドキュメントを正確に表現することには失敗します。なぜなら、1 つの要約フィールドが複数のドキュメントを表す可能性があるからです。

事前に集約されたデータを扱う際にドキュメントの数を正しく計算できるように、_doc_count というメタデータフィールドタイプを導入しました。 _doc_count は常に、単一の要約フィールドに集約されたドキュメントの数を表す正の整数でなければなりません。

フィールド _doc_count がドキュメントに追加されると、すべてのバケット集約はその値を尊重し、バケット doc_count をフィールドの値だけ増加させます。ドキュメントに _doc_count フィールドが含まれていない場合、_doc_count = 1 はデフォルトで暗黙的に設定されます。

  • _doc_count フィールドは、ドキュメントごとに単一の正の整数のみを格納できます。ネストされた配列は許可されていません。
  • ドキュメントに _doc_count フィールドが含まれていない場合、集約器は 1 増加します。これはデフォルトの動作です。

次の create index API リクエストは、次のフィールドマッピングを持つ新しいインデックスを作成します:

  • my_histogram、パーセンタイルデータを格納するために使用される histogram フィールド
  • my_text、ヒストグラムのタイトルを格納するために使用される keyword フィールド

Python

  1. resp = client.indices.create(
  2. index="my_index",
  3. mappings={
  4. "properties": {
  5. "my_histogram": {
  6. "type": "histogram"
  7. },
  8. "my_text": {
  9. "type": "keyword"
  10. }
  11. }
  12. },
  13. )
  14. print(resp)

Ruby

  1. response = client.indices.create(
  2. index: 'my_index',
  3. body: {
  4. mappings: {
  5. properties: {
  6. my_histogram: {
  7. type: 'histogram'
  8. },
  9. my_text: {
  10. type: 'keyword'
  11. }
  12. }
  13. }
  14. }
  15. )
  16. puts response

Js

  1. const response = await client.indices.create({
  2. index: "my_index",
  3. mappings: {
  4. properties: {
  5. my_histogram: {
  6. type: "histogram",
  7. },
  8. my_text: {
  9. type: "keyword",
  10. },
  11. },
  12. },
  13. });
  14. console.log(response);

コンソール

  1. PUT my_index
  2. {
  3. "mappings" : {
  4. "properties" : {
  5. "my_histogram" : {
  6. "type" : "histogram"
  7. },
  8. "my_text" : {
  9. "type" : "keyword"
  10. }
  11. }
  12. }
  13. }

次の index API リクエストは、2 つのヒストグラムのために事前に集約されたデータを格納します: histogram_1histogram_2

Python

  1. resp = client.index(
  2. index="my_index",
  3. id="1",
  4. document={
  5. "my_text": "histogram_1",
  6. "my_histogram": {
  7. "values": [
  8. 0.1,
  9. 0.2,
  10. 0.3,
  11. 0.4,
  12. 0.5
  13. ],
  14. "counts": [
  15. 3,
  16. 7,
  17. 23,
  18. 12,
  19. 6
  20. ]
  21. },
  22. "_doc_count": 45
  23. },
  24. )
  25. print(resp)
  26. resp1 = client.index(
  27. index="my_index",
  28. id="2",
  29. document={
  30. "my_text": "histogram_2",
  31. "my_histogram": {
  32. "values": [
  33. 0.1,
  34. 0.25,
  35. 0.35,
  36. 0.4,
  37. 0.45,
  38. 0.5
  39. ],
  40. "counts": [
  41. 8,
  42. 17,
  43. 8,
  44. 7,
  45. 6,
  46. 2
  47. ]
  48. },
  49. "_doc_count": 62
  50. },
  51. )
  52. print(resp1)

Ruby

  1. response = client.index(
  2. index: 'my_index',
  3. id: 1,
  4. body: {
  5. my_text: 'histogram_1',
  6. my_histogram: {
  7. values: [
  8. 0.1,
  9. 0.2,
  10. 0.3,
  11. 0.4,
  12. 0.5
  13. ],
  14. counts: [
  15. 3,
  16. 7,
  17. 23,
  18. 12,
  19. 6
  20. ]
  21. },
  22. _doc_count: 45
  23. }
  24. )
  25. puts response
  26. response = client.index(
  27. index: 'my_index',
  28. id: 2,
  29. body: {
  30. my_text: 'histogram_2',
  31. my_histogram: {
  32. values: [
  33. 0.1,
  34. 0.25,
  35. 0.35,
  36. 0.4,
  37. 0.45,
  38. 0.5
  39. ],
  40. counts: [
  41. 8,
  42. 17,
  43. 8,
  44. 7,
  45. 6,
  46. 2
  47. ]
  48. },
  49. _doc_count: 62
  50. }
  51. )
  52. puts response

Js

  1. const response = await client.index({
  2. index: "my_index",
  3. id: 1,
  4. document: {
  5. my_text: "histogram_1",
  6. my_histogram: {
  7. values: [0.1, 0.2, 0.3, 0.4, 0.5],
  8. counts: [3, 7, 23, 12, 6],
  9. },
  10. _doc_count: 45,
  11. },
  12. });
  13. console.log(response);
  14. const response1 = await client.index({
  15. index: "my_index",
  16. id: 2,
  17. document: {
  18. my_text: "histogram_2",
  19. my_histogram: {
  20. values: [0.1, 0.25, 0.35, 0.4, 0.45, 0.5],
  21. counts: [8, 17, 8, 7, 6, 2],
  22. },
  23. _doc_count: 62,
  24. },
  25. });
  26. console.log(response1);

コンソール

  1. PUT my_index/_doc/1
  2. {
  3. "my_text" : "histogram_1",
  4. "my_histogram" : {
  5. "values" : [0.1, 0.2, 0.3, 0.4, 0.5],
  6. "counts" : [3, 7, 23, 12, 6]
  7. },
  8. "_doc_count": 45
  9. }
  10. PUT my_index/_doc/2
  11. {
  12. "my_text" : "histogram_2",
  13. "my_histogram" : {
  14. "values" : [0.1, 0.25, 0.35, 0.4, 0.45, 0.5],
  15. "counts" : [8, 17, 8, 7, 6, 2]
  16. },
  17. "_doc_count": 62
  18. }
フィールド _doc_count は、各ヒストグラムを生成するために集約されたドキュメントの数を格納する正の整数でなければなりません。

次の terms aggregationmy_index に対して実行すると:

Python

  1. resp = client.search(
  2. aggs={
  3. "histogram_titles": {
  4. "terms": {
  5. "field": "my_text"
  6. }
  7. }
  8. },
  9. )
  10. print(resp)

Ruby

  1. response = client.search(
  2. body: {
  3. aggregations: {
  4. histogram_titles: {
  5. terms: {
  6. field: 'my_text'
  7. }
  8. }
  9. }
  10. }
  11. )
  12. puts response

Js

  1. const response = await client.search({
  2. aggs: {
  3. histogram_titles: {
  4. terms: {
  5. field: "my_text",
  6. },
  7. },
  8. },
  9. });
  10. console.log(response);

コンソール

  1. GET /_search
  2. {
  3. "aggs" : {
  4. "histogram_titles" : {
  5. "terms" : { "field" : "my_text" }
  6. }
  7. }
  8. }

次の応答が得られます:

コンソール-結果

  1. {
  2. ...
  3. "aggregations" : {
  4. "histogram_titles" : {
  5. "doc_count_error_upper_bound": 0,
  6. "sum_other_doc_count": 0,
  7. "buckets" : [
  8. {
  9. "key" : "histogram_2",
  10. "doc_count" : 62
  11. },
  12. {
  13. "key" : "histogram_1",
  14. "doc_count" : 45
  15. }
  16. ]
  17. }
  18. }
  19. }