バケット範囲フィールドの微妙な違い
ドキュメントは、それが入る各バケットでカウントされます
範囲は複数の値を表すため、範囲フィールドに対してバケット集計を実行すると、同じドキュメントが複数のバケットに入る可能性があります。これにより、バケットのカウントの合計が一致したドキュメントの数を超えるなど、驚くべき動作が発生することがあります。たとえば、次のインデックスを考えてみてください:
Python
resp = client.indices.create(
index="range_index",
settings={
"number_of_shards": 2
},
mappings={
"properties": {
"expected_attendees": {
"type": "integer_range"
},
"time_frame": {
"type": "date_range",
"format": "yyyy-MM-dd||epoch_millis"
}
}
},
)
print(resp)
resp1 = client.index(
index="range_index",
id="1",
refresh=True,
document={
"expected_attendees": {
"gte": 10,
"lte": 20
},
"time_frame": {
"gte": "2019-10-28",
"lte": "2019-11-04"
}
},
)
print(resp1)
Ruby
response = client.indices.create(
index: 'range_index',
body: {
settings: {
number_of_shards: 2
},
mappings: {
properties: {
expected_attendees: {
type: 'integer_range'
},
time_frame: {
type: 'date_range',
format: 'yyyy-MM-dd||epoch_millis'
}
}
}
}
)
puts response
response = client.index(
index: 'range_index',
id: 1,
refresh: true,
body: {
expected_attendees: {
gte: 10,
lte: 20
},
time_frame: {
gte: '2019-10-28',
lte: '2019-11-04'
}
}
)
puts response
Js
const response = await client.indices.create({
index: "range_index",
settings: {
number_of_shards: 2,
},
mappings: {
properties: {
expected_attendees: {
type: "integer_range",
},
time_frame: {
type: "date_range",
format: "yyyy-MM-dd||epoch_millis",
},
},
},
});
console.log(response);
const response1 = await client.index({
index: "range_index",
id: 1,
refresh: "true",
document: {
expected_attendees: {
gte: 10,
lte: 20,
},
time_frame: {
gte: "2019-10-28",
lte: "2019-11-04",
},
},
});
console.log(response1);
コンソール
PUT range_index
{
"settings": {
"number_of_shards": 2
},
"mappings": {
"properties": {
"expected_attendees": {
"type": "integer_range"
},
"time_frame": {
"type": "date_range",
"format": "yyyy-MM-dd||epoch_millis"
}
}
}
}
PUT range_index/_doc/1?refresh
{
"expected_attendees" : {
"gte" : 10,
"lte" : 20
},
"time_frame" : {
"gte" : "2019-10-28",
"lte" : "2019-11-04"
}
}
次の集計では範囲が間隔よりも広いため、ドキュメントは複数のバケットに入ります。
Python
resp = client.search(
index="range_index",
size="0",
aggs={
"range_histo": {
"histogram": {
"field": "expected_attendees",
"interval": 5
}
}
},
)
print(resp)
Ruby
response = client.search(
index: 'range_index',
size: 0,
body: {
aggregations: {
range_histo: {
histogram: {
field: 'expected_attendees',
interval: 5
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "range_index",
size: 0,
aggs: {
range_histo: {
histogram: {
field: "expected_attendees",
interval: 5,
},
},
},
});
console.log(response);
コンソール
POST /range_index/_search?size=0
{
"aggs": {
"range_histo": {
"histogram": {
"field": "expected_attendees",
"interval": 5
}
}
}
}
間隔が5
(オフセットはデフォルトで0
)であるため、バケット10
、15
、および20
が期待されます。私たちの範囲ドキュメントは、これらの3つのバケットすべてに入ります。
コンソール-結果
{
...
"aggregations" : {
"range_histo" : {
"buckets" : [
{
"key" : 10.0,
"doc_count" : 1
},
{
"key" : 15.0,
"doc_count" : 1
},
{
"key" : 20.0,
"doc_count" : 1
}
]
}
}
}
ドキュメントはバケット内に部分的に存在することはできません。たとえば、上記のドキュメントは、上記の3つのバケットのそれぞれで三分の一としてカウントされることはありません。この例では、ドキュメントの範囲が複数のバケットに入ったため、そのドキュメントの完全な値も各バケットのサブ集計でカウントされます。
クエリの境界は集計フィルターではありません
集計されているフィールドでクエリを使用してフィルタリングすると、別の予期しない動作が発生する可能性があります。この場合、ドキュメントはクエリに一致する可能性がありますが、範囲の一方または両方の端点がクエリの外にあることがあります。上記のドキュメントに対する次の集計を考えてみてください:
Python
resp = client.search(
index="range_index",
size="0",
query={
"range": {
"time_frame": {
"gte": "2019-11-01",
"format": "yyyy-MM-dd"
}
}
},
aggs={
"november_data": {
"date_histogram": {
"field": "time_frame",
"calendar_interval": "day",
"format": "yyyy-MM-dd"
}
}
},
)
print(resp)
Ruby
response = client.search(
index: 'range_index',
size: 0,
body: {
query: {
range: {
time_frame: {
gte: '2019-11-01',
format: 'yyyy-MM-dd'
}
}
},
aggregations: {
november_data: {
date_histogram: {
field: 'time_frame',
calendar_interval: 'day',
format: 'yyyy-MM-dd'
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "range_index",
size: 0,
query: {
range: {
time_frame: {
gte: "2019-11-01",
format: "yyyy-MM-dd",
},
},
},
aggs: {
november_data: {
date_histogram: {
field: "time_frame",
calendar_interval: "day",
format: "yyyy-MM-dd",
},
},
},
});
console.log(response);
コンソール
POST /range_index/_search?size=0
{
"query": {
"range": {
"time_frame": {
"gte": "2019-11-01",
"format": "yyyy-MM-dd"
}
}
},
"aggs": {
"november_data": {
"date_histogram": {
"field": "time_frame",
"calendar_interval": "day",
"format": "yyyy-MM-dd"
}
}
}
}
クエリが11月の日のみを考慮しているにもかかわらず、集計は8つのバケット(10月に4つ、11月に4つ)を生成します。これは、集計がすべての一致したドキュメントの範囲に対して計算されるためです。
コンソール-結果
{
...
"aggregations" : {
"november_data" : {
"buckets" : [
{
"key_as_string" : "2019-10-28",
"key" : 1572220800000,
"doc_count" : 1
},
{
"key_as_string" : "2019-10-29",
"key" : 1572307200000,
"doc_count" : 1
},
{
"key_as_string" : "2019-10-30",
"key" : 1572393600000,
"doc_count" : 1
},
{
"key_as_string" : "2019-10-31",
"key" : 1572480000000,
"doc_count" : 1
},
{
"key_as_string" : "2019-11-01",
"key" : 1572566400000,
"doc_count" : 1
},
{
"key_as_string" : "2019-11-02",
"key" : 1572652800000,
"doc_count" : 1
},
{
"key_as_string" : "2019-11-03",
"key" : 1572739200000,
"doc_count" : 1
},
{
"key_as_string" : "2019-11-04",
"key" : 1572825600000,
"doc_count" : 1
}
]
}
}
}
使用ケースによっては、CONTAINS
クエリが、クエリされた範囲に完全に含まれるドキュメントのみに制限することがあります。この例では、1つのドキュメントは含まれず、集計は空になります。集計後にバケットをフィルタリングすることもオプションであり、ドキュメントがカウントされるべきであるが、範囲外のデータは安全に無視できる使用ケースに適しています。