Geohex グリッド集約
複数のバケット集約で、geo_point
と geo_shape
の値をグリッドを表すバケットにグループ化します。結果として得られるグリッドはスパースであり、一致するデータを持つセルのみを含みます。各セルは H3 セルインデックス に対応し、H3Index 表現 を使用してラベル付けされます。
精度(ズーム)が地上のサイズにどのように相関するかについては、H3 解像度のセル面積の表 を参照してください。この集約の精度は 0 から 15 の間で、両端を含みます。
高精度のリクエストは、RAM と結果サイズの観点から非常に高価になる可能性があります。たとえば、精度 15 の最高精度の geohex は、1 平方メートル未満をカバーするセルを生成します。高精度のリクエストを小さな地理的領域に制限するためにフィルターを使用することをお勧めします。例については、高精度リクエスト を参照してください。
シンプルな低精度リクエスト
Python
resp = client.indices.create(
index="museums",
mappings={
"properties": {
"location": {
"type": "geo_point"
}
}
},
)
print(resp)
resp1 = client.bulk(
index="museums",
refresh=True,
operations=[
{
"index": {
"_id": 1
}
},
{
"location": "POINT (4.912350 52.374081)",
"name": "NEMO Science Museum"
},
{
"index": {
"_id": 2
}
},
{
"location": "POINT (4.901618 52.369219)",
"name": "Museum Het Rembrandthuis"
},
{
"index": {
"_id": 3
}
},
{
"location": "POINT (4.914722 52.371667)",
"name": "Nederlands Scheepvaartmuseum"
},
{
"index": {
"_id": 4
}
},
{
"location": "POINT (4.405200 51.222900)",
"name": "Letterenhuis"
},
{
"index": {
"_id": 5
}
},
{
"location": "POINT (2.336389 48.861111)",
"name": "Musée du Louvre"
},
{
"index": {
"_id": 6
}
},
{
"location": "POINT (2.327000 48.860000)",
"name": "Musée d'Orsay"
}
],
)
print(resp1)
resp2 = client.search(
index="museums",
size="0",
aggregations={
"large-grid": {
"geohex_grid": {
"field": "location",
"precision": 4
}
}
},
)
print(resp2)
Ruby
response = client.indices.create(
index: 'museums',
body: {
mappings: {
properties: {
location: {
type: 'geo_point'
}
}
}
}
)
puts response
response = client.bulk(
index: 'museums',
refresh: true,
body: [
{
index: {
_id: 1
}
},
{
location: 'POINT (4.912350 52.374081)',
name: 'NEMO Science Museum'
},
{
index: {
_id: 2
}
},
{
location: 'POINT (4.901618 52.369219)',
name: 'Museum Het Rembrandthuis'
},
{
index: {
_id: 3
}
},
{
location: 'POINT (4.914722 52.371667)',
name: 'Nederlands Scheepvaartmuseum'
},
{
index: {
_id: 4
}
},
{
location: 'POINT (4.405200 51.222900)',
name: 'Letterenhuis'
},
{
index: {
_id: 5
}
},
{
location: 'POINT (2.336389 48.861111)',
name: 'Musée du Louvre'
},
{
index: {
_id: 6
}
},
{
location: 'POINT (2.327000 48.860000)',
name: "Musée d'Orsay"
}
]
)
puts response
response = client.search(
index: 'museums',
size: 0,
body: {
aggregations: {
"large-grid": {
geohex_grid: {
field: 'location',
precision: 4
}
}
}
}
)
puts response
Js
const response = await client.indices.create({
index: "museums",
mappings: {
properties: {
location: {
type: "geo_point",
},
},
},
});
console.log(response);
const response1 = await client.bulk({
index: "museums",
refresh: "true",
operations: [
{
index: {
_id: 1,
},
},
{
location: "POINT (4.912350 52.374081)",
name: "NEMO Science Museum",
},
{
index: {
_id: 2,
},
},
{
location: "POINT (4.901618 52.369219)",
name: "Museum Het Rembrandthuis",
},
{
index: {
_id: 3,
},
},
{
location: "POINT (4.914722 52.371667)",
name: "Nederlands Scheepvaartmuseum",
},
{
index: {
_id: 4,
},
},
{
location: "POINT (4.405200 51.222900)",
name: "Letterenhuis",
},
{
index: {
_id: 5,
},
},
{
location: "POINT (2.336389 48.861111)",
name: "Musée du Louvre",
},
{
index: {
_id: 6,
},
},
{
location: "POINT (2.327000 48.860000)",
name: "Musée d'Orsay",
},
],
});
console.log(response1);
const response2 = await client.search({
index: "museums",
size: 0,
aggregations: {
"large-grid": {
geohex_grid: {
field: "location",
precision: 4,
},
},
},
});
console.log(response2);
コンソール
PUT /museums
{
"mappings": {
"properties": {
"location": {
"type": "geo_point"
}
}
}
}
POST /museums/_bulk?refresh
{"index":{"_id":1}}
{"location": "POINT (4.912350 52.374081)", "name": "NEMO Science Museum"}
{"index":{"_id":2}}
{"location": "POINT (4.901618 52.369219)", "name": "Museum Het Rembrandthuis"}
{"index":{"_id":3}}
{"location": "POINT (4.914722 52.371667)", "name": "Nederlands Scheepvaartmuseum"}
{"index":{"_id":4}}
{"location": "POINT (4.405200 51.222900)", "name": "Letterenhuis"}
{"index":{"_id":5}}
{"location": "POINT (2.336389 48.861111)", "name": "Musée du Louvre"}
{"index":{"_id":6}}
{"location": "POINT (2.327000 48.860000)", "name": "Musée d'Orsay"}
POST /museums/_search?size=0
{
"aggregations": {
"large-grid": {
"geohex_grid": {
"field": "location",
"precision": 4
}
}
}
}
コンソール-結果
{
...
"aggregations": {
"large-grid": {
"buckets": [
{
"key": "841969dffffffff",
"doc_count": 3
},
{
"key": "841fb47ffffffff",
"doc_count": 2
},
{
"key": "841fa4dffffffff",
"doc_count": 1
}
]
}
}
}
高精度リクエスト
詳細なバケットをリクエストする際(通常は「ズームイン」マップを表示するため)、geo_bounding_box のようなフィルターを適用して対象エリアを狭める必要があります。そうしないと、数百万のバケットが作成され、返される可能性があります。
Python
resp = client.search(
index="museums",
size="0",
aggregations={
"zoomed-in": {
"filter": {
"geo_bounding_box": {
"location": {
"top_left": "POINT (4.9 52.4)",
"bottom_right": "POINT (5.0 52.3)"
}
}
},
"aggregations": {
"zoom1": {
"geohex_grid": {
"field": "location",
"precision": 12
}
}
}
}
},
)
print(resp)
Js
const response = await client.search({
index: "museums",
size: 0,
aggregations: {
"zoomed-in": {
filter: {
geo_bounding_box: {
location: {
top_left: "POINT (4.9 52.4)",
bottom_right: "POINT (5.0 52.3)",
},
},
},
aggregations: {
zoom1: {
geohex_grid: {
field: "location",
precision: 12,
},
},
},
},
},
});
console.log(response);
コンソール
POST /museums/_search?size=0
{
"aggregations": {
"zoomed-in": {
"filter": {
"geo_bounding_box": {
"location": {
"top_left": "POINT (4.9 52.4)",
"bottom_right": "POINT (5.0 52.3)"
}
}
},
"aggregations": {
"zoom1": {
"geohex_grid": {
"field": "location",
"precision": 12
}
}
}
}
}
}
コンソール-結果
{
...
"aggregations": {
"zoomed-in": {
"doc_count": 3,
"zoom1": {
"buckets": [
{
"key": "8c1969c9b2617ff",
"doc_count": 1
},
{
"key": "8c1969526d753ff",
"doc_count": 1
},
{
"key": "8c1969526d26dff",
"doc_count": 1
}
]
}
}
}
}
追加のバウンディングボックスフィルタリングを伴うリクエスト
geohex_grid
集約は、提供された境界と交差するセルを考慮する bounds
パラメータをサポートしています。bounds
パラメータは、geo-bounding box クエリと同じ バウンディングボックス形式 を受け入れます。このバウンディングボックスは、集約前にポイントをフィルタリングするための追加の geo_bounding_box
クエリとともに、またはそれなしで使用できます。これは独立したバウンディングボックスであり、集約の文脈で定義された追加の geo_bounding_box
クエリと交差したり、等しい場合や、離れている場合があります。
Python
resp = client.search(
index="museums",
size="0",
aggregations={
"tiles-in-bounds": {
"geohex_grid": {
"field": "location",
"precision": 12,
"bounds": {
"top_left": "POINT (4.9 52.4)",
"bottom_right": "POINT (5.0 52.3)"
}
}
}
},
)
print(resp)
Js
const response = await client.search({
index: "museums",
size: 0,
aggregations: {
"tiles-in-bounds": {
geohex_grid: {
field: "location",
precision: 12,
bounds: {
top_left: "POINT (4.9 52.4)",
bottom_right: "POINT (5.0 52.3)",
},
},
},
},
});
console.log(response);
コンソール
POST /museums/_search?size=0
{
"aggregations": {
"tiles-in-bounds": {
"geohex_grid": {
"field": "location",
"precision": 12,
"bounds": {
"top_left": "POINT (4.9 52.4)",
"bottom_right": "POINT (5.0 52.3)"
}
}
}
}
}
コンソール-結果
{
...
"aggregations": {
"tiles-in-bounds": {
"buckets": [
{
"key": "8c1969c9b2617ff",
"doc_count": 1
},
{
"key": "8c1969526d753ff",
"doc_count": 1
},
{
"key": "8c1969526d26dff",
"doc_count": 1
}
]
}
}
}
geo_shape フィールドの集約
Geoshape フィールドの集約は、ポイントの集約とほぼ同様に機能します。2つの重要な違いがあります:
geo_point
データを集約する際、ポイントは大円によって定義されたエッジ内にある場合、六角形タイル内にあると見なされます。言い換えれば、計算は球面座標を使用して行われます。しかし、geo_shape
データを集約する際、形状は等角投影で直線として定義されたエッジ内にある場合、六角形内にあると見なされます。理由は、Elasticsearch と Lucene がインデックス作成および検索時に等角投影を使用してエッジを処理するためです。検索結果と集約結果が整合することを保証するために、集約でも等角投影を使用します。ほとんどのデータにとって、この違いは微妙であったり、気づかれないことがあります。しかし、低ズームレベル(低精度)では、特に赤道から遠く離れている場合、これは顕著になる可能性があります。たとえば、同じポイントデータがgeo_point
とgeo_shape
としてインデックスされている場合、低解像度で集約すると異なる結果が得られる可能性があります。geotile_grid
の場合と同様に、単一の形状が複数のタイルでカウントされることがあります。形状の任意の部分がそのタイルと交差する場合、その形状は一致する値のカウントに寄与します。以下はこれを示す画像です:
オプション
field | (必須、文字列) インデックスされた geo-point または geo-shape 値を含むフィールド。 マッピングは明示的に geo_point または geo_shape フィールドとして行う必要があります。フィールドが配列を含む場合、 geohex_grid はすべての配列値を集約します。 |
precision | (オプション、整数) 結果内のセル/バケットを定義するために使用されるキーの整数ズーム。デフォルトは 6 です。[0 ,15 ] の外の値は拒否されます。 |
bounds | (オプション、オブジェクト) 各バケット内の geo-points または geo-shapes をフィルタリングするために使用されるバウンディングボックス。 geo-bounding box query と同じバウンディングボックス形式を受け入れます。 |
size | (オプション、整数) 返されるバケットの最大数。デフォルトは 10,000 です。 結果がトリミングされる場合、バケットは含まれるドキュメントの量に基づいて優先されます。 |
shard_size | (オプション、整数) 各シャードから返されるバケットの数。デフォルトは max(10,(size x number-of-shards)) で、最終結果のトップセルのより正確なカウントを可能にします。各シャードは異なるトップ結果の順序を持つ可能性があるため、ここで大きな数を使用すると不正確なカウントのリスクが減りますが、パフォーマンスコストが発生します。 |