隣接行列の集約
隣接行列の形式を返すバケット集約[https://en.wikipedia.org/wiki/Adjacency_matrix]。リクエストは、`````filters`````集約リクエストに似た名前付きフィルター式のコレクションを提供します。レスポンスの各バケットは、交差するフィルターの行列内の非空のセルを表します。
| | A | B | C |
| :-- | :-- | :-- | :-- |
| **A** | A | A&B | A&C |
| **B** | | B | B&C |
| **C** | | | C |
交差するバケット(例: `````A&C`````)は、デフォルトの区切り文字`````&`````を使用して2つのフィルター名の組み合わせでラベル付けされます。レスポンスには`````C&A`````バケットは含まれません。なぜなら、これは`````A&C`````と同じドキュメントのセットになるからです。行列は*対称*であると言われているため、半分だけを返します。これを行うために、フィルター名の文字列をソートし、常にペアのうちの最小のものを区切りの左側の値として使用します。
## 例
次の`````interactions`````集約は、`````adjacency_matrix`````を使用して、どのグループの個人がメールを交換したかを決定します。
#### Python
``````python
resp = client.bulk(
index="emails",
refresh=True,
operations=[
{
"index": {
"_id": 1
}
},
{
"accounts": [
"hillary",
"sidney"
]
},
{
"index": {
"_id": 2
}
},
{
"accounts": [
"hillary",
"donald"
]
},
{
"index": {
"_id": 3
}
},
{
"accounts": [
"vladimir",
"donald"
]
}
],
)
print(resp)
resp1 = client.search(
index="emails",
size=0,
aggs={
"interactions": {
"adjacency_matrix": {
"filters": {
"grpA": {
"terms": {
"accounts": [
"hillary",
"sidney"
]
}
},
"grpB": {
"terms": {
"accounts": [
"donald",
"mitt"
]
}
},
"grpC": {
"terms": {
"accounts": [
"vladimir",
"nigel"
]
}
}
}
}
}
},
)
print(resp1)
`
Ruby
response = client.bulk(
index: 'emails',
refresh: true,
body: [
{
index: {
_id: 1
}
},
{
accounts: [
'hillary',
'sidney'
]
},
{
index: {
_id: 2
}
},
{
accounts: [
'hillary',
'donald'
]
},
{
index: {
_id: 3
}
},
{
accounts: [
'vladimir',
'donald'
]
}
]
)
puts response
response = client.search(
index: 'emails',
body: {
size: 0,
aggregations: {
interactions: {
adjacency_matrix: {
filters: {
"grpA": {
terms: {
accounts: [
'hillary',
'sidney'
]
}
},
"grpB": {
terms: {
accounts: [
'donald',
'mitt'
]
}
},
"grpC": {
terms: {
accounts: [
'vladimir',
'nigel'
]
}
}
}
}
}
}
}
)
puts response
Js
const response = await client.bulk({
index: "emails",
refresh: "true",
operations: [
{
index: {
_id: 1,
},
},
{
accounts: ["hillary", "sidney"],
},
{
index: {
_id: 2,
},
},
{
accounts: ["hillary", "donald"],
},
{
index: {
_id: 3,
},
},
{
accounts: ["vladimir", "donald"],
},
],
});
console.log(response);
const response1 = await client.search({
index: "emails",
size: 0,
aggs: {
interactions: {
adjacency_matrix: {
filters: {
grpA: {
terms: {
accounts: ["hillary", "sidney"],
},
},
grpB: {
terms: {
accounts: ["donald", "mitt"],
},
},
grpC: {
terms: {
accounts: ["vladimir", "nigel"],
},
},
},
},
},
},
});
console.log(response1);
コンソール
PUT emails/_bulk?refresh
{ "index" : { "_id" : 1 } }
{ "accounts" : ["hillary", "sidney"]}
{ "index" : { "_id" : 2 } }
{ "accounts" : ["hillary", "donald"]}
{ "index" : { "_id" : 3 } }
{ "accounts" : ["vladimir", "donald"]}
GET emails/_search
{
"size": 0,
"aggs" : {
"interactions" : {
"adjacency_matrix" : {
"filters" : {
"grpA" : { "terms" : { "accounts" : ["hillary", "sidney"] }},
"grpB" : { "terms" : { "accounts" : ["donald", "mitt"] }},
"grpC" : { "terms" : { "accounts" : ["vladimir", "nigel"] }}
}
}
}
}
}
レスポンスには、各フィルターおよびフィルターの組み合わせに対するドキュメント数を持つバケットが含まれています。マッチするドキュメントがないバケットはレスポンスから除外されます。
コンソール結果
{
"took": 9,
"timed_out": false,
"_shards": ...,
"hits": ...,
"aggregations": {
"interactions": {
"buckets": [
{
"key":"grpA",
"doc_count": 2
},
{
"key":"grpA&grpB",
"doc_count": 1
},
{
"key":"grpB",
"doc_count": 2
},
{
"key":"grpB&grpC",
"doc_count": 1
},
{
"key":"grpC",
"doc_count": 1
}
]
}
}
}
パラメータ
filters
- (必須、オブジェクト) バケットを作成するために使用されるフィルター。
- `````<filter>
- (必須、Query DSLオブジェクト) ドキュメントをフィルタリングするために使用されるクエリ。キーはフィルター名です。
少なくとも1つのフィルターが必要です。フィルターの総数は、indices.query.bool.max_clause_count
設定を超えてはなりません。フィルター制限を参照してください。
separator
- (オプション、文字列) フィルター名を連結するために使用される区切り文字。デフォルトは
&
です。
レスポンスボディ
key
- (文字列) バケットのフィルター。バケットが複数のフィルターを使用する場合、フィルター名は
separator
を使用して連結されます。 doc_count
- (整数) バケットのフィルターに一致するドキュメントの数。
使用法
この集約単独では、無向重み付きグラフを作成するために必要なすべてのデータを提供できます。しかし、date_histogram
のような子集約と共に使用すると、結果は動的ネットワーク分析を実行するために必要な追加のデータレベルを提供します。ここで、時間を超えた相互作用を調査することが重要になります。
フィルター制限
N個のフィルターの場合、生成されるバケットの行列はN²/2になる可能性があり、コストがかかることがあります。サーキットブレーカー設定は、結果があまりにも多くのバケットを生成するのを防ぎ、過剰なディスクシークを避けるためにindices.query.bool.max_clause_count
設定が使用されてフィルターの数を制限します。