中央値絶対偏差の集約
この single-value
集約は、検索結果の 中央値絶対偏差 を近似します。
中央値絶対偏差は、変動性の尺度です。これはロバストな統計量であり、外れ値を含む可能性のあるデータや、正規分布していないデータを記述するのに役立ちます。このようなデータに対しては、標準偏差よりも説明的であることがあります。
これは、全サンプルの中央値から各データポイントの偏差の中央値として計算されます。すなわち、ランダム変数 X に対して、中央値絶対偏差は median(|median(X) - X\u003csub
例
私たちのデータが1から5の星のスケールでの製品レビューを表していると仮定します。このようなレビューは通常、平均として要約されますが、理解しやすい一方で、レビューの変動性を説明するものではありません。中央値絶対偏差を推定することで、レビューがどれだけ異なるかを洞察することができます。
この例では、平均評価が3つ星の製品があります。その評価の中央値絶対偏差を見て、どれだけ異なるかを判断しましょう。
Python
resp = client.search(
index="reviews",
size=0,
aggs={
"review_average": {
"avg": {
"field": "rating"
}
},
"review_variability": {
"median_absolute_deviation": {
"field": "rating"
}
}
},
)
print(resp)
Ruby
response = client.search(
index: 'reviews',
body: {
size: 0,
aggregations: {
review_average: {
avg: {
field: 'rating'
}
},
review_variability: {
median_absolute_deviation: {
field: 'rating'
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "reviews",
size: 0,
aggs: {
review_average: {
avg: {
field: "rating",
},
},
review_variability: {
median_absolute_deviation: {
field: "rating",
},
},
},
});
console.log(response);
コンソール
GET reviews/_search
{
"size": 0,
"aggs": {
"review_average": {
"avg": {
"field": "rating"
}
},
"review_variability": {
"median_absolute_deviation": {
"field": "rating"
}
}
}
}
rating は数値フィールドでなければなりません |
2
の結果として得られる中央値絶対偏差は、評価にかなりの変動性があることを示しています。レビュアーはこの製品について多様な意見を持っているに違いありません。
コンソール-結果
{
...
"aggregations": {
"review_average": {
"value": 3.0
},
"review_variability": {
"value": 2.0
}
}
}
近似
中央値絶対偏差を計算するための単純な実装は、全サンプルをメモリに保存しますが、この集約は代わりに近似を計算します。これは、TDigestデータ構造 を使用して、サンプルの中央値とサンプル中央値からの偏差の中央値を近似します。TDigestの近似特性についての詳細は、パーセンタイルは(通常)近似ですを参照してください。
TDigestの分位数近似のリソース使用と精度のトレードオフ、したがってこの集約の中央値絶対偏差の近似の精度は、compression
パラメータによって制御されます。compression
の設定を高くすると、メモリ使用量が増加する代わりに、より正確な近似が得られます。TDigestの compression
パラメータの特性についての詳細は、圧縮を参照してください。
Python
resp = client.search(
index="reviews",
size=0,
aggs={
"review_variability": {
"median_absolute_deviation": {
"field": "rating",
"compression": 100
}
}
},
)
print(resp)
Ruby
response = client.search(
index: 'reviews',
body: {
size: 0,
aggregations: {
review_variability: {
median_absolute_deviation: {
field: 'rating',
compression: 100
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "reviews",
size: 0,
aggs: {
review_variability: {
median_absolute_deviation: {
field: "rating",
compression: 100,
},
},
},
});
console.log(response);
コンソール
GET reviews/_search
{
"size": 0,
"aggs": {
"review_variability": {
"median_absolute_deviation": {
"field": "rating",
"compression": 100
}
}
}
}
この集約のデフォルトの compression
値は 1000
です。この圧縮レベルでは、この集約は通常、正確な結果の5%以内ですが、観察されたパフォーマンスはサンプルデータに依存します。
スクリプト
上記の例では、製品レビューは1から5のスケールです。これを1から10のスケールに変更したい場合は、ランタイムフィールドを使用してください。
Python
resp = client.search(
index="reviews",
filter_path="aggregations",
size=0,
runtime_mappings={
"rating.out_of_ten": {
"type": "long",
"script": {
"source": "emit(doc['rating'].value * params.scaleFactor)",
"params": {
"scaleFactor": 2
}
}
}
},
aggs={
"review_average": {
"avg": {
"field": "rating.out_of_ten"
}
},
"review_variability": {
"median_absolute_deviation": {
"field": "rating.out_of_ten"
}
}
},
)
print(resp)
Ruby
response = client.search(
index: 'reviews',
filter_path: 'aggregations',
body: {
size: 0,
runtime_mappings: {
'rating.out_of_ten' => {
type: 'long',
script: {
source: "emit(doc['rating'].value * params.scaleFactor)",
params: {
"scaleFactor": 2
}
}
}
},
aggregations: {
review_average: {
avg: {
field: 'rating.out_of_ten'
}
},
review_variability: {
median_absolute_deviation: {
field: 'rating.out_of_ten'
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "reviews",
filter_path: "aggregations",
size: 0,
runtime_mappings: {
"rating.out_of_ten": {
type: "long",
script: {
source: "emit(doc['rating'].value * params.scaleFactor)",
params: {
scaleFactor: 2,
},
},
},
},
aggs: {
review_average: {
avg: {
field: "rating.out_of_ten",
},
},
review_variability: {
median_absolute_deviation: {
field: "rating.out_of_ten",
},
},
},
});
console.log(response);
コンソール
GET reviews/_search?filter_path=aggregations
{
"size": 0,
"runtime_mappings": {
"rating.out_of_ten": {
"type": "long",
"script": {
"source": "emit(doc['rating'].value * params.scaleFactor)",
"params": {
"scaleFactor": 2
}
}
}
},
"aggs": {
"review_average": {
"avg": {
"field": "rating.out_of_ten"
}
},
"review_variability": {
"median_absolute_deviation": {
"field": "rating.out_of_ten"
}
}
}
}
コンソール-結果
{
"aggregations": {
"review_average": {
"value": 6.0
},
"review_variability": {
"value": 4.0
}
}
}
欠損値
missing
パラメータは、値が欠損しているドキュメントがどのように扱われるべきかを定義します。デフォルトでは無視されますが、値があるかのように扱うことも可能です。
楽観的に考えて、いくつかのレビュアーがこの製品をとても気に入って、評価を忘れたと仮定しましょう。彼らには5つ星を与えましょう。
Python
resp = client.search(
index="reviews",
size=0,
aggs={
"review_variability": {
"median_absolute_deviation": {
"field": "rating",
"missing": 5
}
}
},
)
print(resp)
Ruby
response = client.search(
index: 'reviews',
body: {
size: 0,
aggregations: {
review_variability: {
median_absolute_deviation: {
field: 'rating',
missing: 5
}
}
}
}
)
puts response
Js
const response = await client.search({
index: "reviews",
size: 0,
aggs: {
review_variability: {
median_absolute_deviation: {
field: "rating",
missing: 5,
},
},
},
});
console.log(response);
コンソール
GET reviews/_search
{
"size": 0,
"aggs": {
"review_variability": {
"median_absolute_deviation": {
"field": "rating",
"missing": 5
}
}
}
}