チュートリアル: eCommerce サンプルデータの変換
Transforms を使用すると、Elasticsearch インデックスから情報を取得し、それを変換して別のインデックスに保存できます。ここでは、Kibana サンプルデータ を使用して、変換を使ってデータをピボットし、要約する方法を示します。
- 1. 環境が変換を使用するために正しく設定されていることを確認します。Elasticsearch のセキュリティ機能が有効になっている場合、このチュートリアルを完了するには、変換をプレビューおよび作成する権限を持つユーザーが必要です。また、ソースおよび宛先インデックスに対して特定のインデックス権限を持っている必要があります。詳細は Setup を参照してください。
- 2. ソースインデックスを選択します。
この例では、eCommerce 注文のサンプルデータを使用します。kibana_sample_data_ecommerce
インデックスにまだ慣れていない場合は、Kibana の Revenue ダッシュボードを使用してデータを探索してください。この eCommerce データからどのような洞察を得たいかを考えてみてください。 - 3. 変換のピボットタイプを選択し、データのグループ化や集約のさまざまなオプションを試してみてください。
変換には 2 種類のタイプがありますが、まずはデータをピボットすることを試みます。これは、少なくとも 1 つのフィールドを使用してデータをグループ化し、少なくとも 1 つの集約を適用することを含みます。変換後のデータがどのように見えるかをプレビューできるので、ぜひ試してみてください!また、ヒストグラムチャートを有効にして、データ内の値の分布をよりよく理解することもできます。
たとえば、データを製品 ID でグループ化し、各製品の総販売数と平均価格を計算したいかもしれません。あるいは、個々の顧客の行動を見て、各顧客が合計でどれだけ支出したか、どのくらいの異なる製品カテゴリを購入したかを計算したいかもしれません。また、通貨や地域を考慮に入れることもできます。このデータを変換し解釈する最も興味深い方法は何ですか?
Kibana の Management
> Stack Management
> Data
> Transforms に移動し、ウィザードを使用して変換を作成します:
顧客 ID でデータをグループ化し、1 つ以上の集約を追加して各顧客の注文についてさらに学びます。たとえば、購入した製品の合計、購入の総価格、単一の注文で購入した最大製品数、および総注文数を計算してみましょう。これは、sum
集約 をtotal_quantity
およびtaxless_total_price
フィールドに、max
集約 をtotal_quantity
フィールドに、cardinality
集約 をorder_id
フィールドに使用することで実現します:
データのサブセットに興味がある場合は、オプションで query 要素を含めることができます。この例では、currency
がEUR
の注文のみを見ているようにデータをフィルタリングしました。あるいは、そのフィールドでもデータをグループ化できます。より複雑なクエリを使用したい場合は、saved search からデータフレームを作成できます。
好ましい場合は、preview transforms API を使用できます。
APIの例
Python
resp = client.transform.preview_transform(
source={
"index": "kibana_sample_data_ecommerce",
"query": {
"bool": {
"filter": {
"term": {
"currency": "EUR"
}
}
}
}
},
pivot={
"group_by": {
"customer_id": {
"terms": {
"field": "customer_id"
}
}
},
"aggregations": {
"total_quantity.sum": {
"sum": {
"field": "total_quantity"
}
},
"taxless_total_price.sum": {
"sum": {
"field": "taxless_total_price"
}
},
"total_quantity.max": {
"max": {
"field": "total_quantity"
}
},
"order_id.cardinality": {
"cardinality": {
"field": "order_id"
}
}
}
},
)
print(resp)
Js
const response = await client.transform.previewTransform({
source: {
index: "kibana_sample_data_ecommerce",
query: {
bool: {
filter: {
term: {
currency: "EUR",
},
},
},
},
},
pivot: {
group_by: {
customer_id: {
terms: {
field: "customer_id",
},
},
},
aggregations: {
"total_quantity.sum": {
sum: {
field: "total_quantity",
},
},
"taxless_total_price.sum": {
sum: {
field: "taxless_total_price",
},
},
"total_quantity.max": {
max: {
field: "total_quantity",
},
},
"order_id.cardinality": {
cardinality: {
field: "order_id",
},
},
},
},
});
console.log(response);
コンソール
POST _transform/_preview
{
"source": {
"index": "kibana_sample_data_ecommerce",
"query": {
"bool": {
"filter": {
"term": {"currency": "EUR"}
}
}
}
},
"pivot": {
"group_by": {
"customer_id": {
"terms": {
"field": "customer_id"
}
}
},
"aggregations": {
"total_quantity.sum": {
"sum": {
"field": "total_quantity"
}
},
"taxless_total_price.sum": {
"sum": {
"field": "taxless_total_price"
}
},
"total_quantity.max": {
"max": {
"field": "total_quantity"
}
},
"order_id.cardinality": {
"cardinality": {
"field": "order_id"
}
}
}
}
}
- 4. プレビューで表示される内容に満足したら、変換を作成します。
- 4.1. 変換 ID、宛先インデックスの名前、およびオプションで説明を提供します。宛先インデックスが存在しない場合、変換を開始すると自動的に作成されます。
- 4.2. 変換を一度だけ実行するか、継続的に実行するかを決定します。このサンプルデータインデックスは変更されないため、デフォルトの動作を使用して変換を一度だけ実行します。ただし、試してみたい場合は、Continuous mode をクリックしてください。変換が変更されたエンティティを確認するために使用できるフィールドを選択する必要があります。一般的には、インジェストタイムスタンプフィールドを使用するのが良いアイデアです。ただし、この例では
order_date
フィールドを使用できます。 - 4.3. オプションで、変換に適用される保持ポリシーを構成できます。宛先インデックス内の古いドキュメントを特定するために使用される日付フィールドを選択し、最大年齢を提供します。設定された値よりも古いドキュメントは宛先インデックスから削除されます。
Kibana では、変換の作成を完了する前に、プレビュートランスフォーム API リクエストをクリップボードにコピーできます。この情報は、宛先インデックスを手動で作成するかどうかを決定する際に役立ちます。
好ましい場合は、create transforms API を使用できます。
APIの例
Python
resp = client.transform.put_transform(
transform_id="ecommerce-customer-transform",
source={
"index": [
"kibana_sample_data_ecommerce"
],
"query": {
"bool": {
"filter": {
"term": {
"currency": "EUR"
}
}
}
}
},
pivot={
"group_by": {
"customer_id": {
"terms": {
"field": "customer_id"
}
}
},
"aggregations": {
"total_quantity.sum": {
"sum": {
"field": "total_quantity"
}
},
"taxless_total_price.sum": {
"sum": {
"field": "taxless_total_price"
}
},
"total_quantity.max": {
"max": {
"field": "total_quantity"
}
},
"order_id.cardinality": {
"cardinality": {
"field": "order_id"
}
}
}
},
dest={
"index": "ecommerce-customers"
},
retention_policy={
"time": {
"field": "order_date",
"max_age": "60d"
}
},
)
print(resp)
Js
const response = await client.transform.putTransform({
transform_id: "ecommerce-customer-transform",
source: {
index: ["kibana_sample_data_ecommerce"],
query: {
bool: {
filter: {
term: {
currency: "EUR",
},
},
},
},
},
pivot: {
group_by: {
customer_id: {
terms: {
field: "customer_id",
},
},
},
aggregations: {
"total_quantity.sum": {
sum: {
field: "total_quantity",
},
},
"taxless_total_price.sum": {
sum: {
field: "taxless_total_price",
},
},
"total_quantity.max": {
max: {
field: "total_quantity",
},
},
"order_id.cardinality": {
cardinality: {
field: "order_id",
},
},
},
},
dest: {
index: "ecommerce-customers",
},
retention_policy: {
time: {
field: "order_date",
max_age: "60d",
},
},
});
console.log(response);
コンソール
PUT _transform/ecommerce-customer-transform
{
"source": {
"index": [
"kibana_sample_data_ecommerce"
],
"query": {
"bool": {
"filter": {
"term": {
"currency": "EUR"
}
}
}
}
},
"pivot": {
"group_by": {
"customer_id": {
"terms": {
"field": "customer_id"
}
}
},
"aggregations": {
"total_quantity.sum": {
"sum": {
"field": "total_quantity"
}
},
"taxless_total_price.sum": {
"sum": {
"field": "taxless_total_price"
}
},
"total_quantity.max": {
"max": {
"field": "total_quantity"
}
},
"order_id.cardinality": {
"cardinality": {
"field": "order_id"
}
}
}
},
"dest": {
"index": "ecommerce-customers"
},
"retention_policy": {
"time": {
"field": "order_date",
"max_age": "60d"
}
}
}
- 5. オプション: 宛先インデックスを作成します。
宛先インデックスが存在しない場合、変換を開始する最初の時に作成されます。ピボット変換は、ソースインデックスと変換集約から宛先インデックスのマッピングを推測します。宛先インデックスにスクリプトから派生したフィールドがある場合(たとえば、scripted_metrics
またはbucket_scripts
集約を使用する場合)、それらは dynamic mappings で作成されます。プレビュートランスフォーム API を使用して、宛先インデックスに使用されるマッピングをプレビューできます。Kibana では、API リクエストをクリップボードにコピーした場合、コンソールに貼り付けて、API レスポンス内のgenerated_dest_index
オブジェクトを参照します。
変換には、Kibana で利用可能なオプションよりも多くの構成オプションが API によって提供される場合があります。たとえば、Create transform を呼び出すことでdest
のインジェストパイプラインを設定できます。すべての変換構成オプションについては、documentation を参照してください。
APIの例
コンソール - 結果
{
"preview" : [
{
"total_quantity" : {
"max" : 2,
"sum" : 118.0
},
"taxless_total_price" : {
"sum" : 3946.9765625
},
"customer_id" : "10",
"order_id" : {
"cardinality" : 59
}
},
...
],
"generated_dest_index" : {
"mappings" : {
"_meta" : {
"_transform" : {
"transform" : "transform-preview",
"version" : {
"created" : "8.0.0"
},
"creation_date_in_millis" : 1621991264061
},
"created_by" : "transform"
},
"properties" : {
"total_quantity.sum" : {
"type" : "double"
},
"total_quantity" : {
"type" : "object"
},
"taxless_total_price" : {
"type" : "object"
},
"taxless_total_price.sum" : {
"type" : "double"
},
"order_id.cardinality" : {
"type" : "long"
},
"customer_id" : {
"type" : "keyword"
},
"total_quantity.max" : {
"type" : "integer"
},
"order_id" : {
"type" : "object"
}
}
},
"settings" : {
"index" : {
"number_of_shards" : "1",
"auto_expand_replicas" : "0-1"
}
},
"aliases" : { }
}
}
場合によっては、推測されたマッピングが実際のデータと互換性がないことがあります。たとえば、数値オーバーフローが発生したり、動的にマッピングされたフィールドに数値と文字列の両方が含まれることがあります。この問題を回避するには、変換を開始する前に宛先インデックスを作成してください。詳細については、create index API を参照してください。
APIの例
変換プレビューからの情報を使用して宛先インデックスを作成できます。たとえば:
Python
resp = client.indices.create(
index="ecommerce-customers",
mappings={
"properties": {
"total_quantity.sum": {
"type": "double"
},
"total_quantity": {
"type": "object"
},
"taxless_total_price": {
"type": "object"
},
"taxless_total_price.sum": {
"type": "double"
},
"order_id.cardinality": {
"type": "long"
},
"customer_id": {
"type": "keyword"
},
"total_quantity.max": {
"type": "integer"
},
"order_id": {
"type": "object"
}
}
},
)
print(resp)
Ruby
response = client.indices.create(
index: 'ecommerce-customers',
body: {
mappings: {
properties: {
'total_quantity.sum' => {
type: 'double'
},
total_quantity: {
type: 'object'
},
taxless_total_price: {
type: 'object'
},
'taxless_total_price.sum' => {
type: 'double'
},
'order_id.cardinality' => {
type: 'long'
},
customer_id: {
type: 'keyword'
},
'total_quantity.max' => {
type: 'integer'
},
order_id: {
type: 'object'
}
}
}
}
)
puts response
Js
const response = await client.indices.create({
index: "ecommerce-customers",
mappings: {
properties: {
"total_quantity.sum": {
type: "double",
},
total_quantity: {
type: "object",
},
taxless_total_price: {
type: "object",
},
"taxless_total_price.sum": {
type: "double",
},
"order_id.cardinality": {
type: "long",
},
customer_id: {
type: "keyword",
},
"total_quantity.max": {
type: "integer",
},
order_id: {
type: "object",
},
},
},
});
console.log(response);
コンソール
PUT /ecommerce-customers
{
"mappings": {
"properties": {
"total_quantity.sum" : {
"type" : "double"
},
"total_quantity" : {
"type" : "object"
},
"taxless_total_price" : {
"type" : "object"
},
"taxless_total_price.sum" : {
"type" : "double"
},
"order_id.cardinality" : {
"type" : "long"
},
"customer_id" : {
"type" : "keyword"
},
"total_quantity.max" : {
"type" : "integer"
},
"order_id" : {
"type" : "object"
}
}
}
}
- 6. 変換を開始します。
リソースの利用状況はクラスターの負荷に基づいて自動的に調整されますが、変換が実行されている間、検索およびインデックスの負荷がクラスターに増加します。ただし、過剰な負荷が発生している場合は、停止できます。
Kibana で変換を開始、停止、リセット、および管理できます:
または、start transforms、stop transforms、および reset transforms API を使用できます。
変換をリセットすると、すべてのチェックポイント、状態、および宛先インデックス(変換によって作成された場合)が削除されます。変換は、作成されたばかりのように再び開始する準備が整います。
APIの例
Python
resp = client.transform.start_transform(
transform_id="ecommerce-customer-transform",
)
print(resp)
Ruby
response = client.transform.start_transform(
transform_id: 'ecommerce-customer-transform'
)
puts response
Js
const response = await client.transform.startTransform({
transform_id: "ecommerce-customer-transform",
});
console.log(response);
コンソール
POST _transform/ecommerce-customer-transform/_start
バッチ変換を選択した場合、それは単一の操作であり、単一のチェックポイントを持ちます。完了した後に再起動することはできません。継続的な変換は、新しいソースデータがインジェストされると、チェックポイントを継続的に増加させて処理します。
- 7. 新しいインデックスのデータを探索します。
たとえば、Kibana の Discover アプリケーションを使用します:
- 8. オプション: 今回は
latest
メソッドを使用して別の変換を作成します。
このメソッドは、各ユニークキー値の最新のドキュメントで宛先インデックスを埋めます。たとえば、各顧客または各国および地域の最新の注文(order_date
フィールドでソート)を見つけたいかもしれません。
APIの例
Python
resp = client.transform.preview_transform(
source={
"index": "kibana_sample_data_ecommerce",
"query": {
"bool": {
"filter": {
"term": {
"currency": "EUR"
}
}
}
}
},
latest={
"unique_key": [
"geoip.country_iso_code",
"geoip.region_name"
],
"sort": "order_date"
},
)
print(resp)
Js
const response = await client.transform.previewTransform({
source: {
index: "kibana_sample_data_ecommerce",
query: {
bool: {
filter: {
term: {
currency: "EUR",
},
},
},
},
},
latest: {
unique_key: ["geoip.country_iso_code", "geoip.region_name"],
sort: "order_date",
},
});
console.log(response);
コンソール
POST _transform/_preview
{
"source": {
"index": "kibana_sample_data_ecommerce",
"query": {
"bool": {
"filter": {
"term": {"currency": "EUR"}
}
}
}
},
"latest": {
"unique_key": ["geoip.country_iso_code", "geoip.region_name"],
"sort": "order_date"
}
}
宛先インデックスが存在しない場合、変換を開始する最初の時に作成されます。ただし、最新の変換は、インデックスを作成する際にマッピング定義を推測しません。代わりに、動的マッピングを使用します。明示的なマッピングを使用するには、変換を開始する前に宛先インデックスを作成してください。
- 9. 変換を保持したくない場合は、Kibana で削除するか、delete transform API を使用できます。デフォルトでは、変換を削除すると、その宛先インデックスと Kibana インデックスパターンは残ります。
Kibana サンプルデータのシンプルな変換を作成したので、自分のデータに対する可能なユースケースを考えてみてください。さらにアイデアが必要な場合は、When to use transforms および Examples を参照してください。