組み込みアナライザーのリファレンス
Elasticsearch は、追加の設定なしで任意のインデックスで使用できる幅広い組み込みアナライザーを提供します:
- 標準アナライザー
standard
アナライザーは、Unicode テキストセグメンテーションアルゴリズムで定義された単語の境界でテキストを用語に分割します。ほとんどの句読点を削除し、用語を小文字にし、ストップワードの削除をサポートします。- シンプルアナライザー
simple
アナライザーは、文字以外の文字に出会うたびにテキストを用語に分割します。すべての用語を小文字にします。- ホワイトスペースアナライザー
whitespace
アナライザーは、任意のホワイトスペース文字に出会うたびにテキストを用語に分割します。用語を小文字にはしません。- ストップアナライザー
stop
アナライザーはsimple
アナライザーのようなもので、ストップワードの削除もサポートします。- キーワードアナライザー
keyword
アナライザーは「noop」アナライザーで、与えられたテキストをそのまま受け入れ、単一の用語として正確に同じテキストを出力します。- パターンアナライザー
pattern
アナライザーは、正規表現を使用してテキストを用語に分割します。小文字化とストップワードをサポートします。- 言語アナライザー
- Elasticsearch は、
english
やfrench
のような多くの言語特有のアナライザーを提供します。 - フィンガープリンターアナライザー
fingerprint
アナライザーは、重複検出に使用できるフィンガープリントを作成する専門のアナライザーです。
カスタムアナライザー
ニーズに合ったアナライザーが見つからない場合は、適切な 文字フィルター、トークナイザー、および トークンフィルター を組み合わせた custom
アナライザーを作成できます。