組み込みアナライザーのリファレンス

Elasticsearch は、追加の設定なしで任意のインデックスで使用できる幅広い組み込みアナライザーを提供します:

  • 標準アナライザー
  • standard アナライザーは、Unicode テキストセグメンテーションアルゴリズムで定義された単語の境界でテキストを用語に分割します。ほとんどの句読点を削除し、用語を小文字にし、ストップワードの削除をサポートします。
  • シンプルアナライザー
  • simple アナライザーは、文字以外の文字に出会うたびにテキストを用語に分割します。すべての用語を小文字にします。
  • ホワイトスペースアナライザー
  • whitespace アナライザーは、任意のホワイトスペース文字に出会うたびにテキストを用語に分割します。用語を小文字にはしません。
  • ストップアナライザー
  • stop アナライザーは simple アナライザーのようなもので、ストップワードの削除もサポートします。
  • キーワードアナライザー
  • keyword アナライザーは「noop」アナライザーで、与えられたテキストをそのまま受け入れ、単一の用語として正確に同じテキストを出力します。
  • パターンアナライザー
  • pattern アナライザーは、正規表現を使用してテキストを用語に分割します。小文字化とストップワードをサポートします。
  • 言語アナライザー
  • Elasticsearch は、englishfrench のような多くの言語特有のアナライザーを提供します。
  • フィンガープリンターアナライザー
  • fingerprint アナライザーは、重複検出に使用できるフィンガープリントを作成する専門のアナライザーです。

カスタムアナライザー

ニーズに合ったアナライザーが見つからない場合は、適切な 文字フィルタートークナイザー、および トークンフィルター を組み合わせた custom アナライザーを作成できます。