文字フィルターのリファレンス
文字フィルターは、トークナイザーに渡される前に文字のストリームを前処理するために使用されます。
文字フィルターは、元のテキストを文字のストリームとして受け取り、文字を追加、削除、または変更することによってストリームを変換できます。たとえば、文字フィルターはヒンドゥー・アラビア数字(٠١٢٣٤٥٦٧٨٩)をアラビア・ラテン数字(0123456789)に変換したり、ストリームからHTML要素のような<b>
を削除したりするために使用できます。
Elasticsearchには、カスタムアナライザーを構築するために使用できるいくつかの組み込みの文字フィルターがあります。
- HTMLストリップ文字フィルター
html_strip
文字フィルターは、<b>
のようなHTML要素を削除し、&
のようなHTMLエンティティをデコードします。- マッピング文字フィルター
mapping
文字フィルターは、指定された文字列の出現を指定された置換に置き換えます。- パターン置換文字フィルター
pattern_replace
文字フィルターは、正規表現に一致する任意の文字を指定された置換に置き換えます。