パターンキャプチャトークンフィルター
pattern_capture
トークンフィルターは、pattern
トークナイザーとは異なり、正規表現の各キャプチャグループに対してトークンを出力します。パターンは文字列の先頭や末尾に固定されていないため、各パターンは複数回一致することができ、一致が重複することも許可されます。
病的な正規表現に注意
パターンキャプチャトークンフィルターは Java Regular Expressions を使用します。
不適切に記述された正規表現は非常に遅く実行される可能性があり、StackOverflowError をスローして、実行中のノードが突然終了する原因となることがあります。
病的な正規表現とそれを避ける方法について詳しく読むことができます。
例えば、次のようなパターン:
テキスト
"(([a-z]+)(\d*))"
に対して一致した場合:
テキスト
"abc123def456"
は次のトークンを生成します: [ abc123
, abc
, 123
, def456
, def
, 456
]
もし preserve_original
が true
(デフォルト) に設定されている場合、元のトークン abc123def456
も出力されます。
これは、ユーザーが "strip html"
や "striphtml"
を検索する可能性があるキャメルケースのコードなどのテキストをインデックスする際に特に便利です。例えば stripHTML
のように。
Python
resp = client.indices.create(
index="test",
settings={
"analysis": {
"filter": {
"code": {
"type": "pattern_capture",
"preserve_original": True,
"patterns": [
"(\\p{Ll}+|\\p{Lu}\\p{Ll}+|\\p{Lu}+)",
"(\\d+)"
]
}
},
"analyzer": {
"code": {
"tokenizer": "pattern",
"filter": [
"code",
"lowercase"
]
}
}
}
},
)
print(resp)
Ruby
response = client.indices.create(
index: 'test',
body: {
settings: {
analysis: {
filter: {
code: {
type: 'pattern_capture',
preserve_original: true,
patterns: [
'(\\p{Ll}+|\\p{Lu}\\p{Ll}+|\\p{Lu}+)',
'(\\d+)'
]
}
},
analyzer: {
code: {
tokenizer: 'pattern',
filter: [
'code',
'lowercase'
]
}
}
}
}
}
)
puts response
Js
const response = await client.indices.create({
index: "test",
settings: {
analysis: {
filter: {
code: {
type: "pattern_capture",
preserve_original: true,
patterns: ["(\\p{Ll}+|\\p{Lu}\\p{Ll}+|\\p{Lu}+)", "(\\d+)"],
},
},
analyzer: {
code: {
tokenizer: "pattern",
filter: ["code", "lowercase"],
},
},
},
},
});
console.log(response);
コンソール
PUT test
{
"settings" : {
"analysis" : {
"filter" : {
"code" : {
"type" : "pattern_capture",
"preserve_original" : true,
"patterns" : [
"(\\p{Ll}+|\\p{Lu}\\p{Ll}+|\\p{Lu}+)",
"(\\d+)"
]
}
},
"analyzer" : {
"code" : {
"tokenizer" : "pattern",
"filter" : [ "code", "lowercase" ]
}
}
}
}
}
テキストを分析するために使用されるとき
Java
import static org.apache.commons.lang.StringEscapeUtils.escapeHtml
これにより次のトークンが出力されます: [ import
, static
, org
, apache
, commons
, lang
, stringescapeutils
, string
, escape
, utils
, escapehtml
, escape
, html
]
別の例として、メールアドレスの分析があります:
Python
resp = client.indices.create(
index="test",
settings={
"analysis": {
"filter": {
"email": {
"type": "pattern_capture",
"preserve_original": True,
"patterns": [
"([^@]+)",
"(\\p{L}+)",
"(\\d+)",
"@(.+)"
]
}
},
"analyzer": {
"email": {
"tokenizer": "uax_url_email",
"filter": [
"email",
"lowercase",
"unique"
]
}
}
}
},
)
print(resp)
Ruby
response = client.indices.create(
index: 'test',
body: {
settings: {
analysis: {
filter: {
email: {
type: 'pattern_capture',
preserve_original: true,
patterns: [
'([^@]+)',
'(\\p{L}+)',
'(\\d+)',
'@(.+)'
]
}
},
analyzer: {
email: {
tokenizer: 'uax_url_email',
filter: [
'email',
'lowercase',
'unique'
]
}
}
}
}
}
)
puts response
Js
const response = await client.indices.create({
index: "test",
settings: {
analysis: {
filter: {
email: {
type: "pattern_capture",
preserve_original: true,
patterns: ["([^@]+)", "(\\p{L}+)", "(\\d+)", "@(.+)"],
},
},
analyzer: {
email: {
tokenizer: "uax_url_email",
filter: ["email", "lowercase", "unique"],
},
},
},
},
});
console.log(response);
コンソール
PUT test
{
"settings" : {
"analysis" : {
"filter" : {
"email" : {
"type" : "pattern_capture",
"preserve_original" : true,
"patterns" : [
"([^@]+)",
"(\\p{L}+)",
"(\\d+)",
"@(.+)"
]
}
},
"analyzer" : {
"email" : {
"tokenizer" : "uax_url_email",
"filter" : [ "email", "lowercase", "unique" ]
}
}
}
}
}
上記のアナライザーが次のようなメールアドレスに使用されるとき:
テキスト
john-smith_123@foo-bar.com
次のトークンを生成します:
john-smith_123@foo-bar.com, john-smith_123,
john, smith, 123, foo-bar.com, foo, bar, com
重複キャプチャを許可するためには複数のパターンが必要ですが、パターンが密度が低く、理解しやすくなることも意味します。
注意: すべてのトークンは同じ位置で、同じ文字オフセットで出力されます。これは、例えば、[email protected]
に対する match
クエリがこのアナライザーを使用すると、and
演算子を使用しても、これらのトークンのいずれかを含むドキュメントを返すことを意味します。また、ハイライトと組み合わせると、元のトークン全体がハイライトされ、一致する部分だけではありません。例えば、上記のメールアドレスに対して "smith"
をクエリすると、次のようにハイライトされます:
Html
<em>[email protected]</em>
ではなく:
Html
john-<em>smith</em>[email protected]