ホワイトスペースアナライザー
whitespace
アナライザーは、ホワイトスペース文字に遭遇するたびにテキストを用語に分割します。
例の出力
Python
resp = client.indices.analyze(
analyzer="whitespace",
text="The 2 QUICK Brown-Foxes jumped over the lazy dog's bone.",
)
print(resp)
Ruby
response = client.indices.analyze(
body: {
analyzer: 'whitespace',
text: "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
)
puts response
Js
const response = await client.indices.analyze({
analyzer: "whitespace",
text: "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone.",
});
console.log(response);
コンソール
POST _analyze
{
"analyzer": "whitespace",
"text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
上記の文は次の用語を生成します:
テキスト
[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]
設定
whitespace
アナライザーは設定可能ではありません。
定義
それは次から成り立っています:
- トークナイザー
whitespace
アナライザーをカスタマイズする必要がある場合は、custom
アナライザーとして再作成し、通常はトークンフィルターを追加することで修正する必要があります。これにより、組み込みの whitespace
アナライザーが再作成され、さらなるカスタマイズの出発点として使用できます:
Python
resp = client.indices.create(
index="whitespace_example",
settings={
"analysis": {
"analyzer": {
"rebuilt_whitespace": {
"tokenizer": "whitespace",
"filter": []
}
}
}
},
)
print(resp)
Ruby
response = client.indices.create(
index: 'whitespace_example',
body: {
settings: {
analysis: {
analyzer: {
rebuilt_whitespace: {
tokenizer: 'whitespace',
filter: []
}
}
}
}
}
)
puts response
Js
const response = await client.indices.create({
index: "whitespace_example",
settings: {
analysis: {
analyzer: {
rebuilt_whitespace: {
tokenizer: "whitespace",
filter: [],
},
},
},
},
});
console.log(response);
コンソール
PUT /whitespace_example
{
"settings": {
"analysis": {
"analyzer": {
"rebuilt_whitespace": {
"tokenizer": "whitespace",
"filter": [
]
}
}
}
}
}
ここに任意のトークンフィルターを追加します。 |