タイ語トークナイザー
thai
トークナイザーは、Javaに含まれるタイ語セグメンテーションアルゴリズムを使用して、タイ語のテキストを単語に分割します。他の言語のテキストは一般的に standard
トークナイザー と同様に扱われます。
このトークナイザーはすべてのJREでサポートされているわけではありません。Sun/OracleおよびOpenJDKで動作することが知られています。アプリケーションが完全にポータブルである必要がある場合は、代わりに ICUトークナイザー の使用を検討してください。
例の出力
Python
resp = client.indices.analyze(
tokenizer="thai",
text="การที่ได้ต้องแสดงว่างานดี",
)
print(resp)
Ruby
response = client.indices.analyze(
body: {
tokenizer: 'thai',
text: 'การที่ได้ต้องแสดงว่างานดี'
}
)
puts response
Js
const response = await client.indices.analyze({
tokenizer: "thai",
text: "การที่ได้ต้องแสดงว่างานดี",
});
console.log(response);
コンソール
POST _analyze
{
"tokenizer": "thai",
"text": "การที่ได้ต้องแสดงว่างานดี"
}
上記の文は次の用語を生成します:
テキスト
[ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]
設定
thai
トークナイザーは設定可能ではありません。