トークナイザーリファレンス - タイ語（Thai） - 《Elasticsearchガイドv8.15》日本語

タイ語トークナイザー

thai トークナイザーは、Javaに含まれるタイ語セグメンテーションアルゴリズムを使用して、タイ語のテキストを単語に分割します。他の言語のテキストは一般的に standard トークナイザーと同様に扱われます。

このトークナイザーはすべてのJREでサポートされているわけではありません。Sun/OracleおよびOpenJDKで動作することが知られています。アプリケーションが完全にポータブルである必要がある場合は、代わりに ICUトークナイザーの使用を検討してください。

resp = client.indices.analyze(
   tokenizer="thai",
   text="การที่ได้ต้องแสดงว่างานดี",
)
print(resp)

response = client.indices.analyze(
  body: {
   tokenizer: 'thai',
   text: 'การที่ได้ต้องแสดงว่างานดี'
  }
)
puts response

const response = await client.indices.analyze({
  tokenizer: "thai",
  text: "การที่ได้ต้องแสดงว่างานดี",
});
console.log(response);

POST _analyze
{
  "tokenizer": "thai",
  "text": "การที่ได้ต้องแสดงว่างานดี"
}

上記の文は次の用語を生成します：

[ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]

thai トークナイザーは設定可能ではありません。