タイ語トークナイザー

thai トークナイザーは、Javaに含まれるタイ語セグメンテーションアルゴリズムを使用して、タイ語のテキストを単語に分割します。他の言語のテキストは一般的に standard トークナイザー と同様に扱われます。

このトークナイザーはすべてのJREでサポートされているわけではありません。Sun/OracleおよびOpenJDKで動作することが知られています。アプリケーションが完全にポータブルである必要がある場合は、代わりに ICUトークナイザー の使用を検討してください。

例の出力

Python

  1. resp = client.indices.analyze(
  2. tokenizer="thai",
  3. text="การที่ได้ต้องแสดงว่างานดี",
  4. )
  5. print(resp)

Ruby

  1. response = client.indices.analyze(
  2. body: {
  3. tokenizer: 'thai',
  4. text: 'การที่ได้ต้องแสดงว่างานดี'
  5. }
  6. )
  7. puts response

Js

  1. const response = await client.indices.analyze({
  2. tokenizer: "thai",
  3. text: "การที่ได้ต้องแสดงว่างานดี",
  4. });
  5. console.log(response);

コンソール

  1. POST _analyze
  2. {
  3. "tokenizer": "thai",
  4. "text": "การที่ได้ต้องแสดงว่างานดี"
  5. }

上記の文は次の用語を生成します:

テキスト

  1. [ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]

設定

thai トークナイザーは設定可能ではありません。