トークンフィルタリファレンス - CJKビグラム（CJK bigram）

CJKビグラムトークンフィルター
例
アナライザーに追加
設定可能なパラメータ
カスタマイズ

CJKビグラムトークンフィルター

CJK（中国語、日本語、韓国語）トークンからbigramsを生成します。

このフィルターはElasticsearchの組み込みCJK言語アナライザーに含まれています。LuceneのCJKBigramFilterを使用します。

例

以下のanalyze APIリクエストは、CJKビグラムトークンフィルターの動作を示しています。

Python

resp = client.indices.analyze(
   tokenizer="standard",
   filter=[
   "cjk_bigram"
   ],
   text="東京都は、日本の首都であり",
)
print(resp)

Ruby

response = client.indices.analyze(
  body: {
   tokenizer: 'standard',
   filter: [
   'cjk_bigram'
   ],
   text: '東京都は、日本の首都であり'
  }
)
puts response

Js

const response = await client.indices.analyze({
  tokenizer: "standard",
  filter: ["cjk_bigram"],
  text: "東京都は、日本の首都であり",
});
console.log(response);

コンソール

GET /_analyze
{
  "tokenizer" : "standard",
  "filter" : ["cjk_bigram"],
  "text" : "東京都は、日本の首都であり"
}

フィルターは以下のトークンを生成します：

テキスト

[ 東京, 京都, 都は, 日本, 本の, の首, 首都, 都で, であ, あり ]

アナライザーに追加

以下のcreate index APIリクエストは、CJKビグラムトークンフィルターを使用して新しいカスタムアナライザーを構成します。

Python

resp = client.indices.create(
   index="cjk_bigram_example",
   settings={
   "analysis": {
   "analyzer": {
   "standard_cjk_bigram": {
   "tokenizer": "standard",
   "filter": [
   "cjk_bigram"
   ]
   }
   }
   }
   },
)
print(resp)

Ruby

response = client.indices.create(
  index: 'cjk_bigram_example',
  body: {
   settings: {
   analysis: {
   analyzer: {
   standard_cjk_bigram: {
   tokenizer: 'standard',
   filter: [
   'cjk_bigram'
   ]
   }
   }
   }
   }
  }
)
puts response

Js

const response = await client.indices.create({
  index: "cjk_bigram_example",
  settings: {
   analysis: {
   analyzer: {
   standard_cjk_bigram: {
   tokenizer: "standard",
   filter: ["cjk_bigram"],
   },
   },
   },
  },
});
console.log(response);

コンソール

PUT /cjk_bigram_example
{
  "settings": {
   "analysis": {
   "analyzer": {
   "standard_cjk_bigram": {
   "tokenizer": "standard",
   "filter": [ "cjk_bigram" ]
   }
   }
   }
  }
}

設定可能なパラメータ

ignored_scripts
（オプション、文字スクリプトの配列）ビグラムを無効にする文字スクリプトの配列。可能な値：
- han
- hangul
- hiragana
- katakana
  すべての非CJK入力は変更されずに通過します。
output_unigrams
（オプション、ブール値）trueの場合、ビグラムとユニグラムの両方の形式でトークンを出力します。falseの場合、隣接する文字がないときにCJK文字がユニグラム形式で出力されます。デフォルトはfalseです。

カスタマイズ

CJKビグラムトークンフィルターをカスタマイズするには、それを複製して新しいカスタムトークンフィルターの基礎を作成します。設定可能なパラメータを使用してフィルターを変更できます。

Python

resp = client.indices.create(
   index="cjk_bigram_example",
   settings={
   "analysis": {
   "analyzer": {
   "han_bigrams": {
   "tokenizer": "standard",
   "filter": [
   "han_bigrams_filter"
   ]
   }
   },
   "filter": {
   "han_bigrams_filter": {
   "type": "cjk_bigram",
   "ignored_scripts": [
   "hangul",
   "hiragana",
   "katakana"
   ],
   "output_unigrams": True
   }
   }
   }
   },
)
print(resp)

Ruby

response = client.indices.create(
  index: 'cjk_bigram_example',
  body: {
   settings: {
   analysis: {
   analyzer: {
   han_bigrams: {
   tokenizer: 'standard',
   filter: [
   'han_bigrams_filter'
   ]
   }
   },
   filter: {
   han_bigrams_filter: {
   type: 'cjk_bigram',
   ignored_scripts: [
   'hangul',
   'hiragana',
   'katakana'
   ],
   output_unigrams: true
   }
   }
   }
   }
  }
)
puts response

Js

const response = await client.indices.create({
  index: "cjk_bigram_example",
  settings: {
   analysis: {
   analyzer: {
   han_bigrams: {
   tokenizer: "standard",
   filter: ["han_bigrams_filter"],
   },
   },
   filter: {
   han_bigrams_filter: {
   type: "cjk_bigram",
   ignored_scripts: ["hangul", "hiragana", "katakana"],
   output_unigrams: true,
   },
   },
   },
  },
});
console.log(response);

コンソール

PUT /cjk_bigram_example
{
  "settings": {
   "analysis": {
   "analyzer": {
   "han_bigrams": {
   "tokenizer": "standard",
   "filter": [ "han_bigrams_filter" ]
   }
   },
   "filter": {
   "han_bigrams_filter": {
   "type": "cjk_bigram",
   "ignored_scripts": [
   "hangul",
   "hiragana",
   "katakana"
   ],
   "output_unigrams": true
   }
   }
   }
  }
}