トークナイザーリファレンス - パターン（Pattern） - 《Elasticsearchガイドv8.15》日本語

パターントークナイザー
パターントークナイザー
例の出力
設定
例の設定

パターントークナイザー

pattern トークナイザーは、正規表現を使用して、単語区切りに一致するたびにテキストを用語に分割するか、一致するテキストを用語としてキャプチャします。

デフォルトのパターンは \W+ で、非単語文字に遭遇するたびにテキストを分割します。

パターントークナイザー

デフォルトのパターンは \W+ で、非単語文字に遭遇するたびにテキストを分割します。

例の出力

Python

resp = client.indices.analyze(
   tokenizer="pattern",
   text="The foo_bar_size's default is 5.",
)
print(resp)

Ruby

response = client.indices.analyze(
  body: {
   tokenizer: 'pattern',
   text: "The foo_bar_size's default is 5."
  }
)
puts response

Js

const response = await client.indices.analyze({
  tokenizer: "pattern",
  text: "The foo_bar_size's default is 5.",
});
console.log(response);

コンソール

POST _analyze
{
  "tokenizer": "pattern",
  "text": "The foo_bar_size's default is 5."
}

上記の文は次の用語を生成します：

テキスト

[ The, foo_bar_size, s, default, is, 5 ]

設定

pattern トークナイザーは次のパラメーターを受け入れます：


`pattern`	Java 正規表現、デフォルトは `\W+` です。
`flags`	Java 正規表現のフラグ。フラグはパイプで区切る必要があります。例： `````”CASE_INSENSITIVE	COMMENTS”`````
`group`	トークンとして抽出するキャプチャグループ。デフォルトは `-1` (分割) です。

例の設定

この例では、pattern トークナイザーを設定して、カンマに遭遇したときにテキストをトークンに分割します：

Python

resp = client.indices.create(
   index="my-index-000001",
   settings={
   "analysis": {
   "analyzer": {
   "my_analyzer": {
   "tokenizer": "my_tokenizer"
   }
   },
   "tokenizer": {
   "my_tokenizer": {
   "type": "pattern",
   "pattern": ","
   }
   }
   }
   },
)
print(resp)
resp1 = client.indices.analyze(
   index="my-index-000001",
   analyzer="my_analyzer",
   text="comma,separated,values",
)
print(resp1)

Ruby

response = client.indices.create(
  index: 'my-index-000001',
  body: {
   settings: {
   analysis: {
   analyzer: {
   my_analyzer: {
   tokenizer: 'my_tokenizer'
   }
   },
   tokenizer: {
   my_tokenizer: {
   type: 'pattern',
   pattern: ','
   }
   }
   }
   }
  }
)
puts response
response = client.indices.analyze(
  index: 'my-index-000001',
  body: {
   analyzer: 'my_analyzer',
   text: 'comma,separated,values'
  }
)
puts response

Js

const response = await client.indices.create({
  index: "my-index-000001",
  settings: {
   analysis: {
   analyzer: {
   my_analyzer: {
   tokenizer: "my_tokenizer",
   },
   },
   tokenizer: {
   my_tokenizer: {
   type: "pattern",
   pattern: ",",
   },
   },
   },
  },
});
console.log(response);
const response1 = await client.indices.analyze({
  index: "my-index-000001",
  analyzer: "my_analyzer",
  text: "comma,separated,values",
});
console.log(response1);

コンソール

PUT my-index-000001
{
  "settings": {
   "analysis": {
   "analyzer": {
   "my_analyzer": {
   "tokenizer": "my_tokenizer"
   }
   },
   "tokenizer": {
   "my_tokenizer": {
   "type": "pattern",
   "pattern": ","
   }
   }
   }
  }
}
POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "comma,separated,values"
}

上記の例は次の用語を生成します：

テキスト

[ comma, separated, values ]

次の例では、pattern トークナイザーを設定して、二重引用符で囲まれた値をキャプチャします（埋め込まれたエスケープされた引用符 \" を無視します）。正規表現自体は次のようになります：

"((?:\\"|[^"]|\\")*)"

次のように読み取ります：

リテラル "
キャプチャを開始：
- リテラル \" または " 以外の任意の文字
- 一致する文字がなくなるまで繰り返す
リテラルの閉じ "

パターンが JSON で指定されると、" および \ 文字はエスケープする必要があるため、パターンは次のようになります：

\"((?:\\\\\"|[^\"]|\\\\\")+)\"

Python

resp = client.indices.create(
   index="my-index-000001",
   settings={
   "analysis": {
   "analyzer": {
   "my_analyzer": {
   "tokenizer": "my_tokenizer"
   }
   },
   "tokenizer": {
   "my_tokenizer": {
   "type": "pattern",
   "pattern": "\"((?:\\\\\"|[^\"]|\\\\\")+)\"",
   "group": 1
   }
   }
   }
   },
)
print(resp)
resp1 = client.indices.analyze(
   index="my-index-000001",
   analyzer="my_analyzer",
   text="\"value\", \"value with embedded \\\" quote\"",
)
print(resp1)

Ruby

response = client.indices.create(
  index: 'my-index-000001',
  body: {
   settings: {
   analysis: {
   analyzer: {
   my_analyzer: {
   tokenizer: 'my_tokenizer'
   }
   },
   tokenizer: {
   my_tokenizer: {
   type: 'pattern',
   pattern: '"((?:\\\"|[^"]|\\\")+)"',
   group: 1
   }
   }
   }
   }
  }
)
puts response
response = client.indices.analyze(
  index: 'my-index-000001',
  body: {
   analyzer: 'my_analyzer',
   text: '"value", "value with embedded \" quote"'
  }
)
puts response

Js

const response = await client.indices.create({
  index: "my-index-000001",
  settings: {
   analysis: {
   analyzer: {
   my_analyzer: {
   tokenizer: "my_tokenizer",
   },
   },
   tokenizer: {
   my_tokenizer: {
   type: "pattern",
   pattern: '"((?:\\\\"|[^"]|\\\\")+)"',
   group: 1,
   },
   },
   },
  },
});
console.log(response);
const response1 = await client.indices.analyze({
  index: "my-index-000001",
  analyzer: "my_analyzer",
  text: '"value", "value with embedded \\" quote"',
});
console.log(response1);

コンソール

PUT my-index-000001
{
  "settings": {
   "analysis": {
   "analyzer": {
   "my_analyzer": {
   "tokenizer": "my_tokenizer"
   }
   },
   "tokenizer": {
   "my_tokenizer": {
   "type": "pattern",
   "pattern": "\"((?:\\\\\"|[^\"]|\\\\\")+)\"",
   "group": 1
   }
   }
   }
  }
}
POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "\"value\", \"value with embedded \\\" quote\""
}

上記の例は次の2つの用語を生成します：

テキスト

[ value, value with embedded \" quote ]