正規表現の構文

正規表現(regular expression)は、プレースホルダー文字(オペレーターと呼ばれる)を使用してデータ内のパターンを一致させる方法です。

Elasticsearchは、以下のクエリで正規表現をサポートしています:

Elasticsearchは、Apache Luceneの正規表現エンジンを使用してこれらのクエリを解析します。

予約文字

Luceneの正規表現エンジンは、すべてのUnicode文字をサポートしています。ただし、以下の文字はオペレーターとして予約されています:

  1. . ? + * | { } [ ] ( ) " \

有効にされているオプションのオペレーターに応じて、以下の文字も予約される場合があります:

  1. # @
  2. &
  3. <
  4. > ~

これらの文字のいずれかをリテラルとして使用するには、前にバックスラッシュを付けるか、二重引用符で囲みます。例えば:

  1. \@ # renders as a literal '@'
  2. \\ # renders as a literal '\'
  3. "[email protected]" # renders as '[email protected]'

バックスラッシュは、JSON文字列と正規表現の両方でエスケープ文字です。クエリ内のバックスラッシュは両方エスケープする必要がありますが、言語クライアントを使用する場合はこれを処理します。例えば、文字列a\b"a\\b"としてインデックス化する必要があります:

Python

  1. resp = client.index(
  2. index="my-index-000001",
  3. id="1",
  4. document={
  5. "my_field": "a\\b"
  6. },
  7. )
  8. print(resp)

Ruby

  1. response = client.index(
  2. index: 'my-index-000001',
  3. id: 1,
  4. body: {
  5. my_field: 'a\\b'
  6. }
  7. )
  8. puts response

Js

  1. const response = await client.index({
  2. index: "my-index-000001",
  3. id: 1,
  4. document: {
  5. my_field: "a\\b",
  6. },
  7. });
  8. console.log(response);

Console

  1. PUT my-index-000001/_doc/1
  2. {
  3. "my_field": "a\\b"
  4. }

このドキュメントは、以下のregexpクエリに一致します:

Python

  1. resp = client.search(
  2. index="my-index-000001",
  3. query={
  4. "regexp": {
  5. "my_field.keyword": "a\\\\.*"
  6. }
  7. },
  8. )
  9. print(resp)

Ruby

  1. response = client.search(
  2. index: 'my-index-000001',
  3. body: {
  4. query: {
  5. regexp: {
  6. 'my_field.keyword' => 'a\\\\.*'
  7. }
  8. }
  9. }
  10. )
  11. puts response

Js

  1. const response = await client.search({
  2. index: "my-index-000001",
  3. query: {
  4. regexp: {
  5. "my_field.keyword": "a\\\\.*",
  6. },
  7. },
  8. });
  9. console.log(response);

Console

  1. GET my-index-000001/_search
  2. {
  3. "query": {
  4. "regexp": {
  5. "my_field.keyword": "a\\\\.*"
  6. }
  7. }
  8. }

標準オペレーター

Luceneの正規表現エンジンは、Perl Compatible Regular Expressions (PCRE)ライブラリを使用していませんが、以下の標準オペレーターをサポートしています。

  • .
  • 任意の文字に一致します。例えば:
    1. ab. # matches 'aba', 'abb', 'abz', etc.
  • ?
  • 前の文字を0回または1回繰り返します。前の文字をオプションにするためによく使用されます。例えば:
    1. abc? # matches 'ab' and 'abc'
  • +
  • 前の文字を1回以上繰り返します。例えば:
    1. ab+ # matches 'ab', 'abb', 'abbb', etc.
  • *
  • 前の文字を0回以上繰り返します。例えば:
    1. ab* # matches 'a', 'ab', 'abb', 'abbb', etc.
  • {}
  • 前の文字が繰り返される最小および最大回数。例えば:
    1. a{2} # matches 'aa'
    2. a{2,4} # matches 'aa', 'aaa', and 'aaaa'
    3. a{2,} # matches 'a` repeated two or more times
  • |
  • ORオペレーター。左側または右側のいずれかの最長パターンが一致すれば、マッチは成功します。例えば:
    1. abc|xyz # matches 'abc' and 'xyz'
  • ( … )
  • グループを形成します。グループを使用して、式の一部を単一の文字として扱うことができます。例えば:
    1. abc(def)? # matches 'abc' and 'abcdef' but not 'abcd'
  • [ … ]
  • 括弧内のいずれかの文字に一致します。例えば:
    1. [abc] # matches 'a', 'b', 'c'
    括弧内では、-は範囲を示しますが、-が最初の文字またはエスケープされている場合は除きます。例えば:
    1. [a-c] # matches 'a', 'b', or 'c'
    2. [-abc] # '-' is first character. Matches '-', 'a', 'b', or 'c'
    3. [abc\-] # Escapes '-'. Matches 'a', 'b', 'c', or '-'
    括弧内の文字の前に^があると、その文字または範囲が否定されます。例えば:
    1. [^abc] # matches any character except 'a', 'b', or 'c'
    2. [^a-c] # matches any character except 'a', 'b', or 'c'
    3. [^-abc] # matches any character except '-', 'a', 'b', or 'c'
    4. [^abc\-] # matches any character except 'a', 'b', 'c', or '-'

オプションのオペレーター

Luceneの正規表現エンジンに対して、flagsパラメータを使用して、より多くのオプションのオペレーターを有効にできます。

複数のオペレーターを有効にするには、|区切りを使用します。例えば、flagsの値がCOMPLEMENT|INTERVALの場合、COMPLEMENTおよびINTERVALオペレーターが有効になります。

有効な値

  • ALL (デフォルト)
  • すべてのオプションのオペレーターを有効にします。
  • "" (空文字列)
  • ALLの値のエイリアス。
  • COMPLEMENT
    1. ``````bash
    2. a~bc # matches 'adc' and 'aec' but not 'abc'
    3. `
  • EMPTY
    1. プログラムで値を組み合わせて正規表現を作成する場合、`````#`````を渡して「文字列なし」を指定できます。これにより、空の文字列や他の不要な文字列と誤って一致するのを避けることができます。例えば:
    2. ``````bash
    3. #|abc # matches 'abc' but nothing else, not even an empty string
    4. `
  • INTERVAL
    1. ``````bash
    2. foo<1-100> # matches 'foo1', 'foo2' ... 'foo99', 'foo100'
    3. foo<01-100> # matches 'foo01', 'foo02' ... 'foo99', 'foo100'
    4. `
  • INTERSECTION
    1. ``````bash
    2. aaa.+&.+bbb # matches 'aaabbb'
    3. `
  • ANYSTRING
    1. `````@`````オペレーターを`````&`````および`````~`````オペレーターと組み合わせて「すべてを除く」ロジックを作成できます。例えば:
    2. ``````bash
    3. @&~(abc.+) # matches everything except terms beginning with 'abc'
    4. `
  • NONE
  • すべてのオプションのオペレーターを無効にします。

サポートされていないオペレーター

Luceneの正規表現エンジンは、^(行の先頭)や$(行の末尾)などのアンカーオペレーターをサポートしていません。用語に一致させるには、正規表現が全体の文字列に一致する必要があります。