【ingest node】dissect processorとKV processorを1度に処理できるか

harue · December 18, 2019, 7:13am

お世話になっております。

Ingest nodeについてご質問です。

サンプルログ
value1|value2|key3=value3 key4=value4

上記ログは、1つのログに形式の異なるデータが存在します。

このログを
"value1|value2|箇所は、Dissect Proccesorにて下記の方法で定義

dissect {
   mapping => {
     "message" => "%{key1}|%{key2}"
    }
  }

key3=value3 key4=value4箇所は、KV Proccesorにて下記の方法で定義

{
  "kv": {
    "field": "message",
    "field_split": " ",
    "value_split": "="
  }
}

したいと考えております。

インデックスデータは1つのインデックスに以下のように登録したいです。

field名 value
key1     value1
key2     value2
key3     value3
key4     value4

ご質問
上記2つのprocessorを1つのpipeline上に定義する方法について教えて下さい。
1つのpipeline上では実現不可の場合、pipelineをそれぞれに分けて実現する方法があれば教えてください。

お手数ですが、回答頂けますと幸いです。

tsgkdt · December 18, 2019, 1:25pm

1度で定義する、のイメージがよく分からなかったのですが、こういうことです？

Ingest Nodeと書いてあったので、Pipeline processorのsimulateを貼っておきます。

POST _ingest/pipeline/_simulate
{
  "pipeline": {
    "processors": [
      {
        "dissect": {
          "field": "message",
          "pattern": "%{key1}|%{key2}|%{other}",
          "ignore_missing": true
        }
      },
      {
        "kv": {
          "field": "other",
          "field_split": " ",
          "value_split": "="
        }
      },
      {
        "remove": {
          "field": "other"
        }
      }
    ]
  },
  "docs": [
    {
      "_index": "aaa",
      "_id": "1",
      "_source": {
        "message": "value1|value2|key3=value3 key4=value4"
      }
    }
  ]
}

得られる結果がこちら
key1, 2, 3, 4と揃っているように見えますがどうでしょうか？

{
  "docs" : [
    {
      "doc" : {
        "_index" : "aaa",
        "_type" : "_doc",
        "_id" : "1",
        "_source" : {
          "key1" : "value1",
          "key2" : "value2",
          "key3" : "value3",
          "key4" : "value4",
          "message" : "value1|value2|key3=value3 key4=value4"
        },
        "_ingest" : {
          "timestamp" : "2019-12-16T14:26:14.335988Z"
        }
      }
    }
  ]
}

harue · December 19, 2019, 1:46am

早急に回答頂きありがとうございます。
上記パイプラインで想定の値を取得することが出来ました。

追加のご質問で恐縮ですが

サンプルログ(valueにスペースが存在するデータ)
key3=value3 key4=val ue4 key5=value5 key6=val ue6

kv processorで以下を実行すると

POST _ingest/pipeline/_simulate
{
  "pipeline": {
    "processors": [
      {
        "kv": {
          "field": "message",
          "field_split": " ",
          "value_split": "="
        }
      },
      {
        "remove": {
          "field": "message"
        }
      }
    ]
  },
  "docs": [
    {
      "_index": "aaa",
      "_id": "1",
      "_source": {
        "message": "key3=value3 key4=val ue4  key5=value5  key6=val ue6"
      }
    }
  ]
}

以下のエラーが返ってきます。

  {
    "type" : "exception",
    "reason" : "java.lang.IllegalArgumentException: java.lang.IllegalArgumentException: field [message] does not contain value_split [=]",
    "header" : {
      "processor_type" : "kv"
    }

インデックスデータは下記の通りに登録したいです。

field名 value
key3     value3
key4     val ue4
key5     value5
key6     val ue6

上記データをingest nodeで処理する方法はありますでしょうか。
elastic discussの投稿を検索しましたが、回答が見つからずご教示頂けますと幸いです。

tsgkdt · December 19, 2019, 4:11am

こちらを参考にfield_splitを指定してみたところ、期待する結果になりそうですがどうでしょうか？

POST _ingest/pipeline/_simulate
{
  "pipeline": {
    "processors": [
      {
        "dissect": {
          "field": "message",
          "pattern": "%{key1}|%{key2}|%{other}",
          "ignore_missing": true
        }
      },
      {
        "kv": {
          "field": "other",
          "field_split" : """\s(?![-_,:()\w\" ]+?(\s+|$))""",
          "value_split": "="
        }
      },
      {
        "remove": {
          "field": "other"
        }
      }
    ]
  },
  "docs": [
    {
      "_index": "aaa",
      "_id": "1",
      "_source": {
        "message": "value1|value2|key3=value3 key4=val ue4 key5=value5 key6=val ue6"
      }
    }
  ]
}

結果がこちら

{
  "docs" : [
    {
      "doc" : {
        "_index" : "aaa",
        "_type" : "_doc",
        "_id" : "1",
        "_source" : {
          "key1" : "value1",
          "key2" : "value2",
          "key5" : "value5",
          "key6" : "val ue6",
          "key3" : "value3",
          "key4" : "val ue4",
          "message" : "value1|value2|key3=value3 key4=val ue4 key5=value5 key6=val ue6"
        },
        "_ingest" : {
          "timestamp" : "2019-12-16T16:09:53.719382Z"
        }
      }
    }
  ]
}

ご確認いただけますか？

harue · December 19, 2019, 5:05am

早急に回答頂きありがとうございます。

上記の記載方法で実現できました。
大変助かりました。

Topic		Replies	Views
If the intended value itself contains the 'field split', can we use kv processor? Elasticsearch	6	1052	November 6, 2021
Ingest Pipeline KV Processor Elasticsearch	9	422	August 26, 2025
Ingest pipeline for kv split value Elasticsearch	4	650	June 8, 2020
Space in Key Value Pipeline Elasticsearch ingest-pipeline	0	101	November 25, 2024
About Ingest Processor patterns Elastic Stack ingest-pipeline	3	332	May 23, 2022

【ingest node】dissect processorとKV processorを1度に処理できるか

Related topics