Поиск в индексе с "грязными" данными

Jenya87 · August 30, 2021, 1:12pm

Доброго времени суток. Иcпользую ES 7.13. Есть индекс, созданный программой FSCrawler.

В самом индексе есть данные о номерах телефона, но вот беда, их формат может быть:

7(999)111-22-333 или 7-999-111-22-333 или 7.999.111.22.333, то есть в самом индексе могут быть различные разделители в номерах телефона.

Можно ли настроить запрос так, чтобы при поиске по номеру без разделителей, т.е
если искать по 799911122333, то были найдены все вхождения 7(999)111-22-333 ,7-999-111-22-333 ,7.999.111.22.333

Спасибо

aleksmaus · August 30, 2021, 2:10pm

Может что то типа такого подойдёт?

GET phones/_search
{
  "query": {
    "bool": {
      "filter": {
        "script": {
          "script": {
            "source": """params.num.equals(/[-()\.]/.matcher(doc['number.keyword'].value).replaceAll(''))""",
            "params": {
              "num": "799911122333"
            }
          }
        }
      }
    }
  }
}

Jenya87 · August 30, 2021, 2:51pm

Спасибо за ответ. Никогда раньше не использовал скрипты в ES, у меня выдаёт ошибку ( сам телефон находится в поле content дефолтного индекса, который создал fscrawler

{
  "error" : {
    "root_cause" : [
      {
        "type" : "script_exception",
        "reason" : "runtime error",
        "script_stack" : [
          "org.elasticsearch.search.lookup.LeafDocLookup.get(LeafDocLookup.java:65)",
          "org.elasticsearch.search.lookup.LeafDocLookup.get(LeafDocLookup.java:27)",
          "params.num.equals(/[-()\\.]/.matcher(doc['content.keyword'].value).replaceAll(''))",
          "                                        ^---- HERE"
        ],
        "script" : "params.num.equals(/[-()\\.]/.matcher(doc['content.keyword'].value).replaceAll(''))",
        "lang" : "painless",
        "position" : {
          "offset" : 40,
          "start" : 0,
          "end" : 81
        }
      }
    ],
    "type" : "search_phase_execution_exception",
    "reason" : "all shards failed",
    "phase" : "query",
    "grouped" : true,
    "failed_shards" : [
      {
        "shard" : 0,
        "index" : "svodki_dch",
        "node" : "ZQ1H_U0gQnKhtBTyKJ0I0Q",
        "reason" : {
          "type" : "script_exception",
          "reason" : "runtime error",
          "script_stack" : [
            "org.elasticsearch.search.lookup.LeafDocLookup.get(LeafDocLookup.java:65)",
            "org.elasticsearch.search.lookup.LeafDocLookup.get(LeafDocLookup.java:27)",
            "params.num.equals(/[-()\\.]/.matcher(doc['content.keyword'].value).replaceAll(''))",
            "                                        ^---- HERE"
          ],
          "script" : "params.num.equals(/[-()\\.]/.matcher(doc['content.keyword'].value).replaceAll(''))",
          "lang" : "painless",
          "position" : {
            "offset" : 40,
            "start" : 0,
            "end" : 81
          },
          "caused_by" : {
            "type" : "illegal_argument_exception",
            "reason" : "No field found for [content.keyword] in mapping"
          }
        }
      }
    ]
  },
  "status" : 400

aleksmaus · August 30, 2021, 3:10pm

А какое имя у индекса? Можно ли посмотреть как выглядит ваш полный запрос к этому индексу?

А так же маппинг?

GET <имя индекса>/_mapping

Igor_Motov · August 30, 2021, 4:24pm

A в этом поле кроме цифр что-нибудь еще есть? Они всегда запятой разделены?

Jenya87 · August 30, 2021, 7:25pm

aleksmaus:
Имя индекса - second.
Запрос к нему (как Вы посоветовали)

GET second/_search
{
  "query": {
    "bool": {
      "filter": {
        "script": {
          "script": {
            "source": """params.num.equals(/[-()\.]/.matcher(doc['content.keyword'].value).replaceAll(''))""",
            "params": {
              "num": "799911122333"
            }
          }
        }
      }
    }
  }
}

Но повторяюсь, к своему стыду, скриптинг я не использовал ранее
Мэппинг такой (создан программой fscrawler):

  "second" : {
    "mappings" : {
      "dynamic_templates" : [
        {
          "raw_as_text" : {
            "path_match" : "meta.raw.*",
            "mapping" : {
              "fields" : {
                "keyword" : {
                  "ignore_above" : 256,
                  "type" : "keyword"
                }
              },
              "type" : "text"
            }
          }
        }
      ],
      "properties" : {
        "attachment" : {
          "type" : "binary"
        },
        "attributes" : {
          "properties" : {
            "group" : {
              "type" : "keyword"
            },
            "owner" : {
              "type" : "keyword"
            }
          }
        },
        "content" : {
          "type" : "text"
        },
        "file" : {
          "properties" : {
            "checksum" : {
              "type" : "keyword"
            },
            "content_type" : {
              "type" : "keyword"
            },
            "created" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "extension" : {
              "type" : "keyword"
            },
            "filename" : {
              "type" : "keyword",
              "store" : true
            },
            "filesize" : {
              "type" : "long"
            },
            "indexed_chars" : {
              "type" : "long"
            },
            "indexing_date" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "last_accessed" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "last_modified" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "url" : {
              "type" : "keyword",
              "index" : false
            }
          }
        },
        "meta" : {
          "properties" : {
            "altitude" : {
              "type" : "text"
            },
            "author" : {
              "type" : "text"
            },
            "comments" : {
              "type" : "text"
            },
            "contributor" : {
              "type" : "text"
            },
            "coverage" : {
              "type" : "text"
            },
            "created" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "creator_tool" : {
              "type" : "keyword"
            },
            "date" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "description" : {
              "type" : "text"
            },
            "format" : {
              "type" : "text"
            },
            "identifier" : {
              "type" : "text"
            },
            "keywords" : {
              "type" : "text"
            },
            "language" : {
              "type" : "keyword"
            },
            "latitude" : {
              "type" : "text"
            },
            "longitude" : {
              "type" : "text"
            },
            "metadata_date" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "modifier" : {
              "type" : "text"
            },
            "print_date" : {
              "type" : "date",
              "format" : "dateOptionalTime"
            },
            "publisher" : {
              "type" : "text"
            },
            "rating" : {
              "type" : "byte"
            },
            "relation" : {
              "type" : "text"
            },
            "rights" : {
              "type" : "text"
            },
            "source" : {
              "type" : "text"
            },
            "title" : {
              "type" : "text"
            },
            "type" : {
              "type" : "text"
            }
          }
        },
        "path" : {
          "properties" : {
            "real" : {
              "type" : "keyword",
              "fields" : {
                "fulltext" : {
                  "type" : "text"
                },
                "tree" : {
                  "type" : "text",
                  "analyzer" : "fscrawler_path",
                  "fielddata" : true
                }
              }
            },
            "root" : {
              "type" : "keyword"
            },
            "virtual" : {
              "type" : "keyword",
              "fields" : {
                "fulltext" : {
                  "type" : "text"
                },
                "tree" : {
                  "type" : "text",
                  "analyzer" : "fscrawler_path",
                  "fielddata" : true
                }
              }
            }
          }
        }
      }
    }
  }
}

Igor_Motov:
В этом поле (content) чего только нет, тк это залитые в Elastic документы ms office, а сделал я это потому, что они до жути не структурированные и их годами формировали нерадивые пользователи, так что проще всего мне к ним обращаться через ES, разделители там могут быть разные (но в основном '/', '.' ,'(' ,')', '*', '-')

aleksmaus · August 31, 2021, 2:54am

Спасибо за разъяснение, изначально подумал, что поле keyword и в нем только номер телефона.

В таком случае можно попробовать custom analyzer, как один из вариантов.

Если ситуация позволяет закрыть индекс на короткий промежуток времени чтобы добавить analyzer в тот же самый индекс, то можно так попробовать:

1. закрыть индекс

POST /second/_close

2. добавить analyzer

PUT /second/_settings
{
  "analysis" : {
    "char_filter": {
        "digits_only": {
          "type": "pattern_replace",
          "pattern": "[^\\d\\s]"
        }
    },
    "analyzer":{
      "digits":{
        "type":"custom",
        "char_filter": "digits_only",
        "tokenizer": "standard",
        "filer": ["trim"]
      }
    }
  }
}

3. открыть индекс

POST /second/_open

4. изменить mapping: добавить новое поле phone с новым analyzer и copy_to к полю content

PUT /second/_mapping
{
  "properties": {
    "content" : {
      "type" : "text",
      "copy_to": "phone"
    },
    "phone": {
      "type": "text",
      "analyzer": "digits"
    }
  }
}

5. pickup mapping changes

POST second/_update_by_query?conflicts=proceed

6. после этого можно использовать новое поле для запроса с номером

GET second/_search
{
  "query" : {
    "match": {
      "phone" : {
        "query": "799911122333"
      }
    }
  }
}

Ну и конечно понятно что в этом поле будут все цифры не только телефоны, и чтобы ограничить телефонами надо докрутить analyzer. Например поумнее сделать regular expressions чтобы выбирал только телефоны.

@Igor_Motov меня поправит если есть какой-то более лучший вариант

Jenya87 · September 1, 2021, 1:21pm

Спасибо большое за развёрнутый ответ, всё вроде работает!

Единственно непонятно как highlights делать, когда ищешь 799911122333, а находишь 7(999)111-223-33

system · September 29, 2021, 1:21pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Не работают стоп слова Вопросы на русском языке	11	2152	July 6, 2017
Асинхронные запросы для увеличения скорости поиска Вопросы на русском языке	8	1787	October 12, 2018
Поиск с boost на определенные типы данных Вопросы на русском языке	11	2208	February 15, 2018
Вопрос по формату даты Вопросы на русском языке	3	844	July 6, 2017
Highlight по всем индексам через client.msearch Вопросы на русском языке	4	701	February 17, 2017