Настройки для поиска телефонных номеров

Jenya87 · March 5, 2020, 3:00pm

Доброго времени суток.

Хочу перевести телефонный справочник сотрудников (3 основных поля - Фио, номер и заметка) из MS SQL на Elastic (так исторически сложилось, что в заметках о сотрудниках содержится значимая текстовая информация, хочу использовать возможности Elastic для поиска в ней).

Вопрос такой: какие оптимальные настройки следует задать для того, чтобы находить телефон полностью, если пользователь введёт через 8 или +7,или по нескольким последним цифрам (телефоны - русские сотовые и городские, могут быть с кодом города и без)

Тире и плюс и пр. я смогу отсечь с помощью фильтра символов, а вот как лучше задать
tokenizer и фильтры токенов?

Спасибо.

Igor_Motov · March 5, 2020, 3:56pm

А номера в индексе будут только российские? Другими словами, номера других стран не гарантировано не появятся и код страны можно отбросить? Правильно ли я понял, что поиск нужен только по окончанию телефона?

Jenya87 · March 5, 2020, 4:16pm

Спасибо за ответ. Номера - да, гарантированно только российские, сотовые и городские (как с кодом города, так и без)

Поиск может быть и по окончанию телефона, по префиксу оператора (например группе людей выдавались корпоративные симки формата 8999*******, найти их всех), также по номеру целиком, но думаю, целесообразно по крайней мере задать фильтр

min_filter": {
          "type": "length",
          "min": 3
        },

чтобы юзеры ерунду всякую не вводили

Igor_Motov · March 5, 2020, 4:50pm

Я бы как-то так начал:

POST _analyze
{
  "tokenizer": "keyword",
  "char_filter": [
    {
      "type": "pattern_replace",
      "pattern": "^\\+7|^8|[^01234567890]",
      "replace": ""
    }
  ],
  "text": ["8 123-456+78-90", "+7123 456 78 90", "456 78 90", "+71(234) ерунда 5678"]
}

Для поиска по суффиксам/префиксам, если база большая и wildcards не справляются, то можно проиндексировать пару раз с edge_ngram, и edge_ngram вместе с reverse.

Jenya87 · March 5, 2020, 5:38pm

Спасибо за ответ. Попробую на данных, отпишусь.

Ещё вопросик разрешите: что почитать по поводу применения Elastic к анализу русского текста? Есть где нибудь мануал? (чтобы здесь лишний раз не спамить)

Topic		Replies	Views
Search phone number Elasticsearch	5	9985	October 22, 2015
Search by phone number Elasticsearch	13	13227	August 7, 2015
I cannot search by telephone (part) Elasticsearch	1	269	June 7, 2023
Serch operators code from full phone number Elasticsearch	1	891	July 3, 2015
Map, analyze and search phone number Elasticsearch	14	6055	August 19, 2011

Настройки для поиска телефонных номеров

Related topics