Разные написания брендов


(Макс Мухарёв) #1

Подскажите пожалуйста, как лучше решить задачу с разным написанием синонимов. История с брендами не нова, о чем постоянно упоминает Яндекс. Нужно, чтобы пользователь введя Aquaton, Akvaton, Acvaton, Акватон находил строку ~255 символов, в которой также бренд может иметь разное написание. При этом в строке кроме бренда может быть и другая информация.

Я полагаю, что на этапе индексации все бренды стоит привести к единому виду по некому словарю синонимов. И этим словарем как-то необходимо управлять (добавлять новые варианты), так как найти готовый крайне маловероятно.

Кто-то решал такую задачу?


(Igor Motov) #2

Задача вполне стандартная. Я бы начал с чтения "Elasticsearch: The Definitive Guide". Там это хорошо описано. Если поле этого останутся вопросы - спрашивайте.


(system) #3