Doc2vec для более релевантного поиска в elastic search

Доброго времени суток! Уже год настраиваем поиск в ES. Проблема с релевантностью выдачи. У нас есть база с нормативными документами. Одно и тоже слово может означать диаметрально противоположные значения. Например, отпуск - это может быть отпуск товарно-материальных ценностей, но может быть как отпускной период для работника. Ни бусты, ни плагины русской морфологии не помогли, точнее помогли но не решили проблему до конца. Выходом видится предобработка (дополнительное индексирование) массива документов с помощью моделей vec2doc (например, https://rusvectores.org/ru/models/). Может быть кто-то с таким уже сталкивался и знает как решить данную проблему. Огромнейшее спасибо!

Да действительно, модели такие как word2vec могут быть использованы для семантического поиска. С версии 7.3 мы ввели возможность индексировать вектора и функции для работы с ними. Скоро выйдет Elastic блог где будет подробно описано как это можно сделать. Но вот в этой репозитории уже cейчас можно посмотреть на пример как можно осуществить такой семантический поиск.

Огромнейшее спасибо, Мария! будем пробовать! Всем хорошего дня и отличного настроения!

1 Like