Релевантность по частоте фраз [РЕШЕНО]

viktorm · August 9, 2016, 10:07am

Уважаемые коллеги,

Клиент хочет поиск документов по фразам и определять релевантность по частоте фраз. Стандартные средства match_phrase, как я их понял, не решают задачу полностью.

Решение "в лоб" — делать custom score function, которая будет считать количество фраз в документе. Есть ли способы элегантнее?

Спасибо.

Igor_Motov · August 9, 2016, 1:11pm

Сколько документов в индексе, какой у них размер и сколько слов в фразе (в среднем и максимальное)?

viktorm · August 9, 2016, 1:18pm

Здравствуйте Игорь!

Документов ~700K(резюме). Размер поля в котором поиск от 100 до 5000 символов(секция опыт работы). Фразы от одного до четырех слов(должность).

Igor_Motov · August 9, 2016, 2:02pm

Тогда можно попробовать индексировать фразы как отдельные токены с помощью фильтра shingle.

viktorm · August 9, 2016, 5:24pm

Игорь, пробую с shingle фильтром. Получается не очень.

Вот мои эксперименты http://lpaste.net/2853889383168212992. Я пронумеровал документы в соответствии с количеством фраз "software engineer" для удобства.

"Наивный" скрипт дает лучший результат релевантности. Может так и оставить? Я читал что elastic загружает в память все документы. Я предполагаю что скрипт не должен давать большой нагрузки

Igor_Motov · August 9, 2016, 6:14pm

Что-то вы очень быстро сдались Получается плохо, потому что ваш запрос дискриминирует работников с длинными резюме. По умолчанию, elasticsearch предпочитает короткие документы длинным при одинаковом количестве совпадений слов, но этот механизм очень легко отключить вот так:

          "entry" : {
            "type" : "string",
            "fields": {
                "shingles": {
                    "type":     "string",
                    "omit_norms": { "enabled": false },  <------
                    "analyzer": "rz_shingle_analyzer"
                }
            }
          },

"Наивный" скрипт потребует проверки каждой записи в индексе. Такие решения не масштабируются.

viktorm · August 9, 2016, 6:30pm

Игорь, браво! Прекрасно работает.

Спасибо за помощь.

Topic		Replies	Views
[Theory] Improving search result relevance? Elasticsearch	8	1370	July 6, 2017
Phrase frequency in a document and in the whole collection Elasticsearch	4	1549	July 5, 2017
How does shingle filter work on match_phrase in query phase? Elasticsearch	5	1600	July 6, 2017
Filter by match_phrase, score by phrase frequency Elasticsearch	3	715	July 5, 2017
How getting document match rate? Elasticsearch	7	639	July 6, 2017

Релевантность по частоте фраз [РЕШЕНО]

Related topics