Поиск фразы в индексе со стеммингом

GreenX · February 6, 2017, 9:22am

Доброго времени суток!
Есть индекс и поле в нем построенное со стеммингом.
Не получается сделать поиск полной фразы.
Т.е. на пример, надо найти точно "Электронный документ".
Как ни пытался - ES первым выводит более длинное значение, какой-нибудь "Справочник по электронному документообороту".
Возможно ли это побороть или переделывать индексы?
А если переделывать как правильно?
Ведь получается, что нужны и полные слова и "обрезки".
Целые для поиска точных фраз и обрезки для всяких не точных поисков.
Или вообще по другому делается?

Igor_Motov · February 6, 2017, 4:28pm

Обычно, в таких случаях поле индексируют дважды - один раз как со стемингом и синонимами и второй раз без. Поиск осуществляется по обоим полям с бустом. Примеры можно в этой презентации посмотреть.

GreenX · February 6, 2017, 4:51pm

Отлично! Большое спасибо. В приведенном примере my_type сразу два аналайзера применяется, дополнительных движений не нужно?

Igor_Motov · February 6, 2017, 4:53pm

Нужно. Запрос на следующем слайде.

GreenX · February 6, 2017, 5:17pm

Ну про это то я догадался
Я имел ввиду, что при индексации не надо данные в два поля посылать:
put /my_index/my_type
{ "my_text": "some text",
"my_text.with_synonyms": "some text"
}

Igor_Motov · February 6, 2017, 5:33pm

Да, оба поля будет созданы автоматически из одного поля исходного документа.

GreenX · February 9, 2017, 6:50pm

А имеет смысл вырезать стоп слова из оригинальных токенов (без синонимов)?

Igor_Motov · February 10, 2017, 12:53am

Я, лично, стоп слова недолюбливаю. Считаю вреда от них больше чем пользы, особенное, если бездумно брать готовый список слов от куда-нибудь. Стандартный список русских стоп слов тут, например. С моей точки зрения, он слишком большой, и зачем туда такие слова, как человек и жизнь засунули - я просто ума не приложу. К тому-же без стемминга такой список стоп слов в русском бесполезен - так как слова в нем заданы только в одной форме.

Единственный случай, когда стоп-слова действительно полезны, с моей точки зрения, это если надо чтобы детишки в школе матерные слова в индексе не могли найти, а контролировать, что в индекс добавляется не возможности. В этом случае, добавляешь мат в файл, грузишь как стоп слова, и все - дешево и сердито. Но, опять-же, в английском, это все просто делается, а в русском - все надо через стеммер пропускать, чтобы многоэтажный мат отловить.

GreenX · February 10, 2017, 8:27am

Я поэтому и спрашиваю, что пресловутое "быть или не быть", как фразу не найти.
Вот и выходит, что первый индекс должен быть просто "standard", а второй более хитрый.
И пока я думаю, что должен стандартный токенайзер, а дальше фильты
lowcase ->stop_word -> keyword -> russian_morphology -> engilish_morphlogy -> synonym

lowcase - чтобы потом не заботиться о регистре написания
stop_word. - т.к. они в первом индексе есть тут их можно нещадно резать.
keyword - для всяких исключений и сокращений: СССР, КГБ, ЯрГУ
russian_morphology - как минимум, мне не понравилось как стеммер swonball с русскими фамилиями работает.
engilish_morphlogy - до кучи
synonym - синонимы в нормальной форме.

Есть конечно еще некоторые сомнения:

Резать ли цифры? Их же много. Но ведь найдется гений, который будет искать организацию по ИНН.
Нужны ли nGram-ы для всяких нечетких поисков. Если нужны то получается, нужно делать третий индекс. Ибо по опыту сочетание стеммера и nGram даёт не однозначный результат.

В общем, если есть мудрость поделитесь
Понятно, что у всех свои нюансы, но ведь есть общие принципы которые подойдут 98%% задач по поиску в русском тексте.

Igor_Motov · February 10, 2017, 3:51pm

Как я пытался объяснить в предыдущем сообщении stop_word перед стеммером работать не будет, если только вы все возможные словоформы для каждой лексемы туда на добавите. Поэтому обычно делают так lowercase -> keyword -> russian_morphology -> engilish_morphlogy -> stop_word -> synonym

На этот вопрос ответить сложно без внимательного изучения ваших данных и как ваши пользователи привыкли искать и какой тип поиска вы хотите поддерживать.
Да, nGram со стеммером применять бессмысленно, так как они и тот и другой выполняет по-сути одну и туже функцию. Если поиск по подстрокам нужен, лучше проиндексировать еще раз.

GreenX · February 15, 2017, 8:15pm

До редактирования поста так и было
А потом пришла такая мысль:

Составить достаточно полный словарь задача посильная.
Сложность зависит (почти) только от объема входных данных
Если количество stop слов 30%, то объем на выходе на треть меньше.
Поэтому вырезать сразу лишнее интереснее.

Получается, что если нужен поиск по подстрокам, то нет смысла вообще связываться со стеммером и морфологическим разбором?

Igor_Motov · February 15, 2017, 8:54pm

Для меня это взаимозаменяемые решения. Выбор решения зависит от типа и объема данных (ngrams производят больше токенов и размер индекса, как правило получается больше) и предпочтений пользователей (некоторые пользователи предпочитают подстроки, потому что им так проще понять почему они получили тот или иной результат).

system · March 15, 2017, 8:55pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Фильтр nGram на синонимы Вопросы на русском языке	17	3785	July 6, 2017
Search with stemming and stopwords (german) Elasticsearch	9	3469	July 6, 2017
Не ищет в индексе по половине слова Вопросы на русском языке	7	1622	January 8, 2018
Подсветка фраз со стоп-словами при match_phrase поиске Вопросы на русском языке	3	1634	July 6, 2017
Is there any way I can keep original words with the stemmed words? Is it a good idea? Elasticsearch	1	431	July 6, 2017

Поиск фразы в индексе со стеммингом

Related topics