Медленный unified highlighting

Mikhail_Khludnev · October 30, 2019, 6:57pm

терм вектор прямая структура данных - по документу получаем все термы.
в обратном индексе по можно найти документ, но определить все его термы затруднительно.
Fuzzy или prefix запросы преобразуются в конечные автоматы распознающие термы, далее они пересекаются со словарями (ктоторые тоже, сюрприз, автоматы). Сложность операции пропорциональна размеру пересекаемого словаря, и кроме того в случае обратного индекса она возвращает много списков вхождений в которых надо искать подсвечиваемый документ. В случае терм вектора имеем маленький словарь термов на каждый документ.

Mikhail_Khludnev · October 30, 2019, 6:58pm

Его банят за компанию с линкедином.

GreenX · October 30, 2019, 7:13pm

Получается term_vector не обратный список, а просто доп. информация к документу с указанием положения термов. И весь прикол в том, что при подсветке надо найти пересечение с добавками fuzziness в запросе и этим списком term_vector?

Mikhail_Khludnev · October 30, 2019, 7:48pm

всё такъ

GreenX · October 31, 2019, 6:43am

Блин. Утром проснулся и опять всё сломалось в голове...
Почему unifield в этом случае не использует offsets?
Зачем по новой анализирует документ?
По готовому списку все равно быстрее бежать.
Или это частный случай и подразумевается что обратный индекс здоровенный т.к. он один на все документы в индексе и дешевле маленький документ анализировать по новой?

Igor_Motov · October 31, 2019, 3:03pm

Это ссылка на последний комментарий Джима, который как раз отвечает на эти вопросы.

Topic		Replies	Views
Unified Highlighter is too slow Elasticsearch	8	2231	May 30, 2018
Comparing Plain, FVH and Postings Highlighter Performance Elasticsearch	5	2135	November 2, 2013
Highlighting takes long time for large documents Elasticsearch	6	5077	July 19, 2012
[ANN] Elasticsearch experimental highlighter Elasticsearch	3	833	May 30, 2014
Elasticsearch Highlighting is very slow Elasticsearch	0	1023	December 13, 2018

Медленный unified highlighting

Related topics