Лучшие практики при индексации длинных стрингов

whispersofdew · February 13, 2017, 2:49pm

Подскажите, пожалуйста, где можно почитать или посмотреть о правильном моделировании типов и их полей в случае, когда индексируешь действительно большие (текстовые) документы.

Если в одно поле поместить слишком длинный стринг - это заканчивается плачевно.
Есть масса идей как это обойти, но наверняка ведь есть уже лучшие практики.

Igor_Motov · February 13, 2017, 7:53pm

В каком смысле?

whispersofdew · February 14, 2017, 7:57am

Поиск начинает сильно тормозить если в одно поле положить, скажем, книгу Война и Мир.
Возможно у типа надо внутренние подтипы для таких ситуаций формировать чтоб корректно индексировалось?

whispersofdew · February 14, 2017, 10:27am

вот думаю может бить на чанки по скажем 1000 символов и генерировать у проперти внутренние проперти, в каждой чтоб по 1000 символов хранилось.

чтоб всё равно в одном документе хранилось, но не в 1 поле.

но может я все путаю и есть какие статьи на эту тему.

whispersofdew · February 14, 2017, 10:40am

помимо прочего в выборке хотелось бы чтоб эти данные все как одно поле (проперти) воспринимались )

Igor_Motov · February 15, 2017, 8:47pm

Я думаю, что проблема возникает при попытке извлечь документ из elasticsearch, не при самом поиске. Например, как изменяется время поиска если задать "size": 0? Как изменяется время если запросить только небольшие поля вместо всего source?

whispersofdew · February 17, 2017, 1:11pm

В том то и дело что тормозить начал весь эластик с запросами к любому полю (может конечно и выгрузить что-то пытался, возможно надо какие настройки дополнительные для самого _source указывать, когда знаю что одно из полей может быть огромным).
У меня версия 2.3.3.
size 0 правда не пробывал - базу уже почистил и страшно стендом рисковать. Дома на выходных попробую еще.

Как только дропнул индекс, где сохранял длинные строки - все снова начало летать.

Потому и виню длинные строки.

У меня даже идея сохранять длинные поля в отдельной базе появилась. Но тогда по таким полям уже быстрым поиском не побегать...

Я просто думал может есть стандартные практики.

п.с. чем больше играю с эластиком - тем больше вопросов )

Igor_Motov · February 17, 2017, 1:59pm

Я просто хочу определить какую проблему мы пытаемся решить, прежде чем начать предлагать решения. С size:0 мы можем посмотреть сколько времени занимает поиск без извлечения данных, если выбрать только одно небольшое поле мы определим сколько времени занимает поиск и извлечение данных без пересылки клиенту.

system · March 17, 2017, 1:59pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Are there special considerations for indexing extremely long Strings Elasticsearch	2	1358	July 5, 2017
Можно ли не индексировать очень большое полнотекстовое поле (text)? Вопросы на русском языке	3	409	November 11, 2021
Extremely Large Documents: Querying and Dealing with Elasticsearch	17	3565	October 28, 2021
Indexing very long word Elasticsearch	1	511	April 22, 2020
Elastic does not index some of the data Elasticsearch	11	1678	October 21, 2020

Лучшие практики при индексации длинных стрингов

Related topics