Лучшие практики при индексации длинных стрингов

Подскажите, пожалуйста, где можно почитать или посмотреть о правильном моделировании типов и их полей в случае, когда индексируешь действительно большие (текстовые) документы.

Если в одно поле поместить слишком длинный стринг - это заканчивается плачевно.
Есть масса идей как это обойти, но наверняка ведь есть уже лучшие практики.

В каком смысле?

Поиск начинает сильно тормозить если в одно поле положить, скажем, книгу Война и Мир.
Возможно у типа надо внутренние подтипы для таких ситуаций формировать чтоб корректно индексировалось?

вот думаю может бить на чанки по скажем 1000 символов и генерировать у проперти внутренние проперти, в каждой чтоб по 1000 символов хранилось.

чтоб всё равно в одном документе хранилось, но не в 1 поле.

но может я все путаю и есть какие статьи на эту тему.

помимо прочего в выборке хотелось бы чтоб эти данные все как одно поле (проперти) воспринимались )

Я думаю, что проблема возникает при попытке извлечь документ из elasticsearch, не при самом поиске. Например, как изменяется время поиска если задать "size": 0? Как изменяется время если запросить только небольшие поля вместо всего source?

1 Like

В том то и дело что тормозить начал весь эластик с запросами к любому полю (может конечно и выгрузить что-то пытался, возможно надо какие настройки дополнительные для самого _source указывать, когда знаю что одно из полей может быть огромным).
У меня версия 2.3.3.
size 0 правда не пробывал - базу уже почистил и страшно стендом рисковать. Дома на выходных попробую еще.

Как только дропнул индекс, где сохранял длинные строки - все снова начало летать.

Потому и виню длинные строки.

У меня даже идея сохранять длинные поля в отдельной базе появилась. Но тогда по таким полям уже быстрым поиском не побегать...

Я просто думал может есть стандартные практики.

п.с. чем больше играю с эластиком - тем больше вопросов )

Я просто хочу определить какую проблему мы пытаемся решить, прежде чем начать предлагать решения. С size:0 мы можем посмотреть сколько времени занимает поиск без извлечения данных, если выбрать только одно небольшое поле мы определим сколько времени занимает поиск и извлечение данных без пересылки клиенту.

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.