Подскажите, пожалуйста, где можно почитать или посмотреть о правильном моделировании типов и их полей в случае, когда индексируешь действительно большие (текстовые) документы.
Если в одно поле поместить слишком длинный стринг - это заканчивается плачевно.
Есть масса идей как это обойти, но наверняка ведь есть уже лучшие практики.
Поиск начинает сильно тормозить если в одно поле положить, скажем, книгу Война и Мир.
Возможно у типа надо внутренние подтипы для таких ситуаций формировать чтоб корректно индексировалось?
Я думаю, что проблема возникает при попытке извлечь документ из elasticsearch, не при самом поиске. Например, как изменяется время поиска если задать "size": 0? Как изменяется время если запросить только небольшие поля вместо всего source?
В том то и дело что тормозить начал весь эластик с запросами к любому полю (может конечно и выгрузить что-то пытался, возможно надо какие настройки дополнительные для самого _source указывать, когда знаю что одно из полей может быть огромным).
У меня версия 2.3.3.
size 0 правда не пробывал - базу уже почистил и страшно стендом рисковать. Дома на выходных попробую еще.
Как только дропнул индекс, где сохранял длинные строки - все снова начало летать.
Потому и виню длинные строки.
У меня даже идея сохранять длинные поля в отдельной базе появилась. Но тогда по таким полям уже быстрым поиском не побегать...
Я просто думал может есть стандартные практики.
п.с. чем больше играю с эластиком - тем больше вопросов )
Я просто хочу определить какую проблему мы пытаемся решить, прежде чем начать предлагать решения. С size:0 мы можем посмотреть сколько времени занимает поиск без извлечения данных, если выбрать только одно небольшое поле мы определим сколько времени занимает поиск и извлечение данных без пересылки клиенту.
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.