Что содержат значения B и C? Почему значения A,B,C разные?
A - содержит размер исходной строки
B - содержит в себе список всех уникальных токенов (слов) в алфавитном порядке. То есть, если исходная строка была Что в лоб, что по лбу то мы будем считать длину строки [в, лбу, лоб, по, что] в случае стандартного анилизатора или [лбу, лоб], если анализатор удаляет русские шумовые слова.
C - это размер массива, про который мы рассматривали в B
D - тоже, что и C
Как узнать размер поля в query filter?
Во время выполнения запроса, это информация недоступна так как она отсутствует в индексе. Нужно либо переиндексировать, либо делать update_by_query по всему индексу.
На будущее, я бы пропустил записи через ingest processor при индексировании и добавил бы размер поля, как отдельное поле. А можно еще оставить в поле только первые 100000 символов, или не индексировать запись вообще.
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.