Приветствую, помогите плз с пониманием основ. Когда мы передаем в индекс эластика какую-ту инфу, данная инфа проходит цепочку обработки – Analyzer. Целью этой цепочки является преобразование данной информации в набор токенов через различные анализаторы. На основании этого строится поисковый индекс, к которому мы в итоге обращаемся через различные запросы. Индекс состоит с одной стороны из токенов, а с другой с документов в которых эти токены встречаются.
Пока все верно понял?)
Если все верно, у меня следующие вопросы:
--- У каждого индекса в рамках эластика свой набор токенов и документов, не общие они в рамках всего кластера индексов?
---Как можно переиндексировать текущий индекс путем применения другого набора анализаторов к нему? Например, как можно на основе текущего индекса применив к нему другой набор анализаторов создать другой?
--- как посмотреть текущий индекс анализатора (токены – документы)?
P.S. Может создал путаницу с термином индек - сорри. Под индексом я понимал обычный индекс в эластике (аналог бд), под поисковым индексом или индексом анализатора - я имел ввиду индекс из токенов который создается/обновляется после анализа поступающей инфо в эластик.
--- У каждого индекса в рамках эластика свой набор токенов и документов, не общие они в рамках всего кластера индексов?
На логическом уровне - да, но практически у каждого сегмента свой набор. (Индексы состоят из шард и шарды из сегментов)
---Как можно переиндексировать текущий индекс путем применения другого набора анализаторов к нему? Например, как можно на основе текущего индекса применив к нему другой набор анализаторов создать другой?
Если много способов, но самый простой - командой reindex.
--- как посмотреть текущий индекс анализатора (токены – документы)?
Есть несколько способов, но все они достаточно муторные. Проще посмотреть во что поле превращается при анализе с помощью команды analyze
P.S. Может создал путаницу с термином индек - сорри. Под индексом я понимал обычный индекс в эластике (аналог бд),
Это не совсем аналог бд, и эта аналогия может привезти к проблемам. В большинстве случаев лучше думать об индексе как таблице, но и с этим тоже есть свои проблемы.
под поисковым индексом или индексом анализатора - я имел ввиду индекс из токенов который создается/обновляется после анализа поступающей инфо в эластик.
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.