Понимание основ


(Aleksey Yasinskiy) #1

Приветствую, помогите плз с пониманием основ. Когда мы передаем в индекс эластика какую-ту инфу, данная инфа проходит цепочку обработки – Analyzer. Целью этой цепочки является преобразование данной информации в набор токенов через различные анализаторы. На основании этого строится поисковый индекс, к которому мы в итоге обращаемся через различные запросы. Индекс состоит с одной стороны из токенов, а с другой с документов в которых эти токены встречаются.
Пока все верно понял?)
Если все верно, у меня следующие вопросы:
--- У каждого индекса в рамках эластика свой набор токенов и документов, не общие они в рамках всего кластера индексов?
---Как можно переиндексировать текущий индекс путем применения другого набора анализаторов к нему? Например, как можно на основе текущего индекса применив к нему другой набор анализаторов создать другой?
--- как посмотреть текущий индекс анализатора (токены – документы)?

P.S. Может создал путаницу с термином индек - сорри. Под индексом я понимал обычный индекс в эластике (аналог бд), под поисковым индексом или индексом анализатора - я имел ввиду индекс из токенов который создается/обновляется после анализа поступающей инфо в эластик.


(Igor Motov) #2

более-менее

--- У каждого индекса в рамках эластика свой набор токенов и документов, не общие они в рамках всего кластера индексов?

На логическом уровне - да, но практически у каждого сегмента свой набор. (Индексы состоят из шард и шарды из сегментов)

---Как можно переиндексировать текущий индекс путем применения другого набора анализаторов к нему? Например, как можно на основе текущего индекса применив к нему другой набор анализаторов создать другой?

Если много способов, но самый простой - командой reindex.

--- как посмотреть текущий индекс анализатора (токены – документы)?

Есть несколько способов, но все они достаточно муторные. Проще посмотреть во что поле превращается при анализе с помощью команды analyze

P.S. Может создал путаницу с термином индек - сорри. Под индексом я понимал обычный индекс в эластике (аналог бд),

Это не совсем аналог бд, и эта аналогия может привезти к проблемам. В большинстве случаев лучше думать об индексе как таблице, но и с этим тоже есть свои проблемы.

под поисковым индексом или индексом анализатора - я имел ввиду индекс из токенов который создается/обновляется после анализа поступающей инфо в эластик.

это будет сегмент


(system) #3