Удаленный reindex в качестве средства бэкапа

74db36a597f21b891b3f · October 22, 2018, 8:19am

Добрый день.
У меня есть задача - бэкапить индексы с одного ES кластера на другой.
Для нее я в данный момент использую reindex API.
Соединение между двумя кластерами нестабильное и может прерываться. Процесс реиндекса каждый раз начинается заново.
Чтобы решить эту проблему, я начал использовать ключи conflicts: "proceed" и op_type: "create".
Насколько я понимаю, это сочетание приведет к тому, в destination будут копироваться только те документы, которых там еще нет.
Нет ли каки-х-то "подводных камней" в данном способе? Что, если исходный индекс, например, будет изменяться в части создания новых документов или сервисного слияния сегментов?

Vladimir.Dolzhenko · October 22, 2018, 8:39am

Один из больших и очевидных подводных камней это удаление документов. В случае с reindex в целевом индексе у вас будет больше документов, чем в исходном.

74db36a597f21b891b3f · October 22, 2018, 9:04am

Удаления документов из источника не планируется.

Vladimir.Dolzhenko · October 22, 2018, 9:56am

В целом такой подход будет работать - не идеально, т.к много лишних накладных расходов: необходимо будет копировать все данные из одного индекса в другой.

Другой вариант - это использовать snapshot - и snapshot создаются инкрементально, т.е нет нужны копировать целиком весь индекс.

И третий - это Cross Cluster Replication - https://github.com/elastic/elasticsearch/issues/30086 - работы идут активно в этом направлении и пока ещё не завершены. В таком случае синхронизация одного кластера в другой происходит почти в режиме реального времени, поддерживаются и удаления.

74db36a597f21b891b3f · October 22, 2018, 10:13am

То есть, даже если установить параметр op_type: "create", все равно копироваться будут все документы?

Снепшоты не нравятся по причине выделения места под транзитное хранилище.

Vladimir.Dolzhenko · October 22, 2018, 10:22am

в случае op_type: "create" данные всё равно будут копироваться, но это не будет приводить к появлению дубликатов (в случае использования op_type: "index" по-умолчанию)

74db36a597f21b891b3f · October 22, 2018, 10:53am

Не понял, уточните пожалуйста, как предполагается задать для op_type два значения: index и create?

В целом я правильно понимаю, что инкрементально удаленный reindex никак не сделать?

Vladimir.Dolzhenko · October 22, 2018, 11:08am

Когда вы делаете reindex параметр op_type задан неявно и он равен index, этот подводный камень вы самостоятельно преодолели задав его явно op_type: "create".

Инкрементально удалённый reindex невозможен, по крайней мере сейчас и никаких планов на обозримое будущее нет. Более эффективным и надежным подходом мы считаем CCR.

pablissimo77 · October 25, 2018, 7:44am

Извините, что вмешиваюсь - Владимир, а как долго ждать CCR? Очень не хватает такой штуки

Vladimir.Dolzhenko · October 25, 2018, 7:54am

Вы абсолютно правы - над ней ломали голову больше 4х лет - но вот-вот уже скоро она будет - точную дату не скажу ибо не все работы ещё закончены - смотрите приведённую meta issue. Точно могу сказать, что это коммерческая (xpack) функциональность.

system · November 22, 2018, 8:02am

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Перенос данных с 5.6.2 на 7.7.1 версию (reindex from a remote) и консистентность данных Вопросы на русском языке	10	647	July 15, 2020
Reindex api - One ES cluster to another Elasticsearch	3	666	July 5, 2017
Reindex into another Elasticsearch Elasticsearch	5	445	July 6, 2017
Transferring a writable index from one cluster to another Elasticsearch	16	1049	August 8, 2023
Continuous async replication Elasticsearch	10	2328	July 6, 2017

Удаленный reindex в качестве средства бэкапа

Related topics