Перенос данных с 5.6.2 на 7.7.1 версию (reindex from a remote) и консистентность данных

Sergei_Frolov · June 17, 2020, 1:28pm

Добрый день!

Выполняю перенос данных из 5.6.2 на 7.7.1 версию (reindex from a remote) через _reindex api - как описано тут

Все прекрасно переносится - по большей части обошелся лишь удалением типа из маппинга.

Но есть такой вопрос: как нагнать данные, которые попали в исходный индекс во время его переноса? Ведь реиндекс может идти несколько часов, и в исходном индексе за это время может появится несколько тысяч новых документов. Посоветуйте, как это сделать по возможности максимально бесшовно? Возможно ли запустить реиндекс еще раз, чтобы он прогнал только те документы, которые появились в индексе после того как был проведен реиндекс? Есть ли еще какие-либо способы соблюсти консистентность данных в обоих кластерах?

Igor_Motov · June 17, 2020, 1:58pm

У вас время создания/обновления в документы добавляется?

Sergei_Frolov · June 17, 2020, 2:12pm

Игорь, нет, индексы не time series, поле @timestamp и вообще что-то, напоминающее поле с временем в документе отсутствует.

Igor_Motov · June 17, 2020, 4:05pm

А записи обновляются или только новые записи создаются?

Sergei_Frolov · June 17, 2020, 4:13pm

Только новые создаются.

Igor_Motov · June 17, 2020, 4:17pm

В идеале, было бы здорово пометить записи, которые были добавлены после начала реиндексации каким-нибудь образом (через pipeline или ваш код индексации) чтобы их можно было легко отфильтровать на входе при повторной реиндексации. В противном случае, надо с будет переиндексировать все с "op_type": "create" и "conflicts": "proceed", чтобы процесс пыталься только создавать новые записи и игнорировать ошибки, если такие записи уже существуют.

Sergei_Frolov · June 17, 2020, 4:36pm

То есть примерно нечто подобное:

POST _reindex?wait_for_completion=false
{
  "source": {
    "remote": {
      "host": "http://192.168.50.214:9200",
      "username": "elastic",
      "password": "changeme"
    },
    "index": "favorites_v2"
  },
  "dest": {
    "index": "favorites_v2",
    "op_type": "create",
    "conflicts": "proceed"
  }
}

У меня к сожалению ругается на "conflicts": "proceed"

Igor_Motov · June 17, 2020, 5:39pm

conflicts должен быть на том же уровне, что и dest, а не внутри. См. документацию.

Sergei_Frolov · June 17, 2020, 7:34pm

Спасибо за ответ!

Попробовал так:

POST _reindex?wait_for_completion=false
{
  "source": {
    "remote": {
      "host": "http://192.168.50.214:9200",
      "username": "elastic",
      "password": "changeme"
    },
    "index": "favorites_v2"
  },
  "dest": {
    "index": "favorites_v2",
    "op_type": "create"
  },
  "conflicts": "proceed"
}

К сожалению так вышло даже дольше чем залить данные с нуля

Igor_Motov · June 17, 2020, 8:04pm

Да, такое тоже возможно. В основном этот способ применим, если можно отсечь большое количество входных данных фильтром, либо если сначала переключить индексацию в новый индекс, а потом запускать переиндексацию.

system · July 15, 2020, 8:04pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Удаленный reindex в качестве средства бэкапа Вопросы на русском языке	10	796	November 22, 2018
Reindexing Strategy Elasticsearch	3	1264	July 6, 2017
Reindexing with new mapping Elasticsearch	14	3738	July 6, 2017
Re-indexing documents while routing has been enabled via multiple aliases Elasticsearch	6	440	July 6, 2017
_reindex Вопросы на русском языке	2	575	September 30, 2018

Перенос данных с 5.6.2 на 7.7.1 версию (reindex from a remote) и консистентность данных

Related topics