Удаление дубликатов документов в индексе

111229 · November 24, 2019, 7:43pm

Коллеги, доброго!
Есть SQL-запрос, который добавляет в индекс значения посредством Logstash jdbc{} результат запроса помещается в индекс.
Запрос может выводить одинаковые строчки - в результате у меня в индексе дублирование информации.
Вопрос как посредством API мне удалить дубликаты?
Вроде бы есть вот такой код, который выводит информацию о дублях. Но, если он правильный, конечно, как мне применить удаление найденных документов - я не могу понять.

sql_clone_-2019.11.23/_search?pretty=true
{
 "size": 0,
  "aggs": {
    "duplicateCount": {
      "terms": {
      "field": "docref.keyword",
        "min_doc_count": 2
      },
      "aggs": {
        "duplicateDocuments": {
          "top_hits": {}
        }
      }
    }
  }  
}

Заранее спасибо.

Igor_Motov · November 24, 2019, 10:10pm

Что бы избежать дублирование информации надо сделать так, чтобы у одинаковых строчек был один и тот же id. Если такого id нет, то можно какой-нибудь hash в качестве id использовать. После этого можно просто переиндексировать все с правильным id изменив в скрипте реиндексирование id и поставив op_type в create.

Topic		Replies	Views
Deleting duplicates in index using API query Elasticsearch	1	322	June 23, 2022
Предотвратить дупликаты Вопросы на русском языке	1	766	January 22, 2018
Вопрос по дубликатам Вопросы на русском языке	0	532	November 27, 2022
Дублирование документов Вопросы на русском языке	1	528	April 12, 2021
Как отображать в выдаче только дубликаты - аггрегация, поиск дубликатов Вопросы на русском языке	9	1141	April 13, 2021

Удаление дубликатов документов в индексе

Related topics