Удаление дубликатов документов в индексе

Коллеги, доброго!
Есть SQL-запрос, который добавляет в индекс значения посредством Logstash jdbc{} результат запроса помещается в индекс.
Запрос может выводить одинаковые строчки - в результате у меня в индексе дублирование информации.
Вопрос как посредством API мне удалить дубликаты?
Вроде бы есть вот такой код, который выводит информацию о дублях. Но, если он правильный, конечно, как мне применить удаление найденных документов - я не могу понять.

sql_clone_-2019.11.23/_search?pretty=true
{
 "size": 0,
  "aggs": {
    "duplicateCount": {
      "terms": {
      "field": "docref.keyword",
        "min_doc_count": 2
      },
      "aggs": {
        "duplicateDocuments": {
          "top_hits": {}
        }
      }
    }
  }  
}

Заранее спасибо.

Что бы избежать дублирование информации надо сделать так, чтобы у одинаковых строчек был один и тот же id. Если такого id нет, то можно какой-нибудь hash в качестве id использовать. После этого можно просто переиндексировать все с правильным id изменив в скрипте реиндексирование id и поставив op_type в create.

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.