Как отображать в выдаче только дубликаты - аггрегация, поиск дубликатов

Добрый день!

Выполняю аггрегацию для поиска дублей:

GET app_log-*/_search
{
  "size": 0,
  "aggs": {
    "duplicateCount": {
      "terms": {
        "field": "context.id",
        "min_doc_count": 2
      },
      "aggs": {
        "duplicateDocuments": {
          "top_hits": {}
        }
      }
    }
  }
}

Она срабатывает, но дубли находятся только в первой/первых записи/записях. Далее идут похоже все записи, в которых просто есть поле context.id.

то есть я вижу

"hits" : {
    "total" : {
      "value" : 10000,
      "relation" : "gte"
    },

но в действительности там в лучшем случае будет только одна такая запись, и она и присутствует в выдаче в самом верху.

Скажите, как сделать так, чтобы в выдаче были только записи в которых нашлись дубликаты?

Версия: 7.11.2

Не понял вопрос.

Игорь, в индексе присутствуют документы-дубли. Нужно их найти. Я ищу их по полю context.id вот таким запросом:

GET app_log-*/_search
{
  "size": 0,
  "aggs": {
    "duplicateCount": {
      "terms": {
        "field": "context.id",
        "min_doc_count": 2
      },
      "aggs": {
        "duplicateDocuments": {
          "top_hits": {}
        }
      }
    }
  }
}

по идее, он должен выдавать только документы, в которых есть дубли. Но он выдает похоже все документы, в которых есть поле context.id.

В выдаче из всех документов только самый первый, если взять его значение и провести по нему поиск - имеет дубли. Все остальные при поиске по ним - появляются в выдаче только 1 раз.

Как правильно сделать поиск дублей? Поле context имеет тип flattened - соответственно все поля вложенные в него - имеют тип keyword.

Все-равно не понимаю, вы не могли бы пояснить на этом примере, что не работает:

DELETE test

PUT test
{
  "settings": {
    "number_of_shards": 3
  }, 
  "mappings": {
    "properties": {
      "name": {
        "type": "keyword"
      }
    }
  }
}

POST /test/_bulk?refresh
{"index":{"_id":1}}
{"name": "foo"}
{"index":{"_id":2}}
{"name": "foo"}
{"index":{"_id":3}}
{"name": "foo"}
{"index":{"_id":4}}
{"name": "bar"}
{"index":{"_id":5}}
{"name": "bar"}
{"index":{"_id":6}}
{"name": "baz"}
{"index":{"_id":7}}
{"name": "abc"}
{"index":{"_id":8}}
{"name": "xyz"}



GET test/_search
{
  "size": 0,
  "aggs": {
    "duplicateCount": {
      "terms": {
        "field": "name",
        "min_doc_count": 2
      },
      "aggs": {
        "duplicateDocuments": {
          "top_hits": {}
        }
      }
    }
  }
}

Игорь, Ваша аггрегация срабатывает:

{
  "took" : 7,
  "timed_out" : false,
  "_shards" : {
    "total" : 7,
    "successful" : 7,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 8,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "duplicateCount" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "foo",
          "doc_count" : 3,
          "duplicateDocuments" : {
            "hits" : {
              "total" : {
                "value" : 3,
                "relation" : "eq"
              },
              "max_score" : 1.0,
              "hits" : [
                {
                  "_index" : "test",
                  "_type" : "_doc",
                  "_id" : "3",
                  "_score" : 1.0,
                  "_source" : {
                    "name" : "foo"
                  }
                },
                {
                  "_index" : "test",
                  "_type" : "_doc",
                  "_id" : "2",
                  "_score" : 1.0,
                  "_source" : {
                    "name" : "foo"
                  }
                },
                {
                  "_index" : "test",
                  "_type" : "_doc",
                  "_id" : "1",
                  "_score" : 1.0,
                  "_source" : {
                    "name" : "foo"
                  }
                }
              ]
            }
          }
        },
        {
          "key" : "bar",
          "doc_count" : 2,
          "duplicateDocuments" : {
            "hits" : {
              "total" : {
                "value" : 2,
                "relation" : "eq"
              },
              "max_score" : 1.0,
              "hits" : [
                {
                  "_index" : "test",
                  "_type" : "_doc",
                  "_id" : "4",
                  "_score" : 1.0,
                  "_source" : {
                    "name" : "bar"
                  }
                },
                {
                  "_index" : "test",
                  "_type" : "_doc",
                  "_id" : "5",
                  "_score" : 1.0,
                  "_source" : {
                    "name" : "bar"
                  }
                }
              ]
            }
          }
        }
      ]
    }
  }
}

в выводе есть поля

  "aggregations" : {
    "duplicateCount" : {

но когда я запускаю свою таким образом:

GET app_log-*/_search
{
  "size": 0,
  "aggs": {
    "duplicateCount": {
      "terms": {
        "field": "context.id",
        "min_doc_count": 2
      },
      "aggs": {
        "duplicateDocuments": {
          "top_hits": {}
        }
      }
    }
  }
}

в полученном выводе не вижу aggregations и duplicateCount - а только:

{
  "took" : 296,
  "timed_out" : false,
  "_shards" : {
    "total" : 70,
    "successful" : 70,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 10000,
      "relation" : "gte"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "app_log-2021.04.05-000329",
        "_type" : "_doc",
        "_id" : "0ZIlongBetiulgqT-mT2",
        "_score" : 1.0,
        "_source" : {
        ......

и далее все документы из индекса.

возможно ли это из-за того, что я ищу по context.id - а поле context - имеет тип flattened?

Приведенный вывод не может быть результатом вашего запроса. Как вы этот запрос запускаете?

Запускаю вот так:

Странно. У вас, похоже, запрос по таймауту выпадает и вы смотрите на результат предыдущего запроса. Запустите этот запрос с командной строки.

Что интересно - не срабатывает даже если сделать:

GET app_log-*/_search?timeout=600s

но если искать не по * - а указывая конкретный индекс - срабатывает.

Кофликтов маппинга я не нашел в индексах. Весь интервал по которому запрашиваются индексы по вайлдкарту - 2 недели.

Этот таймаут кибаны, а не elasticssearch. Его надо менять в Stack Management -> Advanced Settings -> Search/Search Timeout

1 Like

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.