Разные результаты "одинаковых" запросов

rero · February 1, 2016, 8:52pm

Два одинаковых запроса но во втором группировка по дате с шагом месяц, между датами 1ч 40 мин
Первый:

[
        'index' => 'index',
        'type' => 'type',
        'size' => 0,
        'body' => [
            'query' => [
                'filtered' => [
                    'query' => [ 'match_all' => [], ],
                    'filter' => [
                        'bool' => [
                            'must' => [
                                [ 'range' => [ 'event_at' => [ 'gte' => 1446394000, 'lte' => 1446399900, 'format' => 'epoch_second', ], ], ],
                                [ 'term' => [ 'project_id' => 2, ], ],
                                [ 'term' => [ 'country_id' => '2', ],],
                                [ 'term' => [ 'event_id' => 4, ], ],
                            ],
                        ],
                    ],
                  ],
              ],
            'aggregations' => [ 'dau' => [ 'cardinality' => [ 'field' => 'user_id', ], ], ],
          ],
      ]

Ответ:

  'hits' =>
  array (
    'total' => 623,
    'max_score' => 0,
    'hits' =>
    array (
    ),
  ),
  'aggregations' =>
  array (
    'dau' =>
    array (
      'value' => 99,
    ),
  ),

Второй запрос:

[
        'index' => 'index',
        'type' => 'type',
        'size' => 0,
        'body' =>
          [
            'query' => [
                'filtered' => [
                    'query' => ['match_all' => [], ],
                    'filter' => [
                        'bool' => [
                            'must' => [
                                  [ 'range' => [ 'event_at' => [ 'gte' => 1446394000, 'lte' => 1446399900, 'format' => 'epoch_second', ], ], ],
                                  [ 'term' => [ 'project_id' => 2, ], ],
                                  [ 'term' => [ 'country_id' => '2', ], ],
                                  [ 'term' => [ 'event_id' => 4, ], ],
                              ],
                          ],
                      ],
                  ],
              ],
            'aggregations' => [
                'date_range' => [
                    'date_histogram' => [ 'field' => 'event_at', 'interval' => 'month' ],
                    'aggregations' => [ 'dau' => [ 'cardinality' => [ 'field' => 'user_id' ] ] ]
                ]
            ]
          ]
      ]

Ответ:

'hits' =>
  array (
    'total' => 623,
    'max_score' => 0,
    'hits' =>
    array (
    ),
  ),
  'aggregations' =>
  array (
    'date_range' =>
    array (
      'buckets' =>
      array (
        0 =>
        array (
          'key_as_string' => '2015-11-01T00:00:00.000Z',
          'key' => 1446336000000,
          'doc_count' => 623,
          'dau' =>
          array (
            'value' => 98,
          ),
        ),
      ),
    ),
  ),

Разница в 1.
На большем диапазоне разрыв будет больше, хотя диапазон попадает в месяц и кол-во документов одинаковое.
С чем это может быть связано?

Igor_Motov · February 2, 2016, 1:25am

cardinality aggregation вычисляет количество документов приближенно. Вполне возможно, что в зависимости от того, как оно рассчитывается, вы получаете разные значения.

rero · February 2, 2016, 7:30am

А есть возможность повлиять на точность?
Нашел ответ 'precision_threshold' => 100

Есть ли другой вариант точного расчета?

Igor_Motov · February 2, 2016, 3:26pm

Если вам нужна абсолютная точность - то надо либо использовать агрегацию filter (но вам при это нужно знать все значения полей которые вас интересуют), либо использовать агрегацию terms со большим значением в shard_size. Этот параметр должен быть больше чем максимальное количество различных токенов в поле в одной шарде. То есть, если вы ищете по user_id, то shard_size должен быть равен ожидаемому количеству разных пользователей в одной шарде. Однако, все эти значения будут храниться в памяти и пересылаться между нодами во время запроса, так что данное решение плохо масштабируется.

Topic		Replies	Views
Cardinality Aggregation gives wrong number? Elasticsearch	32	7849	February 7, 2019
Accuracy on cardinality aggregate Elasticsearch	8	2364	November 25, 2014
Two same aggregation generate different results Elasticsearch	0	407	May 4, 2016
Both the queries seem same , but the count is different . WHY? Kibana	1	351	November 2, 2016
Why "Cardinality Aggregation - Date Histogram" lacks precision at particular date? Elasticsearch	3	955	March 31, 2017

Разные результаты "одинаковых" запросов

Related topics