Как получить получить ранжирование значениея поля по уникальным записям

rero · January 17, 2016, 7:48am

Индекс содержит записи о прыжках спортсменов. Попыток у одного спортсмена может быть множество.

Структура документа:

{
   'event_at' : '2015-01-01T12:12:10', - дата прыжка
   'user_id' : 2142, - id спортсмена
   'distance' : 4 - результат
}

Необходимо получить выборку:

{
  'distance_range' : {
    '*-5' : 12, - кол-во уникальных спортсменов у которых максимальный прыжок от 0 до 5. 
    '6-10' : 14, - кол-во уникальных спортсменов у которых максимальный прыжок от 6 до 10.
    '11-15' : 5 - кол-во уникальных спортсменов у которых максимальный прыжок от 10 до 15.
  }
}

Пока у меня получалось только получить максимальный результат для каждого спортсмена, но я не могу понять как его можно ранжировать уровнем выше.

На SQL это могло бы выглядеть так:

SELECT `distace_range`, count(*) FROM (
  SELECT 
    `user_id`,
    IF(MAX(`distace`) <=5, 
      '*-5', 
      IF(MAX(`distace`) >= 6 AND MAX(`distace`) >= 10,
        '6-10',
        '11-15'        
      ) 
    ) `distace_range`
  FROM `events`
  GROUP BY `user_id`
) t
GROUP BY `distace_range;

Igor_Motov · January 18, 2016, 3:03pm

К сожалению, в текущей версии elasticsearch это не возможно без создания временного индекса, который бы содержал максимальный результат для каждого спортсмена.

rero · January 18, 2016, 4:34pm

Если выбирать так

      'aggregations' => [
            'distance_range' => [
              'terms' => [
                'field' => 'doc.user_id',

              ],
              'aggregations' => [
                'max_distance' => [
                  'max' => [
                    'field' => 'doc.distance'
                  ]
                ]
              ]
            ]
          ]

то не хватает Pipeline агрегатора по range, я правильно понимаю?

Что мне не нравится в создании отдельного индекса, то что его надо поддерживать в актуальном состоянии, например периодически пересчитывать .

Есть ли варианты со скриптами или плагинами?

Igor_Motov · January 18, 2016, 5:02pm

Да, нужен Pipeline агрегатор либо по range, либо по term, но ни того, ни другого пока нет. Это можно, конечно, реализовать скриптами в Scripted Metric Aggregation, но мне кажется, будет гораздо проще и быстрее выбрать, как вы показали, и просуммировать результат на клиенте.

Topic		Replies	Views
How do I get all the distinct field values that satisfy a particular query Elasticsearch	1	758	December 1, 2014
Get count unique values from field Elasticsearch	5	3091	September 11, 2013
Pagination on unique data Elasticsearch	1	1631	September 14, 2014
Getting time range windowed counts Elasticsearch	4	2446	November 22, 2013
Distinct values of one field based on date range Elasticsearch	1	690	December 10, 2020

Как получить получить ранжирование значениея поля по уникальным записям

Related topics