关于es聚合查询指标过滤并限制返回结果数量的问题

NiFeng · June 17, 2020, 1:34am

{
"size": 0,
"query": {
"bool": {
"filter":
}
},
"track_total_hits": false,
"aggregations": {
"my_buckets": {
"composite": {
"size": 5,
"sources": [
{
"eventTime.keyword": {
"terms": {
"field": "eventTime.keyword",
"missing": ""
}
}
},
{
"model.keyword": {
"terms": {
"field": "model.keyword",
"missing": ""
}
}
},
{
"aaid.keyword": {
"terms": {
"field": "aaid.keyword",
"missing": ""
}
}
},
{
"1f82b8a0": {
"sum": {
"field": "dataType"
}
}
}
]
},
"aggs": {
"1f82b8a0": {
"sum": {
"field": "dataType"
}
},
"111df5af": {
"sum": {
"field": "appId"
}
},
"u1Mdpy-4niN85-hUx47A_bucket": {
"bucket_selector": {
"buckets_path": {
"a04aa8832": "1f82b8a0"
},
"script": {
"source": "params.a04aa8832>=5"
}
}
},
"sort_bucket": {
"bucket_sort": {
"sort": [
{
"1f82b8a0": {
"order": "desc"
}
}
]
}
}
}
}
}
}

NiFeng · June 17, 2020, 1:34am

我想实现类似sql中聚合查询having过滤，并限制返回结果的数量。可是并没有找到适合的查询方式。要么是返回数据量不好控制，要么是返回结果不合人意。恳请诸位大佬指点迷津！感谢！以上是我的采用过的不符合的查询方式之一。

wangqinghuan · June 24, 2020, 2:49am

不清楚你的具体需求，可以看一下这个有没有帮助：

NiFeng · June 28, 2020, 2:14pm

首先，谢谢您百忙之中的回复！

 但是这个好像不能解决我的问题。我想实现这样的SQL:

select colum1,column2,column3,column4,sum(column5),avg(column6)
from table
group by column1,column2,column3,column4 having sum(column5) > 500 and avg(column6) >1000 limit 1000

  如果按照你推荐文档，确实可以实现聚合。但是在表数据量很大的情况下，难以控制聚合结果的数据量。

  即使对每个aggs的纬度字段都设置size，也不能准确的控制聚合结果的数量。

  后来，我采用了复合聚合composite,但是它对bucket_selector的兼容性好像不是很理想。

  复合聚合使用bucket_selector只是对查询结果在内存中过滤，在限制数据量的情况下，发现有空桶占位的现象。

  所以，我不知道是es暂时不支持我这样的需求，还是我对es不够熟悉。希望大佬能够提供下帮助。

 谢谢！期待您的回复！

wangqinghuan · June 29, 2020, 4:44am

是的，pipeline aggregation 和 composite aggregation不兼容。

即使对每个aggs的纬度字段都设置size，也不能准确的控制聚合结果的数量。

能详细解释一下为什么不能准确控制聚合结果的数量？

NiFeng · June 29, 2020, 6:46am

场景是这样的，还是以上面的SQL为例子：
select colum1,column2,column3,column4,sum(column5),avg(column6)
from table
group by column1,column2,column3,column4 having sum(column5) > 500 and avg(column6) >1000 limit 1000
在es中使用 pipeline aggregation实现该sql的需求，我必须aggs每个维度字段，并将他们内嵌下去。如：
{
"size": 0,
"query": {
"bool": {
"filter":
}
},
"track_total_hits": true,
"aggregations": {
"coulumn1": {
"terms": {
"field": "coulumn1",
"missing": "",
"size": 10
},
"aggs": {
"coulumn2": {
"terms": {
"field": "coulumn2",
"missing": "",
"size": 10
},
"aggs": {
"coulumn3": {
"terms": {
"field": "coulumn3",
"missing": "",
"size": 10
},
"aggs": {
"coulumn4": {
"terms": {
"field": "coulumn4",
"missing": "",
"size": 10
},
"aggs": {
"1f82b8a0": {
"sum": {
"field": "column5"
}
},
"111df5af": {
"avg": {
"field": "column5"
}
},
"u1Mdpy-4niN85-hUx47A_bucket": {
"bucket_selector": {
"buckets_path": {
"a04aa8832": "1f82b8a0"
},
"script": {
"source": "params.a04aa8832>500"
}
}
}
}
}
}
}
}
}
}
}
}
}
这种聚合方式好像只能通过设置每个aggs聚合维度字段的size来控制大小，在我数据量满足的情况下。查询的总体数量是随着我维度字段的数据递增的,增长方式是：10 * 10 * 10 * 10，是每个size的乘积；
这样我在大量维度下就无法控制聚合返回的数据量了。
当然，也可能是我对ES不是很熟，没有找到正确的查询配置方式，还请指正！
谢谢！

wangqinghuan · June 30, 2020, 5:00am

对的，无法实现你的例子中的 limit 1000。正如你说的，Es是的多个字段分组其实是嵌套的聚合，只能控制每一层嵌套的聚合的文档数量。

NiFeng · June 30, 2020, 5:47am

多谢您的解答！衷心希望后续es能支持！

Topic		Replies	Views
About es aggregation query index filtering, and the number of accurate aggregation results returned Elasticsearch	1	361	June 15, 2020
Bucket_selector aggregation and size. optimizations Elasticsearch	0	679	October 15, 2019
Elasticsearch SQL aggregation query always return 1,000 results Elasticsearch elastic-stack-sql	3	2287	May 12, 2020
Elasticsearch aggregation size Elasticsearch	2	15640	August 21, 2019
How to set limit on multiple aggregations in elasticsearch sql plugin Elasticsearch	0	742	January 5, 2017

关于es聚合查询指标过滤并限制返回结果数量的问题

Related topics