Aggregations sum の doc_count_error_upper_bound について

gnext · November 12, 2018, 2:41am

Aggregationsでtermsでグループ化した上でsumを使用するとデータ数によりdoc_count_error_upper_boundが0件にならず正常にsumの値を取得できない場合があります。

"terms": {"field": "category.value", "size": 200}

sizeを指定すれば取得できるようになりますが、データ数によっては処理に時間がかかったり指定したsize以上のデータが存在する可能性もあります。

確実にdoc_count_error_upper_boundを0に抑える方法はあるのでしょうか？

mnozawa · November 14, 2018, 2:45am

sizeに十分大きい数値を設定するのが良いです。
sizeの他にshard_sizeで制御することもできます。
https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-terms-aggregation.html#_shard_size_3

あらかじめcardinality aggregationで指定すべきsizeの値を確認することもできますが、そちらにも同様の問題が付きまといます。
何れにせよ、集計するデータ量と計算負荷のトレードオフは避けられません。

johtani · November 14, 2018, 5:06am

データの件数がどのくらいかがわからないですが、対象のインデックスのnumber_of_shardsを1にはできないですか？

gnext · November 15, 2018, 2:12am

1インデックスに対してカテゴリ別（sumの対象ごと）に約10万件程度を想定しています。
インデックス全体でのデータ件数は増えていく可能性もあります。

この場合、shard数を1にしてパフォーマンス等で懸念されることはありますでしょうか？

gnext · November 15, 2018, 2:13am

shard_sizeというのもあるのですね。いろいろ指定して試してみようと思います。
回答ありがとうございます。

johtani · November 15, 2018, 3:03am

カテゴリ別ではなく、インデックス全体でどのくらいの件数かによるかと。
また、マッピングや検索のリクエストがどんな感じになるかによるので、パフォーマンスという観点では、計ってみていただくしかないかと思います。

system · December 13, 2018, 3:03am

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Aggregations return result with sum_other_doc_count Elasticsearch	3	11448	July 5, 2017
Error in per bucket doc_count_error_upper_bound for Term Aggregation? Elasticsearch	8	1467	February 14, 2022
How to reduce the doc_count_error_upper_bound and sum_other_doc_count during aggregation to improve accuracy Elasticsearch	1	969	April 25, 2017
Sum_other_doc_count higher than total docs Elasticsearch	3	1745	August 16, 2018
Why is doc_count_error_upper_bound negative? Elasticsearch	2	1654	May 28, 2018