Aggregationsについて


(toshiki) #1

お世話になっております。
aggsについて質問があります

mapping抜粋

 "tags" : {
   "type": "multi_field",
      "fields": {
          "tags": {
              "analyzer": "kuromoji_analyzer",
              "type": "string",
              "index" : "analyzed"
          },
          "full": {
              "type": "string",
              "index" : "not_analyzed"
          }
      }
  },

リクエスト

{
  "size" : 0,
  "aggs": {
    "tags": {
      "terms": {
        "field": "tags.full",
        "order" : { "_count" : "desc" }
      }
    }
  }
}

結果

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 3,
    "successful": 3,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "tags": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "すごいお笑い",
          "doc_count": 2
        },
        {
          "key": "感動",
          "doc_count": 2
        },
        {
          "key": "すごい感動",
          "doc_count": 1
        }
      ]
    }
  }
}

この結果を 感動 というワードに部分一致させた結果にしたいです。

希望結果

(つまりタグ数の集約+任意のワードで部分一致させた結果を取得したい)

省略

  "aggregations": {
    "tags": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "感動",
          "doc_count": 2
        },
        {
          "key": "すごい感動",
          "doc_count": 1
        }
      ]
    }
  }

この結果にするにはaggsをどのように構築すればよろしいでしょうか。
調べてもなかなかわからずご質問させてください
宜しくお願いします。


(Jun Ohtani) #2

terms aggsのfilteringでどうでしょうか?

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-terms-aggregation.html#_filtering_values_2

{
  "size" : 0,
  "aggs": {
    "tags": {
      "terms": {
        "field": "tags.full",
        "include" : ".*感動.*",
        "order" : { "_count" : "desc" }
      }
    }
  }
}

(toshiki) #3

ご回答ありがとうございます。
希望の動作を実現することができました。

一点、Aggregations、およびAggregations内のincludeということで実運用の経験がなく
パフォーマンスに問題がないか心配しております。
fromとsizeを指定(0,20くらい)するにしてもこの例でいうタグのデータが数万レベルになった場合に注意したほうがいいポイントなどございますでしょうか?(単純にスケールアップを考えることや分散など)
ElasticCloudを利用して運用しようと思っております。

お聞きしたいことはAggregations(include)を利用したパフォーマンスについてなのですが
抽象的質問でしたら申し訳ございません。


(toshiki) #4

ページングがサポートされていないということでaggregationsの採用は見送りました。


(system) #5