Traducir un group by dentro de otro group by para obtener averages

enkil2003 · October 21, 2018, 10:02pm

No estoy pudiendo encontrar la solucion para algo que parece simple. Estoy traduciendo una busqueda de splunk que hace lo siguiente
| bucket _time span=1s | stats count by _time marca operacion | stats min(count) as min,
max(count) as max by marca operacion

Pero al haber dos "by", que seria similar a un group by, no puedo obtener el average minimo por operacion por marca. Esto se ejecuta en un lapso de 5 minutos. De momento mis aggregations lucen asi

{
  "aggs": {
    "tps": {
      "date_histogram": {
        "field": "@timestamp",
        "interval": "1s"
      }
    },
    "marca": {
      "terms": {
        "field": "marca",
        "size": 100
      },
      "aggs": {
        "operacion": {
          "filters": {
            "other_bucket_key": "marcaDos",
            "filters": {
              "marcaUno": {
                "exists": {
                  "field": "marcaUno"
                }
              }
            }
          }
        }
      }
    }
  }
}

gmoskovicz · October 22, 2018, 1:30pm

Hola!

Las agregaciones pueden ser en paralelo o hacia adentro. Entonces asi como tps y marca estan en paralelo, a dentro de marca podrias poner dos agregaciones.

De todas maneras estas bien rumbeado. bucket_time es Date Histogram, stats count es Terms, y luego min y max serian dos Terms con size 1, pero uno sort ascendente y el otro descendente. Entonces ahi podrias encontrar el maximo y minimo para esa operación si es que entiendo bien lo que estabas haciendo en splunk.

Saludos!
--Gabriel

enkil2003 · October 23, 2018, 5:33am

Gracias por tu respuesta. Lo resolvi de esta manera. Pero como me comentas esto del order no se si esta bien mi solucion!, Me podes decir si ves algo raro?, son mas las cosas q necesito mas alla de min y max, como average y percentiles 50, 90 y 99

{
  "size": 0,
  "query": {...},
  "aggs": {
    "brands": {
      "terms": {
        "field": "marca",
        "size": 100
      },
      "aggs": {
        "operation": {
          "filters": {
            "other_bucket_key": "marcaDos",
            "filters": {
              "marcaUno": {
                "exists": {
                  "field": "marcaUno"
                }
              }
            }
          },
          "aggs": {
            "documentosPorSegundo": {
              "date_histogram": {
                "field": "@timestamp",
                "interval": "1s"
              }
            },
            "min": {
              "min_bucket": {
                "buckets_path": "documentosPorSegundo>_count"
              }
            },
            "max": {
              "max_bucket": {
                "buckets_path": "documentosPorSegundo>_count"
              }
            },
            "avg": {
              "avg_bucket": {
                "buckets_path": "documentosPorSegundo>_count"
              }
            }
          }
        }
      }
    }
  }
}

gmoskovicz · October 23, 2018, 12:53pm

Creo que aqui tienes que poner el exists como root del aggregation, y luego hacer el terms aggregation por marca. Tener en cuenta que aqui estarias encontrando el minimo y maximo de los top 100 documentos no de todo tu data set. Pero me parece que esto esta correcto tambien!

Topic		Replies	Views
Aggregate over date_histogram aggregation to obtain avg, min and max Elasticsearch	1	603	October 29, 2018
It is possible to calculate something like avg(a) + avg(b) group by c Elasticsearch	1	480	December 1, 2017
Sum up Aggregation values? Elasticsearch	3	570	November 18, 2014
Kibana - calculate average bucket over multi layer data Kibana	2	414	May 20, 2021
Aggregate every field Elasticsearch	0	333	December 12, 2020

Traducir un group by dentro de otro group by para obtener averages

Related topics