[关闭]
@dungan 2019-09-23T11:58:43.000000Z 字数 4080 阅读 111

Elasticsearch 聚合

Elasticsearch


聚合分析

理解聚合最简单的方式就是可以把它粗略的看做 SQL 的 GROUP BY 操作和 SQL 的聚合函数。你可以在执行搜索后在一个返回结果中同时返回搜索结果和聚合结果。可以一次拿到所有的结果,避免网络切换,就此而言,这是一个非常强大和高效功能。

ES 中的聚合分类 :

  • 对一个数据集求最大(max)、最小(min)、和(sum)、平均值(avg)、计数(count) 等指标的聚合称为指标聚合(metric)
  • 对查询出的数据进行分组(group by) 称为桶聚合(bucketing)
  • ES 还提供了另外两种聚合类型 矩阵聚合(matrix)和 管道聚合(pipleline)

指标聚合

最大值(max)

由于聚合时会一并输出匹配到的搜索结果,如果你只关心聚合结果,可以通过设置 size=0 来不显示 hits 搜索结果。

  1. {
  2. "size": 0,
  3. "aggs": {
  4. "max_product_id": {
  5. "max": {
  6. "field": "product_id"
  7. }
  8. }
  9. }
  10. }

最小值(min)

  1. # 获取已审核商品中id最小的那个
  2. {
  3. "query": {
  4. "term": {
  5. "status": 1
  6. }
  7. },
  8. "size": 0,
  9. "aggs": {
  10. "min_product_id": {
  11. "min": {
  12. "field": "product_id"
  13. }
  14. }
  15. }
  16. }

平均值(avg)

  1. # 获取已审核商品价格的平均值
  2. {
  3. "query": {
  4. "term": {
  5. "status": 1
  6. }
  7. },
  8. "size": 0,
  9. "aggs": {
  10. "avg_price": {
  11. "avg": {
  12. "field": "price"
  13. }
  14. }
  15. }
  16. }

去重计数(cardinality)

  1. {
  2. "size": 0,
  3. "aggs": {
  4. "uniq_phone_count": {
  5. "cardinality": {
  6. "field": "phone"
  7. }
  8. }
  9. }
  10. }

只对有值的文档进行计数(value_count)

因为 age 值有可能是 null,而某些时刻我们需要过滤 age=null 的这类文档。

  1. {
  2. "aggs": {
  3. "age_count": {
  4. "value_count": {
  5. "field": "age"
  6. }
  7. }
  8. }
  9. }

stats

stats 可以一次性获取字段的 count max min avg sum 值。

  1. {
  2. "size": 0,
  3. "aggs": {
  4. "age_stats": {
  5. "stats": {
  6. "field": "age"
  7. }
  8. }
  9. }
  10. }

获取某百分占比是哪个值(percentiles)

例如,你想看公司员工年纪占比 50% 的是哪个年龄段。

  1. {
  2. "aggs": {
  3. "age_percents": {
  4. "percentiles": {
  5. "field": "age"
  6. }
  7. }
  8. }
  9. }
  10. ...
  11. # 可以看到 <= 31 岁的人员占了公司员工的一半
  12. {
  13. "aggregations": {
  14. "age_percents": {
  15. "values": {
  16. "1.0": 20,
  17. "5.0": 21,
  18. "25.0": 25,
  19. "50.0": 31,
  20. "75.0": 35.00000000000001,
  21. "95.0": 39,
  22. "99.0": 40
  23. }
  24. }
  25. }
  26. }
  27. ...

ES 默认情况下提供了一组常用的百分占比数值 [1, 5, 25, 50, 75, 95, 99]

如果想自定义百分占比,可以使用 percents,例如你想看到占比 36.7% 的年龄段是哪个,就可以这样设置。

  1. {
  2. "size":0,
  3. "aggs": {
  4. "age_percents": {
  5. "percentiles": {
  6. "field": "age",
  7. "percents" : [36.7, 55, 99]
  8. }
  9. }
  10. }
  11. }

获取某个值的百分占比(Percentiles rank)

和上面相反,例如我们想看年龄 <= 30 岁的人在公司的百分占比,那么这种方式就非常适合我们。

  1. # 这里我们统计年龄分别小于 25 岁和 30 岁的人在总人数中的百分占比
  2. {
  3. "aggs": {
  4. "gge_perc_rank": {
  5. "percentile_ranks": {
  6. "field": "age",
  7. "values": [
  8. 25,
  9. 30
  10. ]
  11. }
  12. }
  13. }
  14. }

脚本聚合

聚合计算的值可以取字段的值,也可是脚本(script)计算的结果。

  1. # 这里通过脚本为平均值加上10
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "avg_price": {
  6. "avg": {
  7. "script": {
  8. "source": "doc.price.value + 10"
  9. }
  10. }
  11. }
  12. }
  13. }
  1. # 指定 `field`,在脚本中用 `_value` 取字段的值
  2. {
  3. "size":0,
  4. "aggs": {
  5. "next_product_id": {
  6. "max": {
  7. "field": "product_id",
  8. "script": {
  9. "source": "_value + 1"
  10. }
  11. }
  12. }
  13. }
  14. }


桶聚合

分组统计(terms)

  1. # 按商品类型统计商品数量
  2. {
  3. "size":0,
  4. "aggs": {
  5. "group_by_type": {
  6. "terms": {
  7. "field": "type",
  8. "size":3
  9. }
  10. }
  11. }
  12. }

size 指定返回多少个分组。

过滤聚合(filter Aggregation)

选取符合过滤条件的文档进行聚合,也就是先过滤再聚合。

我们在 aggs 的时候,指定要 filter 的条件。

  1. # 查询出已审核通过的商品,然后再统计每种商品类型的数量
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "filter_product_type": {
  6. "filter": {
  7. "term": {
  8. "audit": 1
  9. }
  10. },
  11. "aggs": {
  12. "group_by_product_type": {
  13. "terms": {
  14. "field": "product_type"
  15. }
  16. }
  17. }
  18. }
  19. }
  20. }

当然通过 query 过滤,我们一样也可以拿到统计结果。

  1. {
  2. "size": 0,
  3. "query": {
  4. "term": {
  5. "audit": 1
  6. }
  7. },
  8. "aggs": {
  9. "group_by_product_type": {
  10. "terms": {
  11. "field": "product_type"
  12. }
  13. }
  14. }
  15. }

分桶聚合+指标聚合

分桶聚合中嵌入指标聚合 这是一个适用于所有聚合操作的通用模式,你可以任意嵌套聚合,从你的数据中提取你需要的主题汇总。

聚合数据支持排序,例如下面的 average_comment_num。

  1. //统计按文章类型分组后每类文章的平均评论数,聚合数据按平均评论数升序展示
  2. {
  3. "size":0,
  4. "aggs": {
  5. "group_by_article_type": {
  6. "terms": {
  7. "field": "article_type",
  8. "order":{
  9. "average_comment_num": "asc"
  10. }
  11. },
  12. "aggs": {
  13. "average_comment_num": {
  14. "avg": {
  15. "field": "comment_num"
  16. }
  17. }
  18. }
  19. }
  20. }
  21. }

分桶后再分桶

  1. {
  2. "size": 0,
  3. "aggs": {
  4. "jobs": {
  5. "terms": {
  6. "field": "job.keyword",
  7. "size": 10
  8. },
  9. "aggs": {
  10. "age_range": {
  11. "range": {
  12. "field": "age",
  13. "ranges": [
  14. {
  15. "to": 20
  16. },
  17. {
  18. "from": 20,
  19. "to": 30
  20. },
  21. {
  22. "from": 30
  23. }
  24. ]
  25. }
  26. }
  27. }
  28. }
  29. }
  30. }

范围分组聚合(range)

  1. // 按照指定的`价格范围区间`进行分组,然后在每组内再按照`商品类型`进行分组,最后再计算每组`商品类型`的平均价格
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "group_by_price": {
  6. "range": {
  7. "field": "price",
  8. "ranges": [
  9. {
  10. "from": 0,
  11. "to": 20
  12. },
  13. {
  14. "from": 20,
  15. "to": 40
  16. },
  17. {
  18. "from": 40,
  19. "to": 50
  20. }
  21. ]
  22. },
  23. "aggs": {
  24. "group_by_product_type": {
  25. "terms": {
  26. "field": "product_type"
  27. },
  28. "aggs": {
  29. "average_price": {
  30. "avg": {
  31. "field": "price"
  32. }
  33. }
  34. }
  35. }
  36. }
  37. }
  38. }
  39. }

时间范围分组聚合 (date range)

  1. # 这里我们获取八,九月份的订单量
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "orders_date_range": {
  6. "range": {
  7. "field": "created_at",
  8. "format": "yyyy-MM-dd",
  9. "ranges": [
  10. {
  11. "from": "2019-09-01",
  12. "to": "2019-09-30",
  13. "key": "September"
  14. },
  15. {
  16. "from": "2019-08-01",
  17. "to": "2019-08-31",
  18. "key": "August"
  19. }
  20. ]
  21. }
  22. }
  23. }
  24. }
  25. # 输出如下
  26. {
  27. "took": 3,
  28. "timed_out": false,
  29. "_shards": {
  30. "total": 5,
  31. "successful": 5,
  32. "skipped": 0,
  33. "failed": 0
  34. },
  35. "hits": {
  36. "total": 34,
  37. "max_score": 0.0,
  38. "hits": []
  39. },
  40. "aggregations": {
  41. "date_range": {
  42. "buckets": [
  43. {
  44. "key": "August",
  45. "from": 1.5646176E12,
  46. "from_as_string": "2019-08-01",
  47. "to": 1.5672096E12,
  48. "to_as_string": "2019-08-31",
  49. "doc_count": 12
  50. },
  51. {
  52. "key": "September",
  53. "from": 1.567296E12,
  54. "from_as_string": "2019-09-01",
  55. "to": 1.5698016E12,
  56. "to_as_string": "2019-09-30",
  57. "doc_count": 5
  58. }
  59. ]
  60. }
  61. }
  62. }

默认情况下范围分组的 key 是 2019-09-01-2019-09-30 这种格式,你可以通过在每个分组设置一个 key 来自定义 key 名。


参考

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注