聊聊SQL中的分组集-PingCAP

聊聊SQL中的分组集

网友投稿 1254 2023-06-03

聊聊SQL中的分组集

分组集的定义

是多个分组的并集，用于在一个查询中，按照不同的分组列对集合进行聚合运算，等价于对单个分组使用"UNION ALL"，计算多个结果集的并集。

分组集种类

***的分组集共有三种 GROUPING SETS, CUBE, 以及ROLLUP，其中 CUBE和ROLLUP可以当做是GROUPING SETS的简写版

GROUPING SETS

GROUPING SETS子句允许你指定多个GROUP BY选项。增强了GROUP BY的功能。

可以通过一条SELECT语句实现复杂繁琐的多条SELECT语句的查询。并且更加的

高效，解析存储一条SQL于语句

GROUP SETS示例

我们以Customers表为例，其内容如下：

我们先分别对城市和省份进行分组，统计出他们的数量

SELECT 城市,NULL 省份,COUNT(城市) FROM Customers GROUP BY 城市 UNION ALL SELECT NULL,省份,COUNT(省份) FROM Customers GROUP BY 省份

结果为：

再使用GROUPING SETS来统计

SELECT 城市, 省份, COUNT(客户ID) 数量 FROM Customers GROUP BY GROUPING SETS (城市,省份)

结果如下

其实上下两个结果是一样的，只是UNION ALL不排序，而GROUPING SETS增加了排序。这样不仅减少了代码，而且这样的效率会比UNION ALL的效率高。通常GROUPING SETS使用在组合分析中。

ROLLUP

ROLLUP也是GROUPING SETS的一种简略写法，我们举例说明。

我们先使用GROUPING SETS的多层组合

SELECT 省份, 城市, COUNT(1) 数量 FROM Customers GROUP BY GROUPING SETS ( 省份,(省份,城市) )

其结果为：

我们使用ROLLUP可以这样写

SELECT 省份, 城市, COUNT(客户ID) 数量 FROM Customers GROUP BY 省份,城市 WITH ROLLUP

其结果为：

我们来解读一下ROLLUP的作用，其作用是对每个列先进行一次分组，并且对第一列的数据在每个组内还进行一次汇总，最后对所有的数据再进行一次汇总，所以相比GROUPING SETS会多了个所以数据的汇总。这个在对组内进行聚合时是经常使用到的。

CUBE

而CUBE相比ROLLUP就更多一个维度了，我们还是距离说明。

SELECT 省份, 城市, COUNT(客户ID) 数量 FROM Customers GROUP BY 省份,城市 WITH CUBE

结果如下：

在ROLLUP的基础上，还会将第一列每组的汇总数据额外显示在最后。

总结

分组集类似于Excel的透视图，可以对各类数据进行组内计算，这里不止可以进行数量统计，也可以进行求和，最大最小值等操作。是我们在进行数据分析时候经常使用到的一组功能。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1254 2023-06-03

聊聊SQL中的分组集

黄东旭解析 TiDB 的核心优势

黄东旭关于基础软件产品价值的思考

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20