SQL Server里Grouping Sets的威力

时间：2015-07-30 19:18:29 阅读：167 评论：0 收藏：0 [点我收藏+]

标签：

原文:SQL Server里Grouping Sets的威力

在SQL Server里，你有没有想进行跨越多个列/纬度的聚集操作，不使用SSAS许可（SQL Server分析服务）。我不是说在生产里使用开发版，也不是说安装盗版SQL Server。

不可能的任务？未必，因为通过SQL Server里所谓的Grouping Sets就可以。在这篇文章里我会给你概括介绍下Grouping Sets，使用它们可以实现哪类查询，什么是它们的性能优势。

使用Grouping Sets的聚合

假设你有个订单表，你想进行跨多个分组的T-SQL聚集查询。在AdventureWorks2012数据库的Sales.SalesOrderHeader表的环境里，这些分组可以类似如下：

在每列分组
GROUP BY SalesPersonID, YEAR(OrderDate)
GROUP BY CustomerID, YEAR(OrderDate)
GROUP BY CustomerID, SalesPersonID, YEAR(OrderDate)

当你想用传统T-SQL查询进行这些各自分组时，你需要多个语句，对各个记录集进行UNION ALL。我们来看这样的查询：

 1 SELECT * FROM
 2 (
 3     -- 1st Grouping Set
 4     SELECT
 5         NULL AS ‘CustomerID‘,
 6         NULL AS ‘SalesPersonID‘, 
 7         NULL AS ‘OrderYear‘, 
 8         SUM(TotalDue) AS ‘TotalDue‘ 
 9     FROM Sales.SalesOrderHeader
10     WHERE SalesPersonID IS NOT NULL
11 
12     UNION ALL
13 
14     -- 2nd Grouping Set
15     SELECT
16         NULL AS ‘CustomerID‘,
17         SalesPersonID, 
18         YEAR(OrderDate) AS ‘OrderYear‘, 
19         SUM(TotalDue) AS ‘TotalDue‘ 
20     FROM Sales.SalesOrderHeader
21     WHERE SalesPersonID IS NOT NULL
22     GROUP BY SalesPersonID, YEAR(OrderDate)
23 
24     UNION ALL
25 
26     -- 3rd Grouping Set
27     SELECT
28         CustomerID,
29         NULL AS ‘SalesPersonID‘, 
30         YEAR(OrderDate) AS ‘OrderYear‘, 
31         SUM(TotalDue) AS ‘TotalDue‘ 
32     FROM Sales.SalesOrderHeader
33     WHERE SalesPersonID IS NOT NULL
34     GROUP BY CustomerID, YEAR(OrderDate)
35 
36     UNION ALL
37 
38     -- 4th Grouping Set
39     SELECT
40         CustomerID,
41         SalesPersonID,
42         YEAR(OrderDate) AS ‘OrderYear‘, 
43         SUM(TotalDue) AS ‘TotalDue‘ 
44     FROM Sales.SalesOrderHeader
45     WHERE SalesPersonID IS NOT NULL
46     GROUP BY CustomerID, SalesPersonID, YEAR(OrderDate)
47 ) AS t
48 ORDER BY CustomerID, SalesPersonID, OrderYear
49 GO

用这个T-SQL语句方法有多个缺点：

T-SQL语句本身很庞大，因为每个单独分组都是一个不同查询。
每查询1次，Sales.SalesOrderHeader表需要访问4次。
每查询1次，你在执行计划里会看到SQL Server进行了4次的索引查找（非聚集）（Index Seek (NonClustered) ）。

技术分享

如果你使用自SQL Server 2008以后引入的grouping sets功能，就可以大大简化你需要的T-SQL代码。下面代码展示你同样的查询，但这次用grouping sets实现。

 1 SELECT
 2     CustomerID, 
 3     SalesPersonID, 
 4     YEAR(OrderDate) AS ‘OrderYear‘, 
 5     SUM(TotalDue) AS ‘TotalDue‘
 6 FROM Sales.SalesOrderHeader
 7 WHERE SalesPersonID IS NOT NULL
 8 GROUP BY GROUPING SETS
 9 (
10     -- Our 4 different grouping sets
11     (CustomerID, SalesPersonID, YEAR(OrderDate)),
12     (CustomerID, YEAR(OrderDate)),
13     (SalesPersonID, YEAR(OrderDate)),
14     ()
15 )
16 GO

从代码本身可以看到，你只在GROUP BY GROUPING SETS子句里指定需要的分组集——其它的一切都由SQL Server搞定。指定的空括号是所谓的Empty Grouping Set，是跨整个表的聚集。当你看STATISTICS IO输出时，你会发现Sales.SalesOrderHeader只被访问了1次！这是和刚才手工实现的巨大区别。

技术分享