Microsoft SQL Server 实现数据透视表
文章目录
大家好,我是只谈技术不剪发的 Tony 老师。数据透视表(Pivot Table)是 Excel 中一个非常实用的分析功能,可以用于实现复杂的数据分类汇总和对比分析,是数据分析师和运营人员必备技能之一。前文已经介绍了 MySQL/MariaDB 和 Oracle 中的数据透视表实现,今天我们来谈谈如何在 Microsoft SQL Server 中实现相同的功能。
📝本文使用的示例数据可以点此下载。
使用 CASE 表达式和分组聚合
实现数据行转列的一个通用方法就是利用 CASE 条件表达式和分组聚合操作。首先使用以下 GROUP BY 子句对销售数据进行分类汇总:
select coalesce(product, '【全部产品】') "产品", coalesce(channel, '【所有渠道】') "渠道", coalesce(format(saledate, 'yyyyMM'), '【所有月份】') "月份", sum(amount) "销量" from sales_data group by rollup (product,channel,format(saledate, 'yyyyMM'));
以上语句按照产品、渠道以及月份进行汇总;rollup 选项用于生成不同层次的小计、合计以及总计;coalesce 函数用于将汇总行中的 NULL 值显示为相应的信息。该查询返回的结果如下:
产品 |渠道 |月份 |销量 | ---------|---------|-----------|-------| 桔子 |店面 |201901 | 41306| 桔子 |店面 |201902 | 37906| 桔子 |店面 |201903 | 48866| 桔子 |店面 |201904 | 48673| 桔子 |店面 |201905 | 58998| 桔子 |店面 |201906 | 58931| 桔子 |店面 |【所有月份】| 294680| 桔子 |京东 |201901 | 41289| 桔子 |京东 |201902 | 43913| 桔子 |京东 |201903 | 49803| 桔子 |京东 |201904 | 49256| 桔子 |京东 |201905 | 64889| 桔子 |京东 |201906 | 62649| 桔子 |京东 |【所有月份】| 311799| 桔子 |淘宝 |201901 | 43488| 桔子 |淘宝 |201902 | 37598| 桔子 |淘宝 |201903 | 48621| 桔子 |淘宝 |201904 | 49919| 桔子 |淘宝 |201905 | 58530| 桔子 |淘宝 |201906 | 64626| 桔子 |淘宝 |【所有月份】| 302782| 桔子 |【所有渠道】|【所有月份】| 909261| ... 香蕉 |【所有渠道】|【所有月份】| 925369| 【全部产品】|【所有渠道】|【所有月份】|2771682|
接下来我们将数据按照不同月份显示为不同的列,也就是将行转换为列,这个功能可以使用 CASE 表达式实现:
select coalesce(product, '【全部产品】') "产品", coalesce(channel, '【所有渠道】') "渠道", sum(case format(saledate, 'yyyyMM') when '201901' then amount else 0 end) "一月", sum(case format(saledate, 'yyyyMM') when '201902' then amount else 0 end) "二月", sum(case format(saledate, 'yyyyMM') when '201903' then amount else 0 end) "三月", sum(case format(saledate, 'yyyyMM') when '201904' then amount else 0 end) "四月", sum(case format(saledate, 'yyyyMM') when '201905' then amount else 0 end) "五月", sum(case format(saledate, 'yyyyMM') when '201906' then amount else 0 end) "六月", sum(amount) "总计" from sales_data group by rollup (product, channel); 产品 |渠道 |一月 |二月 |三月 |四月 |五月 |六月 |总计 | ----------|----------|------|------|------|------|------|------|-------| 桔子 |店面 | 41306| 37906| 48866| 48673| 58998| 58931| 294680| 桔子 |京东 | 41289| 43913| 49803| 49256| 64889| 62649| 311799| 桔子 |淘宝 | 43488| 37598| 48621| 49919| 58530| 64626| 302782| 桔子 |【所有渠道】|126083|119417|147290|147848|182417|186206| 909261| 苹果 |店面 | 43845| 40539| 44909| 55646| 56771| 64933| 306643| 苹果 |京东 | 38269| 40593| 56552| 56662| 64493| 62045| 318614| 苹果 |淘宝 | 42969| 43289| 48769| 58052| 58872| 59844| 311795| 苹果 |【所有渠道】|125083|124421|150230|170360|180136|186822| 937052| 香蕉 |店面 | 41210| 39420| 50884| 52085| 60249| 67597| 311445| 香蕉 |京东 | 36879| 36981| 51748| 54801| 64936| 60688| 306033| 香蕉 |淘宝 | 42468| 41955| 52780| 54971| 56504| 59213| 307891| 香蕉 |【所有渠道】|120557|118356|155412|161857|181689|187498| 925369| 【全部产品】|【所有渠道】|371723|362194|452932|480065|544242|560526|2771682|
第一个 SUM 函数中的 CASE 表达式只汇总 201901 月份的销量,其他月份销量设置为 0;后面的 SUM 函数依次类推,得到了每个月的销量汇总和所有月份的总计。
📝使用 CASE 条件表达式和分组聚合的方法也适用于其他数据库。
使用 PIVOT 运算符
Microsoft SQL Server 为数据的行列转换提供了专用的 PIVOT 和 UNPIVOT 运算符。其中,PIVOT 用于将行转化为列。例如:
with d(saledate, product, channel, amount) as ( select format(saledate, 'yyyyMM'), product, channel, amount from sales_data ) select * from d pivot ( sum(amount) for saledate in ([201901], [201902], [201903], [201904], [201905], [201906]) ) as pt order by product;
首先通过 with 子句对数据进行初步处理;然后利用 pivot 进行行转列,包括 3 个部分;sum(amount) 是需要汇总的数据,for saledate 指定了需要转换成多个列的字段,in 列出了转换为列的数据值和转换之后的字段名。
PRODUCT |CHANNEL |'201901'|'201902'|'201903'|'201904'|'201905'|'201906'| ---------|--------|--------|--------|--------|--------|--------|--------| 桔子 |店面 | 41306| 37906| 48866| 48673| 58998| 58931| 桔子 |京东 | 41289| 43913| 49803| 49256| 64889| 62649| 桔子 |淘宝 | 43488| 37598| 48621| 49919| 58530| 64626| 苹果 |店面 | 43845| 40539| 44909| 55646| 56771| 64933| 苹果 |京东 | 38269| 40593| 56552| 56662| 64493| 62045| 苹果 |淘宝 | 42969| 43289| 48769| 58052| 58872| 59844| 香蕉 |店面 | 41210| 39420| 50884| 52085| 60249| 67597| 香蕉 |京东 | 36879| 36981| 51748| 54801| 64936| 60688| 香蕉 |淘宝 | 42468| 41955| 52780| 54971| 56504| 59213|
接下来我们还需要增加一个总计行和总计列,为此可以先将 sales_data 数据进行分组统计然后再使用 PIVOT 进行转换:
with d(saledate, product, channel, amount) as ( select format(saledate, 'yyyyMM'), product, channel, sum(amount) from sales_data group by rollup (format(saledate, 'yyyyMM'),product,channel) ) select coalesce(product, '【全部产品】') "产品", coalesce(channel, '【所有渠道】') "渠道", [201901] "一月", [201902] "二月", [201903] "三月", [201904] "四月", [201905] "五月", [201906] "六月", [201901]+[201902]+[201903]+[201904]+[201905]+[201906] "总计" from d pivot ( sum(amount) for saledate in ([201901], [201902], [201903], [201904], [201905], [201906]) ) as pt order by product desc, channel desc;
我们通过增加一些总计数据并且修改了返回字段的名称,让结果更加接近 EXCEL 数据透视表:
产品 |渠道 |一月 |二月 |三月 |四月 |五月 |六月 |总计 | ----------|----------|------|------|------|------|------|------|-------| 香蕉 |淘宝 | 42468| 41955| 52780| 54971| 56504| 59213| 307891| 香蕉 |京东 | 36879| 36981| 51748| 54801| 64936| 60688| 306033| 香蕉 |店面 | 41210| 39420| 50884| 52085| 60249| 67597| 311445| 香蕉 |【所有渠道】|120557|118356|155412|161857|181689|187498| 925369| 苹果 |淘宝 | 42969| 43289| 48769| 58052| 58872| 59844| 311795| 苹果 |京东 | 38269| 40593| 56552| 56662| 64493| 62045| 318614| 苹果 |店面 | 43845| 40539| 44909| 55646| 56771| 64933| 306643| 苹果 |【所有渠道】|125083|124421|150230|170360|180136|186822| 937052| 桔子 |淘宝 | 43488| 37598| 48621| 49919| 58530| 64626| 302782| 桔子 |京东 | 41289| 43913| 49803| 49256| 64889| 62649| 311799| 桔子 |店面 | 41306| 37906| 48866| 48673| 58998| 58931| 294680| 桔子 |【所有渠道】|126083|119417|147290|147848|182417|186206| 909261| 【全部产品】|【所有渠道】|371723|362194|452932|480065|544242|560526|2771682|
与 PIVOT 相反的操作是 UNPIVOT,它可以将列转换为行。我们通过以下示例将行转列之后的数据再转换回来:
with d(saledate, product, channel, amount) as ( select format(saledate, 'yyyyMM'), product, channel, amount from sales_data ) select product, channel, saledate, amount from ( select * from d pivot ( sum(amount) for saledate in ([201901], [201902], [201903], [201904], [201905], [201906]) ) as pt ) as t unpivot ( amount for saledate IN ([201901], [201902], [201903], [201904], [201905], [201906]) ) as upt;
其中,unpivot 操作符也有三个选项,用于将每个月份对应的字段转换为 saledate 字段中的行,并且将对应的数据转换为 amount 字段中的行。以上查询返回的结果如下:
product |channel |saledate |amount | --------|--------|---------|--------| 桔子 |店面 |201901 |41306.00| 桔子 |店面 |201902 |37906.00| 桔子 |店面 |201903 |48866.00| 桔子 |店面 |201904 |48673.00| 桔子 |店面 |201905 |58998.00| 桔子 |店面 |201906 |58931.00| 苹果 |店面 |201901 |43845.00| 苹果 |店面 |201902 |40539.00| 苹果 |店面 |201903 |44909.00| 苹果 |店面 |201904 |55646.00| 苹果 |店面 |201905 |56771.00| 苹果 |店面 |201906 |64933.00| ...
PIVOT 和 UNPIVOT 操作符的语法如下:
SELECT * FROM table_source PIVOT ( aggregate_function(aggregated_column) FOR pivot_column IN ( [column_name], ...) ) AS alias; SELECT * FROM table_source UNPIVOT ( value_column FOR pivot_column IN ( [column_name], ...) ) AS alias;
创建动态透视表
对于以上两种方法,如果 sales_data 中增加了 7 月份到 12 月份的销量,我们就需要修改查询语句增加这部分的处理。为了方便处理,我们可以使用动态 SQL 生成动态透视表:
declare @columns nvarchar(max) = '', @tot_col nvarchar(max) = '', @query nvarchar(max) = ''; -- 生成需要转换为列的字段名 select @columns += quotename(saledate) + ',', @tot_col += quotename(saledate) + '+' from ( select distinct format(saledate, 'yyyyMM') as saledate from sales_data ) d order by saledate; -- 删除字符串结尾处的逗号 set @columns = left(@columns, len(@columns) - 1); set @tot_col = left(@tot_col, len(@tot_col) - 1); -- 创建动态 SQL 语句 set @query =' with d(saledate, product, channel, amount) as ( select format(saledate, ''yyyyMM''), product, channel, sum(amount) from sales_data group by rollup (format(saledate, ''yyyyMM''),product,channel) ) select coalesce(product, ''ALL'') product, coalesce(channel, ''ALL'') channel, '+ @columns + ', '+ @tot_col +' as total from d pivot( sum(amount) for saledate in ('+ @columns +') ) as pt order by product desc, channel desc;'; print @query; -- 执行动态语句 execute sp_executesql @query;
首先,通过查询 sales_data 得到转换之后的字段名和总计字段;然后,拼接出查询语句 @query;print 语句打印出的查询语句如下:
with d(saledate, product, channel, amount) as ( select format(saledate, 'yyyyMM'), product, channel, sum(amount) from sales_data group by rollup (format(saledate, 'yyyyMM'),product,channel) ) select coalesce(product, 'ALL') product, coalesce(channel, 'ALL') channel, [201901],[201902],[201903],[201904],[201905],[201906], [201901]+[201902]+[201903] 14744 +[201904]+[201905]+[201906] as total from d pivot( sum(amount) for saledate in ([201901],[201902],[201903],[201904],[201905],[201906]) ) as pt order by product desc, channel desc;
最后,利用 sp_executesql 存储过程执行动态查询返回数据透视表。
总结
数据透视表是进行数据汇总、分析、浏览和展示的强大工具,可以帮助我们了解数据中的对比情况、模式和趋势。本文介绍了在 Microsoft SQL Server 中实现数据透视表的三种方式,包括 CASE 条件表达式和分组聚合操作相结合、专用的 PIVOT 运算符以及使用动态 SQL 语句生成动态数据透视表。
如果觉得文章对你有用,欢迎关注❤️、评论📝、点赞👍!
不剪发的Tony老师 CSDN认证博客专家 数据库架构师 毕业于北京航空航天大学,十多年数据库管理与开发经验,拥有OCP以及RHCE证书。目前在一家全球性的博彩企业从事数据库架构设计和开发,CSDN学院签约讲师以及GitChat专栏作者。- 演示丨通过 Docker 实现在 Linux 容器中运行 Microsoft SQL Server 数据库
- C++ 实现Microsoft SQL Server 2000 的扩展存储过程
- C++ 实现Microsoft SQL Server 2000 的扩展存储过程
- 关于sql server 2008 r2 展开时报错:参数名:viewInfo ( Microsoft SqlServer Management SqlStudio Explorer )解决思路
- [SQL Server] 《Microsoft SQL Server 2005技术内幕》系列丛书
- 可以取代access的数据库Microsoft SQL Server Compact
- Java使用SQLServerBulkCopy实现数据库批量操作
- Microsoft SQL Server 2000 下载地址汇总
- Microsoft SQL Server 2008 基本安装说明
- Microsoft SQL Server事务日志的应用
- Dynamics CRM Microsoft SQL Server 指定的数据库具有更高的版本
- Microsoft SQL Server High Availability
- 书评 -- Inside Microsoft SQL Server 2005 : T-SQL Querying,T-SQL Programming
- 《Microsoft Sql server 2008 Internals》读书笔记--第六章Indexes:Internals and Management(4)
- Microsoft SQL Server 2005技术内幕:T-SQL查询笔记
- 书评 -- Inside Microsoft SQL Server 2005 : The Storage Engine
- java.lang.ClassNotFoundException: com.microsoft.jdbc.sqlserver.SQLServerDriv
- 《Microsoft SQL Server 2008 Analysis Services Step by Step》学习笔记三:Cube
- 书评 -- Inside Microsoft SQL Server 2005 : T-SQL Querying,T-SQL Programming
- Microsoft SQL Server 索引碎片整理最佳实践