数据仓库(10)数仓拉链表开发实例
2022-05-06 21:29
141 查看
拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。
维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。
这里用商品价格的变化作为例子,具体的开发过程要按实际的来,不能照搬代码,编程重要的是了解背后的思路和原理,而不是ctrl+c和ctrl+v。那对我们学习提升的帮助有限,虽然可能对完成工作的效率帮助很大。
在开始介绍之前,这里的数据仓库的环境是HIVE。
首先看看原始的数据:
可以看到,原始的数据是每一个商品,一条记录,每一个商品,只保留最新的价格信息。这里的拉链表,我们做到天粒度的。
我们这里的思路是这样的,将最新的商品记录插入历史拉链表中,然后我们通过HIVE的窗口行数,按照end_date排序,然后分别取下一条的sale_price和end_date,然后再判断本条的价格和下一条的价格是否相等,如果是一样的,那么就把end_date改为下一条的end_date,最后做去重处理,然后就得到我们想要的数据了。
说了这么多,我觉得还是把sql贴出来会好一些,代码是最好的语言。
talk is cheap,show me the code。
-- 商品原始表这里取名goods_table select spu_id, min(start_date) as start_date, end_date as end_date, sale_price from (select spu_id, start_date, if(sale_price = lead_sale_price,lead_end_date,end_date) as end_date, sale_price from ( select spu_id, start_date, end_date, sale_price, lead(sale_price,1,null) over(partition by spu_id order by end_date) as lead_sale_price, lead(end_date) over(partition by spu_id order by end_date) as lead_end_date from goods_table ) t) t group by spu_id, end_date, sale_price ;
根据上面的代码,跑出来的,就是我们想要的拉链表的数据了,看看最后的效果。
使用这种方式即可以记录历史,可以最大程度的节省存储,不会产生过多的冗余。
参考文章:数据仓库(10)数仓拉链表开发实例
相关文章推荐
- 胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例
- 【Win 10 应用开发】通过数据绑定更新进度条
- 窗体2刷新窗体1中的datagridview数据的开发实例
- 中小型企业商业智能平台的开发和实现(数据仓库、BI系统、真实项目实战)
- 数据仓库(13)大数据数仓经典最值得阅读书籍推荐
- 解析ASP.NET Mvc开发之查询数据实例
- 用MyEclipse10开发一个基于JAX-WS的Web Service实例
- 搭建数据仓库第01篇:数据仓库开发的生命周期
- AP发票数据导入接口开发实例(ap_invoices_interface)
- Android开发之道(10)Handler本质简析与使用实例
- 【Qt5开发及实例】24、数据柱形图显示
- 数据仓库构建拉链表之 Hive 操作
- 关于存储优化型实例和大型数据仓库EC2实例选型
- RSS Reader实例开发之存储本地数据
- 基站云接口开发实例(PHP调用基站数据接口)
- BI开发概念之——数据仓库与联机分析处理,数据挖掘
- 用MyEclipse10开发基于JAX-WS的Web Service实例
- 互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(五)——数据仓库维度建模实例
- 做Hive开发要了解的数据仓库知识
- 解析ASP.NET MVC开发之查询数据实例