The Data Warehouse ETL Toolkit学习笔记-架构(数据流主线―数据管理)
2013-06-25 17:27
549 查看
数据仓库的后台和前台从物理上、逻辑上以及管理上都是分开的。
数据管理是指获取数据并将数据转化成信息,最终将这些信息提交到前端的查询界面,后台不提供查询服务。
后台数据访问是被严格禁止的。
是否支持数据访问正是后台和前台的关键区别。
(一)集结
集结意味着临时的或永久的物理数据快照。
1、抽取步骤
源系统的原始数据在进行大的转换之前通常直接写入到磁盘(通常中写入文本文件或关系型数据库),以保证最初的抽取尽可能简单和快速。
清洗步骤完成后,通常有三种处理方式:
⑴ 直接丢弃;
⑵ 归档以长期保存;
⑶ 保存至少一个抽取周期,以计算连续抽取之间的不同之处。
虽然在清洗和转换步骤可以进行重要的内容转换,但是解决遗留数据格式问题的最佳时机还是在抽取阶段。抽取阶段的转换包括编码格式转换、大小写转换、重定义、重载列等。
(二)清洗步骤
源系统可接受的数据质量程序依据数据仓库要求的质量而不同。
数据质量的处理包括以下几个独立的步骤:有效值检测、一致性检测、删除重复记录、检测是否有复杂的业务规则和过程需要增强等。
数据清洗转换可能需要人为的干预和判断。
数据清洗步骤的结果往往是半永久保存的。
(三)规格化步骤
当多个数据源合并到数据仓库时就需要数据规格化。
数据规格化的过程比简单的数据清洗重要的多,数据规格化需要在顶层确定统一的标准规范,包括口径和度量。
(四)提交步骤
后台任务的终点就是准备好数据以方便查询。
提交步骤至关重要的是将数据物理地组织成简单、对称的维度模型,这种框架大大降低了查询时间、简化了开发过程。
维度模型是构建OLAP立方体的必要基础。
建议将维度模型作为每个数据仓库后台的最终目标。
数据管理是指获取数据并将数据转化成信息,最终将这些信息提交到前端的查询界面,后台不提供查询服务。
后台数据访问是被严格禁止的。
是否支持数据访问正是后台和前台的关键区别。
(一)集结
集结意味着临时的或永久的物理数据快照。
1、抽取步骤
源系统的原始数据在进行大的转换之前通常直接写入到磁盘(通常中写入文本文件或关系型数据库),以保证最初的抽取尽可能简单和快速。
清洗步骤完成后,通常有三种处理方式:
⑴ 直接丢弃;
⑵ 归档以长期保存;
⑶ 保存至少一个抽取周期,以计算连续抽取之间的不同之处。
虽然在清洗和转换步骤可以进行重要的内容转换,但是解决遗留数据格式问题的最佳时机还是在抽取阶段。抽取阶段的转换包括编码格式转换、大小写转换、重定义、重载列等。
(二)清洗步骤
源系统可接受的数据质量程序依据数据仓库要求的质量而不同。
数据质量的处理包括以下几个独立的步骤:有效值检测、一致性检测、删除重复记录、检测是否有复杂的业务规则和过程需要增强等。
数据清洗转换可能需要人为的干预和判断。
数据清洗步骤的结果往往是半永久保存的。
(三)规格化步骤
当多个数据源合并到数据仓库时就需要数据规格化。
数据规格化的过程比简单的数据清洗重要的多,数据规格化需要在顶层确定统一的标准规范,包括口径和度量。
(四)提交步骤
后台任务的终点就是准备好数据以方便查询。
提交步骤至关重要的是将数据物理地组织成简单、对称的维度模型,这种框架大大降低了查询时间、简化了开发过程。
维度模型是构建OLAP立方体的必要基础。
建议将维度模型作为每个数据仓库后台的最终目标。
相关文章推荐
- The Data Warehouse ETL Toolkit学习笔记-架构(数据流主线―数据访问)
- The Data Warehouse ETL Toolkit学习笔记-架构(数据流主线―数据访问)
- The Data Warehouse ETL Toolkit学习笔记-架构(规划与设计主线)
- The Data Warehouse ETL Toolkit学习笔记-需求
- Sharepoint学习笔记—架构系列-- Sharepoint的数据模型(DataModel)、数据管理(Data Management)与查询(Query System)
- Self Learning Note <The Data Warehouse ETL Toolkit> - Chapter 3 Extracting
- The Data WarehouseETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delive
- 大数据技术学习笔记之linux基础2-基础环境与系统管理
- The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)
- TCP-IP学习笔记十:RPC架构WebService加入Zookeeper集群的管理
- 设计模式学习笔记5——设计模式基础4--常量数据管理器
- 【SQL Server学习笔记】变更数据捕获(Change Data Capture)
- oracle 11g 学习笔记 10_31_管理表空间和数据文件
- TheBeerHouse 网站项目学习笔记(4)----安全管理(下)
- 【SQL Server学习笔记】变更数据捕获(Change Data Capture)
- 用data.DataReader读取股价数据并分析--python学习笔记17
- oracle 11g 学习笔记 10_31_管理表空间和数据文件
- 【数据库学习笔记】MySQL_01_概述,操作库,操作表,管理数据
- 【北京圣思园学习笔记】第02讲:原生数据类型(Primitive Data Type)
- 数据仓库工具箱:The Data Warehouse Toolkit