您的位置:首页 > 运维架构

基于Hadoop生态圈的数据仓库实践 —— 目录

2016-06-25 07:35 519 查看
第一部分:概述

一、什么是数据仓库

1. 操作型系统和分析型系统

2. ETL

3. 数据需求

4. 多维数据模型基础

二、在Hadoop上实现数据仓库

1. 大数据的定义

2. 为什么需要分布式计算

3. Hadoop基本组件

4. Hadoop生态圈的其它组件

5. Hadoop生态圈的分布式计算思想

6. 与传统数据仓库架构对应的Hadoop生态圈工具

第二部分:环境搭建

一、Hadoop版本选型

二、安装Hadoop及其所需的服务

三、建立数据仓库示例模型

1. ERD

2. 选择文件格式

3. 建立数据库、表和视图

第三部分:数据获取和ETL

一、使用Sqoop抽取数据

二、使用Hive转换、装载数据

三、使用Oozie定期自动执行ETL

四、进阶技术实践

1. 增加列

2. 按需装载

3. 维度子集

4. 角色扮演维度

5. 快照

6. 维度层次

7. 多路径和参差不齐的层次

8. 退化维度

9. 杂项维度

10. 多重星型模式

11. 间接数据源

12. 无事实的事实表

13. 迟到的事实

14. 维度合并

15. 累积的度量

16. 分段维度

第五部分:OLAP与数据可视化
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: