基于Hadoop生态圈的数据仓库实践 —— 目录
2016-06-25 07:35
519 查看
第一部分:概述
一、什么是数据仓库
1. 操作型系统和分析型系统
2. ETL
3. 数据需求
4. 多维数据模型基础
二、在Hadoop上实现数据仓库
1. 大数据的定义
2. 为什么需要分布式计算
3. Hadoop基本组件
4. Hadoop生态圈的其它组件
5. Hadoop生态圈的分布式计算思想
6. 与传统数据仓库架构对应的Hadoop生态圈工具
第二部分:环境搭建
一、Hadoop版本选型
二、安装Hadoop及其所需的服务
三、建立数据仓库示例模型
1. ERD
2. 选择文件格式
3. 建立数据库、表和视图
第三部分:数据获取和ETL
一、使用Sqoop抽取数据
二、使用Hive转换、装载数据
三、使用Oozie定期自动执行ETL
四、进阶技术实践
1. 增加列
2. 按需装载
3. 维度子集
4. 角色扮演维度
5. 快照
6. 维度层次
7. 多路径和参差不齐的层次
8. 退化维度
9. 杂项维度
10. 多重星型模式
11. 间接数据源
12. 无事实的事实表
13. 迟到的事实
14. 维度合并
15. 累积的度量
16. 分段维度
第五部分:OLAP与数据可视化
一、什么是数据仓库
1. 操作型系统和分析型系统
2. ETL
3. 数据需求
4. 多维数据模型基础
二、在Hadoop上实现数据仓库
1. 大数据的定义
2. 为什么需要分布式计算
3. Hadoop基本组件
4. Hadoop生态圈的其它组件
5. Hadoop生态圈的分布式计算思想
6. 与传统数据仓库架构对应的Hadoop生态圈工具
第二部分:环境搭建
一、Hadoop版本选型
二、安装Hadoop及其所需的服务
三、建立数据仓库示例模型
1. ERD
2. 选择文件格式
3. 建立数据库、表和视图
第三部分:数据获取和ETL
一、使用Sqoop抽取数据
二、使用Hive转换、装载数据
三、使用Oozie定期自动执行ETL
四、进阶技术实践
1. 增加列
2. 按需装载
3. 维度子集
4. 角色扮演维度
5. 快照
6. 维度层次
7. 多路径和参差不齐的层次
8. 退化维度
9. 杂项维度
10. 多重星型模式
11. 间接数据源
12. 无事实的事实表
13. 迟到的事实
14. 维度合并
15. 累积的度量
16. 分段维度
第五部分:OLAP与数据可视化
相关文章推荐
- ubuntu 12.04安装OpenGL
- erdaicms旅游网站程序模板免费下载(PC站自带手机站,自带3套模板可切换,对接支付宝和微信支付)
- centos 7 源码安装及 php-fpm 配置与 nginx 集成
- Linux 添加so搜索目录
- Linux命令行下常用快捷键
- 如何在tomcat安装部署php项目
- linux内核sysfs详解
- hadoop安装后测试运行
- linux上java环境搭建
- 经典三层架构
- Linux Golang 环境搭建(版本1.6.2)
- 常用游戏资源网站
- OpenTSDB 教材收藏
- shell中的数学运算
- linux内核时常碰到的汇编指令(详尽版部分)
- 不仅仅是外贸网站才需要独立IP-独立IP的优点
- twoo是什么网站
- # ISO C 与 Nerrno 宏
- linux下 清空tomcat缓存
- Hadoop命令指南