Hadoop-Spark企业应用实战
2014-07-15 15:50
260 查看
课 程 大 纲
本课程会介绍 Hadoop / Spark 各组件的架构,但不会涉及任何安装的内容,安装的教程、录像视频什么的网上到处都是,讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决,建议用Cloudera CDH或者Hortonworks
HDP
本课程目标是:给大家分享一些在网上不能随便就搜到的内容和窍门,展示企业线上生产系统中应用 Hadoop、Spark 的成功案例,以及与现有企业BI平台整合的方案
第一周:企业级Hadoop/Spark应用概述,Hadoop/Spark生态系统与现有企业级应用的整合
1. 企业级集群部署、数据管理、任务调度、集群监控
2. Hadoop架构介绍、Spark / Shark介绍
3. Spark与Hadoop的关系
4. 现有Hadoop架构的种种问题和限制,HA
5. 企业数据仓库的选型,Hadoop世界与EDW世界中的TPC(TPC DS与TPC H)
6. Hadoop世界中的DBA
7. 成本考量 —— 人?物?物是人非……
第二周:Hadoop Eco System 进阶应用基础知识
1. HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优
2. 玩转Hive ETL高级应用:权限管理、external table、partition、中文支持、HiveServer2 JDBC接口
3. Hive的Windowing and Analytics Functions
4. Hive 0.13的新功能
5. Impala与Hive对比,各种Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join)
第三周:进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用
1. 企业级应用实例1:物流行业 — 订单跟踪
2. —〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表,避免LOAD
DATA
3. —〉 Hive和Impala的Join优化Hints,MapJoin、Shuffle Join 实例
4. 企业级应用实例2:广告行业 —基于用户行为分析的用户归类标签
(客户画像)
5. —〉 Hive复合数据类型array
6. —〉 array与collect_set、collect_list、array_contains、sort_array
7. —〉 impala的group_concat
8. —〉 array与lateral
view、LATERAL VIEW OUTER
9. 企业级应用实例3:电商/零售行业
— 简单的推荐系统 Recommender System实现 (基于用户标签/客户画像)
10. —〉 Hive复合数据类型map、str_to_map、map_keys、map_values,map与lateral
view
11. —〉通过Hive、Impala转换函数进行数据保护,确保企业应用信息安全(通过translate进行简单数据脱敏Data
Masking)
12. —〉 H
b6e7
iveServer2 JDBC接口实例应用、中文支持Bug纠错
13. —〉Hive的窗口和分析函数入门(row_number、rank、dense_rank等)
14. 企业级应用实例4:互联网行业 —访问量业绩报表
15. —〉Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)
16. —〉 ROWS BETWEEN ... AND ...(CURRENT
ROW,rows PRECEDING,rows FOLLOWING)
17. 本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结
第四周:Hadoop & Spark / Shark进阶应用基础知识
1. HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优,Spark / Spark SQL / Shark简介
2. HBase Shell与 HBase REST API
应用
3. HBase的Region进阶应用Compact、Split与Merge
4. HBase进阶脚本应用:jruby script
5. HBase与Hive的整合高级应用:binary(byte) value,lateral view explode
6. Hive 0.13:posexplode
7. Spark / Spark SQL / Shark架构介绍、Spark Scala / Python
开发介绍
第五周:进阶应用实例 — Hadoop/Spark平台企业级开发框架
1. Hadoop生态系统中为企业级开发提供的测试框架应用实例
2. Spark实现“物流行业 — 订单跟踪 SLA”的实例,Scala语言及Python语言实现,Spark
SQL + Parquet文件实现,Spark Scala Maven项目实例
3. HBase开发实例:REST API使用、JRuby脚本编写、Region进阶应用
4. 与Continuous Integration系统整合的可能
5. —— 软件/互联网行业Hadoop企业级开发框架
第六周:Hadoop & Spark / Shark企业级应用整合
1. HBase与Hive整合的大坑
2. HBase Python客户端 happybase
使用介绍、编程实例
3. HBase Coprocessor与HBase + Hive特征特点比较、分别适用的场景
4. 企业中应用 HBase,Hive,Impala,Spark / Shark 的注意事项,资源分配方案
5. Hadoop与现有企业级BI平台的整合
6. Pentaho PDI / Kettle
7. Oracle or In-Memory Database
8. MicroStrategy / Tableau
第七周:进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合
1. 互联网行业时间序列(time series data)数据处理实例 ——整合 HBase 与 Hive:增量数据与全量数据,冷数据与热数据分治
2. 互联网行业时间序列(time series data)数据处理实例 ——整合 Spark 与 HBase
3. Spark访问 HBase
数据实例:通过 Spark对 HBase 表进行 scan,Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray
4. 通过 Kettle / Spoon工具整合Hadoop与现有RDBMS的企业级BI解决方案
5. 其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQL FDW,使用Presto的JDBC connector等)
6. —— 互联网行业Hadoop企业级大数据BI应用整合方案
下载地址:http://pan.baidu.com/s/1kTvB3Bh
本课程会介绍 Hadoop / Spark 各组件的架构,但不会涉及任何安装的内容,安装的教程、录像视频什么的网上到处都是,讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决,建议用Cloudera CDH或者Hortonworks
HDP
本课程目标是:给大家分享一些在网上不能随便就搜到的内容和窍门,展示企业线上生产系统中应用 Hadoop、Spark 的成功案例,以及与现有企业BI平台整合的方案
第一周:企业级Hadoop/Spark应用概述,Hadoop/Spark生态系统与现有企业级应用的整合
1. 企业级集群部署、数据管理、任务调度、集群监控
2. Hadoop架构介绍、Spark / Shark介绍
3. Spark与Hadoop的关系
4. 现有Hadoop架构的种种问题和限制,HA
5. 企业数据仓库的选型,Hadoop世界与EDW世界中的TPC(TPC DS与TPC H)
6. Hadoop世界中的DBA
7. 成本考量 —— 人?物?物是人非……
第二周:Hadoop Eco System 进阶应用基础知识
1. HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优
2. 玩转Hive ETL高级应用:权限管理、external table、partition、中文支持、HiveServer2 JDBC接口
3. Hive的Windowing and Analytics Functions
4. Hive 0.13的新功能
5. Impala与Hive对比,各种Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join)
第三周:进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用
1. 企业级应用实例1:物流行业 — 订单跟踪
2. —〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表,避免LOAD
DATA
3. —〉 Hive和Impala的Join优化Hints,MapJoin、Shuffle Join 实例
4. 企业级应用实例2:广告行业 —基于用户行为分析的用户归类标签
(客户画像)
5. —〉 Hive复合数据类型array
6. —〉 array与collect_set、collect_list、array_contains、sort_array
7. —〉 impala的group_concat
8. —〉 array与lateral
view、LATERAL VIEW OUTER
9. 企业级应用实例3:电商/零售行业
— 简单的推荐系统 Recommender System实现 (基于用户标签/客户画像)
10. —〉 Hive复合数据类型map、str_to_map、map_keys、map_values,map与lateral
view
11. —〉通过Hive、Impala转换函数进行数据保护,确保企业应用信息安全(通过translate进行简单数据脱敏Data
Masking)
12. —〉 H
b6e7
iveServer2 JDBC接口实例应用、中文支持Bug纠错
13. —〉Hive的窗口和分析函数入门(row_number、rank、dense_rank等)
14. 企业级应用实例4:互联网行业 —访问量业绩报表
15. —〉Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)
16. —〉 ROWS BETWEEN ... AND ...(CURRENT
ROW,rows PRECEDING,rows FOLLOWING)
17. 本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结
第四周:Hadoop & Spark / Shark进阶应用基础知识
1. HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优,Spark / Spark SQL / Shark简介
2. HBase Shell与 HBase REST API
应用
3. HBase的Region进阶应用Compact、Split与Merge
4. HBase进阶脚本应用:jruby script
5. HBase与Hive的整合高级应用:binary(byte) value,lateral view explode
6. Hive 0.13:posexplode
7. Spark / Spark SQL / Shark架构介绍、Spark Scala / Python
开发介绍
第五周:进阶应用实例 — Hadoop/Spark平台企业级开发框架
1. Hadoop生态系统中为企业级开发提供的测试框架应用实例
2. Spark实现“物流行业 — 订单跟踪 SLA”的实例,Scala语言及Python语言实现,Spark
SQL + Parquet文件实现,Spark Scala Maven项目实例
3. HBase开发实例:REST API使用、JRuby脚本编写、Region进阶应用
4. 与Continuous Integration系统整合的可能
5. —— 软件/互联网行业Hadoop企业级开发框架
第六周:Hadoop & Spark / Shark企业级应用整合
1. HBase与Hive整合的大坑
2. HBase Python客户端 happybase
使用介绍、编程实例
3. HBase Coprocessor与HBase + Hive特征特点比较、分别适用的场景
4. 企业中应用 HBase,Hive,Impala,Spark / Shark 的注意事项,资源分配方案
5. Hadoop与现有企业级BI平台的整合
6. Pentaho PDI / Kettle
7. Oracle or In-Memory Database
8. MicroStrategy / Tableau
第七周:进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合
1. 互联网行业时间序列(time series data)数据处理实例 ——整合 HBase 与 Hive:增量数据与全量数据,冷数据与热数据分治
2. 互联网行业时间序列(time series data)数据处理实例 ——整合 Spark 与 HBase
3. Spark访问 HBase
数据实例:通过 Spark对 HBase 表进行 scan,Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray
4. 通过 Kettle / Spoon工具整合Hadoop与现有RDBMS的企业级BI解决方案
5. 其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQL FDW,使用Presto的JDBC connector等)
6. —— 互联网行业Hadoop企业级大数据BI应用整合方案
下载地址:http://pan.baidu.com/s/1kTvB3Bh
相关文章推荐
- Hadoop—Spark企业应用实战(推荐版)视频教程
- 第一天:Java源码级实战速成(通过动手实战类、对象等,通过Spark和Hadoop案例代码和源码解析具体指知识的应用、深度详解匿名接口在Spark开发中的运用)
- 大数据精英实战项目班-Hadoop-Spark-真实企业项目
- 《Spring 3.x 企业应用开发实战》学习笔记 第三章 IoC容器概述 3.2 相关Java基础知识 类装载器 反射机制
- Spring 3.x 企业应用开发实战(含CD光盘1张)
- Java EE企业应用实战
- Java EE企业应用实战
- Silverlight企业应用实战:第二篇,方向
- 学习Spring3.X 企业应用开发实战笔记(二 )
- Spring 3.x 企业应用开发实战(含CD光盘1张)
- Spring 3.x 企业应用开发实战(含CD光盘1张)
- 【LeanEAP.NET】精益企业应用平台实战----表格批量编辑与Undo/Redo功能实现
- Silverlight企业应用实战:第一篇,起源
- Spring的声明式事务管理(李刚 轻量级javaEE 企业应用实战-三大框架整合开发)
- 生命力旺盛!Hadoop10大应用(含8家潜力企业)
- 【LeanEAP.NET】精益企业应用平台实战----构造DataAccessor与增删改查
- Silverlight企业应用实战:第一篇,起源
- Silverlight企业应用实战:SL 4.0 打印,让我拿什么说爱你?
- 【预告】CSDN TUP第四期:Hadoop技术沙龙——Hadoop应用性能优化实战
- Spring 3.x企业应用开发实战