您的位置:首页 > 大数据 > Hadoop

基于Hadoop2.0、YARN技术的大数据高阶应用实战、

2015-01-14 11:14 591 查看
Hadoop的前景

着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企
业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及
Android程序员。
Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万。
一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

需要更多相关资料可以联系 Q2748165793
2课程内容简介
本课程基于《基于Greenplum
Hadoop分布式平台的大数据解决方案》Hadoop部分的基础课程来进行扩展延伸,主要内容分为以下四部分:
一、对Hadoop最新的2.0系列版本和YARN进行介绍,掌握最前沿的Hadoop技术框架。
二、针对MapReduce和HBase的高阶应用做深入的讲解和实战演练。
三、讲解之前基础篇中未涉及的Hadoop子项目,包括Cassandra、Sqoop、Avatar、Mahout、Avro、Flume等
四、Hadoop与R结合应用、Hadoop源代码导读基础及最后的综合实战

适合对象:
1、要求具有一定的Linux和Java基础
2、要求具有一定SQL语言基础
3、学习完《基于Greenplum
Hadoop分布式平台的大数据解决方案》Hadoop部分的基础课程
3课程大纲
Hadoop高阶应用课程(81课时)
Hadoop 2.0(6课时)Hadoop 2.0产生背景Hadoop 2.0基本构成HDFS 2.0MapReduce 2.0Hadoop 2.0安装配置集群测试YARN资源管理系统(4课时)YARN产生背景YARN基本设计思想YARN基本架构YARN工作流程YARN通信协议YARN容错YARN资源调度机制YARN支持的计算框架(Storm,Tez,Spark)(11课时)以YARN为核心的生态系统Storm基本概念Storm流式计算框架基于YARN的Storm架构YARN-Storm部署Storm On YARN服务Apache Tez介绍Tez特点Tez数据处理引擎DAGAppMaster实现Tez优化机制Tez应用场景Tez部署什么是SparkSpark生态系统Spark的核心--RDD和LineageRDD的存储、容错机制、内部设计及数据模型Spark调度框架Spark的分布式部署方式基于Mesos的Spark模式基于YARN的Spark模式Spark的独立模式部署Spark的YARN模式部署MapReduce多语言编程(5课时)MapReduce编程接口Java编程接口实例解析Hadoop Streaming实现方式Hadoop
Streaming编程实战(C++,PHP,PYTHON)Hadoop Streaming原理剖析Hadoop Pipes的编程实例Hadoop Pipes的原理剖析MapReduce高阶实现(14课时)复杂的MapReduce应用K-means聚类、贝叶斯分类等工作流编程实例及原理剖析JobControl、ChainMapper/ChainReducerHadoop工作流引擎常用MapReduce优化技巧配置多个reducer设置Stream的处理格式控制分片的大小避免分片输入格式:文本输入、多种类型输入输出控制:多个输出、延迟输出实战:数据分区MapReduce高级特性计数器、内置计数器实例:用户自定义计数器MapReduce部分排序的实现实例:MapReduce全排序Terasort算法分析实例:MapReduce实现二次排序连接、Map端连接的实现实例:Reduce端连接连接类型、连接策略介绍重分区连接框架的实现复制连接框架的实现实例:半连接全局作业参数/数据文件传递HBase编程实践及案例分析(10课时)HBase基础精讲HBase Java编程实例HBase多语言编程Thrift安装、服务配置HBase C++编程实例HBase Python编程实例HBase MapReduce编程基础实战:HBase MapReduce编程Hbase案例:OpenTSDB的实现基于HBase的爬虫调度库基于HBase的爬虫索引库银行人民币查询系统Sqoop(6课时)Sqoop产生背景、基本Sqoop1和Sqoop2架构及特点Sqoop1安装配置(版本1.4.4)Sqoop导入介绍实战:从mysql导入数据到HDFS实战:从mysql导入数据到HiveSqoop导出介绍实战:将Hive数据导出到MysqlSqoop与Hbase结合Sqoop作业操作Sqoop作业安全配置Sqoop2安装配置(版本1.99.3)Sqoop2使用综合实战Flume日志收集系统(7课时)Flume概念和特点Flume OG架构、组成、特点、容错机制设计日志收集系统综合比较Flume NG架构、核心概念Flume OG的安装Flume OG的配置(Web端、Flume shell)Flume NG的安装配置、测试Flume
NG模块配置(Source、Channel、Sink)Flume NG配置实战分析Avro数据序列化系统(1课时)Avro介绍Avro特性、主要作用RPC使用AvroAvro与其他序列化系统的区别Mahout数据挖掘工具(10课时)数据挖掘概念、系统组成数据挖掘常用方法及算法(回归分析、分类、聚类等)数据挖掘分析工具Mahout支持的算法Mahout起源和特点Mahout安装、配置及测试实战:Mahout K-means聚类分析Mahout实现Canopy算法Mahout实现分类算法实战:Mahout逻辑回归分类预测实战:Mahout朴素贝叶斯分类推荐系统的概念及分类协同过滤推荐算法概念、分类及应用实战:实现基于Mahout的电影推荐系统Hadoop综合实战-文本挖掘项目(7课时)文本挖掘的概念及应用场景项目背景项目流程中文分词技术庖丁分词器的使用MapReduce并行分词程序的设计与实现Pig划分数据集Mahout构建朴素贝叶斯文本分类器模型应用-计算用户偏好类别
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息