您的位置：首页 > 大数据

快来看！Hadoop+Spark大数据分析最佳实践研修班(第5期)深圳开班啦！

2016-08-01 16:47 351 查看

一、什么是Hadoop？

Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序成为"作业job"，而从一个作业换分出的、运行于个计算节点的工作单元成为"任务task"。此外，Hadoop提供的分布式文件系统HDFS主要负责各个节点上的数据的存储，并实现了高吞吐率的数据读写。

二、Hadoop相关技术

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。

充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop Common
在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common
HDFS
Hadoop分佈式文件系統(Distributed File System)－HDFS (Hadoop Distributed File System)
MapReduce
并行计算框架，0.20前使用 org.apache.hadoop.mapred 旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API
HBase
类似Google BigTable的分布式NoSQL列数据库。（HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目[1]）
Hive
数据仓库工具，由Facebook贡献
Zookeeper
分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献
Avro
新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制

三、Hadoop作用

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

四、什么是Hadoop工程师？

hadoop工程师主要是偏开发层面，指的是围绕大数据系平台系统级的研发人员，熟练Hadoop大数据平台的核心框架，能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如：Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。

随着云计算、大数据迅速发展，亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多，直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上，工作1年可达到 1.2W 以上，具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万。

一般需要大数据处理的公司基本上都是大公司，所以学习hadoop技术也是进大公司的捷径！

中关村被称为中国硅谷，这里有着一群被外界称之为程序员的IT从业者。

但是一眼望去，大多数一线程序员的年龄均在20至30岁左右，40、50岁的人在这个行业内颇为罕见。

为什么在国内没有"老"程序员，而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是？造成这种现象的原因是多方面的。

年薪30-50万一个成熟Hadoop工程师

Hadoop入门薪资已经达到了 8K 以上，工作1年可达到 1.2W 以上，具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万。

你还在等什么呢？

五、hadoop课程

【课程背景】
随着科技的发展，极大地提高了数据生成的速度，已经远远超出了传统数据分析工具处理的能力；是否具备使用大规模分布式数据分析平台的能力，成为判定一个数据分析开发者能力高低的一个重要标准。本课程重点在于讲授大规模数据分析的理念与开发实战，使得学员快速掌握基本的开发技巧。

【课程特色】
理论讲解与实操相结合，开发演示与现场指导相结合；以理论为基础，重点在于数据分析开发实战。

【教学目标】
1、学习大数据处理相关技术与理论；
2、全面学习使用Hadoop生态系统进行数据分析的技术；
3、Spark及其相关框架进行快速机器学习的技术。

【目标用户】
有一定编程基础的数据分析爱好者，最好具备Java或者Python开发经验。

【老师介绍】
高老师，中国科学院博士后，主要研究方向为机器学习与推荐系统，曾以核心人员身份参与国家重大项目四项，在国内外学术期刊与会议上发表论文十余篇，申请发明专利多项，目前已授权一项。近年来，致力于机器学习技术在互联网企业中的应用与推广，已为电商、互联网、广告等领域公司设计并主持开发了数据分析系统七套。

【培训时间】：8月6日~8月28日逢周六周日上课(8天)，9:00~12:00 13:30~17:00
【团购优惠】：
1）3人以上9折，5人以上8折；
2）免费办理工信部专项技术证书（工本费400元/人）

【教学大纲】

第一天	Hadoop基础	Hadoop产生的背景 Hadoop设计目标、适合的场景 Hadoop生态圈以及各组成部分的简介 Hadoop 2.0 产生背景及基本构成 Hadoop安装与配置 HDFS 2.0、MapReduce 2.0 Hadoop核心MapReduce简单例子说明
Hadoop数据的存储-HDFS	分布式文件系统 DFS 简介 HDFS 的设计原理 HDFS 的组成部分详解副本存放策略及路由规则 HDFS 基本操作与配置管理客户端与 HDFS 的数据流讲解 HDFS API 开发入门：命令行接口、Java 接口 HDFS 的高可用性（HA）与NN Federation
第二天	Hadoop数据的存储-HBASE	HBASE 简介 HBASE 安装与配置 HBase的系统架构与特性 HBASE 和 RDBMS 的异同 HBASE 客户端软件介绍 HBase的表结构，RowKey，列族和时间戳 HBASE 表操作 HBase中的 Master，Region 以及 Region Server HBase上的MapReduce HBASE 实践案例
MapReduce开发模型	MapReduce基本原理与架构 MapReduce的运行过程深入理解 map、reduce 计算模型 MapReduce开发环境搭建搭建MapReduce的 java 开发环境使用MapReduce的 java 接口实现数据分析应用 MapReduce的类型与格式简单MapReduce应用开发剖析伪分布式下MapReduce作业的执行过程数据序列化
第三天	MapReduce高级进阶	常见MapReduce设计问题用户定制数据多数据源的连接关系数据库的链接与访问
机器学习基本知识
第四天	使用Hadoop进行数据分析案例	聚类分析应用分类算法的应用
第五天	Spark基础	Spark概述 Spark生态系统 Spark的安装与配置 Spark开发环境的搭建 Spark交互式工具Spark-shell的使用
Spark的编程模型	Spark计算模型 RDD基础 RDD的操作、特点与依赖关系持久化机制 Transformation、Action算子及其功能介绍
第六天	Spark SQL	Hive入门数据的读取与存储 Spark SQL进阶操作 Spark SQL实战示例
Spark Streaming实时机器学习	Spark Streaming原理 Spark Streaming运行方式 Spark Streaming的缓存与容错 Spark Streaming实战示例
第七天	使用MLib进行机器学习	机器学习基础概述常用机器学习算法讲解分类算法聚类算法回归算法特征选择 MLib中机器学习算法的使用 MLib实战示例
图运算与GraphX基础	图论基础 GraphX架构概述 GraphX实战示例
第八天	Spark的运维	运行架构概述 Standalone运行过程 Spark on YARN Spark性能优化基础
Spark源码阅读入门与企业应用概述

【大纲思维导图】

【报名流程】
1.在线填写报名信息报名表填写
2.给予反馈，确认报名信息
3.网上缴费
4.开课前一周发送电子版课件和教室路线图

【联系我们】
咨询电话：400-070-7620
在线QQ①：1796318148
在线QQ②：149104196
往期掠影：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop spark 数据分析数据挖掘

相关文章推荐

新的分享

章节导航