您的位置:首页 > 运维架构 > Apache

Apache Hadoop2.0和1.0

2017-07-04 21:40 381 查看
http://blog.csdn.net/a2011480169/article/details/53647012
http://hadoop.apache.org/
Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨大型计算机对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。

Hadoop2.0 项目包括以下模块:

Hadoop Common:用于支持其他Hadoop模块

HDFS:Haddop 分布式文件系统

Hadoop Yarn:作业调度和集群资源管理的框架

HadoopMapReduce用于并行处理大型数据集的基于YARN的系统

Hadoop1.0的HDFS结构如下图所示



Haddop1.0的HDFS是一个主从结构,即一个HDFS集群包含一个NameNode和多个DataNode,如果namenode挂掉,文件的映射关系就没有了

Hadoop1.0的Mapreduce也是一个主从结构,即是一个JobTracker对应多个TaskTracker,JobTracker的工作太多,包括负责用户提交的任务、给TaskTracker分配任务并跟踪

针对上述问题,Hadoop2.0在HDFS和MapReduce上均做了改进

Hadoop2.0引入HDFS联邦和HA机制(待补充)

Hadoop2.0Yarn

Yarn是2.0的资源管理系统



Yarn 基本上就是将Hadoop1.0中的Mapreduce的JobTracker拆分成ResourceManager和每个应用程序特有的AppMaster

ResourceManager:负责整个系统的资源管理和分配

AppMaster:负责任务的分配和监控,每个Job都有一个AppMaster

------------------------------------------------------------------------------待更------------------------------------------------------------------------------------------------------------------
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: