HDFS、YARN和MapReduce简介
2016-11-27 19:19
316 查看
Hadoop
Hadoop是一个Apache旗下的分布式系统基础架构。Hadoop1由HDFS和MapReduce构成;Hadoop2框架核心设计有HDFS、MapReduce、YARN。
Hadoop2主要改进了以下四部分:YARN、NameNode HA、HDFS federation、Hadoop RPC序列化扩展性。详细解释如下:
YARN是Hadoop2中的资源管理系统,它可以使Hadoop2可以运行更多的处理框架;
NameNode HA提高了Hadoop的可靠性,当action NameNode宕机时,可立即切换到standby NameNode提供服务;
HDFS federation让多个NameNode共同管理DataNode,增加了Hadoop的集群规模;
Hadoop RPC序列化扩展性的提高,是指将数据类型独立可插拔。
HDFS
HDFS是一个分布式文件系统,具有高容错性,提供高吞吐率的数据访问,能够有效处理海量数据集。它支持超大文件,能够检测并应对硬件故障,采用流式数据访问,并使用了简化了的一致性模型。但它不适合低延迟环境,大量小文件的读写,并且不支持多用户写入以及随机修改文件。
HDFS由NameNode和DataNode构成;NameNode保存HDFS的名字空间,任何修改操作都记录在NameNode中;DataNode把每个HDFS数据块(HDFS处理单元,默认128MB)存储在本地文件系统的单独文件中,以此来存储HDFS数据。
HDFS的读写流程如下图所示:
MapReduce
MapReduce是面向大型数据处理的并行计算模型和方法。其工作流程如下:
MapReduce的map端输出作为输入传递给reduce端,并按键排序的过程称为shuffle,其过程如图:
Hadoop1中的MapReduce有以下四大缺点:
JobTracker同时负责资源管理和作业控制,导致其扩展性差;
MapReduce采用Master/Slave结构存在的单点故障问题会使整个集群不可用,所以它可靠性差;
MapReduce资源分配基于槽位,两种Map槽位和Reduce槽位工作时间不同却不可共享资源,降低了资源的利用率;
它无法支持多种计算框架,只能使用基于磁盘的离线计算,不支持内存计算、流式计算和迭代式计算。
YARN
YARN是Hadoop2中的通用资源管理系统,为上层应用提供统一资源管理调度,改正了Hadoop1中MapReduce的缺点,其结构如下:YARN的组件有ResourceManager、ApplicationMaster、NodeManager和Container,其采用的仍然是Master/Slave结构(ResourceManager是Master,NodeManager是Slave)。
其工作流程图如下:
相关文章推荐
- HDFS简介,YARN、MapReduce原理介绍
- hadoop初识之四:HDFS、Yarn及mapreduce 回顾,配置文件的补充及yarn日志聚集功能配置
- Apache Hadoop下一代MapReduce框架(YARN)简介 (Apache Hadoop NextGen MapReduce (YARN))
- Hadoop权威指南读书笔记(1) - MapReduce和HDFS简介
- 企业级Hadoop 2.x入门系列之四HDFS文件系统和YARN资源管理框架简介
- MapReduce 2.0 之 YARN 简介
- HDFS 和YARN HA 简介
- 互联网大数据框架介绍(一)Hadoop,HDFS,yarn,Mapreduce
- 【Hadoop】Hadoop/Yarn中hdfs与mapreduce相关问题汇总
- HDFS 和YARN HA 简介
- 二、关于HDFS、YARN及MapReduce的理解
- HDFS、YARN、MapReduce原理--读书笔记
- Hadoop核心架构体系(HDFS+MapReduce+Hbase+Hive+Yarn)
- HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo
- hadoop初识之三:搭建hadoop环境(配置HDFS,Yarn及mapreduce 运行在yarn)上及三种运行模式(本地模式,伪分布式和分布式介)
- Hadoop三剑客:hdfs、yarn、mapreduce
- 【Hadoop】Hadoop/Yarn中hdfs与mapreduce相关问题汇总
- hadoop备战:yarn框架的简介(mapreduce2)
- Hadoop中HDFS和MapReduce节点基本简介
- 浅谈HDFS和MapReduce-YARN的运行原理