MapReduce在YARN上的运行流程
2017-07-28 18:09
302 查看
1.客户端提交mr程序job的流程
客户端提交job后(job.submit()),Yarn的ResourceManager会返回本次所提交的job的提交路径(hdfs://xxx../staging)和jobid,然后拼接为一个job的资源提交路径 (hdfs://…./staging/jobid)然后会将
1)job的切片规划(调用FileInputFormat.getSplits()获取切片规划List)序列化成的文件job.split
2)job.xml文件(job的相关参数)
3)job的jar包
拷贝到刚才拼接成的资源提交路径
流程图解
2.mr程序在YARN上的工作机制
客户端提交job后,通过客户端所在节点的YRANRUNNER向resource manager(之后简称rm)申请提交一个applicationrm会返回任务的资源提交路径hdfs://xxx…/..和application_id
客户端所在节点的YRANRUNNER提交job运行所需要的资源(job.split、job.xml、job.jar)到前面提到的拼接的资源提交路径,资源提交完毕后申请运行mrAppMaster,先挑一台node manager创建容器(cpu+ram)运行mrAppMaster
rm将用户的请求封装成一个个的job,放入队列中(YARN的三种调度器,FIFO(默认)、Fair、Capacity),mrAppMaster领取到任务后先下载job资源到本地,然后根据任务描述,向rm申请运行maptask的容器,rm在分配容器给node manager来启动maptask和reducetask
三点需要注意:
1)程序运行时,只有mrAppMaster知道运行信息,rm和node manager都不知道,YARN只负责资源的分配。从这一点可以看出YARN和mr程序是解耦的。 2)maptask执行完毕后,相应的资源会被回收,那之后启动的reduce拿到maptask生成的数据呢?maptask虽然不在了,但是有文件,它们被node manager管理,reduce可以找node manager 要,搭建环境时配过一个参数(mapreduced_shuffle)就是配合管理这些文件。 3)Hadoop1.x版本中角色分为JobTracker和TaskTracker,JobTracker既要监控运算流程,又要负责资源调度,耦合度高,导致负载过大。
流程图解
相关文章推荐
- mapreduce程序在yarn上运行的流程
- spark on yarn(Job的运行流程,可以对比mapreduce的yarn运行)
- Yarn的运行原理(执行流程)
- 走向云计算之MapReduce原理和运行流程详解
- Hadoop-MapReduce Job本地运行流程
- HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo
- 浅谈HDFS和MapReduce-YARN的运行原理
- MR-3.Hadoop使用YARN运行MapReduce工作原理
- Yarn二、YARN 工作流程&&MapReduce2架构设计
- MapReduce提交到Yarn上大体执行流程
- yarn运行mapreduce的工作机制
- 大数据 (八)Hadoop-MapReduce 运行环境之 yarn环境搭建
- 基于Yarn平台的MapReduce运行机制
- MapReduce扩展:应用程序如何运行于Hadoop Yarn之上
- Hadoop学习之MapReduce运行流程
- Mapreduce 运行原理(针对使用YARN作为调度和管理的版本)
- MapReduce的运行流程
- MapReduce的运行流程
- MapReduce原理及运行流程回顾
- hadoop初识之十一:mapreduce编写格式与示例, 并在yarn上运行