MapReduce模型探究--总览
2014-01-06 17:05
113 查看
先从宏观上了解一下MR运行机制。
(2)tasktracher: 执行job划分后的task
client提交MR作业后,jobtracher对作业进行调度,并分配给tasktracher去执行,tasktracher和jobtracher间通过心跳(heartbear)来通信。
个人理解:Map阶段主要做对数据的处理,例如对单词的分割,为Reduce阶段做准备。
Reduce阶段,主要做对加工过的数据做统计和自己的业务逻辑。
MR这个模型还是蛮简单的,其中还有很多奥妙的地方,设计的很棒。
<2>cleanup函数:task之后的操作。
<3>run函数:控制mr。
<2>借助controlledJob和JobContral类
<3>Job设置预处理和后处理过程
两个干活的:
(1)jobtracher:管理和调度job(2)tasktracher: 执行job划分后的task
client提交MR作业后,jobtracher对作业进行调度,并分配给tasktracher去执行,tasktracher和jobtracher间通过心跳(heartbear)来通信。
MR过程:
每个MR任务被初始化为一个job,job分为Map阶段和Reduce阶段,数据传输都是以<key,value>形式。个人理解:Map阶段主要做对数据的处理,例如对单词的分割,为Reduce阶段做准备。
Reduce阶段,主要做对加工过的数据做统计和自己的业务逻辑。
MR这个模型还是蛮简单的,其中还有很多奥妙的地方,设计的很棒。
一些经验:
1、性能调优
输入采用大文件,可以使用CombineFileInputFormat2、较复杂的MR函数处理
<1>setup函数:task之前的全局操作。<2>cleanup函数:task之后的操作。
<3>run函数:控制mr。
3、多个job的情况
<1>可以顺序执行,起一个job的输出作为后一个的输入<2>借助controlledJob和JobContral类
<3>Job设置预处理和后处理过程
相关文章推荐
- MapReduce模型探究--总览
- Hadoop基本概念及MapReduce编程模型
- hadoop初识之十:mapreduce编程模型与数据传输格式
- 第四篇:MapReduce计算模型
- 精通HADOOP(二) - 初识Hadoop - MapReduce模型介绍
- Linux设备驱动模型探究--2(bus)
- 深入探究JVM | klass-oop对象模型研究
- Hadoop导航:版本、生态圈及MapReduce模型
- MapReduce计算模型
- Hadoop 版本 生态圈 MapReduce模型
- 3、 分布式计算模型MapReduce
- MapReduce编程模型概述
- MapReduce编程模型
- 基于MapReduce编程模型的数据挖掘算法
- 探究WSAEventSelect模型
- MapReduce 编程模型概述
- No.10 MapReduce 编程模型极简篇
- 【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型
- MapReduce计算模型--简单层次Top-Down细化
- MapReduce编程模型及优化技巧