您的位置:首页 > 运维架构 > 网站架构

笔记:深入解析MapReduce架构设计与实现原理 第3章 MapReduce编程模型

2015-01-20 22:04 1091 查看
一、文件切分块大小

splitSize = max (minSize, min(maxSize,blockSize))

其中:

minSize 参数mapred.min.split.size指定

maxSize 参数mapred.max.split.size指定

blockSize 块大小,默认64M

即不再考虑用户设定的Map Task个数

二、Mapper、Reducer 解析

特殊的Mapper/Reducer:

ChainMapper / ChainReducer:链

IdentityMapper / IdentityReducer:不处理直接输入

InvertMapper:交互key、value

RegexMapper:正则表达式

TokenMapper:拆分字符串

LongSumRducer:累加

三、Hadoop工作流

1、JobControl

2、ChainMapper / ChainReducer

3、Pig、Hive、Oozie、Azkakan
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐