hadoop基础:第二部分 关于MapReduce
2016-01-12 21:49
225 查看
Hadoop基础:第二章 关于MapReduce
mapReduce执行策略
map具备本地化优势策略map执行时优先选择在存储HDFS数据的服务器上执行,其次在同机架的服务器上执行,最次在其他机架服务器上执行。
hadoop执行第一步是将输入数据分片(分成固定大小),单个分片大小要与HDFS最小数据单元相同,因为如果一个分片大于HDFS单元的话,就无法保证分片数据在同一台服务器上。如果跨服务器就会增加网络传输数据的时间消耗。
reduce 不具备本地化优势策略
reduce任务执行不具备就近原则,会通过网络将map执行结果传输之reduce处理的服务器中,在进行计算。
Hadoop处理流程
map对输入数据进行清洗、筛选工作,准备好具备计算条件的数据。combiner函数在map执行之后执行(可选)(在map执行的服务器上执行),对map处理结果进行二次编辑。
combiner函数针对单个map结果进行编辑(局部编辑),使用前需考虑局部编辑与全局编辑的结果是否一至。如果不一致还是将编辑放在reduce过程中
reduce利用map(和combiner)执行结果进行计算,得到最终计算结果。
相关文章推荐
- Linux内核构建系统之八
- Linux中各种终端的解释
- Hadoop伪分布式搭建
- Linux TOP 命令详述
- Linux下各规格的磁盘操作
- Bash定制化之ACCSI字符图
- PopupWindow
- linux链接--硬链接,软链接
- Linux进程间通信之管道
- Could not open ServletContext resource报错解决方法
- Linux下设置环境变量
- 综合一句话Shell破解
- shell example01
- Nginx日志切割
- linux获取命令行参数struct option
- Linux笔记整理:设置任务定时删除文件
- op04-markdown use
- Bash定制化
- 解决CentOS下man 命令,没有帮助信息
- CentOS 7修改主机名【hostnamectl】