Hadoop学习入门笔记
2012-10-12 21:32
323 查看
1、任务执行过程分为 map -> combiner -> shuffle -> reduce
其中combiner合并函数、shuffle混洗是可选的,甚至reduce也可以没有
2、hadoop一般使用hdfs的数据分块大小,避免跨节点读取数据
3、hadoop会在数据源本地节点进行map计算
4、reduce接收多个map的输出结果,从而会造成节点间数据的传输
5、合并函数需要是分布式的,其必须不能影响reduce的输出结果
6、Shuffle函数通常用hash方法,高效
7、Hadoop支持多种语言,只要支持标准输入和输出的均可(Hadoop streaming),比如ruby、python等。C++通过Pipes支持,C++的程序不能在本地模式下运行,因为用到hdfs特性
示意图
其中combiner合并函数、shuffle混洗是可选的,甚至reduce也可以没有
2、hadoop一般使用hdfs的数据分块大小,避免跨节点读取数据
3、hadoop会在数据源本地节点进行map计算
4、reduce接收多个map的输出结果,从而会造成节点间数据的传输
5、合并函数需要是分布式的,其必须不能影响reduce的输出结果
6、Shuffle函数通常用hash方法,高效
7、Hadoop支持多种语言,只要支持标准输入和输出的均可(Hadoop streaming),比如ruby、python等。C++通过Pipes支持,C++的程序不能在本地模式下运行,因为用到hdfs特性
示意图
相关文章推荐
- Hadoop入门学习笔记---part3
- Hadoop学习笔记【入门】
- hadoop编程入门学习笔记-3 开发MapReduce程序
- hadoop编程入门学习笔记-2 通过示例程序理解hadoop
- Hadoop学习笔记——入门指令操作
- Hadoop学习笔记-入门伪分布式配置(Mac OS,0.21.0,Eclipse 3.6)
- hadoop的学习笔记(入门版)(应试版)(hadoop实战精华)和一点hadoop相关资料
- Hadoop学习笔记—2.不怕故障的海量存储:HDFS基础入门
- 大数据与Hadoop简单入门[学习笔记]
- Hadoop基础入门学习笔记(基本概念)
- Hadoop学习笔记-入门
- Hadoop学习笔记(1) ——菜鸟入门
- Hadoop入门学习笔记---part1
- Hadoop学习笔记一(入门篇)
- Hadoop学习笔记-大数据开发 入门 初学者 基本概念
- hadoop编程入门学习笔记-5 reduce-side join
- hadoop编程入门学习笔记-4 ChainMapper、DistributedCache和Context
- Hadoop学习笔记(1) ——菜鸟入门
- Hadoop入门学习笔记_day01(大数据的相关概念 )
- Hadoop学习笔记(1) ——菜鸟入门