您的位置:首页 > 运维架构

Hadoop学习入门笔记

2012-10-12 21:32 323 查看
1、任务执行过程分为 map -> combiner -> shuffle -> reduce

其中combiner合并函数、shuffle混洗是可选的,甚至reduce也可以没有

2、hadoop一般使用hdfs的数据分块大小,避免跨节点读取数据
3、hadoop会在数据源本地节点进行map计算

4、reduce接收多个map的输出结果,从而会造成节点间数据的传输

5、合并函数需要是分布式的,其必须不能影响reduce的输出结果

6、Shuffle函数通常用hash方法,高效

7、Hadoop支持多种语言,只要支持标准输入和输出的均可(Hadoop streaming),比如ruby、python等。C++通过Pipes支持,C++的程序不能在本地模式下运行,因为用到hdfs特性

示意图

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: