您的位置：首页 > 运维架构

Hadoop学习入门笔记

2012-10-12 21:32 323 查看

1、任务执行过程分为 map -> combiner -> shuffle -> reduce

其中combiner合并函数、shuffle混洗是可选的，甚至reduce也可以没有

2、hadoop一般使用hdfs的数据分块大小，避免跨节点读取数据
3、hadoop会在数据源本地节点进行map计算

4、reduce接收多个map的输出结果，从而会造成节点间数据的传输

5、合并函数需要是分布式的，其必须不能影响reduce的输出结果

6、Shuffle函数通常用hash方法，高效

7、Hadoop支持多种语言，只要支持标准输入和输出的均可（Hadoop streaming），比如ruby、python等。C++通过Pipes支持，C++的程序不能在本地模式下运行，因为用到hdfs特性

示意图

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

Hadoop入门学习笔记---part3
Hadoop学习笔记【入门】
hadoop编程入门学习笔记-3 开发MapReduce程序
hadoop编程入门学习笔记-2 通过示例程序理解hadoop
Hadoop学习笔记——入门指令操作
Hadoop学习笔记－入门伪分布式配置（Mac OS,0.21.0,Eclipse 3.6）
hadoop的学习笔记（入门版）（应试版）（hadoop实战精华）和一点hadoop相关资料
Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门
大数据与Hadoop简单入门[学习笔记]
Hadoop基础入门学习笔记（基本概念）
Hadoop学习笔记-入门
Hadoop学习笔记(1) ——菜鸟入门
Hadoop入门学习笔记---part1
Hadoop学习笔记一（入门篇）
Hadoop学习笔记-大数据开发入门初学者基本概念
hadoop编程入门学习笔记-5 reduce-side join
hadoop编程入门学习笔记-4 ChainMapper、DistributedCache和Context
Hadoop学习笔记(1) ——菜鸟入门
Hadoop入门学习笔记_day01（大数据的相关概念）
Hadoop学习笔记(1) ——菜鸟入门

新的分享

新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
民生银行日接入量15T的ELK日志平台（Apollo+ES源码改造） - 运维
邱盛昌：OPPO商业化数据体系建设实战
一篇吃透监控系统：常用组合方案和主流工具选型 - 运维
DevOps落地成不成，关键不在持续集成？ - 运维
mlops的一些记录
用Prometheus监控K8S，目前最实用的部署方式都说全了（有彩蛋） - 运维
asio 使用 openssl 示例
Netty源码研究笔记（4）——EventLoop系列
许北林：我为什么加入OpenHarmony生态？又为什么要做“启航KP”开发套件？
【直播回顾】OpenHarmony知识赋能五期第五课——多媒体子系统之视频解读
【直播回顾】如何成为一名优秀的OpenHamrony贡献者？

章节导航