您的位置：首页 > 运维架构

Hadoop实战-初级部分-第二部分 Hadoop介绍

2013-02-21 10:49 316 查看

Hadoop 是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。
　　HDFS 是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB级）的大文件（通常超过64M），其原理下图所示：

采用Master/Slave 结构。NameNode维护集群内的元数据，对外提供创建、打开、删除和重命名文件或目录的功能。DataNode存储数据，并提负责处理数据的读写请求。DataNode定期向NameNode 上报心跳，NameNode通过响应心跳来控制DataNode。

　　InfoWord 将MapReduce 评为2009 年十大新兴技术的冠军。MapReduce 是大规模数据（TB级）计算的利器，Map 和Reduce 是它的主要思想，来源于函数式编程语言，它的原理如下图所示：

Map 负责将数据打散，Reduce负责对数据进行聚集，用户只需要实现map 和reduce 两个接口，即可完成TB级数据的计算，常见的应用包括：日志分析和数据挖掘等数据分析应用。另外，还可用于科学数据计算，如圆周率PI 的计算等。

　　Hadoop MapReduce 的实现也采用了Master/Slave 结构。Master叫做JobTracker，而Slave 叫做TaskTracker。

　　用户提交的计算叫做Job，每一个Job 会被划分成若干个Tasks。JobTracker负责Job 和Tasks的调度，而TaskTracker负责执行Tasks。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航