您的位置：首页 > 运维架构

Hadoop ->> Hadoop是什么？

2015-10-05 18:43 309 查看

Hadoop是什么？

1）Hadoop是一个分布式计算平台，程序员可以在不需要知道底层结构的情况下实现集群并行运算；

2）Hadoop不只是一个软件或者系统，它代表的是一个生态圈，一个做大数据分析计算的生态圈。

3）Hadoop核心是HDFS和MapReduce。HDFS（Hadoop Distributed File System）是一个以流为读取写入形式的分布式文件系统，特点是高容错（数据多副本存储）、高效（多节点并行处理）、高拓展（节点自由拓展）、低成本（HDFS是用Java写的，不存在平台不兼容也不会对机器存在特殊的要求）。MapReduce是一个编程/算法模型写入。因为只是一个模型，所以需要程序员自己去实现方法来处理数据。MapReduce由Map函数、Reduce函数和Main函数实现。

4）HDFS有命名节点和数据节点之分。命名节点只有一个而数据节点可以有多个。命名节点就是控制器/调度器（Controller），调度数据文件的创建、复制和删除，以及名称空间的操作，还有解决单点失败问题。数据节点（Data node），用于存储数据的副本。用心跳线（heartbeat）来报告给命名节点自己的健康情况。

6）Avro实现数据序列化，依赖于模式（Schema），由Json实现

7）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航