您的位置:首页 > 运维架构

Hadoop ->> Hadoop是什么?

2015-10-05 18:43 309 查看
Hadoop是什么?

1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算;

2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈。

3)Hadoop核心是HDFS和MapReduce。HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储)、高效(多节点并行处理)、高拓展(节点自由拓展)、低成本(HDFS是用Java写的,不存在平台不兼容也不会对机器存在特殊的要求)。MapReduce是一个编程/算法模型写入。因为只是一个模型,所以需要程序员自己去实现方法来处理数据。MapReduce由Map函数、Reduce函数和Main函数实现。

4)HDFS有命名节点和数据节点之分。命名节点只有一个而数据节点可以有多个。命名节点就是控制器/调度器(Controller),调度数据文件的创建、复制和删除,以及名称空间的操作,还有解决单点失败问题。数据节点(Data node),用于存储数据的副本。用心跳线(heartbeat)来报告给命名节点自己的健康情况。

6)Avro实现数据序列化,依赖于模式(Schema),由Json实现

7)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: