Hadoop ->> Hadoop是什么?
2015-10-05 18:43
309 查看
Hadoop是什么?
1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算;
2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈。
3)Hadoop核心是HDFS和MapReduce。HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储)、高效(多节点并行处理)、高拓展(节点自由拓展)、低成本(HDFS是用Java写的,不存在平台不兼容也不会对机器存在特殊的要求)。MapReduce是一个编程/算法模型写入。因为只是一个模型,所以需要程序员自己去实现方法来处理数据。MapReduce由Map函数、Reduce函数和Main函数实现。
4)HDFS有命名节点和数据节点之分。命名节点只有一个而数据节点可以有多个。命名节点就是控制器/调度器(Controller),调度数据文件的创建、复制和删除,以及名称空间的操作,还有解决单点失败问题。数据节点(Data node),用于存储数据的副本。用心跳线(heartbeat)来报告给命名节点自己的健康情况。
6)Avro实现数据序列化,依赖于模式(Schema),由Json实现
7)
1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算;
2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈。
3)Hadoop核心是HDFS和MapReduce。HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储)、高效(多节点并行处理)、高拓展(节点自由拓展)、低成本(HDFS是用Java写的,不存在平台不兼容也不会对机器存在特殊的要求)。MapReduce是一个编程/算法模型写入。因为只是一个模型,所以需要程序员自己去实现方法来处理数据。MapReduce由Map函数、Reduce函数和Main函数实现。
4)HDFS有命名节点和数据节点之分。命名节点只有一个而数据节点可以有多个。命名节点就是控制器/调度器(Controller),调度数据文件的创建、复制和删除,以及名称空间的操作,还有解决单点失败问题。数据节点(Data node),用于存储数据的副本。用心跳线(heartbeat)来报告给命名节点自己的健康情况。
6)Avro实现数据序列化,依赖于模式(Schema),由Json实现
7)
相关文章推荐
- mahout 返回主页 WEB系统架构与底层研发
- linux之cut用法
- Linux里提示cannot find -lsocket解决办法
- linux虚拟机配置双网卡
- linux命令
- linux开机启动
- linux 下tomcat开机自启动
- hbase shell
- inet_pton和inet_ntop
- hadoop中Text类
- hadoop配置文件详解
- hadoop端口
- hadoop的原生比较器RawComparator<T> public WritableCom...
- hadoop的容错机制
- hadoop2 resourcemanager 主备切换
- hadoop rpc
- Tomcat最大连接数问题修改
- Linux终端监控工具之dstat
- Storm入门教程:构建Topology
- CentOS6.5下MAC