您的位置:首页 > 运维架构

Hadoop入门简介

2015-08-25 15:46 176 查看

1.推荐书籍

基础—《hadoop权威指南》

apache hadoop官网

升级版—《hadoop技术内幕》

2.组件

核心组件:

MapReduce

HDFS

组件:

YARN

HBase

Hive

Pig

Sqoop

Zookeeper

Flume

Oozie



3.HDFS

一次写入,多次读取

主节点(Namenode)—大型文件分割成各个小部分(数据块),主节点知道从节点上的哪个数据块可以组成完整的文件。

主节点与从节点进行持续的交流,知道从节点的可用性。

从节点(DataNode)—提供心跳信息,无心跳的时候,卸载此从节点。

HDFS保持正确数据的措施:



事务日志

验证校验

数据块—复制到若干个从节点上

数据管道—在不同服务器上移动



4.数据块

本地:一个数据块—一个副本

第二个副本—另一个机架—防止工作崩溃

第三个副本—远程相同的机架—不同的服务器

其余的副本—随机放在远程或者本地的集群中

5.MapReduce

处理文本解析,处理web日志,读取海量原始数据资源

在无需分析的时候表现最好

6.YARN

资源协调者—资源管理者和应用管理者

7.HBase

列式数据库

Hbase和RDBMS重要区别—版本追踪

8.与Hadoop交互的工具

Pig Pig Latin

Sqoop SQL to Hadoop

Zookeeper

Flume

Oozie
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: