您的位置:首页 > 大数据

2.大数据基础(下)_1.理解Hadoop生态系统.txt

2015-09-11 17:24 260 查看
1.------------------------------------

Hadoop生态系统中的核心部分,是Hadoop分布式文件系统(HDFS)和MapReduce, 为了满足大数据解决方案的关键需要,这两个组件提供了基本的结构和服务。为了更好地对大数据进行开发与部署,Hadoop生态系统提供了一系列有用的工具和技术。

* 小结:

- 为了对大数据进行开发与部署,Hadoop就好比一个生态系统, 提供了各种工具和技术。

- Hadoop生态系统的核心组件有:Hadoop分布式文件系统(HDFS)和MapReduce.

- Hadoop生态系统包括各种工具和技术,比如YARN,HBase,Hive,Pig,Sqoop,Zppkeeper,Flume和Oozie.

- HDFS是一个分布式文件系统,可对数据进行分发和管理,并保证数据安全。

- HDFS是一个存储与管理文件的实用的强有力的集群方式。

- HDFS只允许你在文件创建时进行一次写入操作,这样就可以在做任意机器 上读取文件的任意一个拷贝,这一特性使得HDFS成为了一个存储大文件的极佳选择。

- HDFS通过元数据对所有的信息块进行追踪。

- HDFS架构使用Datanode和Namenode解决了以下问题:数据安全,复制,可靠性以及冗余。

2.------------------------------------

* Some Special Features of HDFS:

- 数据复制

- 恢复: 这使用客户端应用不必知道所有数据块的位置

- 支持创建数据工作流(这是MapReduce的一个重要特性)

- 具有再平衡机制(可以根据每个磁盘的使用程度对Datanode进行再平衡,这个机制在集群处于活动状态时运行,在网络流量大时就会停止运行,以避免阻塞)

* 小结:

- HDFS是一个可靠 高带宽,低成本的数据存储集群,可以简化机器间相关联文件的管理

- HDFS使用一个块结构的文件系统,遵循一个主从架构。

- 一个HDFS集群包括一个主服务器Namenode和若干运行于HDFS集群中的"Datanode"

- Namenode管理文件系统的命名空间,并规范客户端向文件的连接

- Datanode通过心跳信息检测并保证与Namenode或其他Datanode的连接。

- 通过Hadoop机架感应过程,当一个机架出错时,数据也不会丢失,数据副本被均匀地存储在HDFS集群中

- HDFS将每个数据块复制到三台机器中,这样在任意一台机器出错时,数据也不会损坏。

--------------------------------------

21:39 2015/8/25
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: