您的位置：首页 > 大数据

2.大数据基础(下)_1.理解Hadoop生态系统.txt

2015-09-11 17:24 260 查看

1.------------------------------------

Hadoop生态系统中的核心部分，是Hadoop分布式文件系统(HDFS)和MapReduce, 为了满足大数据解决方案的关键需要，这两个组件提供了基本的结构和服务。为了更好地对大数据进行开发与部署，Hadoop生态系统提供了一系列有用的工具和技术。

* 小结：

- 为了对大数据进行开发与部署，Hadoop就好比一个生态系统，提供了各种工具和技术。

- Hadoop生态系统的核心组件有：Hadoop分布式文件系统(HDFS)和MapReduce.

- Hadoop生态系统包括各种工具和技术，比如YARN,HBase,Hive,Pig,Sqoop,Zppkeeper,Flume和Oozie.

- HDFS是一个分布式文件系统，可对数据进行分发和管理，并保证数据安全。

- HDFS是一个存储与管理文件的实用的强有力的集群方式。

- HDFS只允许你在文件创建时进行一次写入操作，这样就可以在做任意机器上读取文件的任意一个拷贝，这一特性使得HDFS成为了一个存储大文件的极佳选择。

- HDFS通过元数据对所有的信息块进行追踪。

- HDFS架构使用Datanode和Namenode解决了以下问题：数据安全，复制，可靠性以及冗余。

2.------------------------------------

* Some Special Features of HDFS:

- 数据复制

- 恢复：这使用客户端应用不必知道所有数据块的位置

- 支持创建数据工作流（这是MapReduce的一个重要特性）

- 具有再平衡机制（可以根据每个磁盘的使用程度对Datanode进行再平衡，这个机制在集群处于活动状态时运行，在网络流量大时就会停止运行，以避免阻塞）

* 小结：

- HDFS是一个可靠高带宽，低成本的数据存储集群，可以简化机器间相关联文件的管理

- HDFS使用一个块结构的文件系统，遵循一个主从架构。

- 一个HDFS集群包括一个主服务器Namenode和若干运行于HDFS集群中的"Datanode"

- Namenode管理文件系统的命名空间，并规范客户端向文件的连接

- Datanode通过心跳信息检测并保证与Namenode或其他Datanode的连接。

- 通过Hadoop机架感应过程，当一个机架出错时，数据也不会丢失，数据副本被均匀地存储在HDFS集群中

- HDFS将每个数据块复制到三台机器中，这样在任意一台机器出错时，数据也不会损坏。

--------------------------------------

21:39 2015/8/25

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航