2.大数据基础(下)_1.理解Hadoop生态系统.txt
2015-09-11 17:24
260 查看
1.------------------------------------
Hadoop生态系统中的核心部分,是Hadoop分布式文件系统(HDFS)和MapReduce, 为了满足大数据解决方案的关键需要,这两个组件提供了基本的结构和服务。为了更好地对大数据进行开发与部署,Hadoop生态系统提供了一系列有用的工具和技术。
* 小结:
- 为了对大数据进行开发与部署,Hadoop就好比一个生态系统, 提供了各种工具和技术。
- Hadoop生态系统的核心组件有:Hadoop分布式文件系统(HDFS)和MapReduce.
- Hadoop生态系统包括各种工具和技术,比如YARN,HBase,Hive,Pig,Sqoop,Zppkeeper,Flume和Oozie.
- HDFS是一个分布式文件系统,可对数据进行分发和管理,并保证数据安全。
- HDFS是一个存储与管理文件的实用的强有力的集群方式。
- HDFS只允许你在文件创建时进行一次写入操作,这样就可以在做任意机器 上读取文件的任意一个拷贝,这一特性使得HDFS成为了一个存储大文件的极佳选择。
- HDFS通过元数据对所有的信息块进行追踪。
- HDFS架构使用Datanode和Namenode解决了以下问题:数据安全,复制,可靠性以及冗余。
2.------------------------------------
* Some Special Features of HDFS:
- 数据复制
- 恢复: 这使用客户端应用不必知道所有数据块的位置
- 支持创建数据工作流(这是MapReduce的一个重要特性)
- 具有再平衡机制(可以根据每个磁盘的使用程度对Datanode进行再平衡,这个机制在集群处于活动状态时运行,在网络流量大时就会停止运行,以避免阻塞)
* 小结:
- HDFS是一个可靠 高带宽,低成本的数据存储集群,可以简化机器间相关联文件的管理
- HDFS使用一个块结构的文件系统,遵循一个主从架构。
- 一个HDFS集群包括一个主服务器Namenode和若干运行于HDFS集群中的"Datanode"
- Namenode管理文件系统的命名空间,并规范客户端向文件的连接
- Datanode通过心跳信息检测并保证与Namenode或其他Datanode的连接。
- 通过Hadoop机架感应过程,当一个机架出错时,数据也不会丢失,数据副本被均匀地存储在HDFS集群中
- HDFS将每个数据块复制到三台机器中,这样在任意一台机器出错时,数据也不会损坏。
--------------------------------------
21:39 2015/8/25
Hadoop生态系统中的核心部分,是Hadoop分布式文件系统(HDFS)和MapReduce, 为了满足大数据解决方案的关键需要,这两个组件提供了基本的结构和服务。为了更好地对大数据进行开发与部署,Hadoop生态系统提供了一系列有用的工具和技术。
* 小结:
- 为了对大数据进行开发与部署,Hadoop就好比一个生态系统, 提供了各种工具和技术。
- Hadoop生态系统的核心组件有:Hadoop分布式文件系统(HDFS)和MapReduce.
- Hadoop生态系统包括各种工具和技术,比如YARN,HBase,Hive,Pig,Sqoop,Zppkeeper,Flume和Oozie.
- HDFS是一个分布式文件系统,可对数据进行分发和管理,并保证数据安全。
- HDFS是一个存储与管理文件的实用的强有力的集群方式。
- HDFS只允许你在文件创建时进行一次写入操作,这样就可以在做任意机器 上读取文件的任意一个拷贝,这一特性使得HDFS成为了一个存储大文件的极佳选择。
- HDFS通过元数据对所有的信息块进行追踪。
- HDFS架构使用Datanode和Namenode解决了以下问题:数据安全,复制,可靠性以及冗余。
2.------------------------------------
* Some Special Features of HDFS:
- 数据复制
- 恢复: 这使用客户端应用不必知道所有数据块的位置
- 支持创建数据工作流(这是MapReduce的一个重要特性)
- 具有再平衡机制(可以根据每个磁盘的使用程度对Datanode进行再平衡,这个机制在集群处于活动状态时运行,在网络流量大时就会停止运行,以避免阻塞)
* 小结:
- HDFS是一个可靠 高带宽,低成本的数据存储集群,可以简化机器间相关联文件的管理
- HDFS使用一个块结构的文件系统,遵循一个主从架构。
- 一个HDFS集群包括一个主服务器Namenode和若干运行于HDFS集群中的"Datanode"
- Namenode管理文件系统的命名空间,并规范客户端向文件的连接
- Datanode通过心跳信息检测并保证与Namenode或其他Datanode的连接。
- 通过Hadoop机架感应过程,当一个机架出错时,数据也不会丢失,数据副本被均匀地存储在HDFS集群中
- HDFS将每个数据块复制到三台机器中,这样在任意一台机器出错时,数据也不会损坏。
--------------------------------------
21:39 2015/8/25
相关文章推荐
- 【读PPT】管中窥豹:用大数据洞察“用户画像”的秘密!
- lodash 中文学习拾零之 Chain篇
- sendEmail
- DataSnap 用TStream 传递大数据 返回流大小为-1的情况
- Linux tail 命令详解 http://www.2cto.com/os/201111/110143.html
- 大数据Hadoop基础教程之搭建开发环境及编写Hello World
- hadoop新增节点
- 出错file is universal (3 slices) but does not contain a(n) armv7s slice
- 对云计算中几种基础设施(Dynamo,Bigtable,Map/Reduce等)的朴素看法
- 手机 同步失败,失败原因:failed to copy
- Unix Study之--AIX删除卷组中物理卷
- Unix Study之--AIX删除卷组中物理卷
- Leetcode: Paint House II
- HDU - 4756 Install Air Conditioning(树形DP + 最小生成树)
- LeetCode OJ Contains Duplicate
- StaticLayout 和TextPaint的学习使用
- Leetcode: Paint House
- AI,如何实现NPC的听觉
- Line spectral pairs
- 设计模式6--责任链模式(The chain of responsibility pattern)