您的位置：首页 > 大数据 > Hadoop

大数据框架Hadoop生态圈第三集

2019-06-16 21:54 1301 查看

1.2 Hadoop生态圈

架构师和开发人员通常会使用一种软件工具，用于其特定的用途软件开发。例如，他们可能会说，Tomcat是Apache Web服务器，MySQL是一个数据库工具。

然而，当提到Hadoop的时候，事情变得有点复杂。Hadoop包括大量的工具，用来协同工作。因此，Hadoop可用于完成许多事情，以至于，人们常常根据他们使用的方式来定义它。

对于一些人来说，Hadoop是一个数据管理系统。他们认为Hadoop是数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。对于其他人，Hadoop是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。还有一些人认为Hadoop作为一个开源社区，主要为解决大数据的问题提供工具和软件。因为Hadoop可以用来解决很多问题，所以很多人认为Hadoop是一个基本框架。

虽然Hadoop提供了这么多的功能，但是仍然应该把它归类为多个组件组成的Hadoop生态圈，这些组件包括数据存储、数据集成、数据处理和其它进行数据分析的专门工具。

1.3 HADOOP核心部件

随着时间的推移，Hadoop生态圈越来越大，图1-1给出了Hadoop核心组件。

图1：Hadoop生态圈的核心组成组件

从图1-1的底部开始，Hadoop生态圈由以下内容组成：

HDFS—— Hadoop生态圈的基本组成部分是Hadoop分布式文件系统(HDFS)。HDFS是一种数据分布式保存机制，数据被保存在计算机集群上。数据写入一次，读取多次。HDFS为HBase等工具提供了基础。

MapReduce——Hadoop的主要执行框架是MapReduce，它是一个分布式、并行处理的编程模型。MapReduce把任务分为map(映射)阶段和reduce(化简)。开发人员使用存储在HDFS中数据(可实现快速存储)，编写Hadoop的MapReduce任务。由于MapReduce工作原理的特性， Hadoop能以并行的方式访问数据，从而实现快速访问数据。

Hbase——HBase是一个建立在HDFS之上，面向列的NoSQL数据库，用于快速读/写大量数据。HBase使用Zookeeper进行管理，确保所有组件都正常运行。

Zookeeper ——用于Hadoop的分布式协调服务。Hadoop的许多组件依赖于Zookeeper，它运行在计算机集群上面，用于管理Hadoop操作。

Oozie——Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。它能够管理一个复杂的系统，基于外部事件来执行，外部事件包括数据的定时和数据的出现。

Pig——它是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)。其编译器将Pig Latin翻译成MapReduce程序序列。

Hive ——Hive类似于SQL高级语言，用于运行存储在Hadoop上的查询语句，Hive让不熟悉MapReduce开发人员也能编写数据查询语句，然后这些语句被翻译为Hadoop上面的MapReduce任务。像Pig一样，Hive作为一个抽象层工具，吸引了很多熟悉SQL而不是Java编程的数据分析师。

Hadoop的生态圈还包括以下几个框架，用来与其它企业融合：

Sqoop是一个连接工具，用于在关系数据库、数据仓库和Hadoop之间转移数据。Sqoop利用数据库技术描述架构，进行数据的导入/导出;利用MapReduce实现并行化运行和容错技术。

Flume提供了分布式、可靠、高效的服务，用于收集、汇总大数据，并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构，并提供了数据流的流。它利用简单的可扩展的数据模型，将企业中多台计算机上的数据转移到Hadoop。

除了在图1-1所示的核心部件外，Hadoop生态圈正在不断增长，以提供更新功能和组件，如以下内容：

Whirr——Whirr是一组用来运行云服务的Java类库，使用户能够轻松地将Hadoop集群运行于Amazon EC2、Rackspace等虚拟云计算平台。

Mahout——Mahout是一个机器学习和数据挖掘库，它提供的MapReduce包含很多实现，包括聚类算法、回归测试、统计建模。通过使用 Apache Hadoop 库，可以将Mahout有效地扩展到云中。

BigTop —— BigTop作为Hadoop子项目和相关组件，是一个用于打包和互用性测试的程序和框架。

Ambari——Ambar通过为配置、管理和监控Hadoop集群提供支持，简化了Hadoop的管理。

Hadoop家族成员正在逐步增加。在本书中，主要涉及到了三个新的Apache Hadoop孵化项目。

孵化项目演变到Apach项目的过程

下面将会简要介绍Apache基金会的运作方式，以及Apache各种项目及其彼此之间的联系。Apache的个人会员共同治理整个组织，Apache提供项目的创建、成熟和回收。

新的项目开始于“孵化器”。建立Apache孵化器，是为了帮助新项目加入Apache。Apache提供管理和检验，经过筛选后，再建立新的项目或者子项目。在创建孵化项目后，Apache会评估项目的成熟度，并负责将孵化器中的项目“毕业”到Apache项目或子项目。孵化器也会由于各种原因而终止一些项目。

要查看孵化器中项目(当前的、孵化成功的、暂时停止的和回收的)的完整列表，可以通过此网址：http://incubator.apache.org/projects/index.html。

当今大多数的Hadoop方面的书籍，要么专注于Hadoop生态圈中某个独立组件的描述，要么介绍如何使用Hadoop业务分析工具(如Pig和Hive)。尽管这些方面也很重要，但是这些书籍通常没有进行深入的描述，并不能帮助架构师建立基于Hadoop的企业级应用或复杂应用。