您的位置：首页 > 大数据 > Hadoop

图解大数据 | 分布式平台Hadoop与Map-reduce详解

2022-02-24 22:46 1151 查看

1.Hadoop快速入门

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。

关于 Hadoop的搭建与应用案例 欢迎大家关注ShowMeAI下列文章：

Hadoop现在已经广泛地应用在大数据任务中，而它最初其实只是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。下面是它的发展历程。

Hadoop源自始于2002年的Apache Nutch项目——一个开源的网络搜索引擎，也是Lucene的一部分。
2004年，Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS（Nutch Distributed File System），也就是HDFS的前身。
2004年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了MapReduce分布式编程思想。
2005年，Nutch开源实现了谷歌的MapReduce。
2006年2月，Nutch中的NDFS和MapReduce开始独立出来，成为Lucene项目的一个子项目，称为Hadoop，同时，Doug Cutting加盟雅虎。
2008年1月，Hadoop正式成为Apache顶级项目，Hadoop也逐渐开始被雅虎之外的其他公司使用。
2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用一个由910个节点构成的集群进行运算，排序时间只用了209秒。
2009年5月，Hadoop更是把1TB数据排序时间缩短到62秒。
Hadoop从此名声大震，迅速发展成为大数据时代最具影响力的开源分布式开发平台，并成为事实上的大数据处理标准。

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的。它具有以下几个方面的特性：

Hadoop凭借其突出的优势，已经在各个领域得到了广泛的应用，而互联网领域是其应用的主阵地。

Apache Hadoop版本分为两代：第一代Hadoop称为Hadoop 1.0，第二代Hadoop称为Hadoop 2.0。

第一代Hadoop包含三个大版本，分别是0.20.x、0.21.x、0.22.x。

第二代Hadoop包含两个大版本，分别是0.23.x、2.x。

如上图罗列了Hadoop生态的项目架构，包含以下组件，层级结构与核心功能见图。

组件	功能
HDFS	分布式文件系统
MapReduce	分布式并行编程模型
YARN	资源管理和调度器
Tez	运行在YARN之上的下一代Hadoop查询处理框架
Hive	Hadoop上的数据仓库
HBase	Hadoop上的非关系型的分布式数据库
Pig	一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言Pig Latin
Sqoop	用于在Hadoop与传统数据库之间进行数据传递
Oozie	Hadoop上的工作流管理系统
Zookeeper	提供分布式协调一致性服务
Storm	流计算框架
Flume	一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统
Ambari	Hadoop快速部署工具，支持Apache Hadoop集群的供应、管理和监控
Kafka	一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据
Spark	类似于Hadoop MapReduce的通用并行框架

分布式文件系统，把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的开销。

总体而言，HDFS要实现以下目标：

HDFS特殊的设计，在实现上述优良特性的同时，也使得自身具有一些应用局限性，主要包括以下几个方面：

块（Block）：HDFS默认一个块64MB，一个文件被分成多个块，以块作为存储单位。块的大小远远大于普通文件系统，可以最小化寻址开销。

HDFS采用抽象的块概念可以带来以下几个明显的好处：

支持大规模文件存储：文件以块为单位进行存储，一个大规模文件可以被分拆成若干个文件块，不同的文件块可以被分发到不同的节点上，因此，一个文件的大小不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量。
简化系统设计：首先，大大简化了存储管理，因为文件块大小是固定的，这样就可以很容易计算出一个节点可以存储多少文件块；其次，方便了元数据的管理，元数据不需要和文件块一起存储，可以由其他系统负责管理元数据。
适合数据备份：每个文件块都可以冗余存储到多个节点上，大大提高了系统的容错性和可用性。

HDFS包含Name Node和Data Node，具体的功能和特点对比如上图所示。

Name Node	Data Node
存储元数据	存储文件内容
元数据保存在内存中	文件内容保存在磁盘
保存文件、block、datanode之间的映射关系	维护了 block id 到 datanode 本地文件的映射关系