您的位置：首页 > 运维架构

Hadoop学习笔记—1.初识hadoop

2017-04-12 13:38 274 查看

Hadoop学习笔记—1.初识hadoop

一、Hadoop的发展历史

Hadoop的起源不得不说如今IT巨头Google。Google是云计算概念的提出者，为了在自身的搜索引擎业务中获得突破，设计了分布式文件系统，从此进入了分布式时代。

2004年，Google公开发表论文，向全世界介绍了MapReduce。 2005年，Nutch的开发者基于Google发布的MapReduce报告，在Nutch上开发了一个可工作的MapReduce应用，后来Yahoo也成立了专门的团队支持Hadoop的发展。2006年2月，Apache
Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2007年开始，国内优秀的IT公司如百度，阿里等开始研究hadoop系统，并将之使用在自己的业务中。在2008年中，Hadoop打破1TB数据排序基准测试记录，从此，hadoop声名鹊起，风靡全球。

Hadoop是一个搭建在廉价PC上的分布式集群系统架构，它具有高可用性、高容错性和高可扩展性等优点。由于它提供了一个开放式的平台，用户可以在完全不了解底层实现细节的情形下，开发适合自身应用的分布式程序。Hadoop的普及也让许多互联网公司能够从IOE（IBM小型机、Oracle数据库以及EMC存储）中解脱出来。

二、Hadoop的基础框架

Hadoop2.0主要由HDFS、MapReduce、YARN组成。

分布式存储系统HDFS（Hadoop Distributed File System）：
1、分布式存储系统
2、提供了高可靠性、高扩展性和高吞吐率的数据存储服务
3、适合[b]PB级以上海量数据的存储

[/b] 资源管理系统YARN：
负责集群资源的统一管理和调度

分布式计算框架MapReduce：
1、分布式计算框架

2、具有易于编程、高容错性和高扩展性等优点
3、适合PB级以上海量数据的离线处理

三、Hadoop的生态系统

随着Hadoop的发展，越来越多优秀的工具构建在Hadoop之上。

Hive(基于MR的数据仓库)：数据计算使用MR，数据存储使用HDFS。提供完整的Hql（类SQL）查询功能，可以将hql语句转换为MapReduce任务进行运行。

Pig:是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。

HBase:是一个开源的，基于列存储模型的分布式数据库。

ZooKeeper：高效的，可扩展的协调系统,存储和协调关键共享状态

Sqoop（数据库同步工具）：连接Hadoop与传统数据库之间的桥梁

Flume（日志收集工具）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Hadoop 分布式文件系统分布式云计算

相关文章推荐

新的分享

章节导航