Hadoop学习笔记—1.初识hadoop
2017-04-12 13:38
274 查看
Hadoop学习笔记—1.初识hadoop
一、Hadoop的发展历史
Hadoop的起源不得不说如今IT巨头Google。Google是云计算概念的提出者,为了在自身的搜索引擎业务中获得突破,设计了分布式文件系统,从此进入了分布式时代。2004年,Google公开发表论文,向全世界介绍了MapReduce。 2005年,Nutch的开发者基于Google发布的MapReduce报告,在Nutch上开发了一个可工作的MapReduce应用,后来Yahoo也成立了专门的团队支持Hadoop的发展。2006年2月,Apache
Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2007年开始,国内优秀的IT公司如百度,阿里等开始研究hadoop系统,并将之使用在自己的业务中。在2008年中,Hadoop打破1TB数据排序基准测试记录,从此,hadoop声名鹊起,风靡全球。
Hadoop是一个搭建在廉价PC上的分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点。由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。Hadoop的普及也让许多互联网公司能够从IOE(IBM小型机、Oracle数据库以及EMC存储)中解脱出来。
二、Hadoop的基础框架
Hadoop2.0主要由HDFS、MapReduce、YARN组成。
分布式存储系统HDFS(Hadoop Distributed File System):
1、分布式存储系统
2、提供了高可靠性、高扩展性和高吞吐率的数据存储服务
3、适合[b]PB级以上海量数据的存储
[/b] 资源管理系统YARN:
负责集群资源的统一管理和调度
分布式计算框架MapReduce:
1、分布式计算框架
2、具有易于编程、高容错性和高扩展性等优点
3、适合PB级以上海量数据的离线处理
三、Hadoop的生态系统
随着Hadoop的发展,越来越多优秀的工具构建在Hadoop之上。Hive(基于MR的数据仓库):数据计算使用MR,数据存储使用HDFS。提供完整的Hql(类SQL)查询功能,可以将hql语句转换为MapReduce任务进行运行。
Pig:是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。
HBase:是一个开源的,基于列存储模型的分布式数据库。
ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态
Sqoop(数据库同步工具):连接Hadoop与传统数据库之间的桥梁
Flume(日志收集工具)
相关文章推荐
- Hadoop学习笔记1-初识Hadoop
- Hadoop学习笔记_初识Hadoop
- hadoop学习笔记(3) 初识Hadoop
- Hadoop学习笔记之初识MapReduce以及WordCount实例分析
- hadoop学习笔记--6.MapReduce的初识
- ES-Hadoop学习笔记-初识
- hadoop学习笔记之初识hadoop hadoop单机版安装
- hadoop学习笔记之初识
- Hadoop学习笔记(1)——初识Hadoop
- Hadoop权威指南(第三版)学习笔记之一初识Hadoop
- Hadoop学习笔记-Hadoop初识
- hadoop学习笔记--9.hive初识
- Hadoop学习笔记(一):初识Hadoop与配置
- ES-Hadoop学习笔记-初识
- hadoop学习笔记之一:初识hadoop
- hadoop学习笔记(3) 初识Hadoop
- hadoop学习笔记(3) 初识Hadoop
- Hadoop学习笔记一 简要介绍
- Jquery 学习笔记(一)Jquery初识
- [flash and php bible 学习笔记]初识 socket 1