大数据学习——Hadoop平台及相关生态系统
2017-03-12 18:34
197 查看
*2006年8月9日,谷歌首席执行官埃里克·施密特在搜索引擎大会上首次提出“云计算”(Cloud Computing)概念。
2006年之前谷歌发表了3篇经典的论文,分别介绍了谷歌的分布式文件系统GFS、分布式数据存储系统BigTable和分布式计算框架(MapReduce)。
MapReduce把对数据的操作都简化成两个简单运算,一个叫“Map”映射,另一个叫“Reduce”规约。我们编程时只需要考虑把计算分解成这两个简单运算,而不必关心如何处理上面提到的底层细节。
Hadoop框架最核心的设计就是HDFS和MapReduce。
随着业务发展以及业务需要的多样化,Hadoop相关的生态圈也越来越丰富,Hadoop下的Common、Avro、ZooKeeper、Hives、HBase、Sqoop等子项目提供 互补性服务或在核心层上提供了更高层的服务 。
Hadoop的核心
Hadoop2.0内核主要由3部分组成:HDFS、MapReduce和YARN。
YARN利用异步模型对MapReduce框架的一些关键逻辑结构(如JobInprogress、TaskInProgress等)进行了重写,相比于MRv1具有更快的计算速度。
Hadoop2.0支持多框架
其它工具:
Apache Flink:流式计算框架
Whirr:一组静态库,让用户能够在Amazon EC2、Rackspace或任何虚拟基础架构之上构建Hadoop集群
BigTop:一个正式的流程和框架,用于对Hadoop的子项目和相关组件进行打包和互操作性测试。
Tableau Timeline:数据可视化工具,包括:Tableau Desktop,Tableau Server,Tableauonline,Tableau Public和Tableau Reader
采用Hortonworks的HDP,构建了自己的Windows Azure HDInsight
亚马逊
弹性MapReduce服务EMR
阿里巴巴
云梯Hadoop,另外开发了自己的Hadoop——ADFS
Facebook
eBay
Visa
CDH3U6 对应Apache Hadoop版本号为0.20.2,在生产环境使用比较多。
Hortonworks 、 Data Platform
MapR
IBM InfoSphere BigInsights
GreenPlum的Pivotal HD
Amazon Elastic MapReduce(EMR)
Windows Azure 、HDInsight
2006年之前谷歌发表了3篇经典的论文,分别介绍了谷歌的分布式文件系统GFS、分布式数据存储系统BigTable和分布式计算框架(MapReduce)。
分布式文件系统GFS
谷歌文件系统简称为GFS,文件大小可以达到TB级,甚至是数百TB。Hadoop的文件系统HDFS正是借鉴了GFS的思想,是它的开源实现。分布式计算框架MapReduce
在处理海量(TB级以上)的数据时,如果想在一定的时间内完成工作,往往需要将这些计算分布在成百上千台主机上,让计算任务并行执行,来加快处理效率。MapReduce把对数据的操作都简化成两个简单运算,一个叫“Map”映射,另一个叫“Reduce”规约。我们编程时只需要考虑把计算分解成这两个简单运算,而不必关心如何处理上面提到的底层细节。
分布式数据存储系统BigTable
BigTable是一个分布式的结构化数据存储系统,它被设计用来查询和处理海量数据,通常是分布在数千台普通服务器上的TB甚至是PB级的数据。Hadoop平台
Hadoop是开源组织Apache旗下的一个分布式计算平台,它的高容错性、高扩展性等优点可以让用户在普通廉价的硬件设备上搭建分布式系统,实现对集群的控制和管理。同时它提供了分布式基础架构,允许用户轻松快捷开发并行应用程序,实现海量数据的管理和分布式基础架构,而不需要关注底层的实现细节。Hadoop框架最核心的设计就是HDFS和MapReduce。
随着业务发展以及业务需要的多样化,Hadoop相关的生态圈也越来越丰富,Hadoop下的Common、Avro、ZooKeeper、Hives、HBase、Sqoop等子项目提供 互补性服务或在核心层上提供了更高层的服务 。
Hadoop的核心
HDFS
MapReduce
Hadoop第一个版本存在着单点故障、小文件存储等一系列问题,另外从Hadoop的长远发展来看,MapReduce的JobTracker/TaskTracker机制需要大规模地调整来修复它的可扩展性、内存消耗、线程模型、可靠性和性能上的缺陷。Hadoop2.0内核主要由3部分组成:HDFS、MapReduce和YARN。
YARN利用异步模型对MapReduce框架的一些关键逻辑结构(如JobInprogress、TaskInProgress等)进行了重写,相比于MRv1具有更快的计算速度。
Hadoop2.0支持多框架
Hadoop相关生态系统
产品 | 描述 |
---|---|
HBase | 面向列的分布式数据库 |
ZooKeeper | 分布式协作服务 |
Hive | 适用于ETL,数据仓库 |
Sqoop | 关系数据ETL工具 |
Avro | 用于支持大批量数据交换的应用,数据序列化系统 |
Pig | 数据处理工具,在MapReduce上构建的查询语言(SQL-LIKE),适用于大量并行计算 |
Flume | 日志收集工具 |
Ambari | 集群监控与管理 |
Mathout | 一个机器学习和数据挖掘的库 |
Oozie | 工作流引擎 |
Hue | Hadoop图形化界面 |
Chukwa | 基于Hadoop集群中监控系统,WatchDog |
ambari | 就是创建、管理、监视 Hadoop 的集群( Hive,Hbase,Sqoop,Zookeeper等) |
Apache Flink:流式计算框架
Whirr:一组静态库,让用户能够在Amazon EC2、Rackspace或任何虚拟基础架构之上构建Hadoop集群
BigTop:一个正式的流程和框架,用于对Hadoop的子项目和相关组件进行打包和互操作性测试。
Tableau Timeline:数据可视化工具,包括:Tableau Desktop,Tableau Server,Tableauonline,Tableau Public和Tableau Reader
Hadoop在各大公司的应用
微软采用Hortonworks的HDP,构建了自己的Windows Azure HDInsight
亚马逊
弹性MapReduce服务EMR
阿里巴巴
云梯Hadoop,另外开发了自己的Hadoop——ADFS
eBay
Visa
Hadoop的发行版
Cloudera CDH、Manager和EnterpriceCDH3U6 对应Apache Hadoop版本号为0.20.2,在生产环境使用比较多。
Hortonworks 、 Data Platform
MapR
IBM InfoSphere BigInsights
GreenPlum的Pivotal HD
Amazon Elastic MapReduce(EMR)
Windows Azure 、HDInsight
相关文章推荐
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- 研读《基于Hadoop的海量业务数据分析平台的设计与实现》----flume一章学习小结
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景
- 大数据Hadoop学习之搭建hadoop平台(2.2)
- Hadoop数据分析平台学习笔记1
- hadoop生态系统学习之路(八)hbase与hive的数据同步以及hive与impala的数据同步
- 【学习】Hadoop大数据平台架构与实践--基础篇上
- 论文学习 - 《Hadoop平台下的海量数据存储技术研究》
- hadoop生态系统学习之路(八)hbase与hive的数据同步以及hive与impala的数据同步
- 浅谈雅虎如何使用Hadoop、深度学习和大数据平台
- 基于ArcGIS10.0和Oracle10g的空间数据管理平台(C#开发)ArcGIS相关知识补充学习
- 一步一步学习大数据:Hadoop 生态系统与场景
- 大数据Hadoop学习之搭建Hadoop平台(2.1)
- 【学习】Hadoop大数据平台架构与实践--基础篇中
- 基于ArcGIS10.0和Oracle10g的空间数据管理平台(C#开发)ArcGIS相关知识补充学习
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- 大数据学习--使用Hadoop2.6.0遇到的相关问题
- Hadoop入门学习笔记_day01(大数据的相关概念 )
- 基于ArcGIS10.0和Oracle10g的空间数据管理平台(C#开发)ArcGIS相关知识补充学习