大数据概述及其生态圈(二)基础架构支持
2016-09-05 14:01
197 查看
前面的章节已经讲过,搞大数据的第一步就是基础架构的支持。它解决了如何组织、协调、分配计算资源、存储资源、网络资源以及其他硬件资源的问题。本节我们将简单讲述其中所包含的内容。
其中比较热门的有两个,分别是:Hadoop和OpenStark;
Hadoop热门的原因还得益于它庞大的生态圈,为大数据应用方面提供了各种较为成熟的解决方案。比较有名的有:HBase、Hive、Zookeeper、Pig、Sqoop、Flume等。这里的每一项技术都够讲上好几个章节。之后的章节中会对Hadoop生态圈做一个全局介绍,并用几句最简单的描述或图帮助大家理解每个子项目原理或应用场景。
说这些官方描述没用,我相信谁都会用搜索引擎搜索关键字来了解相关内容。我这里还是用最简单的描述帮助大家理解每一部分的内容。
我们只要记住OpenStack的目标,我们就能理解它是做什么的了。提供实施简单、可大规模扩展、丰富、标准统一的“云操作系统”。通俗的讲就是,你把硬件资源给OpenStack,OpenStack帮助你整合和协调这些资源,对你来说,你只要像操作操作系统一样操作这些资源即可。
OpenFlow是一个协议,它的终极目标是重新定义网络发展的未来走向。有兴趣的同学可以研究下。
大数据技术分类 | 大数据技术与工具 |
---|---|
基础架构支持 | 云计算平台(Apache Hadoop、OpenStark) |
储存虚拟化、分布式存储 | |
虚拟化(VM、Docker) | |
网络(OpenFlow) |
云计算平台
云计算平台也称为云平台。云计算平台可以划分为3类:以数据存储为主的存储型云平台,以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台。其中比较热门的有两个,分别是:Hadoop和OpenStark;
Apache Hadoop
Hadoop是完全模仿Google体系架构做的一个开源项目,主要包括Map/Reduce和HDFS文件系统。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop热门的原因还得益于它庞大的生态圈,为大数据应用方面提供了各种较为成熟的解决方案。比较有名的有:HBase、Hive、Zookeeper、Pig、Sqoop、Flume等。这里的每一项技术都够讲上好几个章节。之后的章节中会对Hadoop生态圈做一个全局介绍,并用几句最简单的描述或图帮助大家理解每个子项目原理或应用场景。
OpenStack
OpenStack是IaaS(基础设施即服务)组件,让任何人都可以自行建立和提供云端运算服务。说这些官方描述没用,我相信谁都会用搜索引擎搜索关键字来了解相关内容。我这里还是用最简单的描述帮助大家理解每一部分的内容。
我们只要记住OpenStack的目标,我们就能理解它是做什么的了。提供实施简单、可大规模扩展、丰富、标准统一的“云操作系统”。通俗的讲就是,你把硬件资源给OpenStack,OpenStack帮助你整合和协调这些资源,对你来说,你只要像操作操作系统一样操作这些资源即可。
储存虚拟化、分布式存储
储存虚拟化技术
打个比方,你有200台机器,你把一个文件存到了A机器的C盘,那你去取这个文件的时候就得记着A机器C盘。一个文件还好,如果还有其他成千上万的文件,那显然是不现实的,那能不能把所有机器的硬盘,合并成一个,并划分出一个容量超大的C盘,D盘呢。可以,这就是储存虚拟化技术。分布式存储技术
还是之前的例子,也许我们连超大容量的C盘都不想记。我们就需要有个系统能提供接口,我们把文件以某种规则形式告诉系统,系统帮我们存,至于存在哪台机器,哪块硬盘,我们不管,甚至系统把文件拆分成若干,存放在不同的地方我们也不管。我们只关心,需要文件的时候,系统能把我们想要的文件取出来给到我们就行。系统来保证可靠性,可用性,可扩展性等。这就是分布式存储技术。虚拟化
这里的虚拟化主要指一种资源管理技术,把计算机资源,进行整合,抽象,转换成满足实际需求的环境,甚至可以是多个不同需求的环境。相信大家都玩过虚拟机,那就是一种虚拟化技术。VM
Virtual Machine(虚拟机)技术,将一台服务器分割成多个虚拟机(VM主机)的优质服务。比较常见的有VMware Workstation和微软Virtual PC。相信计算机专业的读者都已经玩过。容器虚拟化
它是构建在操作系统之上的虚拟化技术。其中,热得大红大紫的技术实现就是Docker,它甚至曾经一度要替代之前的VM技术,因为用它来部署环境实在是太方便了。对它的详细介绍并不是本章的重点,你可以参阅其他相关资料。在这里,简单说下VM虚拟化和容器虚拟化的区别:一个虚拟化的是一个操作系统,另一个虚拟化出来的是一个进程,并依赖于操作系统。网络
随着互联网的发展,今天的互联网业务对互联网提出了越来越高的传输质量要求,如何修改互联网以满足新业务的需求,出现了改良派和改革派两种不同的做法。改良派认为可以在原有的基础设施上添加新的协议来解决问题,改革派则认为必须推倒一切重来。改革派提出这样的两个问题:“就目前掌握的知识,如果我从一个全新的开始设计互联网,我会怎么做”和“15年后的互联网应该是什么样子”。为此,改革派们开始了一系列新的设计方案,OpenFlow就是改革派提出的一种新型网络交换模型。OpenFlow是一个协议,它的终极目标是重新定义网络发展的未来走向。有兴趣的同学可以研究下。
相关文章推荐
- 大数据概述及其生态圈(一)
- 大数据概述及其生态圈(三)数据采集
- 数据挖掘技术概述、工具选择及其现状
- .NET入门(六)测试系统支持的一些基础数据类型
- Java 基础(二) 数据类型:类(class) 其定义方法及其设计方法
- 微软业务生产力平台基础架构优化(BPIO)中企业项目管理(EPM)模型概述
- 客户端 于 服务器 数据交互架构(支持同步)
- 数据挖掘技术及其应用现状概述
- 大数据的未来是App 而非基础架构
- 菜鸟笔记之数据结构基础概述
- 【数据结构与算法基础】栈及其应用后缀、中缀表达式 / Stack and postfix/infix expression
- 云计算及其基础架构的理解
- [黑莓开发之路][00][BlackBerry平台架构概述][03][BES对Wi-Fi网络的支持]
- [黑莓开发之路][00][BlackBerry平台架构概述][08][数据传输流程][04][PIN]
- [黑莓开发之路][00][BlackBerry平台架构概述][08][数据传输流程][03][BIS]
- 对于一个管理性的软件来讲,数据主键的产生策略是很关键的一点,这个关系到整个系统的基础架构思想。
- 关系数据模型及其运算基础
- [黑莓开发之路][00][BlackBerry平台架构概述][08][数据传输流程][02][BlackBerry Desktop Redirector]
- 通过IT基础架构支持视频应用的益处
- 云计算架构基础之多租户数据架构 (二) 三种模式实现相关的一些模式