您的位置：首页 > 大数据 > 云计算

云计算与大数据的关系

2016-10-27 14:50 190 查看

关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说，一句话直白解释就是：云计算就是硬件资源的虚拟化；大数据就是海量数据的高效处理。有人把Hadoop理解为云计算，认为云计算只是数据分析，
对于云的概念有些人认为：就一个对历史海量数据的分析，不知道云具体还能做其他什么？aws应该算作一种典型的云计算服务实现吧，除了分析，其他方面能体现云计算的特点有哪些呢？其实这些可能对云计算了解的还不是很多的原因。
其实云平台都差不多，类型也差不多，性能和优势各有不同，比方都有网盘，都能在里面安装软件，支持开发语言等。网盘不是基于hdfs实现的，网盘是属于iaas,是通过openstack搭建的。Hadoop是用来数据分析的，他和云平台没有太大关系。不过他可以用来，分析云平台产生的数据。也就是大数据。但是并不是只有云平台产生大数据。可以了解一下大数据特点。

大数据的特点：
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
一是数据体量巨大(Volume)。截至目前，人类生产的所有印刷材料的数据量是200PB(1PB=210TB)，而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。
二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。
三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例，一部1小时的视频，在连续不间断的监控中，有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。在如此海量的数据面前，处理数据的效率就是企业的生命。

如果做一个更形象的解释，云计算相当于我们的计算机和操作系统，将大量的硬件资源虚拟化之后再进行分配使用，在云计算领域目前的老大应该算是Amazon，可以说为云计算提供了商业化的标准，另外值得关注的还有VMware（其实从这一点可以帮助你理解云计算和虚拟化的关系），开源的云平台最有活力的就是Openstack了；大数据相当于海量数据的“数据库”，而且通观大数据领域的发展也能看出，当前的大数据处理一直在向着近似于传统数据库体验的方向发展，Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群，把传统而昂贵的并行计算等概念一下就拉到了我们的面前，但是其不适合数据分析人员使用（因为MapReduce开发复杂），所以PigLatin和Hive出现了（分别是Yahoo！和facebook发起的项目，说到这补充一下，在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献），为我们带来了类SQL的操作，到这里操作方式像SQL了，但是处理效率很慢，绝对和传统的数据库的处理效率有天壤之别，所以人们又在想怎样在大数据处理上不只是操作方式类SQL，而处理速度也能“类SQL”，Google为我们带来了Dremel/PowerDrill等技术，Cloudera（Hadoop商业化最强的公司，Hadoop之父cutting就在这里负责技术领导）的Impala也出现了。
整体来看，未来的趋势是，云计算作为计算资源的底层，支撑着上层的大数据处理，而大数据的发展趋势是，实时交互式的查询效率和分析能力，借用Google一篇技术论文中的话，“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗？

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航