大数据比海量数据多了什么
2011-07-14 17:12
387 查看
由EMC赞助的IDC数字宇宙研究《从混沌中提取价值》指出,全球的数据量每两年翻一番, 2011年创建和复制的数据量为1.8ZB(1ZB=106PB)。2005年以来,为处理大量数据,企业的投资已达到4万亿美元。大数据将催生社会、技术、科学和经济的变革。
以前,我们习惯称大量数据为海量数据。从2010年下半年开始,大数据这个概念逐渐为人们所熟知。那么,大数据比海量数据到底多了些什么呢?EMC中国卓越研发集团首席技术官陶波表示:"大数据与海量数据从本质上讲并没有不同,两者都反映出数据快速增长的趋势。但是,海量数据主要是从存储的角度去考虑问题,而大数据除了包括数据存储,还包括商务智能和数据分析。"正是基于这种认识,EMC收购了数据仓库厂商Greenplum。其实,在大数据时代,企业对存储的要求也有变化,具备横向扩展(Scale-out)能力的存储越来越受到用户的欢迎。EMC收购Scale-out NAS厂商Isilon就是为了顺应这种趋势。Isilon与Greenplum的组合成了EMC迈入大数据时代的敲门砖。
存储随需而变
美国一家知名的DVD租赁企业,每年都会邀请一些协同处理算法的专家对其用户数据进行分析,从而了解租赁客户的需求。一些美国金融企业甚至提出了分析即服务的理念。陶波表示,金融、电信、互联网等企业大数据的处理和分析有迫切的需求。与传统的商务智能应用相比,大数据对企业数据的处理能力和商务智能软件本身提出了更高的要求:首先,企业必须具备处理大量数据的能力,因为有的企业可能一天之内就要多次处理PB级的数据,这是一些传统的存储设备所不能胜任的;传统的数据仓库软件是针对结构化数据设计的,而大数据包含的主要是非结构化的数据,因此传统的数据仓库软件必须改变。
谈到大数据对存储的影响,陶波表示,具有横向扩展能力的存储才能更好地处理大量文件。Isilon集群NAS产品的主要技术优势就是横向扩展能力。最新的EMC Isilon IQ 108NL在4U节点中采用3TB企业级Hitachi Ultrastar驱动器,在单一文件系统和单个卷中可扩展至超过15PB。EMC还推出了Isilon SmartLock数据保留软件应用,可实现大数据资产从建立到归档的完整性和连续性。随着大数据时代的到来,NAS存储将大行其道。为了提高系统的处理性能,SSD在存储中的应用也会越来越普遍。
云计算、大数据相辅相成
为了满足大数据的需求,商务智能软件必须改变。陶波举例说:"随着多核处理器的普及,商务智能软件也要从针对单线程的应用转为针对多线程的应用,因此商务智能软件的代码可能也要改变。"EMC已与许多商务智能软件厂商开展了合作。EMC的硬件平台针对Greenplum软件进行了优化,此外还能支持第三方的商务智能软件。
今年5月,EMC针对常用于数据密集型分布式应用的Hadoop开源软件推出了一个定制的、高性能的Hadoop专用数据协同处理设备--Greenplum HD数据计算设备(Data Computing Appliance)。该设备结合了Hadoop和EMC Greenplum数据库,从而在一个单一、无缝的解决方案中实现了结构化和非结构化数据的协同处理。此外,EMC还推出了面向Hadoop的EMC Greenplum HD社区版和EMC Greenplum HD企业版软件。
在大数据时代,如何同时处理好结构化数据与非结构化数据对厂商和用户来说都是一个挑战。陶波表示,EMC正在对此进行研发。
目前,Greenplum有一半的工程师在中国。Greenplum的一些重要功能也是在中国研发的,比如Greenplum与Hadoop、VMware虚拟化平台以及云平台的相合都是在中国完成的。云计算将成为大数据处理的一个支撑平台。许多中小企业可以在云平台上进行深入的数据分析。
以前,我们习惯称大量数据为海量数据。从2010年下半年开始,大数据这个概念逐渐为人们所熟知。那么,大数据比海量数据到底多了些什么呢?EMC中国卓越研发集团首席技术官陶波表示:"大数据与海量数据从本质上讲并没有不同,两者都反映出数据快速增长的趋势。但是,海量数据主要是从存储的角度去考虑问题,而大数据除了包括数据存储,还包括商务智能和数据分析。"正是基于这种认识,EMC收购了数据仓库厂商Greenplum。其实,在大数据时代,企业对存储的要求也有变化,具备横向扩展(Scale-out)能力的存储越来越受到用户的欢迎。EMC收购Scale-out NAS厂商Isilon就是为了顺应这种趋势。Isilon与Greenplum的组合成了EMC迈入大数据时代的敲门砖。
存储随需而变
美国一家知名的DVD租赁企业,每年都会邀请一些协同处理算法的专家对其用户数据进行分析,从而了解租赁客户的需求。一些美国金融企业甚至提出了分析即服务的理念。陶波表示,金融、电信、互联网等企业大数据的处理和分析有迫切的需求。与传统的商务智能应用相比,大数据对企业数据的处理能力和商务智能软件本身提出了更高的要求:首先,企业必须具备处理大量数据的能力,因为有的企业可能一天之内就要多次处理PB级的数据,这是一些传统的存储设备所不能胜任的;传统的数据仓库软件是针对结构化数据设计的,而大数据包含的主要是非结构化的数据,因此传统的数据仓库软件必须改变。
谈到大数据对存储的影响,陶波表示,具有横向扩展能力的存储才能更好地处理大量文件。Isilon集群NAS产品的主要技术优势就是横向扩展能力。最新的EMC Isilon IQ 108NL在4U节点中采用3TB企业级Hitachi Ultrastar驱动器,在单一文件系统和单个卷中可扩展至超过15PB。EMC还推出了Isilon SmartLock数据保留软件应用,可实现大数据资产从建立到归档的完整性和连续性。随着大数据时代的到来,NAS存储将大行其道。为了提高系统的处理性能,SSD在存储中的应用也会越来越普遍。
云计算、大数据相辅相成
为了满足大数据的需求,商务智能软件必须改变。陶波举例说:"随着多核处理器的普及,商务智能软件也要从针对单线程的应用转为针对多线程的应用,因此商务智能软件的代码可能也要改变。"EMC已与许多商务智能软件厂商开展了合作。EMC的硬件平台针对Greenplum软件进行了优化,此外还能支持第三方的商务智能软件。
今年5月,EMC针对常用于数据密集型分布式应用的Hadoop开源软件推出了一个定制的、高性能的Hadoop专用数据协同处理设备--Greenplum HD数据计算设备(Data Computing Appliance)。该设备结合了Hadoop和EMC Greenplum数据库,从而在一个单一、无缝的解决方案中实现了结构化和非结构化数据的协同处理。此外,EMC还推出了面向Hadoop的EMC Greenplum HD社区版和EMC Greenplum HD企业版软件。
在大数据时代,如何同时处理好结构化数据与非结构化数据对厂商和用户来说都是一个挑战。陶波表示,EMC正在对此进行研发。
目前,Greenplum有一半的工程师在中国。Greenplum的一些重要功能也是在中国研发的,比如Greenplum与Hadoop、VMware虚拟化平台以及云平台的相合都是在中国完成的。云计算将成为大数据处理的一个支撑平台。许多中小企业可以在云平台上进行深入的数据分析。
相关文章推荐
- 数据挖掘领域中的分类和回归区别是什么?
- 软件缺陷数据能够告诉你什么? 今天,老大把我喊到办公室叮嘱我,“提测之后每天都要关注项目里的 bug,知道吧?” 我说,“我知道,我每天肯定会及时跟进 Open Bug 的修复进度和 Fixed
- 大数据究竟是什么?一篇文章让你认识并读懂大数据
- ArrayList、List<T>、HashSet<T>、LinkedList<T>各自优点和缺点,Dictionary<K,V>的内部存储数据方式有什么特殊的?
- 怎么恢复移动硬盘中毒了数据呢丨用什么方法恢复比较方便准确呢丨
- 你对数据分析是不是有什么误解?来看看这六个问题
- pb中sql语句用to_char查询出来数据,居然无法检索出数据,oracle数据库,这是什么原因?
- uint8_t / uint16_t / uint32_t /uint64_t 是什么数据类型 - 大总结,看完全明白了
- LINUX防火墙日志,每天这么大量数据在做什么
- 什么是带外数据?
- DB2数据库HANG住的时候应该收集什么数据以及如何处理
- 什么是数据驱动编程
- 数据传输工程学什么
- U盘文件丢失选择什么数据恢复软件好
- .AMF格式是什么数据?
- 什么是大数据精准营销?
- 大数据能做什么
- 数据类型、值传递和引用传递有什么区别,String是什么传递?
- 计算机为什么用二进制存储数据?即为什么是0101010,为什么不用其他进制?既然计算机是二进制,为什么又衍生出来一八进制、十六进制干什么,八进制和十六进制在计算机中有什么用呢?
- 问:java中常用数据类型的拆箱与装箱有什么坑