Hadoop对于大数据,主要有哪些优势?
面对大数据,Hadoop确实有不少优势,但每个企业的技能特点和需求不同,应该在积累经验的基础上,挖掘数据中的“黄金”。淘宝网是中国深受欢迎的网购零售平台,也是国内应用Hadoop最早、最为成功的企业,他们希望从海量的客户数据中挖掘真正的商业价值,进而帮助公司、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,这无疑是淘宝网的核心竞争力之一。而像baidu、中国移动、网易、华为等国内知名企业也纷纷尝试了Hadoop技能,Google、Facebook、雅虎这样著名的国际互联网公司更是Hadoop的最早受益者。
Hadoop:一剂应对大数据的良药
自从Hadoop在2008年作为Apache基金会开源项目发布以来,它就一直让人备感兴奋,原因在于它联合了成本低、可扩展性佳以及无需构建预定义模式就能灵活处理任何数据等优点。
Hadoop如此引人注目,很大程度上是由于用户对大数据存储、管理和分析需求的日渐迫切。大数据是目前很多企业面临的一个挑战,由于数据量相当巨大,而且数据类型异常复杂,特别是非结构化和半结构数据量远超过结构化数据,一些传统的基于关系型数据库的存储和分析办法显露出不足,同时巨大的成本压力已成为很多企业难以承受的负重。Hadoop的出现给人们带来解决大数据问题的希望。
Hadoop是一个具有可扩展性、容错性、源代码开放性等特性的大数据储存和处理平台,其结构主要包括Hadoop分布式文件系统HDFS和MapReduce两局部。HDFS是物理服务器中的文件共享和数据保护方案,属于传统层,有很高的冗余性,已经在各种大型在线服务和大型存储系统中得到广泛应用。MapReduce是物理服务器中的分布式计算框架,用于对海量数据进行并行分析和处理,Hadoop具有高度运行的数据处理能力,可将数据分成很多小的数据块,然后放到Hadoop的集成节点上,每个节点、每个数据块都能够做并行处理。
Hadoop的最大价值
大数据时代需要Hadoop,那么Hadoop的最大价值在哪里呢?其一是能够降低大数据的成本;二是可以提高大数据的价值。Hadoop使企业可以使用精益数据管理,以降低数据成本,这包括:业务成本、硬件成本、人工成本、软件成本、存储成本等。此外,通过易访问性、可操作性、权威性、总体性、平安性、准时性、可信性等特性,Hadoop还能帮助客户增加数据价值。
在IT环境中,Hadoop不可能作为一个孤岛存在。为了让其能够跨越不同平台并成为一种主流技能,用户需要将Hadoop作为他们IT大环境中的一局部来管理。因此许多人寄希望于Hadoop厂商们可以开发出成熟可靠的工具和创新技能,使他们不用学习复杂的MapReduc数据分析、HDFS方案。
一年半前,Informatica就起初进行这方面的研讨,希望借助统一的环境和方法,让用户通过一个易用的单一平台更好地释放Hadoop的潜能,帮助企业实现数据投资回报最大化。
实际上,如今的Hadoop在受到越来越多厂商和用户的追捧后,已经与其诞生之初截然不同:从一个单独的开源软件逐步演变为一个初具规模的生态系统,这个群体中一些有影响力的厂商包括Cloudera、亚马逊、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微软和甲骨文,他们在这一生态系统中扮演着不同的角色:有系统厂商,也有管理监控服务商、数据分析、处理服务商等等。作为生态系统中的一员,Informatica主要专注于数据集成方面,与Oracle、EMC、SAP等家当链中的成员合作,进行产品认证,开发支持Hadoop架构的软件,帮助用户挖掘数据中的“黄金”。
不要盲目使用Hadoop
与传统的数据库管理系统相比,开源的Hadoop有自己的优势,尤其是它既能处理关系数据库中的结构化数据,同时也能处理诸如音视频等非结构化数据,而且Hadoop系统还能够根据数据的规模和问题的复杂程度轻松地扩展。只是,在决定利用Hadoop构建自己的大数据管理系统之前,一定要确保自己充分明白Hadoop,并且不要盲目跟风。
每个企业都有自己的特殊需求,都有自己的技能条件,如果已经购买了成熟的数据库,没必要丢弃这些产品,应用Hadoop能够从一些小项目着手尝试,积累更多经验。
目前,Hadoop还是一个刚刚起步的市场,大多数客户使用Hadoop是作为辅助和补充,而不是替代传统数据库。而且,不要忘记,在海量数据分析处理方面,Hadoop也不是唯一的,像NoSQL、HBase这类技能也可实现同样的功能。Hadoop正在发展,并将继续演进,我们期待随着大数据需求的不时爆发,Hadoop会越来越成熟。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
Hadoop、Spark和Storm三者技术相对比,有什么关系?
http://www.duozhishidai.com/article-15089-1.html
大数据的特点是什么,大数据与Hadoop有什么关系?
http://www.duozhishidai.com/article-13276-1.html
Spark 和 Hadoop之间,主要有什么联系
http://www.duozhishidai.com/article-9781-1.html
多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站
- Hadoop相对于大数据而言,主要有哪些优势?
- 大数据Storm相比于Spark、Hadoop有哪些优势(摘录)
- Hadoop集群应用于大数据分析优势和挑战
- 我国教育大数据开发利用,主要面临哪些难题?
- Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递
- APP发展优势主要体现哪些方面呢
- 用大数据分析,OPPO究竟有哪些值得国产手机厂商学习的优势
- html5对于seo的优势有哪些
- 云计算在高校中的应用,主要有哪些优势?
- 大数据的使用方法,主要有哪些?
- 保护企业其数据和信息的顶级技术,主要有哪些?
- 对于避免常见的可视化的错误,主要有哪些好的建议?
- 数据时代,大数据未来的发展趋势主要有哪些?
- sprintf 编辑 sprintf指的是字符串格式化命令,主要功能是把格式化的数据写入某个字符串中。sprintf 是个变参函数。使用sprintf 对于写入buffer的字符数是没有
- 大数据Hadoop核心组件,主要有哪些?
- 最小生成树 普里姆算法的时间复杂度为O(n*n),适用于稠密图。(n为顶点数); 克鲁斯卡尔算法主要针对边展开,边数少时效率会很高,所以对于稀疏图有优势。
- 传统家电企业转型智能家居领域,主要有哪些优势?
- 大数据技术挖掘变革性数据,主要有哪些方法?
- 日常数据挖掘中经常遇到的分析方法,主要有哪些?
- Hadoop学习笔记—4.初识MapReduce 一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据