「快哥评测」一文了解大数据分析利器——Hadoop
2017-12-16 14:28
471 查看
大家好,今天快哥给大家又带来了一文,是大数据的神器,不管是在业内还是在业外,那都是名声在外,他就是Hadoop。作为新时代的我们,如果不了解他,过年过节都好意思说自己在搞高科技呢。
1.什么是Hadoop?
Hadoop伴随着大数据的发展已有十多年的历史。Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台,实现在大量计算机组成的集群中对海量数据进行分布式计算。
简单来讲,总之一句话:Hadoop可以认为是一个适合大数据的分布式存储和计算平台。关键是平台哦,平台上搞什么就看各位看官自己了,在好人手里做好事,在坏人手里那可就遭殃了。
Doug Cutting是Hadoop的创始人,同时也是Google成长的见证人之一。早在 Cutting 供职于 Architext 期间,有两个年轻人曾去拜访这家公司,并向他们兜售自己的搜索技术,但当时他们的 Demo 只检索出几百万条网页,工程师们觉得他们的技术太小儿科,于是就在心里鄙视一番,把他们给送走了。这两个年轻人回去之后痛定思痛,决定自己创业。于是,他们开了一家自己的搜索公司,取名为 Google。这两个年轻人就是 Larry Page 和 Sergey Brin。
Hadoop名字并不是一个缩写,而是一个生造出来的词。是Doug Cutting儿子毛绒玩具象命名的。牛人都是这么任性有木有!
2.Hadoop的功能与作用
Hadoop的主要组件包括:HDFS、MapReduce 、Yarn、Hbase、Hive、Pig、Zookeeper、Hbase、Hive、Scoop、Spark等。主要组件构成图如下图所示。
Hadoop的所有组件中,最为核心的是HDFS和MapReduce。
Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业和科研领域中被广泛采用。HDFS和MapReduce主要概念如下:
lHDFS
分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘。
lMapReduce
Hadoop的编程框架,用map和reduce方式实现分布式程序设计,类似于Spring。
3.最后小结
Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。
具体深入,大家可以关注快哥评测。
1.什么是Hadoop?
Hadoop伴随着大数据的发展已有十多年的历史。Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台,实现在大量计算机组成的集群中对海量数据进行分布式计算。
简单来讲,总之一句话:Hadoop可以认为是一个适合大数据的分布式存储和计算平台。关键是平台哦,平台上搞什么就看各位看官自己了,在好人手里做好事,在坏人手里那可就遭殃了。
Doug Cutting是Hadoop的创始人,同时也是Google成长的见证人之一。早在 Cutting 供职于 Architext 期间,有两个年轻人曾去拜访这家公司,并向他们兜售自己的搜索技术,但当时他们的 Demo 只检索出几百万条网页,工程师们觉得他们的技术太小儿科,于是就在心里鄙视一番,把他们给送走了。这两个年轻人回去之后痛定思痛,决定自己创业。于是,他们开了一家自己的搜索公司,取名为 Google。这两个年轻人就是 Larry Page 和 Sergey Brin。
Hadoop名字并不是一个缩写,而是一个生造出来的词。是Doug Cutting儿子毛绒玩具象命名的。牛人都是这么任性有木有!
2.Hadoop的功能与作用
Hadoop的主要组件包括:HDFS、MapReduce 、Yarn、Hbase、Hive、Pig、Zookeeper、Hbase、Hive、Scoop、Spark等。主要组件构成图如下图所示。
Hadoop的所有组件中,最为核心的是HDFS和MapReduce。
Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业和科研领域中被广泛采用。HDFS和MapReduce主要概念如下:
lHDFS
分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘。
lMapReduce
Hadoop的编程框架,用map和reduce方式实现分布式程序设计,类似于Spring。
3.最后小结
Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。
具体深入,大家可以关注快哥评测。
相关文章推荐
- 2017.04.17:Hadoop大数据分析与挖掘01
- 让高管了解大数据分析(二)
- 大数据分析- 基于Hadoop/Mahout的大数据挖掘
- Python用户画像准确性评测 ——拨开python大数据分析的面纱
- 基于Hadoop大数据分析
- 基于Hadoop大数据分析应用场景与实战
- Hadoop:你不得不了解的大数据工具
- 网站分析实战--如何以数据驱动决策,提升网站价值(大数据时代的分析利器)
- discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
- 一文了解大数据领域创业的机会与方向
- Hadoop大数据分析技术以及未来发展趋势
- Hadoop 信息集成平台,让大数据分析更简单!
- 大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据挖掘
- 基于Hadoop的大数据分析实战-Hadoop部署与实践视频课程
- 漫画解读“跨视图粒度计算”,了解有数分析利器
- 除Hadoop大数据技术外,还需了解的九大技术
- spark VS Hadoop 两大大数据分析系统深度解读
- [置顶] HADOOP大数据离线分析+实时分析框架;Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle
- 通过Isilon和VMware部署Hadoop大数据分析(上)
- Java 开发 2.0: 用 Hadoop MapReduce 进行大数据分析