您的位置:首页 > 大数据

常用大数据技术名词通俗解释

2016-01-02 23:18 267 查看



常用大数据技术名词通俗解释

Hadoop:

最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存理论上无穷多的文件,因此称为大数据平台。

MapReduce:

在Hadoop存文件的基础上,MapReduce担任处理文件的角色,它读到文件,并把处理文件的任务分成很多子任务,让它们在多台机器上执行,然后汇总结果。因此,只要机器足够多,处理文件的能力可以无限扩充。但它的一个缺点是每个任务的衔接,都是通过中间文件来完成,因此,除了CPU外,有很多磁盘读写的操作。


伦理片 http://www.dotdy.com/

Hive:

Hive是基于Hadoop和MapReduce而衍生出来的,hadoop上文件的存放在hive里面抽象为数据库的表,访问表的SQL会被自动解析成MapReduce的任务。在hive出现之前,玩Hadoop大数据写MapReduce任务就是个高大上的玩意,难理解,难开发,难维护。 而在hive出现后,同样的需求,原来MapReduce可能要几百行实现,hive则只要十多行sql就能实现,一下子就把大数据平民化了。

Spark:

Spark是类似于MapReduce的文件处理引擎, 也是把读到的数据源文件分解成处理任务,然后分发到多台机器执行。不同的地方是,他以在内存执行为主。好处是速度快了, 坏处是内存玩不好容易奔溃,因此暂时还不是特别稳定,有效。

SparkSQL:

在Spark基础上增加了一种数据源的引入方式, 之前是从各种文件引入源数据, SparkSQL支持用SQL导入源数据处理(各种DB,包括Hive),在spark中分析处理,并把结果用SQL导回去。 这个方案好是好,结构化存储了数据,也避免了MapReduce的中间结果IO读写, 但是,开发人员要多学习一种开发语言Scala才能够把数据处理这个事情做完整,增加了开发维护的难度。

影音先锋电影 http://www.iskdy.com/
Hive on Spark:

在hive的基础上升级,目前看起来最完美的解决方案了。把原来Hive所依赖的任务计算引擎替换成Spark(set hive.execution.engine=spark;),一个配置而已,原来已经存在的代码都无需改动,性能直接提升100倍。但是,目前还没有正式版本GA, 估计要到Hive 1.3.0, 当前最新是Hive 1.2.1
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: