您的位置:首页 > 大数据 > Hadoop

一张表看懂大数据计算框架,浅析Hadoop(MapReduce)、Spark、Storm比较

2018-12-07 19:23 423 查看

很多初学者在刚刚接触大数据的时候会有很多疑惑,比如对MapReduce、Storm、Spark三个计算框架的理解经常会产生混乱,下面我来简单为大家做一下区分,方便理解。

学习大数据首先要明白生态系统

蓝色部分为Hadoop生态组件,橙黄色部分为Spark生态组件,紫色部分为Storm应用

一、 工作机制

  1. MapReduce框架

MapReduce是一个编程模型,封装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce实现最开始是映射map,将操作映射到集合中的每个文档,然后按照产生的键进行分组,并将产生的键值组成列表放到对应的键中。化简(reduce)则是把列表中的值化简成一个单值,这个值被返回,然后再次进行键分组,直到每个键的列表只有一个值为止。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。但如果你要我再通俗点介绍,那么,说白了,Mapreduce的原理就是一个分治算法。

MapReduce计划分三个阶段执行,即映射阶段,shuffle阶段,并减少阶段。

映射阶段:映射或映射器的工作是处理输入数据。一般输入数据是在文件或目录的形式,并且被存储在Hadoop的文件系统(HDFS)。输入文件被传递到由线映射器功能线路。映射器处理该数据,并创建数据的若干小块。

减少阶段:这个阶段是:Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后,它产生一组新的输出,这将被存储在HDFS。。

  1. Spark框架:

Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发,类似于Hadoop MapReduce的通用并行计算框架,Spark基于Map Reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS。使用DAG执行引擎以支持循环数据流与内存计算。支持批处理(MapReduce)、交互式查询(Impala)和流数据处理(Storm)。Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX 等组件。

  1. Storm框架:

Storm集群采用主从架构方式,主节点是Nimbus,从节点是Supervisor,有关调度相关的信息存储到ZooKeeper集群中。

Nimbus

Storm集群的Master节点,负责分发用户代码,指派给具体的Supervisor节点上的Worker节点,去运行Topology对应的组件(Spout/Bolt)的Task。

Supervisor

Storm集群的从节点,负责管理运行在Supervisor节点上的每一个Worker进程的启动和终止。通过Storm的配置文件中的supervisor.slots.ports配置项,可以指定在一个Supervisor上最大允许多少个Slot,每个Slot通过端口号来唯一标识,一个端口号对应一个Worker进程(如果该Worker进程被启动)。

Worker

运行具体处理组件逻辑的进程。Worker运行的任务类型只有两种,一种是Spout任务,一种是Bolt任务。

Task

Worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后,task不再与物理线程对应,不同spout/bolt的task可能会共享一个物理线程,该线程称为executor。

ZooKeeper

用来协调Nimbus和Supervisor,如果Supervisor因故障出现问题而无法运行Topology,Nimbus会第一时间感知到,并重新分配Topology到其它可用的Supervisor上运行

二、 延时性

  1. MapReduce框架:

磁盘IO开销大。每次执行时都需要从磁盘读取数据,并在计算完成之后需要将中间结果写入到磁盘中,IO开销较大。处理时间为几小时到几天。

  1. Spark框架:

Spark提供了内存计算,中间结果直接放在内存中,使迭代运算更高效。避免了从磁盘中频繁读取数据。Spark框架的逻辑回归时间是hadoop的一百多倍。处理时间为几秒到几分钟。

  1. Storm框架:

Storm框架处理的单位为Tuple,能够满足对实时性非常高的(如高频实时交易)的场景,只需要极小的延时,延时为毫秒级。

三、 灵活性

  1. MapReduce框架:

表达能力有限。计算时必须转换为Map和Reduce两个操作,但这并不适合所有的情况,难以完成复杂的数据处理过程。使用的编程语言单一,如java。比较繁琐。

  1. Spark框架:

Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,提供了许多数据集操作类型,编程模型比MapReduce更灵活。开发人员可以通过Java、Scala或者Python等语言进行数据分析作业编写,并使用超过80种高级运算符。Spark与HDFS全面兼容,同时还能与其它Hadoop组件—包括YARN以及HBase并行协作。

  1. Storm框架:

Storm在理论上支持所有语言,只需要少量代码即可完成适配。Storm把集群的状态存在Zookeeper或者本地磁盘,所以后台进程都是无状态的(不需要保存自己的状态,都在zookeeper上),可以在不影响系统健康运行的同时失败或重启。

四、 应用方面

  1. MapReduce框架:

分布式离线计算框架主要适用于大批量的集群任务,由于是批量执行,故时效性偏低。应用范围广,基本的数据处理框架。涉及到大量数据的处理的企业机构都会应用。

  1. Spark框架:

适用于较大数据块又需要高时效性的小批量计算。多用于能容忍小延时的推荐与计算系统。可以被用于处理多种作业类型,比如实时数据分析、机器学习与图形处理。目前使用的公司有Intel,腾讯,中国移动,Google等等。

  1. Storm框架:

适用于实时的小数据块的分析计算Storm可应用于–数据流处理、持续计算(持续地向客户端发送数据,它们可以实时的更新以及展现数据,比如网站指标)、分布式远程过程调用(轻松地并行化CPU密集型操作)。目前使用公司有淘宝,百度,Twitter,雅虎等等。

附:MapReuce、Spark、Storm比较表

参考文献

  1. 林子雨.《大数据技术原理与应用》.北京.人民邮电出版社.2017年1月第2版

  2. 高彦杰,倪亚宇.《Spark大数据分析实战》.北京.机械工业出版社.2016年1月第1版

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: