您的位置:首页 > 编程语言

Spark入门到精通视频学习资料--第二章:Spark生态系统介绍,Spark整体概述与Spark编程模型(2讲)

2015-02-26 13:58 691 查看
概述

什么是Spark

◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:





Spark的适用场景

◆ Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小

◆ 由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

◆ 总的来说Spark的适用面比较广泛且比较通用。

详细内容请参考视频:
Spark概述与编程模型(上) http://pan.baidu.com/s/1kT9okBl Spark概述与编程模型(下) http://pan.baidu.com/s/16OEjc
另外给个相关的PDF文件供参考:

Spark概述与编程模型.pdf http://pan.baidu.com/s/1mg64rMw
==========================================================

申明:视频资料已过期,建议不要再下载了。

==========================================================
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐