您的位置:首页 > 其它

Spark作为一套用Scala写成的分布式内存计算系统

2014-04-08 10:54 162 查看
有关集群运算的编程框架和模型例如MapReduce,
Dryad等正在被大量运用于处理不断增长的数据量,这些系统具有容错、平衡负载等优点,使得大部分用户都可以使用这些系统进行大数据的处理。但是几乎所有的现代集群计算系统都是基于非循环式的数据流模型,意味着每一次的计算过程都必然包含着从存储中读取数据然后计算完成之后写入结果的过程,这样的模型使得那些需要重复使用一个特定的数据集的迭代算法无法很高效的运行,RDD和Spark正是为了解决这一类问题而诞生的。

RDD的设计理念是在保留例如MapReduce等数据流模型的框架的优点的同时(自动容错、本地优化分配(locality-aware
scheduling)和可拓展性),使得用户可以明确地将一部分数据集缓存在内存中,以大大加速对这部分数据之后的查询和计算过程。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: