论文笔记:Resilient Distributed Dataset: A Fault-Tolerant Abstraction for In-memory C
2015-12-21 20:31
344 查看
中文版链接:http://shiyanjun.cn/archives/744.html
摘要
本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具。这两种情况下,将数据保存在内存中能够极大地提高性能。为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。尽管如此,RDD仍然足以表示很多类型的计算,包括MapReduce和专用的迭代编程模型(如Pregel)等。我们实现的RDD在迭代计算方面比Hadoop快20多倍,同时还可以在5-7秒内交互式地查询1TB数据集。
摘要
本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具。这两种情况下,将数据保存在内存中能够极大地提高性能。为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。尽管如此,RDD仍然足以表示很多类型的计算,包括MapReduce和专用的迭代编程模型(如Pregel)等。我们实现的RDD在迭代计算方面比Hadoop快20多倍,同时还可以在5-7秒内交互式地查询1TB数据集。
相关文章推荐
- bzoj1009: [HNOI2008]GT考试
- python--python3爬虫之模拟登录知乎
- iOS 百度地图
- Java多线程中wait, notify and notifyAll的使用
- 流程控制
- Auto Layout Guide----(一)-----Understanding Auto Layout
- IDEA和Eclipse经常使用快捷键(Win Mac)
- scala学习笔记
- LevelDb日知录之四: SSTable文件
- Android 仿微信支付密码输入框
- Android Service两种启动方式
- 2015浙江理工校赛 E Power Eggs (DP)
- String Game【ZSTUOJ--4212】
- 论文笔记:《the Google File System》
- [GDOI模拟2015.12.19][HEOI2013]SAO
- git常用指令合集
- java web 开发技术应用-过滤器
- Git使用教程
- LeetCode Valid Parentheses
- 图形学优化_3: 责任链模式和迭代器模式