您的位置：首页 > 大数据 > 云计算

速度Spark为什么能够把云计算大数据的速度提高到100倍以上

2016-03-11 20:56 501 查看

1、基于内存计算

Hadoop

)shuffle
70%决定了效率 map->reduce 每次计算结果放到磁盘上（容错，容灾）,io网络开销都比较大

Spark

当然对内存要求比较大

2、DAG
有向无环图

对数据的操作首先记录下来，暂时不执行（transform阶段），具体要结果的时候（reduceByKey）才会执行

3、任务调度机制（
Scheduler）

一个虚拟机可以开多个任务

Spark不同任务间可以共享数据（内存级别）

Hadoop中不同任务共享数据--磁盘

4、容错机制（Lineage）

Hadoop中一个节点出错要重新运行

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

速度Spark为什么能够把云计算大数据的速度提高到100倍以上
云计算+大数据+深度学习+人工智能+量子计算=？
云计算与openstack介绍
【云计算】基于Ansible的自动部署平台化思路
云计算的文档管理软件与过去的相比具备哪些优势？
一句话说出你对云计算的理解
了解云计算与虚拟化
江湖风云再起——全球最高性价比私有云平台解决方案发布
云计算学习
从IaaS的云计算到智慧城市，这绝对是未来的方向！
Cloud Insight 和 BearyChat 第一次合体，好紧张！
云计算
云计算工具，框架，服务简单介绍
OpenStack云计算快速入门之三：OpenStack镜像管理
OpenStack云计算快速入门之二：OpenStack安装与配置
OpenStack云计算快速入门之一：OpenStack及其构成简介
wemall微信商城云平台快速创建您的微信商城
Discuz！ X3.1直接进入云平台列表的方法
Zoho CEO：云计算泡沫巨大 Salesforce只是新的Siebel
如何理解云计算

新的分享

轻量化安装 TKEStack：让已有 K8s 集群拥有企业级容器云平台的能力
云计算第七章
云计算的几种类型
云计算 = “潘多拉”？
[云计算]HCIE-Cloud 云计算故障处理
[云计算]Windows Server 2012 R2 配置AD/DNS/DHCP服务
云计算时代，容器底层cgroup如何实现资源分组？
云计算架构师分享：容器云在金融企业的落地方案
争议 | 主流容器云平台的功能、性能比较，我们该如何选型？
容器云平台方案设计的“三纵四横一回路”
20210202-1 大数据云计算介绍和基础（上）
云计算入门从零到一成为云计算/运维工程师——如何部署自己的论坛网站

章节导航