为什么Hadoop集群中机器台数多反而执行速度慢?
2012-12-16 23:24
489 查看
这里我对这个现象给出解释。由于水平有限,发现错误,请及时留言,或站内和我联系。
这里假设集群中有slave1,slave2,slave3三个节点,其中slave3工作效率低。
一共有6个任务,需要去做,slave1和slave2执行一个任务是1分钟,slave3执行一个任务是2分钟。有一个前提是每个slave完成自身的任务才回去推测执行。
如果让slave1和slave2去做,则需要3分钟,分析如下:
slave1 slave2
3 3
3*1 3*1
并行执行总时间就是单个slave的执行时间3;
那么三台同时去做需要4分钟。
slave1 slave2 slave3
2 2 2
这里slave1和slave2都完成了自身的任务,已经花费了2分钟,剩下最后一个任务考虑到数据的本地性也分给了slave3,slave3执行时间超过一分钟时,jobtracker会觉得slave3可能没有能力完成分配给他的任务,假设在slave1上推测执行,结果slave3结束了,就将运行在slave1上的推测执行任务kill掉,最后执行时间是4秒。
因为在推测执行的时候会两个推测执行的任务会同时完成。
转载请注明出处。
这里假设集群中有slave1,slave2,slave3三个节点,其中slave3工作效率低。
一共有6个任务,需要去做,slave1和slave2执行一个任务是1分钟,slave3执行一个任务是2分钟。有一个前提是每个slave完成自身的任务才回去推测执行。
如果让slave1和slave2去做,则需要3分钟,分析如下:
slave1 slave2
3 3
3*1 3*1
并行执行总时间就是单个slave的执行时间3;
那么三台同时去做需要4分钟。
slave1 slave2 slave3
2 2 2
这里slave1和slave2都完成了自身的任务,已经花费了2分钟,剩下最后一个任务考虑到数据的本地性也分给了slave3,slave3执行时间超过一分钟时,jobtracker会觉得slave3可能没有能力完成分配给他的任务,假设在slave1上推测执行,结果slave3结束了,就将运行在slave1上的推测执行任务kill掉,最后执行时间是4秒。
因为在推测执行的时候会两个推测执行的任务会同时完成。
转载请注明出处。
相关文章推荐
- 为什么Hadoop集群中机器台数多反而执行速度慢?
- 为什么Hadoop集群中机器台数多反而执行速度慢?
- 关于为什么机器语言执行速度比高级语言快
- Hadoop集群中添加机器和删除机器
- Hadoop集群(第2期)_机器信息分布表
- HADOOP实践101:在Hadoop集群中添加机器和删除机器
- HADOOP实践101:在Hadoop集群中添加机器和删除机器
- ++num和num++哪个执行速度更快,++num为什么会比num++速度快
- 淘宝Hadoop集群机器硬件配置及使用场景
- Hadoop集群(第2期)_机器信息分布表
- hadoop中的一次集群任务执行超时问题查找过程
- 如何在一个hadoop集群新增一些机器而不重启
- Hadoop集群批量命令执行
- Hadoop初级入门 MapReduce程序执行集群执行(续)
- hadoop中的一次集群任务执行超时问题查找过程
- hadoop集群对机器名大小写敏感
- Hadoop集群(第2期)_机器信息分布表
- Hadoop集群(第2期)_机器信息分布表
- 【Python学习系列四】Python程序通过hadoop-streaming提交到Hadoop集群执行MapReduce
- hadoop2.6.2集群环境搭建在经过几天的环境搭建,终于搭建成功,其中对于hadoop的具体设置倒是没有碰到很多问题,反而在hadoop各节点之间的通信遇到了问题,而且还反复了很多遍,光虚拟机就重