您的位置:首页 > 运维架构

为什么Hadoop集群中机器台数多反而执行速度慢?

2018-01-18 00:13 246 查看
这里我对这个现象给出解释。由于水平有限,发现错误,请及时留言,或站内和我联系。
这里假设集群中有slave1,slave2,slave3三个节点,其中slave3工作效率低。一共有6个任务,需要去做,slave1和slave2执行一个任务是1分钟,slave3执行一个任务是2分钟。有一个前提是每个slave完成自身的任务才回去推测执行。如果让slave1和slave2去做,则需要3分钟,分析如下:slave1     slave23            33*1         3*1并行执行总时间就是单个slave的执行时间3;那么三台同时去做需要4分钟。slave1     slave2     slave32            2            2这里slave1和slave2都完成了自身的任务,已经花费了2分钟,剩下最后一个任务考虑到数据的本地性也分给了slave3,slave3执行时间超过一分钟时,jobtracker会觉得slave3可能没有能力完成分配给他的任务,假设在slave1上推测执行,结果slave3结束了,就将运行在slave1上的推测执行任务kill掉,最后执行时间是4秒。因为在推测执行的时候会两个推测执行的任务会同时完成。原文地址:http://blog.csdn.net/sun_168/article/details/8302968
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: