Hadoop跑map-reduce任务时停滞不前的问题
2011-06-28 11:27
411 查看
今天跑job
的时候,发现map
任务很正常地结束,但跑reduce
任务时到20%
几就停滞不前,而且一直卡住没法正常结束。看userlog
,好 像是FETCH map
任务的结果时超时,无法取到结果。中间还出现了一个诡异的地址web30.bbn.com.cn/202.106.195.30
。也就是 说,reduce
任务到这个诡异的地址上去取结果。上网搜了一下,这个域名/IP
是网通的一台找不到域名或地址后自动定向的上网导航服务器。再看了下 job
tracker
的日志,看到在启动的时候它将这个地址加进了节点中。这就说明,它认为这个节点是一个合法的节点,然后分配任务的时候也往这个节点分配任务(当然会失败),取结果的时候也试图到这个节点上取。
反复检查了SSH
和hosts
文件,一切都很正常。conf/slaves
文件看起来也没有问题。就是不知道哪里出的错。后来看到log
中有一个heartbeat
的词,突然想起来,节点是通过心跳来告诉master
自己还存活的。而在这之前,我做了一个测试,加了一个新节点到集群中,后来又把节点给删了,hosts
的文件也被改了,会不会是这个节点还在往master
发送心跳?SSH
到那个新节点上,jps
看一下任务,task
tracker
果然还活着!把这个进程kill
掉,问题就OK
了。。。好2
啊。。。
的时候,发现map
任务很正常地结束,但跑reduce
任务时到20%
几就停滞不前,而且一直卡住没法正常结束。看userlog
,好 像是FETCH map
任务的结果时超时,无法取到结果。中间还出现了一个诡异的地址web30.bbn.com.cn/202.106.195.30
。也就是 说,reduce
任务到这个诡异的地址上去取结果。上网搜了一下,这个域名/IP
是网通的一台找不到域名或地址后自动定向的上网导航服务器。再看了下 job
tracker
的日志,看到在启动的时候它将这个地址加进了节点中。这就说明,它认为这个节点是一个合法的节点,然后分配任务的时候也往这个节点分配任务(当然会失败),取结果的时候也试图到这个节点上取。
反复检查了SSH
和hosts
文件,一切都很正常。conf/slaves
文件看起来也没有问题。就是不知道哪里出的错。后来看到log
中有一个heartbeat
的词,突然想起来,节点是通过心跳来告诉master
自己还存活的。而在这之前,我做了一个测试,加了一个新节点到集群中,后来又把节点给删了,hosts
的文件也被改了,会不会是这个节点还在往master
发送心跳?SSH
到那个新节点上,jps
看一下任务,task
tracker
果然还活着!把这个进程kill
掉,问题就OK
了。。。好2
啊。。。
相关文章推荐
- Hadoop跑map-reduce任务时停滞不前的问题(二)
- Hadoop 少量map/reduce任务执行慢问题
- Hadoop中map与reduce的个数问题
- hadoop中map和reduce的数量设置问题
- hadoop中map和reduce的数量设置问题
- hadoop中map和reduce的数量设置问题
- 遇到问题---hadoop---reduce执行时又重新map
- 【Hadoop】Map和Reduce个数问题
- hadoop的map和reduce任务的执行步骤
- hadoop如何处理长时间运行不完成的map/reduce 任务?
- 如何在Hadoop中控制Map&Reduce任务的数量
- Hadoop,往map/reduce中传值的问题解决方法实例
- hadoop中map和reduce的数量设置问题
- 【Hadoop】中map与reduce的个数问题
- hadoop中map和reduce的数量设置问题
- Hadoop MapReduce概念学习系列之map并发任务数和reduce并发任务数的原理和代码实现(十八)
- hadoop 异常 reduce长时间卡住停滞不前的问题
- Hadoop MapReduce之ReduceTask任务执行(一):远程拷贝map输出
- 记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决
- hadoop编译map/reduce时的问题