您的位置:首页 > 运维架构

Hadoop跑map-reduce任务时停滞不前的问题

2011-06-28 11:27 411 查看
今天跑job
的时候,发现map
任务很正常地结束,但跑reduce
任务时到20%
几就停滞不前,而且一直卡住没法正常结束。看userlog
,好 像是FETCH map
任务的结果时超时,无法取到结果。中间还出现了一个诡异的地址web30.bbn.com.cn/202.106.195.30
。也就是 说,reduce
任务到这个诡异的地址上去取结果。上网搜了一下,这个域名/IP
是网通的一台找不到域名或地址后自动定向的上网导航服务器。再看了下 job
tracker
的日志,看到在启动的时候它将这个地址加进了节点中。这就说明,它认为这个节点是一个合法的节点,然后分配任务的时候也往这个节点分配任务(当然会失败),取结果的时候也试图到这个节点上取。

反复检查了SSH
和hosts
文件,一切都很正常。conf/slaves
文件看起来也没有问题。就是不知道哪里出的错。后来看到log
中有一个heartbeat
的词,突然想起来,节点是通过心跳来告诉master
自己还存活的。而在这之前,我做了一个测试,加了一个新节点到集群中,后来又把节点给删了,hosts
的文件也被改了,会不会是这个节点还在往master
发送心跳?SSH
到那个新节点上,jps
看一下任务,task
tracker
果然还活着!把这个进程kill
掉,问题就OK
了。。。好2
啊。。。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: