hadoop2.2.0 nodemanager启动后失败分析!!!
2014-04-16 00:00
405 查看
摘要: 在安装好haoop2.2.0后,发现nodemanager启动一段时间后会自动失败。然后检查日志,终于发现原来是与master节点通信失败造成的,然后将配置文件中默认master的ip换成部署环境中的ip地址,解决了问题!!!
在安装好hadoop2.2.0集群后,依次执行start-dfs.sh和start-yarn.sh脚本启动hadoop相关的服务。各个服务均能正常启动。但是过了一段时间后会发现nodemanager会自动失败退出。
检查日志信息发现一直报本机与一个0.0.0.0的连接失败,然后继续与进行通信尝试一段时间后nodemanager失败。具体信息如下:
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.net.ConnectException: Call From node2/222.18.159.123 to 0.0.0.0:8031 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
Caused by: java.net.ConnectException: Call From node2/222.18.159.123 to 0.0.0.0:8031 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
![](http://static.oschina.net/uploads/img/201404/16221347_ivMZ.jpg)
通过检查配置文件知道8031端口出现在yarn-site.xml配置文件的yarn.resourcemanager.scheduler.address配置项中。yarn.resourcemanager.scheduler.address 是resourcemanager暴漏给nodemanager的地址和端口。nodermanager利用这个地址通过心跳机制与RM通信。
正常情况下我的NM应该与RM通信,但是NM却一直与0.0.0.0通信.因此查阅官方默认的yarn-site.xml配置文件,发现其中yarn.resourcemanager.hostname的默认值被设置成:0.0.0.0了(怪不得一直与0.0.0.0通信)。发现原来是我设置的主机ip在这里没有生效。
在yarn-site.xml中添加一项新的项,将yarn.resourcemanager.hostname的值修改为master机器的ip地址。
![](http://static.oschina.net/uploads/img/201404/16221348_qXbp.jpg)
重启hadoop服务,一切正常!!!
注:nodemanager启动后要通过心跳机制定期与RM通信,否则RM会认为NM死掉,会停止NM的服务。
同时通过这次失败提醒出现问题要多去尝试(我几乎把网上的方法试了个遍。。。。。。)多参考官方文档。
在安装好hadoop2.2.0集群后,依次执行start-dfs.sh和start-yarn.sh脚本启动hadoop相关的服务。各个服务均能正常启动。但是过了一段时间后会发现nodemanager会自动失败退出。
检查日志信息发现一直报本机与一个0.0.0.0的连接失败,然后继续与进行通信尝试一段时间后nodemanager失败。具体信息如下:
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.net.ConnectException: Call From node2/222.18.159.123 to 0.0.0.0:8031 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
Caused by: java.net.ConnectException: Call From node2/222.18.159.123 to 0.0.0.0:8031 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
![](http://static.oschina.net/uploads/img/201404/16221347_ivMZ.jpg)
通过检查配置文件知道8031端口出现在yarn-site.xml配置文件的yarn.resourcemanager.scheduler.address配置项中。yarn.resourcemanager.scheduler.address 是resourcemanager暴漏给nodemanager的地址和端口。nodermanager利用这个地址通过心跳机制与RM通信。
正常情况下我的NM应该与RM通信,但是NM却一直与0.0.0.0通信.因此查阅官方默认的yarn-site.xml配置文件,发现其中yarn.resourcemanager.hostname的默认值被设置成:0.0.0.0了(怪不得一直与0.0.0.0通信)。发现原来是我设置的主机ip在这里没有生效。
在yarn-site.xml中添加一项新的项,将yarn.resourcemanager.hostname的值修改为master机器的ip地址。
![](http://static.oschina.net/uploads/img/201404/16221348_qXbp.jpg)
重启hadoop服务,一切正常!!!
注:nodemanager启动后要通过心跳机制定期与RM通信,否则RM会认为NM死掉,会停止NM的服务。
同时通过这次失败提醒出现问题要多去尝试(我几乎把网上的方法试了个遍。。。。。。)多参考官方文档。
相关文章推荐
- hadoop2.2.0 nodemanager启动后失败分析!!!
- Linux suse x86_64 环境上部署Hadoop启动失败原因分析
- Linux suse x86_64 环境上部署Hadoop启动失败原因分析
- Linux suse x86_64 环境上部署Hadoop启动失败原因分析
- 关于mongodb由于内存过小启动失败原因分析
- Hadoop源码分析之DataNode的启动与停止
- hadoop nodemanager 没有启动
- hadoop启动datanode失败
- hadoop-2.2.0 NameNode启动源码注释
- 大数据学习笔记:windows下hadoop的启动脚本分析,start-all.cmd
- hadoop 2.x之HDFS HA讲解之八HDFS HA测试启动NameNode遇见错误分析解决
- hadoop2.2.0开机启动的后台服务脚本(请结合上一篇学习)
- Hadoop 1.x 启动脚本分析
- 当一个节点在CM中出现2条记录,导致启动hadoop集群失败,host_id 始终找不到匹配的host_identifier
- Hadoop日志分析系统启动脚本
- hadoop集群启动失败的一些常见问题
- hadoop架构分析之启动脚本分析(yarn部分)
- Hadoop 2.0+YARN启动脚本分析与实战经验
- hadoop启动和关闭脚本分析
- 关于Windows环境下hadoop的nodemanager无法启动的问题