您的位置:首页 > Web前端 > Node.js

datanode节点失联故障处理

2017-05-09 20:39 1096 查看
故障现象是hadoop集群中某个datanode无故失联,调阅log记录中发现                                                                      

 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Got finalize command for block pool BP-***                                  

 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM                                                

 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:                                                               

 signal 15含意是使用不带参数的kill命令时终止进程,初步判断,由于文件数据块的原因造成datanode失联                          

 对配置文件hdfs-site.xml增加如下配置                                                                                               

 <property>                                                                                                                        

     <name>dfs.namenode.secondary.http-address</name>                                                                              

     <value>namenode:9001</value>                                                                                                  

 </property>                                                                                                                       

 <property>                                                                                                                        

   <name>dfs.blockreport.intervalMsec</name>                                                                                       

     <value>600000</value>                                                                                                         

       <description>Determines block reporting interval in milliseconds.</description>                                             

 </property>                                                                                                                       

 <property>                                                                                                                        

   <name>dfs.datanode.directoryscan.interval</name>                                                                                

     <value>600</value>                                                                                                            

 </property>                                                                                                                       

 其中                                                                                                                              

dfs.blockreport.intervalMsec :datanode向namenode报告块信息的时间间隔,默认6小时                                                   

dfs.datanode.directoryscan.interval:datanode进行内存和磁盘数据集块校验,更新内存中的信息和磁盘中信息的不一致情况,默认6小时       

加入以上配置后,删除有问题的文件块,重新启动datanode 进程,hadoop-daemon.sh start datanode,故障未出现                              

                                                                                                                                   
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop datanode SIGNAL 15