datanode节点失联故障处理
2017-05-09 20:39
1096 查看
故障现象是hadoop集群中某个datanode无故失联,调阅log记录中发现
INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Got finalize command for block pool BP-***
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM
INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:
signal 15含意是使用不带参数的kill命令时终止进程,初步判断,由于文件数据块的原因造成datanode失联
对配置文件hdfs-site.xml增加如下配置
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>namenode:9001</value>
</property>
<property>
<name>dfs.blockreport.intervalMsec</name>
<value>600000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>
<property>
<name>dfs.datanode.directoryscan.interval</name>
<value>600</value>
</property>
其中
dfs.blockreport.intervalMsec :datanode向namenode报告块信息的时间间隔,默认6小时
dfs.datanode.directoryscan.interval:datanode进行内存和磁盘数据集块校验,更新内存中的信息和磁盘中信息的不一致情况,默认6小时
加入以上配置后,删除有问题的文件块,重新启动datanode 进程,hadoop-daemon.sh start datanode,故障未出现
INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Got finalize command for block pool BP-***
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM
INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:
signal 15含意是使用不带参数的kill命令时终止进程,初步判断,由于文件数据块的原因造成datanode失联
对配置文件hdfs-site.xml增加如下配置
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>namenode:9001</value>
</property>
<property>
<name>dfs.blockreport.intervalMsec</name>
<value>600000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>
<property>
<name>dfs.datanode.directoryscan.interval</name>
<value>600</value>
</property>
其中
dfs.blockreport.intervalMsec :datanode向namenode报告块信息的时间间隔,默认6小时
dfs.datanode.directoryscan.interval:datanode进行内存和磁盘数据集块校验,更新内存中的信息和磁盘中信息的不一致情况,默认6小时
加入以上配置后,删除有问题的文件块,重新启动datanode 进程,hadoop-daemon.sh start datanode,故障未出现
相关文章推荐
- ZooKeeper中的节点故障处理机制(3)
- 处理因ASM实例异常导致RAC第一节点实例异常终止故障
- ZooKeeper中的节点故障处理机制(1)
- 服务器节点故障处理办法
- master节点的故障发现及处理
- zookeeper详解(四)-- 节点故障处理机制总结
- ZooKeeper中的节点故障处理机制(4)
- Xenserver主节点故障处理示例/Xenserver进入单用户
- Ceph Monitor节点故障处理案例分解
- ZooKeeper中的节点故障处理机制(2)
- ORACLE 10G RAC 节点自动重启故障处理
- Ceph mon节点故障处理案例分解
- Oracle 10.2.0.5 4节点RAC主机(HP rx7640小型机)emcpMpxError故障处理
- 集成声卡故障处理大全
- 工作中遇到的ORACLE故障处理一例
- 喷打加墨后的常见故障处理
- BIOS自检与开机故障处理
- Windows 2000蓝屏死机故障处理
- BIOS自检与开机故障处理
- 硬盘不能启动的常见故障分析及处理