hadoop-ha QJM架构应用故障总结
2015-06-19 22:34
671 查看
部署hadoop-ha QJM架构过程我就不说了,参考 我的博客:hadoop-ha QJM架构部署
故障一:
namenode 报错日志如下:
解决思路:
1,先把报错关键信息 "IPC's epoch is less than the last promised epoch" 贴到google上查了一下,大部分外国人的回答都是因为网络原因引起的.
2,据上,经过看日志,每次启动另一个namenode的时候都会去探测三个 journalnode服务的8485端口,提示是faild的,
说明最有可能是网络问题,排查如下:
ifconfig -a看网卡是否有丢包,
查看/etc/sysconfig/selinux 配置 SELINUX=disabled 是否是对的,
/etc/init.d/iptables status 查看防火墙是否运行,因为我们hadoop是运行内网环境,记得之前部署的时候,防火墙是关闭的, 看来问题找到了
/etc/init.d/iptables stop
先后检查了,三个 journalnode服务器的防火墙,都莫名其妙的启着的,马上关闭
再重新启动两个namenode,查看日志,正常了,
2,总结如下:
hadoop故障事关网络的话,
1.查网卡是否丢包,
2,查防火墙配置是否正确,
当前集群环境下,两个namenode的运行是依懒于 journalnode服务的,
故障一:
namenode 报错日志如下:
WARN org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Remote journal 10.168.35.127:8485 failed to write txns 71760508-71760510. Will try to write to this JN again after the next log roll. org.apache.hadoop.ipc.RemoteException(java.io.IOException): IPC's epoch 43 is less than the last promised epoch 44
解决思路:
1,先把报错关键信息 "IPC's epoch is less than the last promised epoch" 贴到google上查了一下,大部分外国人的回答都是因为网络原因引起的.
2,据上,经过看日志,每次启动另一个namenode的时候都会去探测三个 journalnode服务的8485端口,提示是faild的,
说明最有可能是网络问题,排查如下:
ifconfig -a看网卡是否有丢包,
查看/etc/sysconfig/selinux 配置 SELINUX=disabled 是否是对的,
/etc/init.d/iptables status 查看防火墙是否运行,因为我们hadoop是运行内网环境,记得之前部署的时候,防火墙是关闭的, 看来问题找到了
/etc/init.d/iptables stop
先后检查了,三个 journalnode服务器的防火墙,都莫名其妙的启着的,马上关闭
再重新启动两个namenode,查看日志,正常了,
2,总结如下:
hadoop故障事关网络的话,
1.查网卡是否丢包,
2,查防火墙配置是否正确,
当前集群环境下,两个namenode的运行是依懒于 journalnode服务的,
相关文章推荐
- hadoop-ha QJM 架构部署
- 做了一个个人网站
- Bat - 通过adb测试浏览器访问网站消耗的流量
- 高可用集群之heartbeat基于crm进行资源管理(二)
- MyBatis学习门户网站(一)
- Windows2003发布MVC4网站
- 简单操作sql语句-提升我们工作效率(网站关键词替换sql语句)
- 编程学习网站
- 通过PHP自带的$_SERVER判断 手机访问网站自动跳转到手机版
- JVM原理、架构—整体架构
- 网站权重分析方式与seo重要性
- 大型网站的灵魂——性能
- 云架构指挥调度平台技术方案建议书
- 云智慧发布电商618网站性能监测报告
- 可扩展Web架构与分布式系统
- SOA架构改造简单记录
- 网页html/js/css错误代码在线检测网站汇总
- 新网站优质外链的连接方法
- 高可用性、负载均衡的mysql集群解决方案
- 网站高并发 大流量访问的处理及解决方法