分析一次STP无法生效的故障
2011-03-30 00:41
274 查看
今天下午,突然间收到通知,下面某个分点的故障报告:由于机房线路整改,网络突然中断。所有工作站无法连接服务器。
由于事关重要,领导要求立即赶往现场进行技术支援。路途中我经过多次与分点技术人员进行交流,整理了拓扑资料:
MDF连接网关、服务器,部分工作站。MDF通过两对光纤到其中一个IDF的两台交换机,这两台交换机作为汇聚,与其它接入交换机互联。上述两台楼层核心互联,与MDF的交换机成环保护。IDF另备有1条到MDF的UTP作备用。
故障发生时,绿色,即所有连接到MDF的工作站连接服务器没有问题;但红色,即连接到该IDF的所有工作站均无法连接服务器。结合之前线路整改,由此判断,应该是MDF与IDF之间的楼层骨干中断。但由于局域网已成环保护,照理来说,即使其中一条Fiber骨干终端,STP应该能够启动另一条Fiber作为楼层骨干。为何STP收敛会造成上述情况呢?
由于赶到现场前故障已经排除,但没有作现场录像取证,因此无法判断属于哪方的责任。只能从设备日志中了解相关情况。
根据现场工作人员的事故描述,发生故障时,在MDF检查的工作人员没有发现异常情况;而IDF检查工作人员检查发现,IS1光纤模块灯为黄色,而MS1光纤模块灯正常。由于当时正对MDF的配线进行登记,有可能触碰了MDF的交换机光纤线路。工作人员经过插拔并清洁光纤口后插回,网络恢复正常。 到达事故现场后,开始着手进行故障分析。首先登录IS1检查Log,发现备案密码错误(低级错误,应自我检讨),于是登录到MS1,show log,发现最近的Log里面居然没有任何级联口的提示!照例说,IS1亮黄灯,应该会造成MS1同时报警,为何MS1却没有告警呢?
通过现场不断了解情况,我了解到当时施工方所做操作为检查光纤跳线的连接情况。一般来说,光纤对操作,无论插拔都是每根单独进行的。难道说是UDLD?根据UDLD描述,单进端的网桥STP是无法检查出异常情况的。假如说MS1接收正常,IS1接受异常,在IS1已经进行STP生成树运算并要求启用另一条Fiber时,MS1却依然没有进行STP计算。因此MS1有可能仍旧采用旧的MAC表地址,导致工作站无法正常连接到服务器!
由于当时正处于工作时间,不便进行测试。于稍晚时,分点工作人员有单独进行了一次STP触发测试,发现当两对光纤同时拔下时,经过大约9个ICMP Timeout后,STP收敛。基本证明了问题成因为单向链路导致IDF网络中断。
经验总结:这次工作总结起来还有很多做的不够的地方。第一是安全实施不严谨,以为STP成环即可实现局域网线路保护,却忽视了实验室里极少提到的UDLD;第二是理论知识掌握不牢,对于故障成因的分析没有抓住要点,造成分析时间过长;第三是日常管理不到位,很多资料都是由分点提供,也没有经过校对,影响了排查时间。本文出自 “苦瓜” 博客,请务必保留此出处http://golehuang.blog.51cto.com/7499/530453
由于事关重要,领导要求立即赶往现场进行技术支援。路途中我经过多次与分点技术人员进行交流,整理了拓扑资料:
MDF连接网关、服务器,部分工作站。MDF通过两对光纤到其中一个IDF的两台交换机,这两台交换机作为汇聚,与其它接入交换机互联。上述两台楼层核心互联,与MDF的交换机成环保护。IDF另备有1条到MDF的UTP作备用。
故障发生时,绿色,即所有连接到MDF的工作站连接服务器没有问题;但红色,即连接到该IDF的所有工作站均无法连接服务器。结合之前线路整改,由此判断,应该是MDF与IDF之间的楼层骨干中断。但由于局域网已成环保护,照理来说,即使其中一条Fiber骨干终端,STP应该能够启动另一条Fiber作为楼层骨干。为何STP收敛会造成上述情况呢?
由于赶到现场前故障已经排除,但没有作现场录像取证,因此无法判断属于哪方的责任。只能从设备日志中了解相关情况。
根据现场工作人员的事故描述,发生故障时,在MDF检查的工作人员没有发现异常情况;而IDF检查工作人员检查发现,IS1光纤模块灯为黄色,而MS1光纤模块灯正常。由于当时正对MDF的配线进行登记,有可能触碰了MDF的交换机光纤线路。工作人员经过插拔并清洁光纤口后插回,网络恢复正常。 到达事故现场后,开始着手进行故障分析。首先登录IS1检查Log,发现备案密码错误(低级错误,应自我检讨),于是登录到MS1,show log,发现最近的Log里面居然没有任何级联口的提示!照例说,IS1亮黄灯,应该会造成MS1同时报警,为何MS1却没有告警呢?
通过现场不断了解情况,我了解到当时施工方所做操作为检查光纤跳线的连接情况。一般来说,光纤对操作,无论插拔都是每根单独进行的。难道说是UDLD?根据UDLD描述,单进端的网桥STP是无法检查出异常情况的。假如说MS1接收正常,IS1接受异常,在IS1已经进行STP生成树运算并要求启用另一条Fiber时,MS1却依然没有进行STP计算。因此MS1有可能仍旧采用旧的MAC表地址,导致工作站无法正常连接到服务器!
由于当时正处于工作时间,不便进行测试。于稍晚时,分点工作人员有单独进行了一次STP触发测试,发现当两对光纤同时拔下时,经过大约9个ICMP Timeout后,STP收敛。基本证明了问题成因为单向链路导致IDF网络中断。
经验总结:这次工作总结起来还有很多做的不够的地方。第一是安全实施不严谨,以为STP成环即可实现局域网线路保护,却忽视了实验室里极少提到的UDLD;第二是理论知识掌握不牢,对于故障成因的分析没有抓住要点,造成分析时间过长;第三是日常管理不到位,很多资料都是由分点提供,也没有经过校对,影响了排查时间。本文出自 “苦瓜” 博客,请务必保留此出处http://golehuang.blog.51cto.com/7499/530453
相关文章推荐
- 记一次FTP服务故障分析
- 【DataGuard】由于备库参数设置不当导致数据文件无法添加的故障分析
- IIS无法启动故障分析
- DHCP故障无法获取ip如何分析解决
- 一次web 服务器无法连接上oracle 数据库的故障处理
- 自检无法找到硬盘的故障分析教程
- CentOS6下一次网络ping包没回应的故障分析
- 对一次网络故障的分析
- android google 分屏 多窗口 popup无法显示故障分析
- Red Hat6.5 无法上网故障分析
- DHCP故障无法获取ip如何分析解决
- Linux:记一次异常断电导致的系统无法正常启动(文件系统故障)
- 一次MySQL5.7线上故障分析
- 一次load飙高的故障分析过程
- 记一次Dynamic Batching不生效的爬坑实例分析[Unity]
- 记一次 superblock 损坏导致服务器无法启动的故障修复
- 一次ora-600 ktubko_1故障简单分析
- 记一次lvs-tunnel模式的故障分析(7)
- Win7纯净版系统双击无法打开TXT文件的故障分析及解决方法
- lftp利器与一次故障分析