您的位置:首页 > 编程语言 > PHP开发

分析一次STP无法生效的故障

2011-03-30 00:41 274 查看
今天下午,突然间收到通知,下面某个分点的故障报告:由于机房线路整改,网络突然中断。所有工作站无法连接服务器。
由于事关重要,领导要求立即赶往现场进行技术支援。路途中我经过多次与分点技术人员进行交流,整理了拓扑资料:


MDF连接网关、服务器,部分工作站。MDF通过两对光纤到其中一个IDF的两台交换机,这两台交换机作为汇聚,与其它接入交换机互联。上述两台楼层核心互联,与MDF的交换机成环保护。IDF另备有1条到MDF的UTP作备用。
故障发生时,绿色,即所有连接到MDF的工作站连接服务器没有问题;但红色,即连接到该IDF的所有工作站均无法连接服务器。结合之前线路整改,由此判断,应该是MDF与IDF之间的楼层骨干中断。但由于局域网已成环保护,照理来说,即使其中一条Fiber骨干终端,STP应该能够启动另一条Fiber作为楼层骨干。为何STP收敛会造成上述情况呢?
由于赶到现场前故障已经排除,但没有作现场录像取证,因此无法判断属于哪方的责任。只能从设备日志中了解相关情况。
根据现场工作人员的事故描述,发生故障时,在MDF检查的工作人员没有发现异常情况;而IDF检查工作人员检查发现,IS1光纤模块灯为黄色,而MS1光纤模块灯正常。由于当时正对MDF的配线进行登记,有可能触碰了MDF的交换机光纤线路。工作人员经过插拔并清洁光纤口后插回,网络恢复正常。 到达事故现场后,开始着手进行故障分析。首先登录IS1检查Log,发现备案密码错误(低级错误,应自我检讨),于是登录到MS1,show log,发现最近的Log里面居然没有任何级联口的提示!照例说,IS1亮黄灯,应该会造成MS1同时报警,为何MS1却没有告警呢?
通过现场不断了解情况,我了解到当时施工方所做操作为检查光纤跳线的连接情况。一般来说,光纤对操作,无论插拔都是每根单独进行的。难道说是UDLD?根据UDLD描述,单进端的网桥STP是无法检查出异常情况的。假如说MS1接收正常,IS1接受异常,在IS1已经进行STP生成树运算并要求启用另一条Fiber时,MS1却依然没有进行STP计算。因此MS1有可能仍旧采用旧的MAC表地址,导致工作站无法正常连接到服务器!
由于当时正处于工作时间,不便进行测试。于稍晚时,分点工作人员有单独进行了一次STP触发测试,发现当两对光纤同时拔下时,经过大约9个ICMP Timeout后,STP收敛。基本证明了问题成因为单向链路导致IDF网络中断。
经验总结:这次工作总结起来还有很多做的不够的地方。第一是安全实施不严谨,以为STP成环即可实现局域网线路保护,却忽视了实验室里极少提到的UDLD;第二是理论知识掌握不牢,对于故障成因的分析没有抓住要点,造成分析时间过长;第三是日常管理不到位,很多资料都是由分点提供,也没有经过校对,影响了排查时间。本文出自 “苦瓜” 博客,请务必保留此出处http://golehuang.blog.51cto.com/7499/530453
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: