您的位置:首页 > 其它

Cisco B200 M3刀片服务器Discovery失败故障处理

2016-01-05 16:00 363 查看
客户刀片服务器升级,购买了两台Cisco B200 M3,到货后我们查看了一下B200 M3的版本,然后对UCS Manager进行了升级,可是升级完之后发现这两台刀片服务器在Discovery过程中,只走到了7%就失败了!如下图所示:




另外,查看报警信息和思科文档如下:







看上图的文档也没有得到有用的信息。问题究竟出在哪里?为了进一步求证,我们做了如下操作:
1、取下刀片服务器,只安装一颗CPU和一条内存。在这种状态下服务器可以discovery通过。
2、安装两颗CPU和两条内存,此时故障现象依旧,还是无法通过。
3、将CPU1和CPU2对换,CPU2是单独下单的,CPU1是随刀片一起过来的,只安装CPU2和一条内存了,discovery过程可以通过。
4、将原有的一台B200 M3的内存全部拆下和现有内存互换,安装两颗CPU,discovery过程还是无法通过。
5、只在CPU2的槽位上安装一颗CPU和一条内存,仍然不行(后来得知,在只有一颗CPU的情况下,只能插在CPU1槽1上)
6、将刀片更换槽位,也不行……
7、Recover,也不行……
………………

试了种种仍然不行,初步判断问题可能是出在主板上,于是带着这个疑问向思科开了一个case,后来思科TAC工程师收集了一下日志,根据日志判断问题也可能出在主板上。最终帮我们做了一个RMA,重新发两块主板过来!
期待总是美好的,可那毕竟只是期待!
待RMA的两块主板到达后,我们把CPU、内存等部件插好后,插入刀箱,见鬼的事情再次出现了,discovery过程仍然是走到7%就不动了!两块都是这样!
感觉不符合常理,但是问题还是出现了!
我们将出现的问题汇报给了大BOSS,大BOSS也深感疑惑,不可能发来的都是坏的啊!于是元旦后的第一天大BOSS亲临现场。
大BOSS通过一翻查看,发现这两台刀片的boardcontroller的firmware没有显示版本显示,也就是看不出来是什么版本,会不会是因为这个导致的问题呢?于是通过SSH登录UCS Manager,进行了如下操作:
C6248A-A# scope chassis 2
C6248A-A /chassis # scope server 6
C6248A-A /chassis/server # scope boardcontroller
C6248A-A /chassis/server/boardcontroller # activate firmware 14.0
Warning: When committed this command will reset the end-point
C6248A-A /chassis/server/boardcontroller # commit-buffer
待刀片再次发现时竟然通过了那个7%,直至发现成功!至此,RMA过来的那两台刀片所出现的问题得以解决!
大BOSS出马,哇嘎嘎……(*^*)

两台刀片正常之后,我们在想另外两台是不是也是因为这个原因呢?于是我们再一翻折腾,把原来的一台刀片服务器再次插入刀箱,进行检查。然而事于愿违,最终不得不将故障刀片发走!
**********************************************************************************************
总结:
1、故障处理必须要细心,不能放过每一个环节。
2、不要用惯性思维对待每一个故障,猪是撞到树上死的,可是兔子不一定是撞到树上死 。我和同事在对待RMA的刀片上就犯了这个错误。

3、处理故障时要把事情缕顺了!一点点来,一步步走!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  故障 discovery B200