网络闪断故障的背后
2015-12-03
故障现象
我单位总部在福州,在全省九个地市有分支机构,分别租用中国电信、中国联通的2M SDH互联,两条线路互为热备。总部路由器为Cisco 7304,用STM-1 155M的板卡分时隙与各地市互联。
前一段时间,陆续有分支机构机房预警系统出现电信线路秒断的报警信息,在总部的路由器上查看日志,有出现互联板卡重启的提示信息,但路由器运行正常,也没有出现影响业务正常开展的情况。后来有一天上午,刚上班就有几个分支机构报告业务系统没办法登录,查看路由器,与各分支机构互联线路的端口和协议都是Up的,但Ping广域网地址却出现严重的丢包,正常的Ping会丢40%,1000字节的包会丢50%以上,难怪业务系统没法登录。
图1 路由器日志信息
故障排查
会不会是线路出了问题?第一时间和电信大客户取得联系,请他让电信技术人员帮忙查找原因。有六个分支机构同时出现这个问题可不是个小事,于是请示领导将相应的线路端口shut down,启用备用线路让业务系统正常登录开展工作。各分支机构电信运营商的技术人员也积极查找原因,有打环测试,有用仪器测试,均没有发现线路质量问题。
如果不是电信线路质量问题,那会不会是设备的问题?此次故障前半年,没有修改过路由器的配置。再次认真查看路由器的日志,突然发现一个错误信息(如图1)。
其中,Slot 4承载的正是下联各分支机构的STM-1 155M板卡,板卡重启导致线路中断。如果是这块板卡坏了,问题就严重了。经询问集成商技术人员,他也不能确定。
FPGA(Field-Programmable Gate Array),即现场可编程门阵列,作为专用集成电路领域中的一种半定制电路而出现,解决定制电路的不足,克服了原有可编程器件门电路数有限的缺点。思科在7304路由器的板卡上使用了FPGA技术,单位的7304路由器有更换过该板卡。经咨询思科公司技术人员,确认是Slot 4上的FPGA版本低于设备的IOS版本,导致Slot 4槽位板卡发生了重启现象,造成线路的闪断,思科官方给出的解决办法为升级FPGA的版本。
故障解决
找到故障原因,接下来就是升级路由器的FPGA版本。Cisco 7304路由器可以通过show C7300命令显示各槽位板卡的FPGA版本信息(如图2)。
图2 升级前FPGA版本信息
图3 执行升级命令
图4 升级后查看FPGA版本信息
从图2中可以发现,路由器Slot 4上的FPGA版本01.30低于设备的IOS版本01.40,需升级板卡的FPGA版本。Cisco 7304路由器FPGA版本升级的命令为:
upgrade FPGA all
运行结果如图3。
至此板卡的FPGA版本升级完成。再用show C7300查看(如图 4)。
路由器Slot 4的FPGA版本与设备的IOS版本一致,FPGA升级成功。升级后,路由器运行正常,线路稳定。
经验总结
在设备维护过程中,板卡的更换是再正常不过的事,但Cisco路由器FPGA版本信息相对是比较容易忽略的细节,此类故障一般可通过查看日志文件来发现,所以日常管理中对日志文件所提供的信息要认真查看,认真分析,这样才能及时解决可能出现的故障,不留安全隐患。