不可小视设备温度
2017-11-08
故障现象
近日,某小区用户反映上网时常会中断,中断的时间大概在10分钟左右。由于网络中断的时间比较短,故障现象不容易捕捉到,这给故障的排查带来了困难。
故障分析
按照故障现象,首先排查了该OLT连接BRAS的端口收发光功率和设备的配置均没有问题。赶到现场,根据用户ONU的MAC地址查找到了其所属的OLT,然后使用ONU进行上网测试,一段时间后果然出现了上网故障,于是决定配置端口镜像进行抓包分析。
抓包可以用来检查网络安全,也经常用来进行数据截取等,达到数据分析的目的。本例故障需要对数据进行截获。配置端口镜像,端口镜像功能通过在交换机或路由器上,将一个或多个源端口的数据流量转发到某一个指定端口来实现对网络的监听,在不严重影响源端口正常吞吐流量的情况下,通过镜像端口对网络的流量进行监控分析。在网络中用镜像功能,可以很好地对内部的网络数据进行监控管理,在网络出故障的时候,可以快速定位故障。按照镜像端口的定义,需要定义源端口和目的端口,针对此次网络的具体情况,定义上联口8/1为源端口,8/5为目的端口。接下来开始对端口进行镜像配置,具体的配置命令如下:
通过上面的配置,定义了监视端口是8/5,被监视端口即源端口是8/1,端口8/1上联 BRAS,端口8/5连接抓包电脑。通过使用专业抓包工具发现许多黑底红字的报文,该报文大多是TCP错误包或者校验和错误的包,这说明数据在转发过程中出现问题。出现这种报文的原因多半是网络拥塞,导致顺序包抵达时间不同,延时太长,或者包丢失,需要重新组合数据单元。这时候我们发现宽带连接上网又断开了,而且上不去网的频率逐渐增大。
上面通过抓包分析到网络中出现拥塞,会不会是设备的处理能力存在不足的情况?根据这一假设我们登录上OLT设备,分别使用命令show memory和show cpu-utilization查看内存和CPU的内存利用率,均没有发现明显异常情况。为了尽快解决问题,我们准备在现场准备一个测试机,然后采取逐个PON口断开的办法锁定故障点。就在插拔第一个PON口的时候,发现设备的PON模块很热,使用命令show card-temperature对设备温度进行查看,设备温度显示70度,很显然设备温度过高。
故障解决
立即着手检查设备,发现风扇没有正常工作,原因是连接风扇的电源线处于断开状态。首先调整好风扇电源线,然后对设备的滤网进行清理除尘。经过一段时间的观察,网络恢复正常,同时查看设备温度,显示35摄氏度,这一数值已经在正常的范围内。
故障总结
上面我们从得知故障现象后,认真收集了故障信息,然后采取了使用镜像端口对数据抓包的方式进行问题分析,在得到故障原因是由于网络拥塞引起,紧接着通过搭建测试环境,最终发现是设备温度过热,导致工作不正常,从而影响了正常上网数据的转发。
这次故障的处理过程存在一定的侥幸心理,如果设备温度一直保持或者持续升高,不但严重影响的宽带用户上网感受,而且会导致设备轻者宕机,重者整机物理损坏,带来不可预料的后果。借鉴此次故障的处理我们举一反三,对所有在网OLT的风扇、包括其他硬件进行了一次排查,从而杜绝了此类事件的发生。