软失效导致OLT设备脱管问题分析
2018-12-24
OLT作为局端设备,主要用于对终端业务的控制和承载,同时在整个接入网络中,OLT也作为承上启下的“业务桥梁”,承担着故障处理的“分水岭”的重要责任。一旦OLT设备发生异常故障,就会给终端业务造成十分严重的影响。
图1 大量报错打印信息
在日常维护工作当中,OLT所引起的故障,大家都已经十分熟悉了,而本文则主要给大家分享一种日常不常见的OLT脱管故障及处理方法。
问题描述
近 日,有 同事发现某地的烽火GPON机房5516-01 OLT Telnet登录失败,也无法ping通,专业网管显示设备脱管。
问题分析
步骤1:现场登录主控盘上,发现有大量报错打印,如图1所示。
步骤2:这是交换芯片的ParityError报错,芯片厂商的相关资料如下:
1.概念:ParityError称为软失效,软失效是指由于高能粒子单元对芯片晶元的撞击,产生大量的电子空穴对,当这些带电粒子的带电量与芯片存储单元的阀值电荷量相当时,将会导致芯片比特翻转而引起单/多比特错误。
2.产生原因:芯片尺寸越来越小,功耗越来越低,晶体管的节点电压和工作电压都随之降低,使得芯片也越来越容易产生软失效的问题。
软失效的原因分为如下两大类:芯片封装材料中放射性元素产生的alpha粒子,1%的错误是多比特错误;宇宙射线的高能中子和低能中子,30%的错误是多比特错误。
3.失效概率:一般储存器芯片厂家都会给出芯片的软失效率(SER)。
单 位 FIT(Fail In Time),即每109个小时芯片发生软失效的错误数。根据芯片储存容量的不同一般表为FIT/Mb,其中1FIT/Mb=1fail per 109hrs per 106bits=1015fail/bithour。瑞萨提供的SER,封装材料alpha粒子引起的SER为126FIT/Mb,宇宙射线一起的 SER为 98FIT/Mb。
4.处理机制:
问题现象:某个表项或者寄存器出现比特翻转,导致业务中断。
处理机制:芯片内部硬件周期性快速的检查所有表项,若检测到某个表项出现PARITY/ECC错误,则通知CPU,CPU使用该表项的软备份配置重新刷新该表项进行恢复。
注意事项:软件需要备份存储所有相关表项的配置值,若表项很大,则会耗费CPU大量内存。
步骤3:经过以上分析,以及结合现场问题的报错打印信息,确定了该问题是由于主控盘的交换芯片的软失效导致。
问题结论
根据以上排查和分析,确认问题原因是由于主控盘的交换芯片的软失效导致。
解决方法
1.通过查询失效业务的相关寄存器,如果发现有EVEN_PARITY=1,则存在软失效问题,此时只能重启单盘解决。
2.如果重启后仍然上报EVEN_PARITY并且不消失,请更换机盘。
小结
OLT软失效脱管故障的发生,从无法登录OLT设备进行查看,到维护人员初步判断怀疑是链路故障、光模块故障、设备是否掉电。而失效过程中并没有收到OLT所带用户上报故障,赶到现场也没有发现设备断电、端口指示灯正常,有数据灯闪烁。
如何快速寻找并正确定位处理至关重要,维护人员现场通过采用串口线连接设备,采集设备日志信息发送给厂家,分析出产生故障原因,进而采取针对性的排错举措。