MSTP设备常见故障处理
2019-11-11谢芳,黄河
谢 芳,黄 河
(海峡之声广播电台,厦门 361001)
1 引言
随着IP技术广泛应用,传统的SDH传输技术以越来越无法满足人们的需求,MSTP越来越被人们重视起来。本文列举了MSTP设备常见的几类故障场景,并针对各个故障场景,逐一给出故障现象及故障处理方法。
2 日常维护要求
2.1 快速恢复日常维护要求
随着MSTP设备应用的广泛,MSTP设备的维护也得到了重视。简单的设备维护可以从以下几个步骤入手:
步骤一:日常数据备份
数据库自动备份策略设置的网管入口:系统>网元软件管理>网元备份策略管理,ASON&分组网元每天一次,其他网元每周一次。
网管脚本定时备份:在网管上创建“全网配置脚本”文件的定时备份任务,每周一次。
网管数据库定时备份:在网管上创建数据库定时备份任务,每月一次。
网管侧业务路径信息导出:网管侧SDH业务路径导出,ASON控制链路/TE链路/智能电路信息导出,分组Tunnel/PWE3业务路径导出,每周一次。
步骤二:采集工具部署
在Support网站下载“UEasyDataCollection”工具后安装在U2000网管服务器上。
步骤三:日常例行检查
数据库检查:在Support网站下载“DBCheckerUI"工具检查。
高危告警检查:筛查&处理全网高危告警(如下表),禁止屏蔽。
表1 重要告警列表
2.2 故障信息采集要求
故障信息采集是较为重要的一环,我们可以借助相关工具来更加快速精准的完成故障信息采集。
故障业务相关信息反馈:
(1)故障发生时间、网管告警、网元异常状态(如脱管、响应慢等)。
(2)业务保护类型&状态、设备类型&版本。
(3)中断业旁类别数量,选取一条中断业务给出路径信息。
故障前后异常&操作信息反馈:
(1)故障前:是否有升级、掉电、割接、光纤中断、对接设备的操作等。
(2)故障后:是否有网管配置上下载、业务配置、拔插纤缆/单板等。
数据备份情况:
是否有网元数据库/网管配置脚本备份、巡检数据等。
数据采集:
采集网管当前告警、操作日志、异常事件(推荐使用UEasyDataCollection工具快速采集)。
3 常见故障现象及处理方法
3.1 复用段业务中断
3.1.1 环形复用段业务中断
故障现象:
环形复用段倒换或倒换恢复后业务中断,或者环形复用段状态异常。
处理方法:
(1)复用段协议全环停启(可能会导致环上业务短暂中断)。
(2)复用段断纤点区段两侧强制倒换。
(3)断纤点两端网元交叉板主备倒换。
(4)复用段环先删后建。
(5)核实故障业务是否配置在复用段的额外通道上、是否多点断纤、是否光纤错连。
3.1.2 线性复用段业务中断
故障现象:
线性复用段创换或倒换恢复后业务中断,或者线性复用段状态异常。
处理方法:
(1)停启复用段协议。
(2)强制倒换到保护通道。
(3)复用段先删后建。
(4)排查1+1线性复用段是否缺少双发业务。
(5)若和友商设备对接,关闭激光器触发对端倒换。
(6)若和友商设备对接,修改两端配置为1+1单端线性复用段保护。
3.2 EoS板故障
3.2.1 EoS板业务中断
故障现象:
EoS板端口流量为0或很小,其他TDM业务正常,即可判定为EoS板业务中断。
处理方法:
若有配置操作,则回退。
若无,则判定SDH通道是否异常:
(1)数据板是否存在SDH侧告警(如AIS、UNEQ、SLM、EXC、SQM等)。
(2)测试帧结果是否正常。
(3)修改数据板通道开销J1/J2(VC4只能在线路板修改J1)在对端检测实收值。
若SDH通道异常,则去激活后激活SDH业务或更换SDH路径。
若SDH通道正常:
(1)倒换BPS/PPS/DLAG/LAG。
(2)去使能后重新使能以太端口;去使能后集新使能LCAS。
(3)删除VCTRUNK绑定后重新绑定。
(4)删除后重配以太业务。
(5)硬复位单板(会影响整板业务)。
(6)修改专网为专线业务。
检查端口参数:
检查端口TAG属性&工作模式&封装模式&VLAN ID是否配置正确。
3.2.2 EoS板业务成环
故障现象:
对于EoS专网业务,故障端口广播或组播流量达到1M以上,或单板响应很慢、查询端口实际工作模式等命令超时,或存在ETHOAM_SELF_LOOP、ETHOAM_ VCG_SELF_LOOP告警,其他TDM业务正常。
处理方法:(1)若有配置操作(如新增交叉、配置VCTRUNK等),则回退。(2)检查Hub/Spoke属性。注:若单板响应慢导致命令无法下发,请先在网管设置,然后硬复位单板,使配置生效。
(3)删除VB内所有端口后逐一添加,判断添加到哪个端口后业务异常。
3.3 ASON网络故障
3.3.1 ASON网络资源不足
故障现象:
ASON网络断纤/断缆后:
(1)故障业务存在CP_SRV_INT/CP_SER_INT/SER_INT告警。
(2)查看网管异常事件,故障业务在对应时间点存在重路由失败(事件错误码为40497)。
处理方法:
尽快修复中断的光纤/缆(如无法立即修复,可尝试如下操怍):
(1)国将与故障业务源宿节点相同的钻石级业务转为银级业务(选中需要操作的业务,单击鼠标右键选择“在线转换”->“银级”)。
(2)手工优化其他相关的ASON业务路由,确保中断的业务有资源可重路由。
(3)若存在CP TEL DEGRADE告警,排查链路DCC通道的 D4-D12是否配置正常(“网元管理器”->“通信”->“DCC 管理”)。
3.3.2 ASON业务中断
断纤/断缆触发的ASON重路由后业务中断(已排除ASON资源不足)
故障现象&判定:
(1)ASON网内故障:故障业务存在CP_SRV_INT/CP_SER_INT/SER_INT告警。
(2)ASON网外故障:业务源端有RLOS/RLOF/AU_CMM/AU_AIS/HP_UNEQ或CP_SRV_INT_OUT告警。
处理方法:
(1)若是ASON网内故障:一是解除锁定:在“智能路径管理”界面选中故障路径,单击鼠标右键选择“设置路由属性”,修改成不锁定。二是业务优化:在“配置”>“SDH智能”>“智能路径管理”>“维护”界面中,单击优化。三是重新配置:去激活后重新激活业务;删除智能业务后重建静态业务。
(2)若是ASON网外故障:一是接入点保护倒换:若ASON业务的源/宿接入点存在1+1或1:1MSP保护,进行保护倒换。二是接入点告警清除:若ASON业务源/宿节点端口有RLOS/RLOF/AU_CMM/AU_AIS/AU_LOP/HP_UNEQ/HP_TIM等告警,先清除这些告警。
4 结束语
除了以上列举的故障外还有一些比较简单的其他故障,如电源故障、单板故障等。MSTP技术一定会被越来越多的人接受,其设备的日常维护与故障处理保障也将成为必要。