SDH 设备的维护与故障处理
2013-07-03周五成
周五成
(忻州市4844 电视转播台,山西 忻州 036200)
SDH 光同步数字传输设备[1]是构成综合业务数字网(ISDN),特别是宽带综合业务数字网(BISDN)的重要组成部分。因其具有规范的接口、灵活的复用方式,自动化程度很高的维护,很强的兼容性,而普遍应用于高速、大容量的光纤通信系统中,担负着传输数据及其它增值业务的重任。而SDH 设备的维护是保证整个网络安全运行的关键。
SDH 设备的维护可以分为例行维护和故障处理两部分。本文重点就故障处理谈一些维护方法。
1 SDH 设备的故障维护分类
SDH 设备的维护可分为两类:网管维护和设备(网元)维护。
1.1 网管维护
网管中心维护人员,可通过网管计算机查询设备的详细数据,在设备出现故障时,有大量的告警、性能数据供其分析、定位,因此可以定位到较细、较精确的故障点,能判断和处理常见的故障。
1.2 设备(网元)维护
网元维护人员无网管可供使用,只能通过设备、单板告警灯的闪烁情况来分析定位故障。
2 故障分析法
2.1 设备维护人员的故障分析方法
设备维护人员故障分析的基础是设备告警指示灯反馈的告警信息,因此在日常维护中,要时刻关注告警灯的闪烁变化。首先应当观察机柜顶的告警灯,是否有高级别的告警(紧急和主要告警)。不过注意,只通过机柜顶的告警灯,可能漏过次要的告警(次要告警机柜顶指示灯不亮),而次要的告警往往预示着本端设备的故障隐患,或对端设备存在故障,不可轻视。因此在观察了机柜顶告警指示后,还需通过观察设备各单板告警灯的不同闪烁情况,以分析、定位故障点。所以,设备维护人员要掌握各单板告警灯的不同闪烁所代表的常见告警,以此作为日后判断、定位故障的基础。
设备发生故障时,很多单板都是红灯闪烁,为避免混乱,分析原则为:先线路板,再支路板;先告警级别高的单板,再告警级别低的单板。
2.2 网管维护人员的故障分析方法
对网管维护人员,用网管计算机对设备进行监控,可看到很多细节性的信息、告警和性能,并能对全网络有一个整体观察。还有一些告警是由基本告警衍生出来的,不能通过它们定位出故障点。如:某站接收端出现了MS-RDI(远端信号劣化指示)告警,不能说明本端接收出现故障,相反是对端站接收出现了R-LOS(信号丢失)或R-LOF(帧丢失)告警,而向本站传送的对告信息,在这里MS-RDI 就是由R-LOS 或R-LOF 衍生出来的。对SDH 设备出现故障,则应先分析告警,再定位故障点,最后进行相应的处理。
3 SDH 设备故障分析定位的基本步骤和处理流程
3.1 故障分析定位的基本步骤
3.1.1 确定故障区段
(1)检查光纤、电缆是否接错,光路和网管是否正常,排除设备外围的故障。
(2)检查各站点业务配置是否正常,以排除配置错误的可能性。
(3)通过告警性能来分析故障的可能原因。
(4)通过逐段环回进行故障的区段定位,将故障最终定位到单站。
(5)通过单站自环测试来定位可能的故障板。
(6)通过更换单板来定位故障板。
3.1.2 进一步定位故障
(1)对于环形网的光纤连接,要按照从环外看逆时针方向,本站的东侧光板接下一站的西侧光板;对于链形网中的ADM 站点,光纤连接也要按照本站的东侧光板接下一站的西侧光板。可以通过拨光纤、关断激光器检查告警来判断光纤是否接错。
(2)电缆是否接错或不通,可以通过在DDF 架上环回和电接口近端环回,然后检查交换机或其它外围设备是否正常的方法来判断。
(3)检查配置是否错误的重点是根据组网方式、业务方式来检查时隙是否满足业务的需要,另外也要检查单板配置。
(4)可以通过逐段环回来进行故障的区段定位,将故障定位在某一区段直至某一单站,如图1所示:
图1 逐段环回法示意图
如果A 站与C 站之间有业务不通,在A 站用仪表测试,可以先后通过对A 站电接口近端环回、A 站东向线路板光纤自环回、B 站东向线路板光纤自环回、C 站西向线路板外环回、C 站对应电接口端环回来定位故障。若A 站电接口近端环回业务不通,则说明馈线电缆、接口板或支路板故障。若A 站西线路板外环回业务不通,则说明可能是A、B 之间的光路或光纤接口的问题。若B 站西向线路板外环回业务不通,则说明可能是A、B 之间的光路或光接口的问题。若B站东向线路板光纤自环回业务不通,则说明业务在B 站穿通不行,可能是B 站线路板或交叉板的问题。若C 站西向线路板外环回业务不通,则说明可能是B、C 之间的光路或光接口的问题。
(5)通过单站自环来定位故障站点。一般采用光接口内自环的方法来检查告警、误码是否存在或业务是否正常。
(6)通过替换单板来找出故障板。若只有一块支路板业务不通,则很可能是这块支路板故障;若是从线路某一侧下的业务都不通,则可能是该侧线路板或交叉板的这一侧线路故障,可以通过更换线路板或交叉板来定位,若该站所有业务都不通,一般来说是交叉板或时钟板故障。
(7)通过更换配置来定位故障,如果怀疑支路板的某些通道或某一块支路板有问题,可以更换时隙配置将业务下到另外的通道或另一块支路板;如果怀疑某一个VC4 有问题,可以将业务时隙调整到另一个VC4;在很多情况下为了不影响其它业务,还可以将部分时隙配成外环回来定位,在定位指针调整故障时,可以更改站点的时钟跟踪方向或更改提供基准时钟上的站点。
3.2 故障排除的一般流程(如图2所示)
图2 故障排除一般流程图
4 华为公司SDH 设备Optix155/622[2]常见故障具体分析处理
下面以华为公司SDH 设备为例,简单介绍几个故障案例分析:
(1)AU-LOP 告警名称:AU 指针丢失。告警原因:对端站发送部分故障;对端站业务配置错误;本站接收误码过大。处理办法:检查对端站及本站业务配置是否正确,如果不正确,重新配置业务;对于155M 光接口板一般无此故障,若有的话多为此光板配置有误,而622M和2500M 光接口板接收到AU-LOP 告警,应检查对方时钟板是否正常工作,交叉板是否检测到了时钟;如业务为140M 业务,检查业务是否正确接入;依次更换对端站对应的交叉板和线路板,定位故障点;更换本站的线路板和交叉板。
(2)B3-EXC 告警名称:高阶通道(B3)误码过量。告警原因:接收信号衰减偏大;光纤头不清洁或光纤连接器不正确;对端站发送部分故障;本站接收部分故障;B1、B2 误码引起。处理方法:如同时出现B1、B2 误码,应先处理B1、B2;如果只有B3 误码,一般是光接口板坏,更换单板;检查设备工作温度是否过高;如无以上情况,更换故障单板。
(3)MS-AIS 告警名称:复用段告警指示。告警原因:对端站发送MS-AIS 信号;对端站时钟板故障;本板接收部分故障。处理方法:检查对端站线路板是否存在问题,可通过复位或更换单板的方法检查告警是否消失;检查本站线路板,同样可通过复位或更换单板的方法来检查告警是否消失。
(4)TU-LOP 告警名称:TU 指针丢失。告警原因:支路板与交叉板间接口故障;业务配置错误。处理方法:检查支路板与交叉板配置是否正确,如配置错误修改并重新下发;利用自环法,检查两端站母板是否有倒针,依次更换对应的支路板与交叉板的板位。
(5)R-OOF 告警名称:接收线路侧帧失步。告警原因:接收信号衰减过大;传输过程误码过大;对端站发送部分故障;本站接收方向故障。处理方法:一般是光纤断、光纤衰耗太大、接收光功率过载、单板故障等原因;检查光缆是否完好、光接头是否接触良好、清洁光缆连接器;如接收光功率过载,加入衰耗器;如单板故障,更换单板。
以上是在实际维护工作中常见故障及其分析和简单处理的方法,这仅是其中的一部分。
5 结束语
SDH 传输网络是一个复杂的网络系统。通信检修人员在对SDH 设备的维护过程中,必须不断地提高自身的业务水平和处理故障的能力,同时结合现场的实际情况,把以上阐述的对SDH 设备故障的定位、分析与排除的常用方法做到灵活应用。这才是最行之有效的设备维护方法,才能保障网络运行的安全稳定。
[1]杨世平.SDH 光同步数字传输设备与工程应用[M].北京:人民邮电出版社,2001.
[2]华为公司.Optix155/622STM-1/STM-4 兼容光传输系统工程现场培训手册[OL].www.wenku.baidu.com,2010-5-6.