传输设备的故障处理思路与方法
2016-12-31唐思
唐 思
传输设备的故障处理思路与方法
唐 思
沈阳铁路局沈阳通信段网管中心,辽宁 沈阳 110001
众所周知,SDH技术之所以得到广泛的应用,除了它具有灵活的分插复用能力和强大的自愈保护功能外,还缘于其强大的网管能力。而SDH技术在铁路通信中作为最基本的传输系统,起着至关重要的作用,所以在日常维护中需要掌握更多的故障处理思路和方法。由于产生故障的因素众多、定位复杂,往往是维护工作的难点。基于此,论述了传输设备日常故障产生的原因及基本定位思路和测试方法。
SDH技术;故障原因;故障定位方法
1 故障处理思路及方法
传输设备经过工程安装人员的安装和调试后,都能正常稳定地运行。但有时由于多方面的原因,比如受系统外部环境的影响、部分元器件的老化、损坏、维护过程中的误操作等,都可能导致设备进入不正常的状态。此时,就需要维护人员对设备故障进行正确分析、定位和排除,使系统迅速恢复正常。
1.1 故障定位的基本思路
1.1.1 工程问题
工程问题是指由于工程施工不规范、工程质量差等原因造成的设备故障。此类问题有的在工程施工期间就能暴露出来,有的可能在设备运行一段时间或某些外因作用下,才暴露出来,为设备的稳定运行埋下隐患。因此,严格按工程规范施工安装,认真细致的按规范要求进行单点和全网的调试和测试,是阻止此类问题出现的有效手段[1]。
1.1.2 外部原因
外部原因主要包括:供电电源故障,如设备掉电、供电电压过低等;交换机故障;光纤故障,如光纤性能劣化、损耗过高,或光纤损断,光纤接头接触不良;中继电缆脱落、损坏或接触不良;设备接地不良;设备周围环境劣化等。
1.1.3 操作不当
此类问题一般都是因为维护人员对设备了解不够深入所导致,也是在维护工作中最容易出现的情况。
对设备的一些细节性的性能特点及注意事项,对新老设备的一些特点和差别以及新旧版本的一些特点和差别不是非常清楚的情况下,就冒然开通,往往就会产生一些问题。
此类问题一般在现场改网,扩容,新老设备混用,新老版本混用,升级,使用新版本的备板,使用一些未经系统联调的板件的情况下易出现[2]。
1.1.4 设备对接问题
传输设备传送业务种类的繁多造成对接设备的复杂,同时,各种业务对传输通道的性能要求也不完全相同,所以在实际使用中有时会存在对接问题。主要表现在线缆连接错误;设备接地问题;传输、交换网络之间时钟同步问题;SDH帧结构中开销字节的定义不同等。
1.1.5 设备原因
主要包括设备自然损坏或板件的配合问题。一般在设备运行较长时间后,板件因老化出现的自然损坏。其特点是:设备已使用较长时间,在故障之前设备基本正常,故障只是在个别点、个别板件出现,或在一些外因作用下出现[3]。
1.2 故障定位的常见方法
1.2.1 观察分析法
当系统发生故障时,在设备和网管上将出现相应的告警信息。通过观察设备上的告警灯运行情况,可以及时发现故障;故障发生时,网管上会记录非常丰富的告警事件和性能数据信息,通过分析这些信息,并结合SDH帧结构中的开销字节和SDH告警原理机制,可以初步判断故障类型和故障点的位置。
通过网管采集告警和性能信息时,必须保证网络中各网元的当前运行时间设置和网管的时间一致。如果时间设置上有偏差会导致对网元告警、性能信息采集的错误和不及时[4]。
1.2.2 测试法
通过观察分析法不能解决的问题,如组网、业务以及故障信息相当复杂的情况和无明显告警和性能信息上报的特殊故障情况。可以利用网管提供的维护功能进行测试,判断故障点和故障类型。下面以环回为例进行说明。
环回操作是定位故障点最有效和常用的方法,要求维护人员熟练掌握。环回不需要对告警和性能做太深入的分析[5]。
进行环回操作前,首先必须确定需要环回的通道、时隙,环回的单板,环回的方向。对于同时出问题的业务,一般都具有一定的相关性,因此对环回通道进行选择时应该坚持从多个有故障的网元中选择一个网元,从所选择网元的多个有故障的业务通道中选择一个业务通道,对所选择的业务通道逐个方向分析的原则[6]。
进行环回操作时,先将故障业务通道的业务流程进行分解,画出业务路由图,将业务的源和宿,经过的网元,所占用的通道和时隙号罗列出来。然后逐段环回,定位故障网元。故障定位到网元后通过线路侧和支路侧环回基本定位出可能存在故障的单板。最后结合其他处理办法,确认故障单板予以更换排除故障[7]。
1.2.3 拔插法
对最初发现某种电路板故障时,可以通过插拔一下电路板和外部接口插头的方法,排除因接触不良或处理机异常的故障。在插拔过程中,应严格遵循单板插拔的操作规范。插拔单板时,若不按规范执行,还可能导致板件损坏等其他问题的发生。
1.2.4 替换法
当用拔插法不能解决故障时,可以考虑替换法。替换法就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。这里的物件,可以是一段线缆、一块单板或一个设备。
替换法适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等;或故障定位到单站后,用于排除单站内单板的问题。如某站光板有告警,我们怀疑收发光纤接反了,则可将收、发两根光纤互换。若互换后,光板告警消失,就说明确实光纤接反。
如支路板某个2 M有“CV性能超值”或者“2 M信号丢失”的告警,我们怀疑是交换机或中继线的问题,则可与其他正常通道互换一下。若互换后告警发生了转移,则说明是外部中继电缆或交换机的问题,若互换后故障现象不变,则可能是传输的问题。
替换法的优点在于方法简单,对维护人员要求不高,是比较实用的方法,但对备件有要求[8]。
1.2.5 配置数据分析法
在某些特殊情况下,如外界环境的突然改变,或由于误操作,可能会导致设备的配置数据遭到破坏或改变,导致业务中断等故障的发生。此时,故障定位到网元单站后,可通过查询、分析设备当前的配置数据;对于网管误操作,还可以通过查看网管的用户操作日志来进行确认。
显然,“配置数据分析法”也适用于故障定位到网元后,故障的进一步分析,该方法可以查清真正的故障原因[9]。
1.2.6 更改配置法
更改配置法更改的配置内容可以包括时隙配置、板位配置、单板参数配置等。因此更改配置法适用于故障定位到单个站点后,排除由于配置错误导致的故障。更改配置法最典型的应用是排除指针问题。
如怀疑支路板的某些通道或某一块支路板有问题,可以更改时隙配置将业务下到另外的通道或另一块支路板,若怀疑某个槽位有问题,可通过更改板位配置进行排除;若怀疑某一个VC4有问题可以将时隙调整到另一个VC4。
在升级扩容改造中,若怀疑新的配置有错,可以重新下发原配置以定位是否是配置问题。
当通过更改时隙配置不能将故障确切地定位到是哪块单板的问题(线路板、交叉板、支路板、还是后背板问题)时,需进一步通过替换法进行故障定位。因此该方法适用于没有备板的情况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。应用更改配置法在定位指针调整问题时,可以通过更改时钟的抽取方向以及时钟源进行定位。
1.2.7 仪表测试法
仪表测试法一般用于排除传输设备外部问题以及与其他设备的对接问题。如怀疑电源供电电压过高或过低,可以用万用表进行测试;若怀疑传输设备与其他设备无法对接是由于接地造成,则可用万用表测量对接通道发端和收端的同轴端口屏蔽层之间的电压值,若电压值超过500mV,则可认为接地有问题,若怀疑无法对接是由于信号不对,则可通过相应的分析仪表观察帧信号是否正常,开销字节是否正常,是否有异常告警等[10]。
1.2.8 经验处理法
在一些特殊的情况下,如由于瞬间供电异常,低压或外部强烈的电磁干扰,致使传输设备某些单板进入异常工作状态。此时的故障现象,如业务中断、ECC通信中断等,可能伴随相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。经验证明,在这种情况下,通过复位单板,网元掉电重启。
重新下发配置或将业务倒换到备用通道等手段,可有效地及时排除故障、恢复业务。
1.3 排除故障的一般思路
机房维护人员维护工作中,不免会遇见设备出现故障,在处理故障时,应该遵循“一查看、二询问、三思考、四动手”的基本原则。
1.3.1 查看
首先到达现场后查看出现故障的现象,即查看设备的哪一部分出现故障,有何种告警产生,严重程度如何,造成多大危害等,才能透过现象看本质。
1.3.2 询问
观察完现象后,应询问各阶段现场人员,是何种原因造成了此故障,比如是否有人修改了数据、删除了文件、更换了电路板、停电或雷击、误操作等。
1.3.3 思考
问明情况后,透过现象、原因等,根据自己的知 识作思考、分析,判断何种原因可能引起该种故障等,作出较为正确的判断。
1.3.4 动手
根据前面三个步骤找出故障点,通过修改数据、更换电路板及芯片等手段解决、排除故障。
2 综述
因传输设备产生故障的原因众多,在实际的处理过程中,我们应结合具体情况具体分析。灵活采用多种处理方法及时有效地进行处理,避免系统性能劣化对整个设备造成损伤,从而影响重要业务。SDH系统作为骨干传送网,是数据网、核心网、无线G网等所有业务网的安全运行基础,保障其稳定运行是运维管理工作的重点。首先分析定位人员须熟悉网络、掌握SDH系统相关知识,能有序指导相关部门展开定位分析。其次,设备运行环境不达标会影响系统的稳定性,机房温度、湿度和清洁度需努力整治实现标准化。
[1]云利峰.浅析大唐光传输设备常见故障及处理方法[J].内蒙古科技与经济,2016(7):155-159.
[2]吕卓琼,冷秀敏,栾洋.浅谈传输网络及设备的故障定位处理方法[J].科技视界,2015(25):273.
[3]李艳红.试论SDH传输维护中故障定位处理技术[J].中国新通信,2011(20):88-89.
[4]肖潇,唐艳冰.电力通信系统维护中几例故障分析与处理[J].中国高新技术企业,2010(15):126-127.
[5]沈剑.SDH同步传输系统的故障处理方法[J].电信技术,2001(1):40-41.
[6]郝文娟.SDH系统故障定位及主要故障处理探讨[J].硅谷,2014(24):49-50.
[7]张宗亮.SDH设备故障的定位与方法[J].中国电子商情:科技创新,2014(3):117.
[8]李艳红.SDH传送网中通道保护倒换问题分析[J].信息通信,2011(5):164-165.
[9]刘欣,叶敏.SDH传输网络故障分析与处理方法[J].科研,2016(5):00047.
[10]王铭.刍议SDH传输维护中故障定位以及处理技术[J].华东科技:学术版,2015(12):29.
Troubleshooting ideas and methods of the transmission equipment
Tang Si
Shenyang Railway Administration Center of Shenyang Railway Administration, Liaoning Shenyang 110001
It is well known that SDH technology reason to be widely used, except it has a flexible points in multiplexing capability and strong self-healing protection function, but also due to its strong management capabilities. And SDH technology in railway communication do for the most basic transmission system, plays a vital role, so in the daily maintenance of the need to master more troubleshooting ideas and methods. Because of the many factors that produce fault, the location is complex, it is often difficult to maintain the work. This paper discusses the causes of the daily failure of transmission equipment and the basic orientation and testing methods.
SDH technology; fault reason; fault location method
TN929.11
A
1009-6434(2016)08-0105-03