浅谈国际传输业务故障处理经典方法
2022-07-29郑科英陈鹏
[郑科英 陈鹏]
1 引言
当今是信息的时代,世界需要互通你我,再加上我国早前的“一带一路”战略,中国企业的“走出去”以及国外企业的“引进来”都带来跨境企业国际化通信的新需求,所以国际通信是愈发蓬勃和重要。目前中国电信所提供的国际传输产品有IPLC(基于SDH 网络的国际专线产品)、IEPL(基于SDH/SONET/OTN/WDM 等网络的国际以太网专线产品)、GWL(基于OTN/WDM 网络的大颗粒全球波道产品)、低时延产品和国际互联网接入产品等等,此外还有自己网内的CN2、IP 等数据中继业务。那么多的国际传输业务,该如何正确地处理相关故障呢,下面将开始论述。
2 传输故障的表现方式
传输故障的表现方式对最终客户来说体现为业务使用出现异常,比如使用过程突发通信完全中断、瞬断、丢包等现象,而对于传输通道来说则是通过增加开销字节实现监控和管理,网管和机房等运维操作人员可通过出现的告警和性能事件分析以及相关的处理方法来确认和解决所出现的传输故障。
3 传输故障定位的原则
故障定位和处理并没有一种固定不变的思路,通常可以根据具备理论知识的运维操作人员的处理经验以及对定位手段的熟悉程度灵活运用,但一般来说为了快速和准确地定位故障仍需要遵循一定的原则。故障定位原则并不会因跨国界和地域而有太大的差别,所以无论是国际还是国内的传输业务,一般应遵循“先外部,后传输;先单站,后单板;先线路,后支路;先高级,后低级”的原则。
(1)先外部、后传输。即强调故障定位的维护界面顺序,首先要对外部因素(电源、断纤、客户侧比如交换机或路由器等)先实施分析,排除可能因素,此环节的开展不仅需要熟练掌握网络结构,同时也要对维护界面有清晰的界定。
(2)先单站、后单板。尽量先定位到站点,再进一步分析故障位置,进而细致定位到相应的故障板卡。
(3)先线路、后支路。源于线路侧对支路侧的影响,一旦前者发生故障,常常会导致后者也出现告警,因此在定位故障时需要遵循此原则。
(4)先高级、后低级。即以告警级别作为处理的顺序,一般会按照从高到低的顺序执行告警分析。
简而言之,在故障定位的过程中需要具备清晰的处理思路,时刻保持头脑的灵活清醒,在遇到疑难故障更要注意多沟通再加上网管、测试工具等多种方法相结合进而有步骤、有计划地定位判断。
4 传输故障经典处理方法
根据传输故障在处理过程中的经验总结,可将其划分为三个步骤,分别是“一分析,二环回,三更换”:当业务故障发生时,首先需要与申告客户充分沟通,了解申告的故障现象,若是发生系统级别的故障,一般都有智能自动的集中监控系统来主动监测和上报告警,此时就可以通过对告警列表、性能事件、业务流向等进行分析,初步判断故障点范围;当处理完系统级别的故障后若还存在单个客户业务故障的话,接下来可在申告客户允许的情况下,可以通过逐段环回,排除外部故障,并最终将故障精确定位;最后的处理环节一般是通过更换故障器件,比如相关存在问题的板卡等设备,以达到解决故障问题的目的。
对于国内传输故障基本可以在电信内部自行判断和解决,而国际传输业务的故障由于涉及其它境外合作运营商,所以需要与对方协同判断。按照国际惯例,早在国际传输业务开通阶段就需要跟境外运营商共同执行一个称为“核对M1045”的操作,因为对方跟我们是不同的电信公司、各自会使用不同的业务标记方式,所以我们必须使用双方都认可的方式进行协商,比如双方对接传输系统所占用的资源、彼此的业务名称、预计测试和交付时间、测试方式等内容;另外还需要注意的是对于SDH 业务来说,VC12封装进VC4 的方式我们国内是采用华为373 结构而境外大多是采用朗讯373 结构方式,所以在匹配资源的时候需要注意转换,若使用波道也需匹配清楚所使用的频率等信息,这些在故障处理的时候都是需要特别留意的。随着光传输技术的发展,以波分技术为基础演化的OTN 网络技术开始在光传输网络进行应用,使之前最大颗粒为10G 的传输业务向40G、100G、200G 和400G 的大颗粒带宽业务发展,传输设备客户侧接口也从原来只提供单一的SDH格式发展为OTN、LAN 和WLAN 等信号的多信号格式来满足不同客户需求。因此,在故障处理的时候,需要结合多种传输技术进行综合应用处理。
故障定位原则和方法是只是一个指引,实际遇到的故障可能会复杂得多,具体问题需具体分析,所以平时不断积累原理知识和处理经验就显得尤为重要。上述几部分的介绍主要适用于陆缆,而由于海缆铺放地理位置和传输距离的特殊性所以其故障处理又需要使用不同的方法,现在接着介绍一下。
5 海缆故障经典处理方法
海缆就是海底光缆的简称,海缆传输系统就是用海底光缆进行传输的系统。海缆通信常用于洲际之间、岛屿之间、岛屿与大陆之间的通信,跨越海洋从而连接全世界,是国际间通信联络的主要传输媒介之一。我国的登陆站有广东汕头登陆站(隶属于中国电信)、山东青岛登陆站(隶属于中国联通)、上海崇明登陆站(隶属于中国电信)、上海南汇登陆站(隶属于中国联通)和香港春坎角(隶属于中国电信)、上海临港(隶属于中国移动)。由于海缆线路长而且途径的海域情况各异,经常受到渔业捕捞,海上航行和地震等外力影响发生故障,每次故障维修时间的长短都影响所经此海缆的国际业务的运营。因此,在发生海缆故障后,必须尽快开展精确的故障定位和维修,尽快恢复国际业务的运营。现分享一下汕头海缆站海缆故障分析和定位方法。
5.1 海缆的故障类型
(1)旁路故障(shunt),可以理解为海缆没有完全断开,只是绝缘层破损光纤没有中断,铜导体没有完全中断,但是与海水接触,破损位置铜导体形成接地点,登陆站远供电源设备电流电压发生变化。如果故障段落是双方供电,双方远供电源设备根据故障点位置的零电位自动上升或下降输出电压供电至故障点处,确保故障段海底中继器,分支单元器件供电正常,保持业务不受影响,但故障段是属于单供模式下,登陆站只能供电到故障点,故障点之后的海底器件将无法供电进行正常工作,此时业务会受到影响。所以此时的故障处理方式有,电压电流估算法、COTDR(第一个中继器后故障)或OTDR(第一个中继器前故障)或具有上述功能的网管系统。
(2)短路故障(short),可以理解为海缆完全断开,包括光纤中断,还有铜导体也完全中断并与海水接触。所以此时的故障处理方式有,COTDR(第一个中继器后故障)或OTDR(第一个中继器前故障)或具有上述功能的网管系统。
(3)开路故障(open),可以理解为海缆绝缘层没有破损,铜导体中断,但是没有与海水接触。两个端站的远供电源系统不能形成回路而自动下电、读数都为0,业务会受到影响。此时的故障处理方式只有电容测试仪。
(4)纯纤芯故障(fiber break),可以理解为单纯光缆里面一根或多根光纤故障,但供电导体完好,故障光纤可以是发光纤也可以是收光纤还可能收发纤同时中断,所以虽然供电正常但是业务会受影响。此时常用的方式为,COTDR(第一个中继器后故障)或OTDR(第一个中继器前故障)或具有上述功能的网管系统。
5.2 常用海缆故障定位测试方法和注意事项
根据统计,海缆故障类型基本是旁路故障和短路故障,因此使用最多的故障定位方法是电压电流计算法和COTDR 仪表测试方法,下面介绍下这两种方法的测试原理。
(1)电压电流估算法
在旁路故障判断的过程中,一般会采用电压电流测试法来完成,并按照直流电压电流特性的作用原理,最终找到故障发生的地点,具体公式展示如下:
(公式参考来源:SMW3 海缆的联合维护文档,1998)
Current Voltage:故障时候远供电源设备电压读数
Repeater Drop Voltage:中继器压降
SHUNT DROP Voltage:故障点对地电压,一般为0V;
Earth DROP Voltage:接地点电压
Km Cable Resistance:每公里电阻值
Current Specification Value:故障时远供电源设备电流读数
例1:SMW3 S2 段海缆发生旁路故障,远供电源设备读数为312 V 和1 A;经过测试网管测试,故障位于第三到第四个中继器之间,单个中继器压降31 V,接地电压为1 V,海缆每公里电阻值为1 Ω。根据公式计算,结果为:(312-31*3-0-1)/1*1=218(km)
(2)OTDR/COTDR 测试法
光时域反射仪(OTDR)作为一种高精确度仪表主要用于光纤衰耗的测试。采用背景光反射的原理,在一根光纤内进行反射,适用范围局限在无中继的光缆段。根据以往海底光缆的故障案例,故障点多数是距离海边较远,而且是多个中继器经过的位置,在这种故障区域使用光时域反射仪就不能达到解决故障的目的,这时就需引入相干光时域反射仪(COTDR)对故障位置进行测试。同时,这种方法是在测试光纤故障和短路故障问题上最行之有效的方法,测试结果准确,能够准确地找到估算故障点的位置。在海底光缆故障测试过程中,为了缩短测试的时间,提高测试精度,两个端站往往会利用两个COTDR 仪表并设置在1 558 nm 波长进行测试,且要保证杜绝在同一对光纤中同时使用两台COTDR 仪表进行对测的现象。
图1 COTDR 的反射光通过COTDR Loop back path返回测试端
COTDR 工作原理介绍:COTDR 利用瑞利背向散射原理进行探测,探测的是发送光纤的反向传播光,为了确保背向散射光的信号得到放大,每到一个中继器之后,将散射信号耦合到接收光纤,当只有发送光纤中断时,测试结果为断点位置,当只有接收光纤中断时,由于本中继段的信号不经过断点,因此COTDR 仍可以测试到故障点之后紧邻的中继器。而之后的中继段的信号因为环回路由中断而无法探测。因此故障点在断点之后紧邻的中继器。这就是为什么同一对光纤需要两个站点同时测试的原因,这样才能准确定位到故障。(原理参考来源:APCN2 海缆的联合维护文档,2001、SJC 海缆的联合维护文档,2019)。
图2 COTDR 原理图
COTDR 波形图介绍:
不同海缆在使用COTDR 测试时因参数问题导致测试波形不准确,难以定位故障。根据分析与实际情况结合,发现由以下几点原因。
(1)COTDR 的距离范围设定值必须大于站到故障点之间的距离。
(2)脉宽设置值越小,图形精度越高,但开始的图像很粗糙,需多次平均才会变得平滑,耗时会较长。
(3)仪表GAIN 值要选海缆,不要设置为其他值。
(4)尽量选择带外波长,以免影响其他正常段落的业务。
(5)在不影响业务的前提下,可以要求对方站拔掉SLTE 到海缆的光纤,排除对端光信号对COTDR 的干扰,同时也可降低对对方接收端造成损害的可能性。
COTDR 关键参数介绍:
(1)The Distance Range:测试距离范围。仪表选取最大距离必须大于故障点位置。
(2)Pulse Width:脉宽。选择合适的脉冲带宽,但必须注意,功率过高会影响到图形的精度。
(3)Wavelength setting value:仪表发射波长。根据瑞利散射能量和波长的变化关系(瑞利散射的能量大小与波长的四次方的倒数成正比),可以了解到波长越短散射越强,波长越长散射越弱,由于测试损耗值偏小,因此这种测试方式在长距离测试上比较适用。
(4)Average of successive measurements:对多次测试数据的平均量化结果。采用多次平均以提高准确性,但次数过多的平均会延长测试时间。
(5)Measurement accuracy and visibility:测量精度和叠加后换算的图形。精确度取决于脉宽,能见度取决于接收的信噪比,因此增大脉宽可以提高能见度。
一般COTDR 仪表各参数设置可以参考如图3 所示。
图3 COTDR 参数设置示意图
例2:某次海缆故障经过COTDR 仪表测试结果如图4 所示。
图4 海缆故障COTDR 测试结果图
测试数据分析如下:
(1)中继器1到中继器2的距离为430-380=50(km)
(2)故障点到中继器2 的距离为460-430=30(km)
由此分析结果为:故障点位于中继器2 和中继器3(测试不到中继器3 的波峰)之间,故障点是460 km。
(注:实际故障处理中涉及的中继器有很多,图示只是截取靠近故障点部分中继器的位置,实际需要根据故障点的距离位置、中继器数量段落进行匹配确认故障点位置是否与中继器位置重合,重合会产生镜面反射迷惑测试结果。)
6 结束语
本文提出了国际传输业务故障处理的经典方法,旨在能让更多的人了解和关注国际传输业务。毕竟人类是一个群居体,从生命诞生以来人类的生活就不开信息的交流,国家的存在需要其他国家的支撑,并非单独依靠自身即可长久生存的,因此要想实现长久发展,必须与其他国家建立联系关系,进行积极的交往和合作,国际通信技术则促成了国际的合作,如今的现代通信网络则连接全球来实现亿万人口的即时沟通,而在这个世界经济整体化发展的全过程中,特别在全球疫情常态化的影响下,国际通信就显得尤为重要了。当然,国际通信的概念比国际传输要广泛得多,但国际传输技术却是最基础的一种,毕竟只有根基稳固了,上层建筑才能更健壮发展,掌握了国际传输业务故障处理的经典方法就有助于明确故障处理的思路,但故障处理的方法并不唯一,而经验也需要不断积累,希望每一位国际传输通信人都能在工作中找到适合自己的故障处理方法,不断提升自身业务水平,做到快速定位故障,迅速解决问题,为国际传输网络的稳定发展和传输业务的正常运作多出一份力。