基于光网络设备指针调整问题解决方案
2018-11-26臧卫星
臧卫星
摘要:随着通信的发展,通信网络不断的扩大,网络组成结构也越来越复杂,传输网络在通信网络中扮演着重要角色,它担负着各种通信信号的传送任务。光网络设备是传输网络中重要组成部分,但在安装调试或维护光网络设备时,常遇到光网络设备指针调整问题,导致传输质量下降。本文基于指针调整的机理,分析其产生的根本原因,指出解决指针调整类故障处理的思路、方法和步骤,并结合实际案例就处理光网络设备指针调整问题进行了探讨和分析,通过本文的论述为光网络安装调试或维护人员提供参考和建议。
关键词:网络;指针;指针调整;网元
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)22-0041-04
1引言
当光网络中存在不同步的网元时,就会导致指针调整现象的发生,该现象也为光网络所特有。要使光网络各网元时钟同步必须做到它们的频率相同以及相位相同,只有这样才能使光网络各网元时钟同步,但是在实际光网络使用中并非如此,要做到频率相同、相位相同是非常困难的,那么如何解决光网络时钟同步问题呢,通常采用的方法是使光网络中的频率和相位相互之间尽可能地保持基本一致。也就是说,一方面是利用时钟跟踪的技术在时钟频率上进行调整做到各个网元频率上尽可能保持同步,另一方面是利用指针的方法在相位上进行调整,使得微小频偏和相位偏差尽可能消除,在某一程度上保持相位的一致性。定位是指针的一大特点,通过指针这一特点使得STM-N中分离出的相应VC在收端是准确无误的,在通过拆VC的包直接分离出低速支路信号,使得PDH低速信号得以分离出来。
2基础知识
光网络中有两种指针,英文表达分为别为:AU-PTR和TU-PTR,并有两种指针调整分别与其对应。AU-PTR是管理单元指针,与其对应的指针调整是AU指针调整;TU-PTR是支路单元指针,与其对应的指针调整是TU指针调整。AU-PTR指针的作用在于指示VC4的首字节J1在AU-4净负荷的具体位置,以便接收端能正确分离VC4。以STM-1帧为例:AU-PTR的位置在第4行1—9列共9个字节。TU-PTR指针的作用在于指示VC12的首字节V5在TU-12净负荷中的具体位置,以便接收端能正确分离VC12。 TU-PTR的位置位于TU-12复帧的V1、V2、V3、V4处,为VC12在TU-12复帧内的定位提供了灵活动态的方法。
3指针调整产生及上报的机理
3.1 AU指针调整产生及上报的机理
在管理指针AU-4 PTR中有H1、Y、Y、H2、1*、1*、H3、H3、H3,其中Y的字节是1001SS11(S未做规定),1*的字节是11111111。在VC-4中有9行,270列。在AU帧中,第四行前9个字节为特定位置,采用多个字节来记载帧中相应数据信息的起始位置,也就是说这些字节在本质上即为针,其中H1、H2是指针,H3,H3,H3为负调整机会,在最后一个H3字节后的连续三个字节为正调整机会。记载帧中相应数据信息的起始位置是用来表示数据信息的相位。
同步和非同步是光网络工作的两种不同状态。在处于同步工作状态的光网络中,指针具有相位调整的作用,即校准同步信号相位。当同一个时钟源的时钟支配整个光网络时,网元间的信号传递将使用工作频率相同的时钟,因此不用进行速率适配。但在工作的瞬间上还存在着快慢的问题,故而要进行相位校准。在处于非同步工作状态的光网络中,各个网元在相互传递信息时,工作频率会发生偏差。这就需要指针来跟踪并校准频率,进而通过指针调整来消除网络中的频率漂移和频率抖动。
表1中是表示指针调整状态,通过表中状态可以看出,当VC与AUG的帧速率不一致时,AU的指针区所对应的H3字节填充信息,或者是AU指针区的H3字节后面的字节填充伪信息,用来调整VC的帧速率;与此同时,指针值会根据实际情况进行调整,用来指示信息净负荷的起始位置,正负指针调整便由此产生。
指针调整不会产生于网元同步状态良好的光网络中,而只有在光网络中各网元间的时钟不同步的情形下,才会产生AU指针调整。
有A、B、C、D、E、F六个站点构成链状结构网络,A站装有网管且有时钟源,A站和E站的E1业务在B、C、D、E站中都以VC-4进行穿通,各站点均以西向跟踪该站时钟。当B、C两站之间的时钟无法同步时,B站的东向光板和C站的西向光板就会进行AU指针调整,进而导致A、D、E、F的西向光板也发生指针调整。如果B站的时钟快于C站,那么B站的东向光板就会迫使AU指针进行正调整,C站的西向光板就会迫使AU指针进行负调整。如果B站的时钟慢于C站,那么B站的东向光板就会迫使AU指针进行负调整,C站的西向光板就会迫使AU指针进行正调整。一般来讲AU指针是由上游站产生的,下游站进行检测和上报。也就是说,在AU指针产生调整时,本站不做检测和上报,而是通过H1和H2字节将指针调整信息传送到下一站点,由下一个站点来分析解释该字节信息,进而根据分析结果上报AU指针调整事件。因此,当B、C站时钟不同步时,B站东向光板、C站西向光板均不会检测AU指针调整性事件上报,而是通过C站西向光板产生的指针调整,在D站西向光板进行检测AU指针调整性能事件上报;B站东向光板产生的指针调整,在A站西向光板检测并上报。
3.2 TU指针调整产生及上报机理
在由E1信号适配成VC-12再合成STM-1的过程中,TU指针并不会产生调整。如果交换机的E1信号与光网络时钟发生频偏,那么就会通過适配过程完成同步。因而只有通过AU指针调整转化为TU指针才能被支路板检测到,此时AU指针调整则不会检测上报。AU指针转化为TU指针的条件是配置VC-12的穿通或上下。如有A、B、C三个站点构成链状结构,A站为中心站,设有网管系统,在A站有E1业务上到光网络设备,业务分发有两种情形:一是部分业务下到B站,二是部分业务是以VC-12的方式从B站穿通到C站再下到支路。如果A站和B站时钟不同步,则A站西向光板和B站西向光板会产生AU指针调整,并直接转换成A站、B站的TU指针调整;B站西向光板的AU指针调整将导致C站西向光板也产生AU指针调整;在B站西向和C站西向发生的AU指针调整也都直接转化为C站的TU指针调整。因此,最终会表现为在A站、B站和C站均有TU指针调整上报。
TU指针上报调整性能事件,基于对V1、V2字节变化情况的检测。其产生于AU指针转化成TU指针的站点,并在业务终结站点的支路板上检测上报。通常情况是从检测到TU指针调整的网元开始,沿业务所经过网元往回查找:业务所经过的站点中,高阶交叉的网元是不会引起TU指针调整的,要注意检测到TU指针调整网元的前一个低阶交叉网元,是它自身的时钟和所收到VC12业务时钟不同步造成的,其根源还应该追溯到再前面一个低阶交叉网元。检查该网元的时钟是否与网络同步。
4 指针调整性能事件
AU指针正、负调整计数分别由线路板复用段适配MSA中的AUPPJC、AUNPJC参数表示;而TU指针正调整计数和TU指针计数则分别由支路板高阶通道适配HPA中的TUPPJC和TUNPJC参数表示。从通常情况来看,OptiX设备支持的指针调整性能事件有四种情况:1)AUPJCHIGH 的AU指针正调整计数。2)AUPJCLOW AU的指针负调整计数。3)TUPJCHIGH 的TU指针正调整计数。4)TUPJCLOW 的TU指针负调整计数。
在实际工作中常遇到的指针调整故障主要有外部原因、数据配置原因以及设备故障这三种故障,只要某一故障都可能引起指针调整,或者多个故障而导致指针调整,具体问题具体对待,要根据实际情况进行故障定位和逐一分析。
外部故障原因主要有:外部时钟性能劣化,如BITS(Building Integrated Timing Supply system)等設备提供的外时钟性能劣化;光纤接反导致两个网元间时钟互跟;设备温度过高(产生原因主要有:风扇积聚尘埃过多导致散热不佳,风扇无法启动运行,或机房空调制冷能力差,不能满足降温冷却需求等)。
数据配置故障原因主要有:同一个SDH组网中配置了多个独立的时钟源;时钟源级别配置错误导致两个网元间时钟互跟; SSM(Synchronization Status Message)保护功能未启用或未正确启用、未正确设置。
设备故障原因主要有:时钟板、线路板、交叉板等设备配件老化或性能已不能满足正常工作需求。
5 指针调整故障处理思路
基于以上分析,导致指针调整的根本原因在于时钟不同步。因此,针调整故障的处理应主要遵循这样的思路,即以时钟同步问题为基准,对故障进行检测分析。而具体到对故障点的定位,则应根据业务方向、时钟跟踪方向、指针调整检测上报的位置、指针调整产生的位置来进行,定位要素包括检查时钟配置数据、环境温度、设备对接同步情况、光纤连接、外部时钟源质量、网元硬件状况等。
5.1 检查时钟配置数据
时钟配置错误是造成时钟不同步的常见原因之一。解决此问题的关键在于更改时钟配置方法使时钟同步,或者对时钟数据进行重新配置,来确保时钟配置数据的正确性来进行故障定位。通常情况下导致指针调整有七种情形。1)在整个传输网络中设置有多个时钟源;2)时钟源的时钟质量较差,时钟精度较低或跟踪的站点较多;3)传输网络中只有一套主用时钟源而无备用时钟源;4)错误的设置了时钟源级别,导致时钟保护倒换后进行相互跟踪;5)主时钟网元的内部没有配置时钟源(Identity),当主时钟源丢失后,其他网元无法和中心站同步,导致时钟子网中所有的站都处于自由振荡状态;6)未正确启用SSM保护功能,当主时钟质量降低时,无法做到根据时钟质量进行自动倒换;7)未启用SSM保护功能,导致其他网元传递的时钟无法使用,当某网元重新启动SSM时,所有线路时钟源被检测为不可用时钟源质量,导致设备跟踪内部时钟,进而引起自由振荡。
5.2 检查环境温度
除去而数据配置方面因素影响外,光网络设备的工作温度过高也是导致指针调整的原因之一,因此当故障已确定在单站时,就需要对网元的环境温度进行检查。环境温度检查有两种:一种是现场环境温度检查,主要检查光网络设备的风扇是否正常运行,防尘网上是否有过多的积尘,设备通风系统是否良好。机房内的空调是否正常工作,设置的温度是否符合设备运行的要求,能否自动调节机房温度。另一种是通过网管查询网元的温度性能事件。
5.3 检查设备对接的同步情况
设备对接未正确配置,也是导致指针调整常见原因之一。具体来说,分两种情形:首先,光网络设备与其他设备对接时未使用同一时钟源,引起时钟不同步,进而导致指针调整。这一现象尤其常见于不同厂家及不同类型的设备对接时,如未正确设置同一时钟源,往往会导致整个网络时钟都不同步;其次,传输设备正确对接,已设置同一时钟源,但整个网络依然出现指针调整。这可能是因为全网的时钟同步未正确规划。如传输设备跟踪的是一个时钟源,而对接的设备跟踪的是另外一个时钟源,造成时钟有偏差,导致两个网络时钟不同步。在实践操作中,SDH在与其他常用设备如路由器、ATM(Asynchronous Transfer Mode)设备、交换机或微波设备对接时,尤其需要注意时钟源同步问题,应仔细检查配置设置,以避免时钟不同步导致指针调整。值得一提的是,设备对接导致的指针调整不一定会对业务正常收发产生影响,也就是说,整个网络虽然出现指针调整,但业务依然正常运行。在这种情况下,就不一定非要对指针调整问题做出处理。对于网络管理者来说,如确实需要消除指针调整,统一规划对接设备时钟源即可。
5.4 检查光纤连接
光纤连接方向错误也会导致指针调整。在通道保护环的组网环境下,光纤东西方向接反,时钟会出现相互跟踪,导致指针调整。然而,和设备对接导致的指针调整一样,光纤东西方向接反也不影响正常工作。网络管理者可以不予处理,如需处理,恢复光纤正确连接即可消除指针调整问题。
5.5 检查外部时钟质量
当外部时钟源精度太低、质量太差或者外接时钟电缆老化、性能不足时,均会导致网元产生指针调整。从实践操作来看,检查光网络设备所跟踪的外部时钟质量的方法有两种:一是利用仪表来检查,二是通过更改时钟源配置来进行判断。显然,时钟源质量过差,会引起全网指针调整。此外,还有一种原因也会导致SDH设备指针调整,即外接BITS的上级时钟源倒换。
5.6检查网元硬件状况
在排除外部原因引起指针调整的情形下,就要检查产生指针调整的网元单板是否存在问题。当时钟板、线路板或交叉板等设备配件失效或性能劣化时,就会影响网元时钟质量,进而导致指针调整。
在此情形下,网络管理者应通过更改时钟配置来定位故障所在点,主要分为以下几个步骤:首先,改变时钟的跟踪方向;其次,分析指针调整性能事件的产生和消失情况,将故障定位到网元的具体单板;最后,对定位到的实际发生故障的网元单板,进行更换,进而解决指针调整问题。而在具体实践中,可以首先检查时钟单元和线路板工作情况,因为时钟单元和线路板,尤其是前者会经常出现故障。在排除二者发生故障的可能后,再检查交叉单元运行状况,是否存在质量问题,因为交叉单位是时钟单元通过锁相产生的时钟首先送达的位点,也是随后将时钟分配给线路板和支路板的必由之路。
5.7指针调整故障处理
基于以上分析,具体来说,指针调整故障处理主要分为以下三个步骤。
第一步:对故障具体情形进行分析。观察记录故障出现的状况、频次等,通过分析故障情形来推测、判断故障来源,并对其进行检查验证,直至确定故障的真正来源。在实践操作中,应从人为或外部因素开始排查,例如:检查光纤是否接反,导致两个站间出现时钟互跟的情况。如果发现问题不在此,就应继续检查时钟基准源配置情况,例如:全网是否配置了多个源。而后,检查时钟跟踪配置情况,例如:全网是否出现两个站间时钟互跟的情况。
第二步:对具体故障站点进行定位。定位故障的路线是:定位出沿时钟跟踪方向,第一个与时钟基准源时钟不同步的站点。可采用的方法主要有:适当更改时钟基准源位置、时钟跟踪方向或者添加业务,结合对指针调整性能事件进行的分析等。
第三步:对具体故障单板进行定位。鉴于在第二步中,已经定位出故障站点,本步骤应通过更换单板等方式,定位出发生故障的单板。
6典型案例
6.1案例一
测试时因仪表与设备不同步造成大量指针调整问题处理。现象描述:某网络采用的是光网络10G波分设备组成1个STM-64的复用段环,有A、B、C、D、E五个站点组成环状网络,其中 A号网元的SLO1的第1个光口与D号网元的SLO1的第1个光口配置有一个155M业务,用来承载数据业务。在业务配置完毕后用SDH分析仪(MP1550A)进行误码测试,仪表接在A号网元的SLO1的1光口,在D号网元SLO1的1光口用尾纤自环,经过误码测试显示工作正常,但随后表上出现大量突发性误码和SYNCLOS以及LP-FERI告警,在业务经过的光网络10G波分设备上有HPBBE告警,并有大量AU指针调整性能事件。
故障原因分析:检查仪表和设备的时钟跟踪时发现:MP1550A的时钟设置为内时钟, 1号网元的时钟设置为跟踪外部BITS时钟源,环上所有的站点都是跟踪A号网元。因为仪表和设备跟踪的时钟源不一致造成指针调整,导致全网发生大量的指针调整事件,而SLO1板的指针在经过长时间的调整后FIFO溢出,产生大量的误码造成通讯中断,在表上就会有瞬时的SYNCLOS以及LPFERI告警。
故障处理过程:更改时钟设置,将A号网元设置为跟踪仪表时钟,即跟踪SLO1板的第1个光口的线路时钟,问题解决。
故障应对及预防建议:在使用仪表进行测试时需要合理设置仪表和设备的时钟跟踪源,确保仪表和设备的时钟同步。此外不同SDH网络或不同厂家设备对接,也可能会因为某些原因出现指针调整性能事件。遇到这种情况,可以通过分析的方法区分是上游信号的问题还是网络同步的问题。举例如下:
两个SDH网络如图1所示,NE-X所在网络为友商设备或属于其他时钟网络,NE-A和NE-B为2.5G設备。NE-X与NE-A通过STM-N信号对接。一条VC4业务从NE-X经NE-A到NE-B,现分两种情况分析该条业务出现指针调整的原因:如果NE-A检测到该业务有指针调整,则可能的原因是NE-X发过来的信号本身就有指针调整;如果NE-A没有检测到该业务有指针调整,而NE-B有指针调整,则说明NE-X发给NE-A的业务没有指针调整,而由于两个网络时钟不同步,该业务在NE-A产生了指针调整,在NE-B网元上报。
6.2案例二
配置错误导致的指针调整问题处理。现象描述:某传输网由A、B、C、D四个光网络2.5G网元组成环状网络,A站为中心站,设有网管系统。网络为二纤单向通道保护环,全网由D站自由振荡产生基准时钟,其余单站均跟踪西向时钟与D站保持同步;各单站时钟跟踪级别是网元NE4同步源为内置时钟源,时钟源级别为内置时钟源。网元NE1同步源为西向时钟源,时钟源级别分别为西向时钟源、东向时钟源、内置时钟源。其他网元同步源为西向时钟源,时钟源级别分别为西向时钟源和内置时钟源。某日A站与D站之间的光缆中断后,各站业务均正常保护倒换,但出现AU及TU指针调整,并伴随误码,观察发现指针调整频率和误码率随时间呈逐渐上升的趋势。
故障原因分析:因A站时钟源级别配置不合理,导致在A站西向断纤后,根据配置的时钟源级别,选择东西时钟源,即跟踪B站西向光板传递过来的时钟,从而造成了A站与B站时钟互相跟踪的情况,导致时钟性能劣化产生指针调整并出现误码。
故障处理过程:更改A站时钟跟踪级别为“西向时钟源/内部时钟源”,下发后观察指针调整和误码均消失,故障排除。
故障应对及预防建议:网络管理者在对全网进行时钟配置时,不仅要考虑光路正常时的情况,也必须考虑断纤后的时钟跟踪会不会出现互跟现象。
6.3案例三
光纤接反引起时钟互跟导致指针调整问题处理。现象描述:某市本地网采用光网络2.5G组成一个两纤单向通道保护环,网络结构是由A、B、C、D四个站点组成环状网络, A站为业务中心站,网管终端及时钟主站均设在A站,B、C、D各站均跟踪西向线路时钟并只与中心站有业务。网元NE1同步源为内置时钟源,时钟源级别为内置时钟源。其他网元同步源为西向时钟源,时钟源级别为内置时钟源和西向时钟源。运行中因C站使用的东西向光缆出现老化及破损现象,网管对其进行了更换,且更换后经测试C站的收、发光功率均正常。随后,A站的支路板上报TU指针调整事件,C站西向光板与D站西向光板上报AU指针调整事件;同时A站到B站的业务发生倒换,其余业务出现误码。
故障原因分析:实际情况表明,更换光纤前系统正常,推测为光纤连接方向出现错误。据此,检查C站的光纤连接状况,发现东、西方向光纤接反,造成C站和D站时钟互跟,继而导致时钟性能劣化,出现指针调整。
故障处理过程:对东、西方向接反光纤修正方向后重新连接,同时观察系统是否出现告警信息。若无警告信息,则说明故障顺利排除,若有警告信息,则需重新检查处理。
故障应对及预防建议:鉴于业务为双发选收,通道保护环光纤东、西方向接反,通常不会影响业务正常运作。因此,这种操作失误往往会被忽视,在出现时钟互跟现象时才会引起注意。因此,在日常维护、调整更换光缆时,尤其需要谨慎,仔细检查接线方向,以避免光纤接反。
6.4案例四
外部时钟精度太低引起指针调整问题处理。现象描述:某地区采用光网络2.5G设备组成一个通道保护环带链,其网络组成结构是有ABCDE五个站点,ABCD构成一个环状网,C站与E站形成链状结构,网元NE1同步源为外部时钟源,级别为外部时钟源和内部时钟源。其他网元同步源为西向时钟源,级别为内置时钟源和西向时钟源。A站为中心站带有网管设备,时钟跟踪外部时钟,环上和链上各站点跟踪西向时钟。运行一段时间后全网每天均有有大量的AU、TU指针调整事件发生。
故障原因分析:经询问设备维护人员,得知以前A站时钟源为内部时钟源时,2.5G设备没有指针调整,但接入交换机出现滑码现象,后将A站的时钟跟踪改为跟踪上一级交换机的时钟,滑码消失,但指针调整现象依然时常出现;鉴于此,初步分析是由于输入时钟的精度低引起指针调整。
故障处理过程:1)检查外部时钟源,发现设备跟踪交换机时钟。2)将A站时钟跟踪改为内部振荡,并持续观察是否出现警告信息。若无警告信息,则说明故障顺利排除,若有警告信息,则需重新检查处理;3)为彻底解决问题,从PDH设备引入更高级别的时钟,指针调整故障消失,同时也排除了与交换机对接的滑码问题。
故障应对及预防建议:外部时钟源的质量是SDH设备正常运作的重要条件之一,其同步质量等级最低标准以G.813为参考。该标准的同步设备定时源SETS(Synchronous Equipment Timing Source)信号以及SEC(SDH Equipment Clock),一般为晶体钟。在不少情形下,全网指针调整往往都是由外部时钟源的时钟精度过低或时钟质量劣化而引起的。故而,保持外部时钟源的时钟精度,维护时钟质量,是预防及应对该故障的关键所在。
7 总结
指针调整会引起PDH支路输出信号有较大的抖动和漂移,严重时甚至产生误码。过于频繁的指针调整对数据业务、移动业务、小灵通等业务产生严重影响。在光网络设备安装调试和日常维护工作中应关注网络是否存在指针调整事件,指针调整与网络同步质量密切相关。例行对光网络传输系统的指针调整性能事件进行监视,及时发现网络是否存在同步不良,并及早处理;進一步完善的网络同步方案,选择跟踪良好的外部基准时钟、规划好时钟网络避免出现时钟环路;确保设备工作于良好的机房环境,温度对时钟板上晶振工作状态的影响很大,日常维护时应例行对风扇防尘网进行清理、高温季节务必确保机房空调的正常运行。
参考文献:
[1] 白淑波. OptiX 2500+指针调整故障处理方法[J]. 铁道通信信号, 2008(8): 50-52.
[2] 杨剑. 浅谈SDH传输设备网络时钟故障分析及解决[J]. 内蒙古科技与经济, 2012(12): 68-70.
[3] 张晓琦. 基础传输网中的时钟信号研究[D]. 解放军信息工程大学, 2008: 10.
【通联编辑:光文玲】