APP下载

民航通信网时分复用网传输故障案例分析与解决方案

2022-08-30

科技创新与应用 2022年23期
关键词:通信网空管台站

李 岩

(民航青海空管分局,西宁 810000)

民航通信网以高可靠性、丰富的业务接口以及更灵活的介入方式等诸多优良特性在民航空管领域已经得到广泛应用,并已成为现今各机场、空管以及局方之间各类业务数据传输的主干网络。西北地区民航通信网自2018年初步建成,2019年开始逐步完成空管业务从ATM民航数据通信网至民航通信网的迁移,青海分局目前大部分业务已经依托于民航通信网作主要传输手段,随着分局业务割接工作的逐步完成,以及业务割接后的运行保障,使得相关维护人员对民航通信网的运行维护能力也不断得到提升。

1 民航通信网时分复用(TDM)网组网结构

民航通信网的整个网络拓扑结构是由核心层、汇聚层和接入层3部分构成,其中,核心层具有完成覆盖全网核心节点(全网中北京网控、上海网控以及里河灾备中心、7个地区空管局节点及7个区管中心节点,是整个民航通信网TDM网的核心层)的功能;汇聚层完成覆盖全网汇聚节点(空管分局或空管站)的功能;接入层完成覆盖所有接入节点(各地区机场、各地区台站、各地区管理局等)的功能。

分局进近项目传输系统于2018年建成,采用与民航通信网TDM网完全相同的组网结构,覆盖泮子山雷达站甚高频(VHF)台、黑虎旗山VHF台、贵德河西中学VHF台、贵德珍珠寺VHF台、化隆西上村VHF台、化隆线务段VHF台、河桥乐山村VHF台、河桥马军坪VHF台共8个甚高频台站,主要完成8个站点VHF业务及其监控信号的接入,供西宁进近管制区使用,其网络结构拓扑如图1所示。

图1 青海分局进近项目传输系统网络结构拓扑

2 民航通信网络传输可靠性分析

在民航空管运行中,通信网络的可靠性极大程度上影响着空中交通秩序的管制和飞行安全,实现各类空管业务、数据信息的可靠稳定传输,是空管系统安全生产的重要基础。

在民航通信网规划设计及实际部署中,通信网络的可靠性是通过在软件上支持IP FRR(快速重路由Fast ReRouting)+BFD(双向转发检测Bidirectional Forwarding Detection),LDP FRR+BFD等来实现的。

(1)BFD技术

民航通信网TDM网主要以转报、雷达和VHF等数据业务承载为主,故障检测时间没有特定要求,主要靠路由协议收敛,一般收敛速度为秒级或者以上。BFD(双向转发检测)是一套用来实现快速检测的国际标准协议,提供一种轻负荷、持续时间短的检测。硬件实现BFD不影响系统运行,民航通信网TDM项目实现链路硬件BFD检测功能,因此民航通信网TDM承载网启用的是IS-IS动态路由,并采用单层Level 2,打开ISIS的BFD功能,LDP LSP/Tunnel的BFD技术加快对故障链路和故障节点的快速感知。

(2)FRR技术

FRR(快速重路由)是当网络中链路或者节点失效后,为这些重要的节点或链路提供备份保护,实现快速重路由,减少链路或节点失效时对流量的影响,使流量实现快速恢复,能够快速地发现链路失效,并且当链路失效后能够迅速地提供一条恢复路径,而且能够保证在后继网络恢复过程中,避免出现转发环路。

3 民航通信网TDM网传输故障案例分析

庞杂的网络系统为民航空管提供便捷通信的同时,其运行中也会出现各种网络故障,作为民航空管运行维护人员,高效、及时、准确地对通信网络传输故障进行诊断排查并较好地适应各种动态变化是需要具备的基本技能,本文以民航青海空管分局TDM网节点中,黑虎旗山甚高频(VHF)台站至西宁机场航管楼的民航通信网TDM传输故障为典型案例进行深入分析。

3.1 故障现象

3.1.1 第一次故障现象

2021年5月27日09:37左右维护人员发现进近项目传输系统传输网管监控上出现黑虎旗山甚高频台站电信、联通传输链路同时中断的告警信息,传输网管拓扑上显示台站2台传输设备(FA16-T)均离线(绿色正常状态变为灰色离线状态),网管无法登录连接至台站传输设备,与此同时,甚高频业务监控终端上显示黑虎旗山甚高频台站甚高频业务传输中断;民航通信网TDM网传输网管上只显示电信传输链路中断的告警,网管拓扑结构中台站2台传输设备均在线,而且能够正常远程登录到台站2台TDM传输设备(FA16-T),维护人员初步判断电信、联通传输链路中断。

3.1.2 第二次故障现象

2021年8月8日21:59左右进近项目传输系统网管监控上出现黑虎旗山甚高频台站电信传输中断告警,而联通传输链路并未有中断告警,仅通过联通链路PING台站传输设备时发现延迟较大(业务正常传输时传输时延小于10 ms,传输故障时传输时延达200~300 ms),传输网管拓扑上台站传输设备显示在线状态,但是通过远程登录台站设备时登录非常卡顿,远程连接成功后自动断开连接,与此同时,甚高频业务监控终端上显示黑虎旗山甚高频台站甚高频业务未中断,但是管制用户使用的甚高频业务已经出现断续、延迟大的情况,无法满足正常使用要求;同时民航通信网TDM网传输网管上出现电信传输链路中断告警,传输网管拓扑上台站传输设备显示在线状态,远程登录到台站2台TDM传输设备检查各运行状态均正常,维护人员初步判断电信传输链路中断、联通传输链路可能存在异常。

3.2 故障排查过程

针对2次故障情况的排查情况分别详述如下。

3.2.1 第一次故障排查过程

(1)因无法正常远程登录查看设备状态,维护人员及时前往台站确认进近项目传输设备状态,并发现传输设备供电及运行状态均正常,使用维护笔记本登录到台站2台传输设备,发现传输设备配置均正常,各端口及其业务通信链路也未有卡死情况。

(2)告知电信、联通运营商分局相关传输设备运行正常后,维护人员进一步排查分析,发现黑虎旗山甚高频台站民航通信网TDM网传输设备的电信链路故障,而联通链路却可以正常提供服务,且网管监控显示链路连接均正常。

(3)维护人员将民航通信网TDM网的正常联通链路更换接至进近项目传输设备提供传输支撑时,发现进近项目传输网管已离线设备能够正常上线,且只显示电信链路故障,由此确定进近项目传输系统中黑虎旗山甚高频台站至机场航管楼的联通链路故障,联系联通继续排查链路故障。

(4)此时电信确认其传输光缆在离机房1 km处有断点,排查期间由于电信运营商资料不完整,电信派多人至现场查找故障光缆,而联通在核实后发现其光缆并未中断,联通维护人员在机场航管楼侧实测发现传输丢包严重,且路由不稳定。

(5)当日17:57电信找到由于外方施工挖断的断点,并快速恢复光纤后电信链路恢复正常,传输网管上台站传输设备正常上线,测试甚高频业务使用正常。

(6)联通运营商于次日10:00发现为其核心枢纽数据错误导致传输异常,在重新配置数据后业务恢复正常。

3.2.2 第二次故障排查过程

(1)故障发生后,及时联系电信、联通运营商排查传输链路,同时维护人员去现场核实情况,经电信运营商通过其后台网管核实,发现电信传输链路有中断告警,之后前往台站进一步排查。

(2)电信运营商到达台站后,发现台站周围有施工,施工导致地埋光缆被挖断,电信快速进行光纤熔接,于10:50左右电信光纤恢复正常,发现进近项目传输系统黑虎旗山甚高频台站至机场航管楼电信传输链路及民航通信网TDM网电信链路均恢复正常。

(3)联通在到达现场后进行测试,台站及航管楼两侧断开青海分局传输设备进行互PING操作时,传输质量良好,时延约3~5 ms,后接入青海分局传输设备同时断开电信传输链路,将联通链路单独接入,发现两侧互PING时传输时延依然超过业务正常传输的最低时延要求,且有丢包,测试业务依然异常,语音通话出现严重的超时现象。

(4)联系工程师排查传输设备配置问题,工程师排查后发现系统软件版本老旧,无法有效产生告警只是客观原因,主观原因是单链路传输时端口带宽超过2 M,约为3 M,如图2所示,链路带宽无法有效支撑起传输作用,而单独接入电信2 M链路时各业务均显示正常,时延在正常范围内,丢包为0。

图2 单链路传输时峰值带宽

(5)为了有效进行判断,联系联通临时开通4 M链路带宽用于测试,同时将设备级联线断开,单独进行传输,发现电信端口数据带宽占用1.78 M左右,如图3所示,而联通端口占用1.27 M左右,如图4所示,此时业务运行均正常,在两侧互PING时数据传输均正常。

图3 级联时电信传输峰值带宽

图4 级联时联通传输峰值带宽

(6)与工程师确认后发现,甚高频业务每个信道占用固定带宽100 K左右,甚高频监控占用300~500 K左右,因此电信路由器12信道加监控共占用大概1.7 M左右带宽,联通路由器12信道共占用1.2 M左右带宽。

3.3 故障原因分析

本次通信网络传输故障案例分析采用人、机、环、管综合分析法进行深入剖析,具体分析如下。

3.3.1 人为原因

机务员判断故障点能力较弱,对部分关键操作不太熟悉,且机务员在发现同一光端机链路状态不一致时未能准确判断出问题所在,依然判断为物理故障原因,体现出对业务和设备原理不熟练,没有第一时间判断出故障大概原因。

3.3.2 设备原因

(1)由于进近项目传输设备其软件版本未曾更新过,导致其部分功能仍处于不完整状态,在中间级联线正常时,路由器不会产生相关路由中断告警。

(2)路由器检测机制问题,只有在路由器完全检测不到数据包时才认为端口DOWN,当端口有数据时,哪怕是错误的数据包,端口仍无法识别其状态正常与否。

3.3.3 环境原因

(1)部分运营商对业务重视度不够,导致在其做业务割接、转移等工作时未有效通知用户,因此用户并未及时掌握其配置改动信息,也无法对自己业务及时做出测评,导致故障发生,对重要链路的保障度不够,没有将线缆做保护处理。

(2)随着业务量的不断增加,原有链路带宽可能将不满足业务正常运行需求,需持续关注此类风险,再将业务接入时,需要做严厉测试,已确保运营商带宽链路满足业务需求。

3.3.4 管理原因

对业务敏感度不够,未能及时有效沟通厂家进行升级。

4 传输故障解决方案

通过综合分析2次传输故障情况,针对人为原因、设备原因、环境原因、管理原因分别依据青海分局实际运行情况给出了相应的隐患整改措施,本部分着重从设备及环境2方面就此类传输故障情况给出相应的解决方案。

4.1 设备方面

(1)对此次事件中已经发生且可能在之后还会影响到业务正常传输的台站传输设备进行了隐患排查,重点排查分析台站传输设备带宽利用率及双链路传输、单联通链路传输和单电信链路传输时业务传输实际占用带宽情况,结合后续增加或者减少业务量的需求,进而分析确定是否需要沟通运营商增加传输带宽。

(2)因民航通信网在规划设计并实施建设时已充分考虑通信网络传输可靠性设计,依据民航空管局总局设计要求在全网中全部采用IS-IS动态路由,并采用单层Level 2,打开IS-IS的BFD功能,而由青海分局自建的进近项目传输系统中的传输设备缺乏BFD相关检测机制,并未对链路的有效性准确地进行检测,在与厂家沟通后,厂家配合完成传输设备版本更新,对传输设备做相关检测机制配置,进而可以更好地对链路性能进行实时监测,同时对涉及的其余台站的传输设备做同样的升级更新工作。

4.2 环境方面

青海分局民航通信网TDM网及进近项目传输系统各站点均采用电信、联通双链路传输至西宁机场航管楼,双链路均正常时,采用负载分担的方式承载业务传输,当其中一路故障时,台站所有业务均通过此正常链路进行传输,这种情况下,需要同电信、联通运营商进一步协调,不仅要其提供传输线缆资料及走向图,核实双方在台站链路是否在同节点上,若存在同节点路由需要进行改造,同时要求运营商在今后链路割接或者数据更新配置工作时,对可能影响到分局业务传输时需要提前及时通报,并在做完所有操作后需与分局相关维护人员确认业务正常。

5 结束语

本文结合西北地区青海分局民航通信网TDM网及进近项目传输系统实际运行环境,详细地阐述了在实际运行过程中发生的黑虎旗山VHF台站至西宁机场航管楼因通信网络传输故障导致的VHF业务无法正常使用的故障案例,以及整个故障排查过程的思路和步骤,之后从人、机、环、管4个方面全面地对此故障进行深度剖析,同时有针对性地提出了解决方案,对今后处理类似故障有很大的指导意义。

猜你喜欢

通信网空管台站
中国科学院野外台站档案工作回顾
地震台站基础信息完善及应用分析
一种适用于高铁沿线的多台站快速地震预警方法
解析民航空中交通管制安全及人为影响因素
民航空管2018年运行统计公报
民航空管气象视频会商系统应用研究
乙醇蒸气放空管设置室内引发爆炸
基于SDN-MEC配用电通信网任务迁移策略
GSM-R通信网多径干扰解决案例
PTN在电力通信网中的工程应用