关于民航内话系统TMCS的实例分析
2021-08-04王昭
王昭
【摘要】 监控配置终端TMCS是FRQ技术监控系统,能实现系统配置、连续状态的监控等功能,本文主要介绍TMCS并对其在实际工作中的案例进行分析。
【关键字】 语音交换系统 TMCS 案例分析
随着我国民航运输能力的持续增加,我国航空跻身世界航空大国之列,在保障飞行安全的民航空管设备体系中,为提高空中交通管理业务的保障水平,空管设备运行的稳定性、可靠性和安全性显然十分重要。作为空管系统技术保障部门机务员,首要任务是对所辖设备实时监控并对设备故障采取相应措施及时处理,保障设备安全运行。
本文主要介绍空管内话系统的监控配置终端并对值班过程中遇到的监控配置终端自动退出无法使用的案例进行分析。
一、监控配置终端介绍
民航空管语音交换系统(Voice Communication System),简称內话系统,它实际上是一种空管专用交换机,供地面管制員使用,接入无线电甚高频/高频设备和各类电话设备,为管制员提供与飞行机组之间的通信(地/空通信)及地面管制员之间的管制移交协调通信(地/地通信)。
塔台备用内话系统于2017年在首都机场航管楼建成,使用的是FREQUENTIS厂家生产的VCS3020X 7.1系统,可独立实现空地、地地通信等功能,为北京空管通信提供有力的保障。
TMCS(Technical Monitoring and Control System),作为FRQ技术监控系统,能实现系统配置参数和软件管理(包括软件下载)、产生系统日志和报告(系统运行状态和现行故障)、故障(错误)诊断和反映系统活动的静态数据收集等功能,它具有Client(客户)/Server(服务器)的体系结构,如图1所示。
二、关于FRQ7.1 监控配置终端TMCS软件退出无法使用的案例分析
2.1 故障现象及处置过程
2019年6月12日 12:05(北京时间),值班员发现航管楼备用内话系统FRQ VCS3020X 7.1 配置监控客户机提示故障告警。值班员查看故障情况,发现监控软件TMCS退出,再无法登陆,值班员根据系统故障提示进行了相应处置。
图2为系统第一条提示信息,表明此时TMCS Client无法与Server建立连接,Server很可能已经死机了,TMCS监控软件退出关闭。根据提示,值班员立即检查了Server状态(误以为Server故障),未发现异常,Server中的TMCS软件仍然可以操作。由于Client上TMCS监控软件已经退出,值班员尝试重启,但重启失败。
根据提示,值班员查看了Client上的日志文件(以下时间为世界协调时间),日志文件显示:
2019-06-12 04:56:54
CORBA.COMM_FAILURE
An existing connection was forcibly closed by the remote host
Communication is lost inbetween client request and server reply
2019-06-12 04:56:55
java.net.NoRouteToHostException: No route to host: connect
Failed to resolve Corba path ‘Tmcs/LocalHome/RedundancyManager/ServerStatusIF
2019-06-12, 05:00:54
at.frequentis.tmcs.framework.common.corba.CorbaInterfaceException: Unable to connect to the Server!
2019-06-12 05:01:06
- Starting TMCS Application.
- Starting XR71 5.0.48
- Using corba 1.29
- Using framework 7.01.67
-checkIfRunningOtherInstancePort= 9152
InetAddress.getLocalHost() tmcscl01/172.22.81.171
java.net.NoRouteToHostException: No route to host: connect
此时,系统弹出第二条提示,如图3所示,表明Server可能已经死机了或者出现了一些严重的通信问题,建议重启TMCS Client。
值班员对TMCS Client进行了重启操作,然而问题依旧。2019-06-12 05:01:06至2019-06-12 08:18:59期间,系统一直在试图重启TMCS监控配置程序。
第三条提示信息显示:An instance of the application is already running(一个应用程序的实例正在运行)。但在系统恢复正常之前,Client上的TMCS监控配置程序图形界面一直无法打开。
第四条信息提示:System clock not verified-time may be wrong (系统时钟无法验证,时间出现错误)。根据这条提示信息,值班员检查了设备所连接的外部时钟-东进时钟设备,并手动修改时间(实际上这是故障的一衍生问题)。
值班员根据上述四条系统提示信息并没有解决问题,于是对整条传输链路进行了检查,发现从Server到Client之间的交换机自动关机,检查交换机设备,电源模块松动,紧固后恢复。
2019-06-12 08:22:30- Starting TMCS Application.
2019-06-12 08:22:30- Starting XR71 5.0.48
2019-06-12 08:22:30- Using corba 1.29
2019-06-12 08:22:30- Using framework 7.01.67
2019-06-12 08:22:30-
checkIfRunningOtherInstancePort= 9152
2019-06-12 08:22:30-
InetAddress.getLocalHost() tmcscl01/172.22.81.171
以上為此时的日志文件,显示在UTC时间08:22:30,系统重启TMCS成功,并识别主机IP地址。
2.2 原因分析
连接内话主系统、TMCS Server和TMCS Client的交换机掉电,导致了:1.TMCS Client与Server连接断开;2.TMCS Client与内话系统的连接间接断开,无法获取内话系统的实时监控信息,图形界面无法打开;3. 由于TMCS Client与TMCS Server组成局域网,采用NTP时钟同步,与Server连接断开,Client长时间不能与Server时钟同步,故出现“time may be wrong”错误信息告警。
2.3 经验教训
2.3.1 汲取以上经验教训,复杂问题简单化
本案例的故障原因最终很简单,但排故的思路值得总结:系统运行稳定,突发故障告警,很可能为硬件问题。应首先从信号流程的角度,逐步对信号流各个环节的硬件设备进行直观检查,以获得最高效率,不要将简单问题复杂化。
2.3.2 故障提示参考信息,不能完全依赖
提示信息是人为预设的,不可能包括所有问题,罗列万象。根据具体情况,结合提示信息进行问题的分析,提高故障定位准确率,从而提高排故效率。
2.3.3 设备符合标准,安装工艺规范
设备产品,包括电源插头等,规格、质量要符合相应规范,安装工艺要规范,稳定可靠。本案例导致故障的直接原因是交换机电源插头插在机柜供电电源插座松动,但导致松动的原因有可能:1.插头过大、过重,插在机柜两侧的垂直电源插座上可能导致接触不良情况;2.电源插头与插座的接触面积不够,空管关键设备的供电可靠性要求非常高,如果插头过于短、插座过深或者插头过细,插座插孔过大过松等,均可能导致接触不良或不牢靠,在有震动等其他因素影响下发生掉电。
2.3.4 熟练掌握空管关键设备、系统的信号流程和系统架构
熟练掌握空管关键设备、系统的信号流程和系统架构是技术维护人员的排故法宝。内话系统硬件多,从历史统计数据看,故障多为硬件故障。熟悉信号流程,从直观上查看设备指示灯(反映设备的工作状态),从故障定位看,大大优于查看日志。
2.3.5 理论联系实际,进一步理解系统工作原理
虽然日志文件对我们故障定位没有太多帮助。但建议事后通过查看日志,对照系统故障提示信息,有助于我们深层次理解系统设计理念和工作原理。
三、结束语
随着社会飞跃发展,我国航班量的不断增加,保障空管设备安全运行的责任更加重大,而我们一线值班人员处理故障就需要更加高效、迅速。TMCS作为内话设备实时监控的重要节点,帮助工作人员及时固定故障点是十分必要的,如何通过故障现象、告警信息及相应日志做出精准判断是我们需要不断探讨的课题。总之,我们技术人员要努力学习专业知识,积极参与工程建设,提高自己的专业能力,使设备效能得到充分的发挥,为我局空中交通管制单位提供优质服务。
参 考 文 献
[1] FREQUENTIS Voice Communication System User Manual [M]. Vienna Austria
[2] FREQUENTIS语音交换系统技术手册