CDM系统故障分析及改进方案
2021-01-11刘家瑞肖玉
刘家瑞 肖玉
摘要:本文簡单的介绍了CDM系统的功能及硬件构成,然后重点分析了CDM系统上线后发生的故障,从软件故障、硬件故障、系统兼容性故障三个典型案例分析入手,提出了系统的改进方案。
关键字:CDM系统 故障分析 改进方案
1 CDM系统简介
协同决策系统(Collaborative Decision Making,以下简称CDM系统)是一种基于资源共享和信息交互的多主体(空管、机场、公司等)联合协作运行理念而设计的系统,用于创造透明、高效的空管运行环境。
CDM系统通过提高事件可预测性、优化资源利用效率等手段,能够提升各参与方的整体运行效率。
1.1 软件功能简介
通过建立CDM系统,用技术手段改善航班延误相关问题。
建立航班排序系统,计算航班起飞时间和预计撤轮挡时间。
建立航班放行协同平台,收集运行信息,提供放行协同工具。
1.2 CDM系统硬件结构
CDM系统硬件由虚拟化数据中心、交换网络、虚拟化运行程序服务器构成(见图1)。
1.3 CDM系统重要用户及其需求
管制部门:塔台:进近航班放行排序
区调:区域航班放行排序
航空公司:南航 深航
机场:AOC 机坪塔台
2 CDM系统常见故障分析
2.1 CDM系统典型故障分析
2.1.1 CDM系统硬盘故障案例分析
故障现象:2019年1月12日,巡检时发现服务器及存储黄灯告警。
故障原因分析: 进一步通过IBM服务器的光路诊断卡查看告警类型为DAS、HDD,以上告警灯应该为直连存储(硬盘)告警,并且在硬盘的指示灯上会显示黄色。存储设备的故障硬盘同样显示黄色。告警可以通过服务器的指示灯反映出来,故障时为黄色,通过光路诊断卡可以明确故障准确信息,DAS及HDD代表硬盘。,故障的同时,业务不受影响,因为服务器的2块硬盘组建了RADI-1,2个硬盘互为备份,存储的多数采用RAID5+1全局热备的方式,RAID5的一个硬盘故障,全局热备盘顶替,故障硬盘被剥离,这时存储正常运行,不受影响。
处理方法:及时发现并更换故障硬盘,避免因更多的故障硬盘导致业务宕机。巡检时重点关注黄色、红色指示灯,备好硬盘备件,硬盘是服务器常见的故障件
2.1.2 电子进程单收不到PDC请求
故障现象:2018年5月11日开始,CDM系统电子进程单收不到机组发送的PDC请求的故障,管制员对无PDC请求的航班进行语音管制。
故障原因分析:PDC请求先送给数字放行系统,数字放行系统将请求再送给CDM系统电子进程单模块。数字放行系统默认飞行计划的时效性为6小时,当航班延误后且其航空公司未发送DEL报或CHG报,6小时后系统将自动删除延误的飞行计划,CDM系统无法收到机组的PDC请求。
处理方法:联系工程师修改后台程序,对时效性的限定时间改为24小时。
2.1.3 CDM系统应答机编码失效
故障现象:塔台用户反映电子进程单终端的航班应答机编码为0000,无法显示正确编码,在自动化系统中查看的应答机编码是正常。
故障原因分析:通过监控终端排查NPORT端口入方向的数据正常,接收服务器也可以接收到自动化系统送来的报文数据。由于是部分航班缺少应答机编码,分析是可能部分IFPL报文处理不完整,部分内容丢失导致。深圳CDM电子进程单 的应答机编码是深圳CDM服务器接收来自区管自动化系统的IFPL报文解析出来(IPFL报文是通过区管至桃仙的NPORT传输),深圳cdm服务器接收到NPORT设备封装的UDP报文,经过对传输流程进行分析,NPORT中封装的UDP报文最大长度为1024字节,并且UDP报文没有包含序列信息的字段,由于IFPL报文的单个长度会有超过1024字节的情况,深圳cdm服务器接收这些UDP报文的时候可能无法完全正确的处理IFPL的报文信息,导致应答机编码无法解析,导致电子进程单的部分应答机编码为空(四个0),调整NPORT传输模式,接收服务器采用TCP方式进程接收IFPL报文
UDP连接适用于字符流小于1024字节长度的报文,并且报文中有规律的起始结束字符,更改为TCP后,额外再增加一路备份TCP连接,服务器接收2路数据进行备份。
处理方法:在区管NPORT上增加一路TCP数据报文,并且深圳cdm系统接收报文的方式由UDP调整为TCP方式,调整后正常。
3 CDM系统改进方案
3.1 添加备份盘阵
CDM系统虚拟数据中心由一台盘阵组成,尽管盘镇做成了高安全性的RADI5+1模式,可以在2块硬盘同时故障。但是如果盘阵服务器整体故障,则放行系统数据将会丢失,影响管制部门正工作。建议购买新盘阵服务器,与原有盘阵组成1:1备份模式,极大加强数据服务器的可靠性和安全性。
3.2 增加应急服务器
3.3 建议厂家优化数据接口
CDM系统将会引接越来越多的信号,不同信号来自于不同系统。信号数据需要解析后才能被CDM系统使用,所以数据接口的兼容性就非常的重要。建议厂家优化数据接口,能够兼容更多的信号格式。
4总结
本文简单的介绍了CDM系统的功能及硬件构成,然后重点分析了CDM系统上线后发生的故障,从软件故障、硬件故障、系统兼容性故障三个典型案例分析入手,提出了系统的改进方案。见图2。
希望本文能在在CDM系统日常运维中提供一些帮助。