一起大西高铁CTC系统通信前置机软件异常退出的思考
2015-01-01桑宇
桑 宇
大西高铁 (太原南—西安北段)自北向南贯穿山西省中南部,该线路于2014年7月1日通车后进一步拓展了快速客运网覆盖面,形成山西、陕西通往全国各地高效便捷的快速客运网,大大缩短城市间的时空距离,满足了日趋增长的旅客运输需求,对促进地方区域经济可持续发展产生了重要作用。下面针对大西高铁调度指挥系统CTC在运用中的一些情况进行分析。
1 故障概况
2015年6月25日9:53:57大西高铁调度二台、三台CTC系统同时调监信息黑屏,运行图不能自动报点,由于当时CTC系统处于自律模式下的中心控制方式,调度员需及时掌握列车在线上的运行情况,此问题的发生已经危及行车安全。TDCS/CTC中心接到故障通知后迅速查找问题原因,发现大西高铁CTC中心通信前置服务器双机程序异常退出,值班人员立刻对该程序重新启动,于9:57:58程序启动完毕,CTC系统恢复正常。
2 原因分析
2.1 直接原因
大西高铁CTC系统通信服务器双机程序异常退出,是造成CTC系统调监黑屏和列车运行点不能自动上报的直接原因。该程序的异常退出中断了车站系统与中心系统的正常通信,使得信息不能正常传送。首先对CTC系统无线车次信息处理机制进行说明,见图1。
乘务员在机车车载通信设备CIR输入车次号后,CIR设备通过GSM-R网络获得本机IP地址信息及当前服务小区的GRIS的IP地址信息,并对机车数据采集编码器发送的信息进行实时分析,数据内容符合 《GSM-R数字移动通信应用技术条件》中规定的发送条件后,开始发送无线车次号信息;这些无线车次信息通过长距离干线传输和GSM-R通用分组无线网络,最终传送到GRIS服务器;GRIS服务器将接收到的无线车次信息透明转发到CTC系统的GSM-R服务器;GSM-R服务器首先对收到的无线车次信息进行校验,确认接收到的无线车次信息数据是否完整,如果校验不通过,则认为当前与GRIS通信不正常,断开连接重连;如果校验通过,则将无线车次信息透明转发给通信前置服务器;通信前置服务器程序负责对无线车次信息按照协议规则进行处理、解析,提取车次号、公里标、运行速度等信息存储在内存中,用以响应调度台的无线机车号查询和进路预告中的机车号匹配,同时根据公里标配置向该无线车次信息覆盖的车站自律机转发。
图1 CTC系统与G网系统工作关系图
对故障当日通信前置服务器记录的日志进行分析,故障当时通信前置服务器B机为主机,9:53:56GSM-R服务器接收到GRIS服务器发来的一条无线车次信息,按照相关协议标准,该条16进制信息内容中所包含的车次号错误,出现了车次号为 “000000”的现象。按照CTC系统处理机制设定,通信前置机处理程序反复对该条错误信息进行解析处理,程序陷入了死循环,导致双机程序异常退出。对GRIS服务器转发的无线车次信息解析出来的内容也验证了这一点,9:53:56由GRIS发送给CTC系统的无线车次信息中车次号乱码,其他信息正确。故障期间共发送了8次错误无线车次信息 (6次车次号错误,2次经纬度错误),9:56:15后无线车次信息恢复正常。
2.2 间接原因
当前CTC系统的通信前置机程序 (版本号:V1.2.9)防护能力不足,在程序不能正常处理数据后自动退出是造成本次故障的间接原因。通过试验室仿真环境对故障当时的GRIS数据复现测试,V1.2.9版本程序复现了现场故障情形,确实是由于程序存在BUG而导致防护能力变差,在对异常数据处理时会陷入死循环,最终导致程序异常退出。
3 采取措施
1.完善通信前置机处理程序,升级程序到V1.3.2版本。新版本程序会对接收到的无线车次信息正确性进行校验,判断相关信息是否符合通信规则,确保关键字段 (如车次号)不能为空,如果校验通过则进行处理,不通过则视为异常数据,程序不对其进行数据处理,防止由于对异常数据循环处理导致程序陷入死循环的情况再次发生。
2.在通信前置服务器上增加看门狗程序,并与通信前置机程序建立UDP链接,定期向前置机程序发起轮询,通信前置机程序收到轮询后,回复轮询响应消息给看门狗程序,看门狗程序如果一定周期内收不到轮询响应,则认为前置机程序工作不正常,就会自动重启通信前置机程序,通过这种手段来及时发现程序跑死或者异常退出的问题,并能够自动恢复程序正常工作,防止程序异常退出的问题再次发生。
3.通信部门加强传输通道误码和无线车次号信息传递监测力度,发现解析数据异常时及时组织车载通信部门对数据进行下载、分析,同时组织对GSM-R无线性能、传输通道测试,逐点排查异常原因,避免异常数据对CTC系统的冲击。
4 结束语
自该起故障发生后,电务处组织相关技术人员对全局连续15日内发送的无线车次信息数据进行了跟踪分析,未再发现异常数据上报情况,CTC程序也未再有异常退出的现象。今后应继续关注大西高铁CTC系统和GSM-R通信网络的运行状态,对发生的故障由信号、通信部门联合组织进行分析,确保CTC系统稳定运行。
[1] 中华人民共和国铁道部科技司、运输局.科技运[2007]98号.GSM-R数字移动通信应用技术条件第二分册:列车无线车次号校核信息传送系统 [S].2007.
[2] 中华人民共和国铁道部运输局.铁运[2012]288号.铁道部关于印发《GSM-R数字移动通信应用技术条件第九分册:数据传输应用接口及设备》的通知[S].2012.
[3] 中华人民共和国铁道部运输局.运基信号[2007]696号调度集中系统(CTC)数据通信规程 [S].2007.