降低车载单电台软件故障的措施与建议
2021-05-10安武霞
安武霞
CTCS-3 级(以下简称C3)列控系统是基于无线通信实现车地信息双向传输的列车运行控制系统,由车载设备根据RBC 发送的行车许可信息生成控车模式曲线[1]。当发生无线故障时,会导致列控系统降级,甚至停车,极大地影响了运输效率。车载电台MT 是车载系统中负责无线数据通信的设备,在整个C3 等级车地通信中起着至关重要的作用[2]。车载侧设备单电台是造成无线故障的重要原因,其中MT 模块自身故障又分MT 软件故障和硬件故障2 种情况。电台自身软件故障会导致车载设备单电台移交过程中降级CTCS-2等级(以下简称C2)。
根据对合肥南动车所CTCS3-300T (简称300T)车载设备无线超时故障的统计,列车过RBC移交区时,由于单电台软件原因造成C3 降C2 的故障数量最多,影响运营效率。本文通过总结单电台软件故障降级规律,分析以往采用重启GSM-R 开关的应急处置措施的弊端;通过对STU-V-N 模块进行软件优化,以降低单电台软件原因引起的故障。此次软件优化主要是在STU-V-N 模块软件V9.3.1版本中增加了AT 指令,利用AT 指令实现车载电台软重启的功能。通过深入研究重启原理,结合现场应用效果和实际环境,提出进一步优化的建议和措施。
1 车载电台MT 的主要功能
300T 型列控车载无线系统由STU-V 设备、GSM-R 单 元以及天 馈线组成,如图1 所示[3]。
STU-V 是安全无线传输系统,负责车载侧无线数据的加密解密和安全传输,包含STU-V-V 和STU-V-N 2 个模块(旧平台为COMC 和GCD)。STU-V-N 模块负责数据的安全传输,STU-V-V模块负责对数据进行加密解密[4]。车载设备上电且STU-V 设备启动成功后,STU-V-V 模块在SDP设备上完成MVB 总线的注册,ATPCU 根据运行要求通过MVB 总线控制STU-V 设备与RBC 进行安全连接与信息交互[5]。
图1 CTCS3-300T 列控车载无线系统
GSM-R 单元车载电台MT 的主要功能是通过天馈线进行GSM-R 网络注册并建立车载设备与地面RBC 之间的通信会话,以实现车地之间的数据收 发[6]。MT 通 过RS-422 通 信 接 口 与STU-V-N模块相连,是CTCS-3 级列控系统中的关键设备。车载电台包括2 个移动终端(MT),2 个MT 在上电后均注册到GSM-R 网络,且在运行中一般只有1 个MT 与RBC 建立连接。只有在进行RBC 移交时[7],处于空闲状态下的MT 呼叫下一个RBC(接收RBC)并与其建立连接。当列车(最小安全后端) 越过RBC 切换边界后,原来工作的那个MT 与它连接的RBC(移交RBC) 断开连接,此后处于空闲状态,以备进行下一次RBC 移交处理[6]。若车载电台软件异常造成电台未注册到网络,不能与RBC 进行数据交互,将会导致无线超时甚至列控系统降级[8]。
2 应急处置现状分析
通过对单电台原因导致C3 无线传输超时且降级的数据进行分析,发现存在一些规律:①动车组以C3/C2等级交替运行;②分析通信核心网数据,发现一直只有同一个电台起呼在用;③分析ATPCU LOG,发现注册GSM-R 网络的MT 模块数少于2 路[9];④分 析JRU 数 据,车 对 地 发 送 了M156(通信会话结束) 消息;⑤观察MT 电台指示灯,发现异常MT 电台的绿灯、黄灯都在闪烁(MT 模块正常运行时的灯显为绿灯闪,黄灯常亮);⑥异常的MT 模块送厂修,返回的报告中均反馈“未发现异常”。
总结C3 降级故障处置经验,研究连续降级规律,结合MT 电台工作原理,判断此类降级是由于MT 模块程序死机所致,应属于软件异常问题。为此,对出现C3 无线超时降级的300T 设备,人工重启GSM-R 网络开关,使MT 模块电台进行重新上电复位,按照此种方法处置,绝大多数情况下此类故障便可消除,并在后续的交路中运行正常。虽然重启GSM-R 网络开关在一定程度上可以解决此类降级问题,但在实际操作中却存在很多弊端。
1)不能及时解决降级问题。遇到长交路车辆在途中降级,应急人员很难及时上车,等到应急人员赶到,车辆可能已经出现了多次降级,更有甚者已完成了整个交路的运行。即使应急人员上车添乘,在运行途中也有可能找不到合适时机重启GSM-R网络开关,给处置工作带来很大困难。
2)造成人力的极大浪费。以往配属的车辆一旦发生降级,安排应急人员跟车添乘,再选择适当时机重启GSM-R 网络开关,对电台进行复位。但当遇到远程车辆在途中降级,应急人员上车处置完毕后很难及时返回,造成生产力的浪费。
3)对运行中的设备造成潜在风险。列车在正常运营中处于高速运行状态,中途重启GSM-R 网络开关,在一定程度上给设备带来了一些未知风险。一旦应急人员处置不当,极易造成更大的安全隐患。
4)造成备品浪费和设备损耗。发现单电台故障时,运行途中采用重启GSM-R 网络开关消除故障,车辆回所后会用备品电台替换异常电台,检测正常后再把备品电台替换下来,这种反复操作易造成正常电台损坏;同时因为备品电台的占用,确实有故障电台需用备品电台替换时,却没有足够的备品电台来替换。
3 车载电台软重启原理及应用效果
针对MT 模块程序死机导致的降级问题,以及现场重启GSM-R 开关方式的弊端,提出MT 模块软件优化建议。主要是在STU-V-N 模块软件V9.3.1 版本中增加了AT 指令控制车载电台软重启的功能[10]。
3.1 AT 指令功能原理
3.1.1 功能原理
当STU-V-N 监测到电台由于故障未注册到网络,并满足以下3 个串联条件时,STU-V-N 通过AT 指令控制未注册到网络的电台重启。
1)STU-V-N 监测到双电台流控正常。
2)STU-V-N 监测到“一个电台注册到网络,且另外一个电台未注册到网络”持续5 min 时间。
3)未注册到网络的电台重启次数未超过最大重启次数(3 次)。
STU-V-N 向未注册到网络的电台发送第一次软重启AT 指令后,如未重启成功,则进行第二次重启。STU-V-N 发送软重启AT 指令后,应对此进行诊断维护记录。STU-V-N 监测到电台正常注册到网络持续5 min 后,应该清除该电台的重启次数[3]。
3.1.2 AT 指令软重启时机
车载有2 个电台(MT1 和MT2),MT 的设置是对等的。动车组在C3 等级运行时,2 个电台交替使用,发挥的功能相同。现以300T 电台2 为例说明发送AT 指令的各种时机,电台1 采用同样处置方式。
1) 电台1 注册到网络,电台2 未上电,ATP不向电台2 发送重启命令。
2) 电台1 未注册到网络,电台2 未注册到网络,ATP 不向电台2 发送重启命令。
3)电台1 在5 min 内先未注册到网络,后又注册网络成功,电台2 未注册到网络,ATP 不向电台2 发送重启命令。
4)电台1 注册到网络,电台2 在5 min 内注册到网络,ATP 不向电台2 发送重启命令。
5)电台1 注册到网络,电台2 在5 min 后注册到网络,ATP 向电台2 发送重启命令。
6)电台1 注册到网络与RBC 建立连接,电台2未注册到网络,ATP 向电台2 发送重启命令。
3.2 AT 指令应用效果
2020 年4 月13 日,合肥电务段开始全路首列CRH2C-2098 动 车 组 进 行300T 设 备V9.3.1 版STU-V 软 件升级。4 月14 日 至4 月22 日,利 用DMS 对该动车组实施跟踪,观察设备上线5 000 km运用状态,无任何异常反应。截至2020 年5 月30 日,完成合肥南所66 组132 套300T 设备的升级,设备运行稳定正常,无任何异常反应。
经过统计,2020 年1 月1 日至3 月底,合肥南所配属的66 组动车组C3 无线超时降级故障发生85 件,其中由MT 软件故障造成的有43 件,故障占比约为50%。2020 年5 月30 日完成升级后,跟踪观察得出3 个月发生C3 无线超时降级故障25 件,由MT 软件故障造成的只有2 件,故障占比为8%。通过对比发现MT 软件故障率明显降低,动车组运行过程中出现连续降级的现象也有明显改善。
此次STU-V-N 软件V9.3.1 版升级,增加了AT 指令控制MT 软件重启的功能,解决了300T设备由于电台自身软件故障后无法自动恢复的问题,在很大程度上降低了由于电台软件问题造成的降级故障,提高了运营效率。通过软件自动重启,不再需要人工进行GSM-R 开关操作和反复拆装电台MT,减少人力及备品的浪费,降低了生产成本,同时也避免了动车组运行过程中重启GSM-R开关设备的潜在风险。
4 优化建议
STU-V-N 软件升级后,因MT 软件故障引起的降级较以往有明显降低,但未彻底消失。根据现场实际动车组运行情况和RBC 小区划分,结合AT指令控制电台软重启原理,发现AT 指令时间配置不合理,在一些特殊场景下不利于发挥此次软件修改的作用,建议进一步优化。
4.1 特殊场景分析
4.1.1 动车组处于RBC 区间的中间位置
2020 年5 月28 日,动车组CRH380B-3714-01端于17时22 分运行至合福高铁线旌德—绩溪北合福场间K1258+87处,因无线连接超时由C3降级为C2运行。结合AELOG 数据分析,列车在17:16:53运行到中继3位置(合福高铁RBC3的小区范围内),发生了注册网络数不足,原因为MT2 未注册到网络。从重启时间节点可以看出,发生注册网络数不足5 min后,STU-V-N 模块于17:21:52对MT2发出重启指令,MT2 正在进行软重启时,17:22:13到达RBC3 和RBC4 的移交区,但此时MT2 还未重启完成,出现单电台移交情况,导致无线超时降级。通过分析数据发现,第一次MT 软重启未成功,时隔约8 min 后进行了第二次软重启,才复位成功。AT 指令时间配置5 min 太长,不利于列车到达RBC移交区前完成MT 的软重启。
4.1.2 动车组处于RBC 区间设置较短的线路
分析动车组实际运行情况,当发生电台注册数不足时,在RBC 区间设置较短的线路上不利于实现由于MT 软件造成的单电台故障的复位功能。
以图2 所示的沪宁城际RBC 小区设置情况为例分析,RBC3 和RBC4 区间长度分别设置为40.629 km 和31.538 km。目前在高铁线路动车组以C3 等级运行时的顶棚速度为310 km/h,不考虑中间站停车的情况下,动车组基本保持以300~310 km/h 的速度运行,以此计算,通过RBC3 和RBC4 的时间分别约为8 min 和6 min。而MT 软重启的时间约1 min,在捕捉到稳定的MT 异常标志位后,需要至少6 min 的时间进行软件复位,即便是小区始端出现MT 故障,动车组都已运行过多个小区,而故障电台也还没有及时复位,同时按AT指令发送原理,采用5 min 的计时清零,造成实际时间远不止6 min,极端情况为11 min左右才能够进行第一次重启(例如前述300T 电台1 注册到网络,电台2 在5 min 内注册到网络,ATP 不向电台2 发送重启命令,计时清零。紧接着电台2 又出现未注册到网络的情况,捕捉到电台2 未注册到网络再持续5 min 才会发送重启指令)。这种情况易导致在STU-V-N 模块发出AT 指令之前,就会出现多次单电台降级故障。并且第一次软重启不成功,需再间隔5 min 才进行第二次软重启,电台重启完成的时间将会更长,而且未来高铁对速度的要求也会更高,AT 指令时间配置5 min 太长,不利于故障电台及时复位,以减少列控系统降级次数。
图2 沪宁城际RBC 小区划分图
4.2 建议措施
综合上述原因,建议将AT 指令配置时间(5 min)缩短,设定时间建议改为2~3 min。
1)目前MT 在没有动车组换端重启的情况下,STU-V-N 软件V9.3.1 版本发出的AT 指令次数会被记录且不会清除,由于设置了重启3 次的上限限制,所以理论上不存在无限AT 指令重启的问题,因此不存在安全隐患。
2)车载电台MT 仅是用于C3 等级车载系统中负责无线数据通信的设备。在运行过程中,如果一个电台MT1 正常注册,另外一个电台MT2 未注册到网络,且正在使用正常电台MT1,运行模式为C3 等级,那么MT2 是否重启并不会影响列车以C3 等级运行,而且尽早软重启MT2 电台,在小区切换前软重启成功就可以避免到达小区切换时降级的发生。即便由于MT2 电台异常导致列车已经降级到C2 运行,此时的MT2 电台也不影响C2 控车,尽早软重启成功,还可避免后续降级的发生,减少降级次数,避免长时间C2 运行的情况,这样可以更大程度地提高运营效率。
目前上述建议已被采纳,并计划在300T 的新一版STU-V-N 软件中进行修改。
5 结束语
STU-V-N 软件V9.3.1 版升级后在很大程度上解决了300T 设备由于电台自身软件故障后无法自动恢复的问题,极大地降低了由于ATP 车载侧造成的无线超时故障。但是在实际使用过程中,个别参数还需要继续优化调整。下一步需要对C3无线超时的时间与降级时间进行研究,降低车载侧原因造成的C3 无线超时降级对动车组运行的影响,确保动车组安全稳定的运行。