无线连接超时故障成因分析及应急处理
2014-08-15马文俊
马文俊
马文俊:西安铁路局西安电务段 工程师 710005 西安
CTCS-3级列控系统主要由列控车载系统(ATP)、铁路专用移动通信系统(GSM-R)、无线闭塞中心(RBC)三大模块及其他地面设备组成。系统中任何一个环节存在异常大都会反映到列控车载设备上,表现为无线连接超时,而且因发生时机不同对列车的影响各不相同。概括起来有以下几类:①绝大部分制动10~20 s后自动缓解;②少数制动20~30 s后会降级为C2运行;③低速下B7级制动导致停车;④极少数因交权流程取消等原因导致的紧急制动停车。
1 故障定义
无线连接超时,是指CTCS-3级列控系统中,因无线链路异常,导致车载设备最新收到的无线消息的时间戳与其当前时间的差大于参数T_NVCONTACT时,列控车载系统按照安全逻辑向车体输出B7级制动,影响动车组正常运行问题的统称。
对于无线连接超时故障,尽管采取了软件升级、系统优化等措施,但由于系统复杂、技术要求高、涉及部门多等原因,这个问题始终未能得到彻底、有效解决,长期困扰系统维护人员。
2 故障原因
2.1 车载设备无线传输模块工作不稳定
车载设备无线传输模块由MT电台及电台与ATP主机的专用接口模块组成。接口模块根据ATP设备型号不同而略有差异,如300S型为RIM模块,300T型为 GCD+STU-V模块,300H型为RTM模块。车载无线传输模块中MT电台故障率较低,绝大多数是接口模块软件或硬件(含MT电台天馈系统)异常所致,其中软件异常占绝大多数,而在软件异常中绝大多数又发生在启机自检过程中,通常断电重启可以克服。
判断车载设备是否正常的最有效标准:ATP系统未经断电重启的情况下,如果在后续交权区均发生无线连接超时,则判定为车载设备故障,否则为其他设备影响。主要依据是专用接口模块不具备故障自恢复功能,必须经过系统自检通过后才能挂上总线,并实现通信控制功能。300T设备在每个交权区均发生无线连接超时后,同时降级为C2级运行,前方站出站后转入C3。
2.2 RBC设备工作异常
RBC系统作为CTCS-3级列控系统的核心设备,其安全性、可靠性、可用性和可维护性等方面均经过严格测试,而且设备安装所处环境良好,RBC通信接口单元故障的可能性较小。即使发生异常也会被RBC主机及时发现,并采取切换至冗余系统、宕机等措施排除故障,确保RBC系统安全平台逻辑运算和控制正确无误,因此造成无线连接超时的概率非常小。
而因RBC主机问题影响C3级列车正常运行的情况,基本是因为 RBC主机发现与地面 IXL、TSRS等设备安全连接异常、RBC移交过程中发生的移交取消等特定场景、RBC数据配置与实际(如车号、地面基础数据)不符等,此时,软件启动故障-安全机制,使RBC系统导向安全侧。
2.3 GSM-R系统异常
GSM-R系统频段:上行链路885~889 MHz,下行链路930~934 MHz,带宽4MHz,与中国移动共用EGSM频段,而且采用频率空间分割方式,由于部分地区清频不彻底,移动基站业务量大时会占用GSM-R频点,造成网间同频干扰。
而无线电波的传播又受地形地貌、电磁环境、气候条件、系统抗干扰能力等诸多因素影响。所以,GSM-R系统传输性能很大程度上决定了无线连接超时发生的概率,也是触发车载ATP、地面RBC设备发起安全会话终止的主要原因。
3 故障分析
无线连接超时发生的原因复杂,应从C3级列控系统的角度,采取车-网-地联合分析的方法,以及信号、通信等各相关专业全力配合,共同查找故障点。除了300H型ATP设备具备链路层、传输层、安全层及网络质量测量报告等通信底层数据记录功能,其他300S、300T系统均没有底层数据记录功能,JRU及Dump数据也只分别记录了应用层无线消息和ATP系统自身的故障代码。所以,从车载侧分析故障原因,主要依据车载安全逻辑及后续交路运行情况综合判断,车载数据提供的有效信息有限。
无线连接超时分析,要综合ATP设备和RBC设备应用层消息交互内容和逻辑、消息发送和接收时延、时序,以及GSM-R系统Abis、A、PRI接口数据等一同进行。常规分析流程如下。
1.判断故障是否发生在RBC交权区,后续交路及交权区运行是否正常。
2.车载及RBC设备有无故障代码、异常灯显等软件、硬件问题。此类问题尽管发生概率较小,但判断方法、实现途径较为简便,可以在故障发生后最短时间内及时进行确认。所以故障发生时,首先安排RBC工区值班人员观察附近列车运行情况,同时检查故障发生位置对应RBC设备硬件灯位显示及工作状态。其次,安排ATP工区人员拨打司机GSM-R手持机,请求司机确认ATP电台及接口模块灯位显示及工作状态,如300S设备MT电台SIM卡指示灯、NW网络指示灯是否为红灯,主备系RIM模块灯位状态是否一致。此方法受单司机值乘等因素影响,可以通过DMS系统盯控该车后续运行情况判断,在非特殊紧急情况下,不建议电务人员采用。再次,可以请求核心网工区结合GSM-R系统检测数据进行初步分析。
3.通过RBC数据分析,判断故障发生时应用层无线消息是否按正常流程终止会话,以确定车载设备工作状态,便于进一步缩小故障范围。由于下载RBC日志文件不受时间等其他条件制约,易于获得,所以可以通过RBC记录的车-地之间L4层日志进行先期分析判断。除发生在交权区和C3→C2等级转换点的正常挂断流程外,RBC发送的M24+P42消息是RBC设备要求车载启动正常挂断流程的唯一方式。
应用层会话正常挂掉流程规定:RBC收到ATP发送M156“通信会话结束”消息后,RBC认为终止了其通信会话;ATP收到RBC回复M39“通信会话结束确认”消息后,ATP认为终止了其通信会话。
RBC对其“发送安全消息的频率”和“再次发送消息前的确认消息等待时间”分别设置定时器T_ALIVE(6s)和T_ACK(12 s),当定时器超时后还未收到车载回复的确认消息,RBC将发送M24+P42消息要求车载断开通信会话。如果车载及时向RBC发送M156消息,说明车载及时收到并正确处理了RBC发送的M24+P42消息,据此可以初步判断车载ATP设备工作正常。
一个典型列子为:LKDR-S型RBC在配置时间内(18 s)没有收到车载对其发送M24+P65(M_ACK=1)消息的确认消息M146,RBC触发安全处理逻辑向车载发送M24+P42要求车载主动断开与其通信会话。现场信号人员结合故障发生位置,判断是否为应用层启动正常挂断流程,对排除信号设备异常尤其重要。接下来的工作需故障车体入库后上车下载ATP数据,并进行相关检查测试。
4.ATP及RBC联合分析。通过比对车-地会话过程,分析是否存在应用层消息丢失、重传、失序、错发(确保最新收到的消息T_TRAIN参数不大于前一个消息的T_TRAIN参数)等异常情况。
RBC数据记录,16:34:53:734 RBC向ATP发送T_TRAIN=2125.8的M24无线消息,之后又发送了9条M24无线消息。与之对应,ATP数据显示记录,16:34:55:0 ATP收到RBC发送的T_TRAIN=2125.8无线消息M24之后,再未收到RBC侧的任何应用层消息。按照RBC配置参数T_NVCONTACT=10,16:35:04:0车-地会话中断10 s后,ATP向RBC发送“无线连接超时”错误消息,并于1 s后输出B7制动。通过上述比对分析,本次无线连接超时,应用层逻辑无异常。故障原因为通信底层传输异常,导致车-地通信会话过程中应用层无线消息大量丢失所致。深入分析无线消息丢失的原因,就需要通信部门结合GSM-R系统各接口数据确定底层通信异常的原因。
5.信号人员也可结合GSM-R系统监测数据,从PRI接口和Abis接口数据做初步分析,找出异常原因。
1)Abis接口位于基站收发信台BTS与基站控制器BSC之间,主要记录网络质量和电平、TA值等参数。数据分析主要关注质量和电平指标是否超出范围。GSM-R网络质量指标规定:信号电平为-47~-98 dBm,-47 dBm质量最好;通话质量等级为0~7级,0级最好,大于5级将不能正常承载上层列控业务,导致“无线连接超时”。另外,可通过分析比对故障时段与正常时段TA值大小判断是否存在网内同频干扰问题。
2)PRI接口是移动交换中心MSC与无线闭塞中心RBC之间的接口,主要记录链路的建立、信息交互,释放等过程。数据主要从以下4方面进行分析:一是安全及通信连接建立、数据传输、连接释放等过程和时序是否符合规范;二是链路层、网络层、传输层、安全层各层间信令类型、传输时延、数据长度是否与其他时段明显不同,CRC校验是否正确;三是数据链路层I(信息帧)、S(监控帧)、U(非数字帧)三类帧与其他各层帧类型对应是否正确,是否存在 SREJ选择性拒绝帧、DISC模式中断帧等;四是车-地通信双方I帧与S帧帧编号是否正确,故障发生前是否存在大量单方向重传信息帧等。
车-地通信过程中存在诸多异常,如:链路层的I帧(信息帧)及RR帧(监督帧)编号错误;传输层出现丢帧及未知帧;安全层缺失AU1、AU3验证消息;应用层RBC→ATP发送M32“系统确认”消息前缺失 M155“通信会话开始”消息;CRC校验多次错误等,均是导致底层拆链的原因,即造成无线连接超时。
3)A接口为BSC与MSC之间的接口,主要是传递呼叫处理、移动性管理、基站管理等功能,需要关注信令和小区切换是否正常。比对该区段历史数据,分析是否存在切换失败、切换位置发生明显变化、2次切换间隔小于传输恢复时间(大于20 s)等情况。同时可结合Abis接口电平参数,分析主、从信号相差是否太小(小于6 dB)使切换提前,进一步导致乒乓切换。另外,车速也是影响切换的因素之一。
4 故障应急处理
C3级列控系统庞大而复杂,车、地、无线通道、互联互通等任何环节出现异常,大部分以“无线连接超时”故障反映出来,所以“无线连接超时”故障应急及分析处理存在很大难度。笔者结合多年来维护管理经验和对各型ATP设备原理、设备规范的学习,提出以下几点建议仅供参考。
1.对于运行途中非交权区发生的1次无线连接超时,很大可能是外部干扰或网内同频干扰所致,ATP专业应做好后续交路盯控。
2.对于长大交路中的少数几次非连续无线连接超时,原因及应急措施同上。
3.同一地点附近(3~3.5 km)多趟列车发生无线连接超时,重点检查基站硬件或监测附近外网干扰。
4.一定时期内线路交汇处及枢纽地区多次发生无线链接超时,主要考虑新线引入导致的基站覆盖变化、网内干扰等方面存在问题,ATP专业应主动了解该地区铁路建设情况,并积极向上级部门汇报,请求协调处理。
5.运行途中所有交权区均发生无线连接超时,基本可以判定为车载电台1系故障或该系电台接口模块启机失败(软件BUG),即单电台交权故障。建议司机在条件允许时重启ATP系统。
此类故障发生时,ATP专业须待车入库后重点检查测试,主要检查接口模块硬件和电台天馈线是否异常。检查步骤如下:启机及呼叫试验、下载数据分析故障代码、测试对应电台天线驻波比、登顶检查天线外观、打开车顶天线检查馈线连接情况、测试馈线衰耗、检查车体馈线出线口密封情况及天线安装平台内部是否有锈迹(防止车体内部热空气进入密闭空间形成冷凝水,引起功率损失)等,逐步定位故障点。
5 结束语
从现场维护管理角度出发,对“无线连接超时”故障的定义、成因、判断要点和流程、故障应急处理等方面进行分析;从列控车载设备、传输通道、列控地面设备三个通信相关方分别进行了故障概率研判和数据分析知识点归纳。藉此抛砖引玉,给现场信号、通信专业大量新入职的干部职工提供一种分析判断方法,并帮助其开阔思路。
[1]中国人民共和国铁道部.运基信号[2010]224号.CTCS3级列控系统无线功能接口规范(V1.0)[S].2010.
[2]韩斌杰.GSM原理及其网络优化[M].(第2版)北京:机械工业出版社,2009.
[3]丁建文,钟章队.基于GSM-R的CTCS-3级列控系统安全数据传输通信协议帧分析[J].铁道通信信号,2010(9).
[4]杨帆,丁珣.高速铁路GSM-R网络优化过程研究[J].铁道通信信号,2013(7).