实施联合技术攻关,破解无线超时顽症
2015-02-12杨泽举蒋笑霜
杨泽举 蒋笑霜 张 磷
2012年底,随着京石武高铁郑武段开通及跨局跨线配备不同类型ATP动车组的大量开行,郑州局管内无线连接超时故障骤然增加,对高铁正常运输组织及运营秩序造成较大干扰。为破解无线连接超时顽症,攻克困扰C3稳定运用的痼疾,郑州铁路局电务处于2013年2月成立联合攻关小组,自主进行信息分析和难题攻关,经过2年时间的不懈努力,取得了显著的攻关整治成效,特别是2014年四季度,郑州局管内郑西、京广高铁无线连接超时故障信息同比下降了61%,主要做法如下。
1 组建团队
电务处抽调信号、通信、车载专业技术骨干,组成高铁故障信息联合攻关分析小组,建立了 “多专业联合、局段联动”的攻关分析组织体系。小组成员围绕 “追根溯源、探寻规律、破解难题”的总体思路,每日对高铁设备故障和运用信息、无线连接超时故障逐件分析,具体实施如下。
1.问题件件有分析,件件有结论。每件异常信息分析按照一事一档,将概况 (包含:公里标、ATP类型、电台类型)、现象、原因、处置结果、相关设备数据及日志、有关厂家分析报告等归档,建立故障分析档案。
2.为了避免故障来源不一致和信息遗漏,异常信息来源统计以电务调度通知的故障概况或信息,及DMS故障报警信息为准。
3.电务段、通信段相对应的主管科室、车间、班组明确日常联系沟通渠道,发现问题必须无条件提供数据并配合分析,需要外局或厂家支持时,由对口专业单位负责落实。
4.电务处分析小组每天由专人负责对故障分析进行梳理、确认,对现象、原因不准确、不清楚的故障由电务处分析小组进行联合分析,深入研究。
2 联合攻关
联合主要指局管内各专业、各部门之间的联合,以及与各研发、设备供应商、设计院等单位的联合。由电务处分析小组负责,组织技术人员联合分析,共同确定故障原因及整改措施,或组织研究测试、试验方案,进行持续跟踪及分析。
需要技术支持时,由分析小组与相关单位充分沟通,在厂家各自分析的基础上,面对面的联合分析,使研发人员充分了解故障现象、信息交互过程、设备特点和外部环境等。
每周发布高铁分析周报,针对故障逐件分析原因,对原因分类统计汇总,判别问题发生的倾向、趋势,提出具体整改要求,限期解决。分析小组动态盯控措施落实情况,跟进问题解决进度,协调过程中出现的问题,确保解决方案、计划扎实推进,针对性措施得到落实。
通过2年的联合攻关,逐步理清了造成无线连接超时的因素,掌握了高铁列控、车载设备及G网设备机理,积累了丰富的经验,增强了处置高铁故障信息的能力,促进信号、通信、车载专业之间的协作沟通。
3 统计分析
对无线连接超时故障的统计,可以了解故障易发生的部位及类型,有利于设备的改进,软件的升级,可以避免或减少故障的发生。
例如,郑西高铁2014年5月20日—9月20日无线连接超时故障85件,其中车载设备原因37件,占总件数的43.5%;通信设备原因30件,占总件数的35.3%;SAGEM电台在直放站区域无线连接超时13件,占总件数的15.3%;缺少数据无法确认故障原因4件,占4.7%,RBC设备故障造成无线连接超时1件,占1.2%。
1.车载设备造成无线连接超时故障的主要原因有7类:①单电台交权13件;②车载电台接收电平低2件;③机卡分离7件;④电台故障4件;⑤小区切换不成功1件;⑥车载电台突然挂断4件;⑦小区切换时 “SREJ”帧丢失6件,其中造成停车1件。
2.通信故障主要原因有7类:①GSM-R无线网络问题;②基站休眠;③基站主控板故障;④传输2Mb/s瞬断;⑤MSC主动挂断;⑥邻频干扰;⑦基站锁闭形成环回,造成车载接收数据错误问题。
3.车-地配合 (含部分原因不明、RBC问题)共有18件,查明原因的14件,主要原因有2类:①SAGEM电台与直放站适配13件;②RBC故障1件。
可以看出,影响无线连接超时的原因有3方面、16类。为有效降低该类故障发生,必须要长期观察,联合分析,挖掘潜在问题。
4 问题解决
技术人员需要掌握车-地之间应用层原理、车-地之间数据链路层协议,能够通过Ⅰ帧和RR帧变量等对无线超时原因进行定位,有针对性地制定措施,降低故障发生率。
4.1 京广高铁跨局切换地点发生无线连接超时
该类故障主要发生在京广高铁开通初期,车载设备运行至郑州局RBC6与北京局RBC5之间,以及郑州局RBC8与武汉局RBC9之间发生无线连接超时。
通过故障统计分类,以及对施工和作业情况进行排查。发现有如下特点:①发生无线连接超时的位置均在RBC交权区;②无线连接超时故障的ATP类型不固定,300S和300T均有;③发生车次不确定,不是趟趟车都发生。据此,初步怀疑无线连接超时的原因可能与局间MSC切换有关,经联合分析查找,最后确定故障原因是由于BSS系统软件掉死,使跨局间MSC之间切换无线连接超时,重新加载软件后解决。
4.2 郑西RBC宕机造成的无线连接超时
2013年4月,郑西RBC1、2、3频繁出现无规律宕机,造成无线连接超时。为此,制定了从硬件到软件、从RBC系统本身到其他设备、从系统内部到外部逐步排查的方案。从2013年4月19日开始每天 “天窗”点内下载日志、抓包分析,经过12天的不懈努力,确认为CTC与RBC之间接口出现了问题,CTC网卡传送信息周期性 “滞缓-爆发”传送,造成RBC判断接口异常宕机。更换CTC设备的网卡后故障彻底消除。
4.3 郑西高铁发生无线连接超时
2014年9月12~14日,郑西高铁固定区域多次发生无线连接超时故障,分析日志发现在故障发生前,车-地之间数据传输出现异常,车载向RBC发送 “FRMR”帧,然后车-地之间发生无线连接超时。通过跨专业的联合分析,初步判断为车-地之间数据交互出现了错误。2014年9月18日,对洛阳龙门至渑池南01/03/05基站增加了空中接口监测设备,监控基站发送给车载台的下行数据,发生无线连接超时后,及时下载RBC、通信、空口数据进行对比,终于找出故障原因是处理基站故障时,将基站主控板锁闭后,造成主控板内2个控制模块每15min进行切换一次,切换时车载发送的数据被短暂环回,造成车载数据逻辑错误。经过“天窗”点内多次试验,改变原有基站锁闭方式,不再锁闭基站主控板,而是锁闭基站载频的方式,避免了此类故障的再次发生。
4.4 300T超时后造成后行车MA不延伸
配置300T型ATP的动车组在郑西高铁运行以来,一直存在车载设备发生无线连接超时后,车载模式已经转为C2模式,MA范围内的区段仍被分配,造成后行车接收的MA不延伸而停车。为了减少该类故障对行车的干扰,重点关注配置300T型ATP上线运行情况,与调度所联合制定应急预案,减少了后续列车接收不到MA造成的停车故障。此问题经过多次组织专家研究,最终明确由300T软件升级解决,并纳入了总公司ATP整治计划。
4.5 车载SAGEM电台与通信直放站配合问题
通过数据统计,发现郑西高铁洛阳—渑池07至08基站区段无线连接超时频发。通过接口监测数据分析发现:出现无线连接超时的车次装载电台型号均为SAGEM,在该区域小区切换后,下行质量出现连续7级,下行链路不通,最终无线连接超时。
先后对 LYN-MCN07、LYN-MCN08基站以及下挂的直放站设备、相关区段的外界干扰、场强覆盖、CSD服务质量等多方面进行了排查及测试工作,均未发现异常。但随着排查工作的逐步深入,发现上、下行列车发生无线连接超时的位置集中。LYN-MCN07至08基站间是基站加直放站设备覆盖区段,基站以及直放站设备均架设有天线,基站及相关直放站之间存在信号重叠覆盖情况。
运行在此区间列车的车载电台可能接收到多条径路的无线信号,当2路或多路无线电波经由不同直放站或经由基站天线到达车载电台,由于传输距离不同,多径信号间会存在时延。SAGEM型号电台的多径时延补偿能力相比于其他类型电台稍弱,运行至问题区间因多径信号同步精度不足,产生多径干扰。
为此提出网络优化方案,修改基站功率预算切换门限和切换判定所需测量报告数目,避免切换发生位置位于空间直放站交叠覆盖区段,使切换集中于目标基站与最近直放站之间,以降低无线信号电平波动的影响。2014年12月,组织二次优化,此区域消除了SAGEM电台无线连接超时现象。
5 总结
郑州铁路局管内郑西高铁无线连接超时发生比例远高于京广高铁,主要原因是郑西高铁设计较早,基站布置设计密度较大,实际运用时,小区切换相对较多,造成超时机率增加;郑西直放站数量较多,车载电台与直放站配合造成超时机率增加;动车经过站内时车-地交互不同,郑西RBC与车的交互是以轨道电路为单位,京广RBC是以进路为单位,相比郑西在站内交互信息量较大,造成超时机率增加。
通过联合分析,逐步理清了无线连接超时的原因,有效遏制无线连接超时故障,以下是几点实践体会。
1.建立联合分析小组,各段技术人员从最初的被动参加到主动参与,不仅维护单位,而且设备供应商也从中受益。这是解决疑难问题的有效手段,在攻关中发挥重要作用。
2.通过联合分析,各专业技术人员对各系统、各设备工作机理理解更为全面深入,分析问题从原无从下手到现在快速锁定疑点,各专业技术人员配合顺畅,自主分析能力大幅提升。
3.信号、通信、车载跨专业之间联合,对其他专业的设备和使用情况有了更深地了解,维护人员掌握了设备特性,使G网优化、设备整治更有针对性,提高了测试维护水平。
4.对故障现象、车-地信息交互的全面剖析,只有正确理解、运用技术规范,如 《CTCS-3级列控系统无线通信功能接口规范》、 《Subset-037 v230-cn》、 《CTCS-3级列控系统总体技术方案》、《CTCS-3级列控系统无线报文定义及运用原则》、《CTCS-3级列控系统应答器应用原则》等,对故障信息分析才能深入,才能解决ATP处理逻辑、电台多径干扰等疑难问题。
5.由于无线连接超时会引发停车故障的发生,所以维护部门各专业、各设备厂商、设计单位都要高度重视,从各环节最大程度保障动态稳定。
造成无线连接超时的原因很多,车载设备、通信设备、车-地配合问题是主要方面,需通过定期检查、测试,及时转化分析成果,规范工作流程、标准,才能最大程度减少不利因素。建议车载电台设备研发单位对场强适应范围明确,便于通信部门在场强优化时与电台更加适配。
[1] 钟章队,吴昊,李翠然等 .铁路数字移动通信系统(GSM-R网络规划与优化)[M].北京:清华大学出版社,2012.
[2] 中华人民共和国铁道部 .科技运[2012]211号.CTCS-3级列控车载设备技术规范(暂行)[S].2012.
[3] 中华人民共和国铁道部.科技运[2008]127号 .CTCS-3级列控系统需求规范(SRS)[S].2008.
[4] 中华人民共和国铁道部铁道部 .科技运[2008]168号 .CTCS-3级列控系统总体技术方案[S].2008.
[5] 中华人民共和国铁道部.科技运[2012]113号 .CTCS-3级列控系统需求规范(FRS)[S].2008.