铁路通信系统冗余保护机制问题研究及案例分析
2024-01-19赵建国
赵建国
在中国铁路高速发展的进程中,通信系统作为主要基础设施日渐突显出不可替代的重要作用,在铁路运行调度指挥、列车运行控制、运行安全监测、视频监控、灾害防范预警、突发事件处置等诸多专业及领域发挥着重要的信息传送作用[1]。通信系统设备设施的低故障率,网络的高可用性,是铁路运输安全生产的重要保障和前提。为适应铁路运输日益复杂和严苛的要求,铁路通信系统从本质安全角度出发,坚持人防、物防、技防相结合,采取有效应对措施,努力克服“黑天鹅”及“灰犀牛”安全事件发生[2]。多年来,通信系统持续推进网络、设备、功能单元等不同层面的冗余保护机制作用的有效发挥,从而大幅提升通信系统的稳定性[3]。然而,冗余保护机制的引入也使得网络结构更加复杂,设备数量进一步增加,软件控制逻辑更为关键,对通信设备管理和维护工作提出了新的要求[4]。本文结合典型故障案例,对冗余保护机制功能的实现、作用的发挥,以及存在问题进行研究分析,并提出工作建议和措施,开拓铁路通信设备维护工作思路,筑牢通信网络安全屏障。
1 冗余保护机制
1.1 冗余保护机制概念
“冗余保护”就是在硬件和软件基本功能具备的情况下,通过增加备份硬件及软件控制功能实现冗余保护能力,也称为冗余技术或容灾备份技术。鉴于铁路通信系统的重要属性,往往在设计之初就会充分考虑冗余保护,从网络搭建、设备、单板等各层面实现冗余保护功能。冗余保护等级一般分为:系统网络级保护、设备网元级保护和板件级保护。冗余保护方式包括:主备(冷、热)倒接、负荷分担等[5]。冗余保护机制等级及运用示例见表1。
表1 冗余保护机制等级及运用示例
由表1 可见,各等级功能实现所采用的冗余方式并不相同。从GSM-R 网络结构体系来看,全路GSM-R 共用设备核心网元级故障是灾难性的,网元采用北京、武汉异地设置,兼顾热备份和负荷分担,能够很好地满足设备高可用性要求[6]。基站设备作为无线网系统的接入设备,为确保运营速度350 km/h 线路CTCS-3 级列控系统要求,站间距按3 km 设置,采用奇、偶数环型组网,形成交织冗余覆盖,单站故障并不会持续影响列控系统工作。综上所述,冗余保护机制呈现系统性结构特点,犹如金字塔型。网络层级越高的系统采用的冗余方式越多样、网络结构越复杂、硬件依赖关系越繁杂,同时也满足了更严苛的稳定性要求。
1.2 冗余保护机制发挥
冗余保护机制的实现,使得铁路通信系统自愈能力得到大幅提升,在故障发生过程中能够做到用户无感知,同时也有效地保障了故障修复和应急处置工作的开展。
1)设备故障应急方面。目前通信系统冗余保护机制已经非常成熟,电源系统的一、二路外电引入负载分担,同步数字体系传输网络路径保护、子网保护,GSM-R 无线网络交织覆盖或A/B 网冗余覆盖[7]。据统计,2023年以来某路局发生的7件光缆中断故障中,由于传输光缆径路保护未造成用户面业务影响;某高铁线路5 件基站硬件设备故障中,由于无线网络交织冗余覆盖,没有发生1 件C3 级列控系统无线通信中断故障。冗余保护机制为铁路通信系统重要业务保护提供了有效的技术支撑手段。
2)设备维护方面。铁路通信系统网络的冗余保护机制在维修过程中同样发挥着重要作用。根据《铁路通信设备维护规程》规定,通信部门需在规定周期内对系统设备开展检修、试验及集中修等维护工作[8]。为满足维修工作过程中重要业务不发生中断要求,通过采用网络冗余倒换、单侧冗余设备承载业务等方法,有效地减少通信维修对铁路运输生产的影响。
2 问题分析
冗余保护机制的设置及功能发挥,为缩短故障延时、单板故障应急处置提供了有效的技术手段,提升了应急处置能力。在板件故障、光缆中断、基站设备退服等方面也表现出较好的响应能力,为铁路安全运输生产提供了有效的保障[9]。同时随着网络、系统设备的复杂程度的大幅提升,受到软、硬件设计缺陷、隐性故障、维护手段不当等因素影响,给机制发挥带来诸多问题。
1)复杂的网络级设备冗余,考验原厂设备倒换机制的合理性。①在维护过程中发生的故障节点存在硬件故障非显性特点,也就是俗称的“假死”现象,系统并不能感知故障点,从而引发的冗余失效问题时有发生;②现代的通信设备在倒换机制设计方面已经摒弃了开关量概念,在量化倒换触发条件下,如何合理设置倒换参量显得尤为重要;③通信系统在实现冗余倒换过程中,为避免主备节点、板卡的频繁切换,往往设置保护时间,这也使得冗余保护切换存在不及时问题。
2)繁多的硬件数量和软件控制使故障率升高。①为实现冗余保护机制增加的硬件设备往往处于备用状态,对其检监测手段并不完善,导致备用设备状态存在一定概率的不确定性;②从统计概率方面分析,增加的硬件数量与故障率的上升成正比关系,也就是说硬件数量越多,发生故障的概率越大;③软件控制是实现冗余保护机制的核心手段,倒换时间控制、主备节点数据一致性和倒换过程中的数据完整性,都是考量保护能力的重要因素。
3)“假冗余”问题频繁发生。通信系统设备通常由数据总线、核心控制板、接口板及功能性板卡组成,系统单元间存在极大的互相依赖关系。而原厂冗余保护设计不可避免地存在单一节点无冗余情况。例如,在使用2 Mbit/s专线承载业务时,传输SDH 接口板用于承载物理链路,通过使用多链路保护方式,并与用户终端侧配合完成,而终端设备倒换机制不完善、倒换不及时,则引发业务中断,从而发生“假冗余”问题。“假冗余”问题并非一个系统或单一节点缺陷,而是通信系统在承载业务的过程中,终端用户错误理解冗余保护机制,而使机制失效。
此外,在采用板件负荷分担工作方式时,控制信令和业务数据均配置到单板上,这也使得硬件故障后相应的承载功能失效或出现数据迁移丢失问题。
3 典型案例分析
北京局某高铁线路基站控制器(BSC) 自2018 年随线路工程建设入网运用,接入北京局既有GSM-R核心网,控制沿线基站设置的78套主备基站(BTS)。无线网络使用单层交织冗余保护方式,同时利用数字化区间中继设备加漏缆或天线方式解决隧道等弱场强覆盖问题,线路采用GSM-R无线网承载CTCS-3级列控系统业务[10−11]。
2023年某日5:02,BSC主控单元1机框内矩阵切换控制器(SWPRO)故障,导致6 个基站出现脱管及退服故障,造成车载ATP 无线终端在上述基站覆盖区域无法通过GSM-R 网络与地面无线闭塞中心进行信息交互,发生无线通信超时和系统降级运行[12]。经网管侧对基站小区数据进行重置后,故障基站状态恢复。
3.1 BSC设备架构
BSC 设备逻辑结构见图1,采用双平面硬件逻辑结构,核心主控单元采用1+1 冗余保护,信令处理单元采用2∶1 热备负荷分担方式工作;接口单元、时钟单元、消息总线单元全部采用1+1 主备冗余保护;核心交换管理、基站侧信令管理、话务处理、移动性管理等业务由各功能单元分别承载,软件控制实现全分散,是典型的分布式系统结构。
图1 BSC设备逻辑结构
BSC设备主要功能如下。
1) 主控单元(MCMU)由交换矩阵、矩阵控制器、消息总线单元(图1 红色部分)组成,用于监控和监督BSC 上的数据和信令交换,主要实现BSC 中各个单元和板件间电路的切换和连接,负责蜂窝小区和无线信道的管理和数据配置。MC⁃MU 是BSC 中的计算机单元之一,也是BSC 最为重要的功能单元。
2) 交换矩阵(GSW2KB),负责BSC 内部脉冲编码调制(PCM)链路和外部PCM 链路转换,主要包括A、ATER、Abis、Gb 等接口,是MC⁃MU 的重要组成部分。对于一个MCMU 来说,满配为8 块SW256B 板卡,每块SW256B 处理256 个PCM 链路,通过矩阵控制器进行管理,提供0~2 047 个外部PCM 链路。各个PCM 链路通过GSW2KB相互通信。
3) 消息总线单元(MB),负责中央处理器(CPU)单元与运营维护单元、MCMU、信令处理单元间内部通信,是CPU 单元通信的桥梁。以太网消息总线单元(EMB)寄生在MCMU 单元中,同框供电,但EMB是一个独立的单元。
4) 信令处理单元(BCSU):负责MSC 和BSC 间承载业务的7 号信令以及BSC 和BTS 间的D信道链路接入规程信令的处理;同时包交换处理单元(PCU)用来处理分组数据业务,是重要信令控制单元。
5) 操作维护单元(OMU),负责收集BSC侧各个单元和基站传送的告警,提供人机接口,并控制时钟单元。OMU 单元不承载业务,但也是BSC中最重要的单元之一。
6) 接口单元,负责连接BTS 和MSC(或TC),实现BTS 与BSC 以及MSC 与BSC 间的通信和数据传输。
3.2 故障原因分析
对告警信息进行分析,5:01开始,MCMU-1出现多条环路测试告警,告警记录截图见图2,提示“交换矩阵单元的内部通道测试失败”。通道分布在6 块交换矩阵板,均由SWPRO 控制,据此判断告警是由MCMU-1 单元的SWPRO 板卡故障导致。5:09主控单元发生倒换告警(图2红色记录)及主控单元-1失效(图2红色记录)。
图2 告警记录截图
对日志信息进行分析,如图3 所示,在主控板发生故障后,BCSU-2于5:09、5:12发生2次短时间切换(图3 蓝色记录)。在单元切换期间需要一定的时间(原厂手册建议不小于5 min)加载内存中的工作文件。由于BCSU 在不到3 min 的时间内切换2 次,内存中的工作文件内容加载不完整,部分基站未能完全同步,从而导致全线6 个基站脱管,16个基站载频受限,无法正常工作。
图3 日志记录截图
综上所述,无线基站控制器主控单元内矩阵切换控制器单板故障,引发信令处理单元短时间内发生2 次异常切换,并在倒换过程中出现部分基站脱管、载频受限,基站与BSC 信令处理单元未完全同步,控制信令异常,使业务运用受到影响。
3.3 保护倒换机制问题
对本次故障进行复盘分析可以看出,在设计层面非常完备的双平面化硬件结构及全分散的软件控制体系下,仍旧发生了冗余机制失效问题。因主控单元故障硬件设备未及时触发显性告警,在进行冗余切换环节出现延时问题。此外,设备主要单元间的依赖关系又使得信令处理单元短时频繁切换,控制数据发生异常缺失或不可用。具体问题如下:
1) MCMU-1 中矩阵切换控制器在发生故障后,系统9 min 后才完成备用单元的切换,切换不及时。
2) MCMU-1 故障期间引发BSC 设备交换矩阵单元工作异常,大量信令链路环路测试失败,触发BCSU-2 向BCSU-1 发生切换,3 min 钟后回切至原工作单元。
3) BSC 设备信令控制单元在短时间内发生2 次主备单元切换,不满足5 min 保护时间要求,出现与部分基站数据未完成同步的问题,引发部分基站脱管、载频受限,从而导致基站无法运行。
4) BSC 设备各单元状态基本稳定后,故障基站需下发配置数据或重启后恢复正常。
3.4 整改措施
本次故障暴露出该BSC 设备在矩阵切换控制器隐性故障情况下,主备切换机制、触发条件、主备单元切换后数据完整性等方面存在问题,采取以下应对措施。
1) 更换MCMU-1 中的SWPRO,后续设备运行稳定。
2) 在实验室对故障板件进行故障复现,诊断结果为失败,确定故障定位准确。
3) 该BSC告警采用依赖关系逻辑,当扰动级别1044-环路测试失败、1045-内存比对失败,累积到阈值后,可触发1598-主控单元失效告警。通过试验复现故障,扰动告警触发阈值参数为4Y,表示1044、1045 类型告警,上报累计16 次后触发1598 单元失效告警,系统触发切换。由于参数设置不准确导致主控切换产生延时。通过修改阈值参数为64 N,表示发生一次立即触发,能够解决主控单元由于扰动告警规则引发的切换延时问题。
4) 主控单元切换和信令处理单元切换均存在基站设备脱管等异常问题。原厂研发团队暂无解决方案,为应对此问题,需提前准备全线各基站配置数据脚本,缩短应急处置时间。
4 建议措施
冗余保护机制的设置使得铁路通信系统的可用性得到进一步提升,看到成效的同时,也要积极应对由于各种因素的影响而出现的失效问题,通过采取有针对性的维护管理手段,补齐冗余机制短板,提出以下4点建议措施。
1)丰富冗余试验场景。要针对设备的倒换保护机制细化试验方案,通过增加试验场景,摒弃单一命令切换试验方法,掌握每类设备的保护机制原理和特性,达到应之有备。
2)增加重点设备冗余切换频次。对设备在线时间长,工作环境恶劣的设备,增加冗余切换试验频次,由《维规》要求的年度试验调整为半年,同时结合重点任务、暑运及春运保障工作适时开展,及时发现并解决软硬件隐患问题。
3)进一步完善冗余切换的作业流程。分周期进行主备节点业务承载,冗余备用状态板件的正常与否,在短时间的试验和系统监测条件下并不能客观反映,要在维护作业中明确非业务承载板件、节点的状态倒换,并使其具备一定时间的运行条件,从而提升备用设备的运用质量。
4)提升应急处置能力。通过故障模拟找到设备保护机制的切换用时及触发条件,完善应急预案中对切换机制触发条件、切换时间、板件切换保护时间等内容,提升应急响应能力。在发生复杂网络故障导致系统机制失效时,坚决采取人工切换方法,采取“断、停、甩”的处置思路,舍弃低级别保护机制设备,发挥上级网络保护机制作用。
5 结论
目前铁路通信系统冗余保护功能因受到原厂设计、系统组网、软件缺陷、参数设置等诸多因素影响,没能充分发挥出其应有的能力,特别是核心设备功能实现方面还存在欠缺。切换触发条件的合理性、网络和设备的关联性、维护试验周期、测试内容,以及冗余设备的业务承载等方面仍需完善。通过设备的优化及维护管理制度的加强,能够更有效地解决冗余保护机制存在的问题,充分发挥机制作用[13]。
随着5G-R 技术的发展,铁路通信系统的演进将变得更加深入,冗余保护机制的功能也将更为全面。原有通过硬件叠加实现的冗余保护机制将被高度集成化的元器件所替代。分散的软件控制技术、云化虚拟主机将以“看不到”的形式完成逻辑功能[14]。维护人员将很难判断某个功能单元具体运行的服务器位置,以及处理数据记录或者业务请求的实体设备情况,数据通信、全光网络将会在更大范围内取代传统的接入设备,全互联的网络结构在每一个数据包面前都是通路,如何更好地发挥冗余保护机制的作用,仍需要通信部门的维护人员和设计者继续深入研究。