APP下载

基于贝叶斯网络的CTCS-3 级列控车载系统韧性

2022-11-03刘于萌

西南交通大学学报 2022年5期
关键词:可用性扰动韧性

吕 彪 ,刘于萌

(1. 西南交通大学信息科学与技术学院,四川 成都 611756;2. 西南交通大学四川省列车运行控制技术工程研究中心,四川 成都 611756;3. 北京交通大学电子信息工程学院,北京 100044)

CTCS-3 (China train control system-3)级列控系统是保障时速300 km 以上动车组安全、高效运行的神经中枢. 车载子系统是CTCS-3 级列控核心组成部分[1]. 已有研究普遍使用可用性或可靠性作为车载子系统运行稳定性的测度指标. 文献[2]组合可靠性框图与马尔可夫随机过程方法计算了列控系统的可靠性、可用性及维修性指标. 文献[3]基于动态故障树方法研究了CTCS-3 级列控车载设备的可靠性.文献[4-5]运用贝叶斯网络(Bayesian network, BN)评估了CTCS-3 级列控车载子系统的可靠性. 文献[6]以可靠度收益和维修成本为优化目标,提出了列控系统维修周期的确定方法. 文献[7]使用动态BN 评估了CTCS-300T 列控车载子系统的运行可靠性与可用性. 上述研究[2-7]在建模工具、考虑因素和侧重点上虽各有不同,但均遵从传统可靠性工程研究的基本思路,即不考虑特定扰动事件影响、以统计平均性能确定部件寿命分布和维修时间分布;同时,基于列控系统部件由电子器件构成的现实,假定部件寿命与维修时间均服从指数分布,即具有恒定的失效率和维修率. 传统方法用来评价列车运行环境稳定、无重大扰动发生时的系统性能是合适的. 但“7·23”事故表明,当面临雷电等非常态扰动时,传统可用性、可靠性指标不再适用. 这不仅因为面临非常态扰动时列控系统失效概率会大幅增加,而且失效概率与扰动类型直接相关,不能再视为常数. 同时,运营企业不仅关心列控系统能否抵御非常态扰动,也关心系统一旦失效能否快速有效恢复到可用状态. 因此,设计合理指标、专门针对非常态扰动下列控系统性能研究,有利于提升系统应对雷电等重大扰动事件的能力.

不同于可用性指标,韧性通常以非常态扰动为背景,可同时描述系统抵御扰动和从扰动中快速恢复的能力. 韧性最初应用于生态学领域. 1973 年,生态学家Holling[8]首次使用韧性评价生态系统稳定性,随后韧性被引入工程领域. 随着研究不断深入,交通运输领域的韧性问题也逐步引起研究者关注[9].Murray-Tuite[10]首次使用韧性评价交通系统的性能.Henry 等[11]将韧性定义为恢复期内系统性能恢复程度与扰动事件所造成的系统性能损失程度之比.Twumasi-Boakye 等[12]认为有韧性的系统应是吸收扰动能力强、失效恢复速度快的系统. 文献[13]通过航空服务从破坏性事件中恢复的速度来衡量韧性.文献[14]通过乘客延误等指标量化铁路运输系统韧性. 文献[15]提出了一种基于OD (origin-destination)数据集评估城市交通韧性的方法. 文献[16]通过对10 个地区的智能交通系统进行随机和有针对性的破坏来研究网络效率和韧性,证明了韧性对智能交通系统的适用性. 文献[17]利用弹性三角模型对列控车载设备在不同故障情况下的恢复能力进行了评估. 综合来看,交通运输领域韧性研究目前处于起步阶段,仅有的少量研究主要针对航空网络、道路网络、城市公交网络等展开.

基于上述分析,引入韧性作为评价非常态扰动下CTCS-3 级列控车载子系统运行稳定性的指标.首先,界定了韧性的内涵,定义了适用于列控车载子系统的韧性量化方法和5 种基于韧性的部件重要度指标,构建了基于BN 的列控车载子系统韧性评估模型,并开展算例研究.

1 基于贝叶斯网络的韧性评估模型

1.1 CTCS-3 级列控车载子系统结构与功能

CTCS-3 级列控车载子系统(简称车载子系统)是保证列车安全、高效运行的核心装置,其结构如图1 所示[4-5].

图1 CTCS-3 级列控车载子系统结构Fig. 1 On-board subsystem structure of CTCS-3

车载子系统采用分布式结构,由安全计算机(vital computer, VC)、轨道电路信息接收单元(track circuit receiver, TCR)、列车接口单元(train interface unit, TIU)、无线传输单元(radio transmission unit,RTU)、GSM-R (global system for mobile communications-railway)、无线电台(radio station, RS)、测速测距单元(speed and distance processing unit, SDU)、应答器传输模块(balise transmission module, BTM)及应答器天线(BTM ant)、人机界面(driver machine interface, DMI)、司法记录仪(juridical recorder unit,JRU)以及PROFIBUS (process fIeld bus)接口等部件组成. 为保证高可靠、高可用性,关键部件均采用冗余配置,例如,BTM、BTM ant、DMI 等采用冷备结构,ATP-CU (automatic train protection-core unit)、C2-CU (China train control system-2 core unit)、速度传感器、雷达、TCR、GSM-R 单元及其天线等采用热备结构[4-5].

1.2 车载子系统韧性定义

由于学科视角与对象不同,不同研究者对韧性内涵界定存在较大差异[18]. 部分研究将韧性表述为可靠性、脆弱性、恢复性等传统指标的简单延伸或扩展,与韧性内涵严重不匹配[18]. 文献[9]指出,韧性内涵应包括两方面:一是系统抵御扰动的能力,二是系统偏离稳定状态后的快速恢复能力. 对车载子系统而言,实际应用中遭遇雷电等非常态扰动时,可能导致部件损坏,由于部分部件采用冗余配置,单套设备损坏后系统仍能正常工作,即系统具有吸收或抵御扰动的能力;而非冗余配置部件的损坏则可能导致系统失效,但通过采取一定的技术手段(如替换失效部件)可尽快使系统恢复到正常状态,即系统具有从扰动中快速恢复的能力. 车载子系统的韧性是上述两种能力的综合体现.

基于上述分析,将车载子系统或部件的韧性定义为:系统或部件受到非常态扰动时具有的维持正常运行或失效后快速恢复正常运行的能力.

1.3 部件韧性量化方法

图2 描述了非常态扰动事件下韧性与可用性指标的差异. 图中:t为时间;t0、td、tr分别为扰动事件发生时刻、系统性能退化到最低程度时刻、系统性能恢复时刻;F(t) 为系统性能函数;红色实线表示可用性指标,黑色实线表示韧性指标. 为便于分析,将扰动事件下系统性能划分为4 种状态,分别为:1) 正常状态: 0 <t<t0,出现扰动前,系统保持稳定工作状态. 2) 降级状态:t0<t<td,扰动事件发生导致系统性能退化;3) 恢复状态:td<t<tr,通过维修受损部件将系统性能恢复到预期水平. 4) 新稳定状态:t>tr,完成维修后,系统性能恢复到新的稳定状态.可以看出:扰动事件发生后,可用性指标与韧性指标出现明显分化,由于可用性不考虑特定事件影响,因此指标稳定;而韧性存在事件依赖,出现明显的降级然后恢复的过程.

图2 非常态扰动事件下韧性与可用性指标的差异Fig. 2 Differences in resilience and availability indexes under abnormal disturbance events

车载子系统是由多部件构成的复杂系统,由于扰动事件通常导致部件失效进而引发系统失效或性能退化,因此,车载子系统韧性评估应以部件韧性评估为基础. 为便于描述,令Xei(t) 表示扰动事件e发生后时刻t部件i的状态变量,具体定义如下:

令 ψei(t) 表示扰动事件e发生后时刻t部件i的韧性值. 根据前文所述,韧性内涵为抵御扰动的能力和无法抵御扰动时的快速恢复能力. 根据这一界定,可将 ψei(t) 具体表示如下:

式中:P(·)为概率计算.

从式(2)可以看出:扰动事件e发生后部件i在时刻t的韧性值等于该时刻部件处于可用状态的概率. 存在两种可能性,一是该部件能抵御扰动事件影响并未失效,二是该部件虽失效但在时刻t已恢复正常.

令 ρei(t0) 表示时刻t0发生扰动事件e时部件i失效的概率, φei(t-t0) 表示扰动事件e发生后部件i在时刻t0未失效且在时段t-t0仍正常工作的概率,φei(t-t0)表示时刻t0发生扰动事件e后部件i失效但在时段t-t0恢复正常的概率.

根据式(1)、(2)可得

由于列控系统部件由电子器件构成,工程计算中通常以指数分布描述部件寿命与维修时间分布.因此,假定 φei(t-t0) 和 φei(t-t0) 分别服从部件i的失效率 λi和部件i的维修率 μi的指数分布. 在此条件下, φei(t-t0) 和 φei(t-t0) 可分别展开为

根据式(4)、(5),可将式(3)重新描述如下:

式(6)中:(1-ρei(t0))e-λi(t-t0)反映部件i抵御扰动的能力,ρei(t0)(1-e-μi(t-t0))反映部件i无法抵御扰动失效后的恢复能力. 因此,式(6)集中反映了韧性内涵的两个方面. 同时可以看出:部件i的韧性与扰动事件紧密相关(不同类型扰动事件造成部件失效的概率一般不同,即 ρei(t0) 随事件e变化而取值可能不同),而可用性指标与具体扰动事件无关,即ρei(t0)不影响可用性指标,这一点在图2 中可直观反映.

1.4 基于BN 的车载子系统韧性评估模型

显然,车载子系统的韧性取决于所有部件的韧性. 因此,可将车载子系统的韧性视为所有部件韧性的函数. 但由于车载子系统结构复杂,很难建立解析的函数表达式. 基于此,本文利用BN 强大的推理能力,建立基于BN 的车载子系统韧性评估模型.

BN 是一种用于表达和推理不确定信息的图形化概率模型[19],可表示为B= <G,P> = <<V,E>,P>.其中:G= <V,E>为有向无环图,V为图中节点集合,集合中每一个元素代表一个随机变量;E为图中有向边集合,集合中元素表示变量之间的关系;概率参数P包括先验概率和条件概率表两部分. BN 中,两节点间如存在一条有向边,则箭头连接的节点称为子节点,箭尾连接的节点称为父节点. 网络中,没有父节点的节点称为根节点,没有子节点的节点称为叶节点,其余节点称为中间节点. 先验概率表示根节点的边缘分布情况,而条件概率表用于表示有向边相连节点的依赖关系和依赖强度.

BN 具有强大推理能力,包括正向推理和反向推理. 其中,正向推理又称因果推理,可根据根节点状态推理非根节点状态;反向推理又称诊断推理,可根据叶节点状态反向推理非叶节点状态.

当前,国内外有近10 种BN 建模软件,其中GeNIe软件以其简单直观、功能完善而被广泛使用. 本文使用GeNIe 2.0 作为建模工具,考虑到韧性指标的动态时变性,使用图3 所示的动态BN 构建车载子系统韧性评估模型,图中:VC-C2、VC-C3 分别为CTCS-2、CTCS-3 级列控系统的安全计算机;VC-C21、VC-C22 分别为VC-C2 的冗余配置部件1、部件2;VC-C31、VC-C32 分别为VC-C3 的冗余配置部件1、部件2.

图3 基于GeNIe 2.0 的车载子系统韧性评估模型Fig. 3 Resilience evaluation model of on-board subsystem based on GeNIe 2.0

建模过程中,考虑到车载子系统的核心功能是安全防护,因此,对不影响行车安全的部件如司法记录仪JRU 在建模过程中不予考虑[4-5]. 同时,为简化模型,将冷备结构当作单系处理,热备结构按并联处理[4-5].

2 基于韧性的部件重要度指标

韧性评估的根本目的在于提升系统韧性,而要提升系统韧性,必须从提升部件韧性入手. 现实条件下,由于条件限制,不大可能对所有部件都采取改进措施,这就需要按照某种规则确定优先次序,即定义部件重要度指标确定部件重要度排序,选择排序靠前的部件采取改进措施. 参照可靠性工程领域[20]部件重要度定义思路,提出如下5 个基于韧性的部件重要度指标:

1) BIRNBAUM 重要度(BIRNBAUM importance, BI)

扰动事件e发生后时刻t部件i的BI 为

式中: ψe(t)= (ψe1(t),ψe2,(t),···,ψei(t),···)为所有部件韧性值向量; ψs,e(ψe(t)) 为部件状态为 ψe(t) 时的系统韧性; ψs,e(ψe(t))|ψei(t)=1和 ψs,e(ψe(t))|ψei(t)=0分别为当部件i可用和失效时的系统韧性.

从式(7)可以看出:部件的BI 反映了该部件可用与否对系统韧性的影响程度. 该指标的不足在于部件自身处于可用或失效的概率对重要度没有影响.

2) 关键重要度(criticality importance, CI)

扰动事件e发生后时刻t部件i的CI 为

从式(8)可以看出:CI 是以BI 为基础构建的.CI 考虑了部件自身失效的概率对系统韧性的潜在影响,可以弥补BI 的不足.

3) 改进潜力(improvement potential, IP)

扰动事件e发生后时刻t部件i的改进潜力为

从式(9)可以看出:改进潜力的本质是确保部件处于可用状态对系统韧性的改进程度.

4) 风险增加值(risk achievement worth, RAW)

扰动事件e发生后时刻t部件i的风险增加值为

式(10)中,分母表示扰动事件e发生后时刻t系统处于不可用状态的概率,分子表示扰动事件e发生后时刻t部件i不可用时系统处于不可用状态的概率,其实质为部件i不可用对系统处于不可用状态的影响程度.

5) 风险减少值(risk reduction worth, RRW)

扰动事件e发生后时刻t部件i的风险减少值为

式(11)中,分子表示扰动事件e发生后时刻t系统处于不可用状态的概率,分母表示扰动事件e发生后时刻t时如果部件i可用系统处于不可用状态的概率,其实质为部件i可用对减少系统处于不可用状态的贡献程度.

3 算例分析

3.1 扰动事件的选取

我国地域辽阔,列车运行可能遭遇不同气象条件影响. 车载子系统由大量电子器件构成,对雷电、磁暴、冰雪天气等比较敏感. 以雷电干扰为例,2011 年7 月,雷电引起列控系统故障、轨道电路发码异常,导致甬温线特大铁路交通事故发生,据铁路部门统计,每10 次雷电事故中就有3 次是在雷电破坏铁路信号设备的情况下发生的,因此,雷电对铁路信号设备性能具有重要影响. 再以磁暴干扰为例,1989 年发生超强磁暴引起俄罗斯高尔基铁路信号集中闭塞系统功能异常;2003 年磁暴期间,瑞典Vladimir 和Arzamasskaya 铁路部分信号灯多次显示错误信号.冰雪可能导致安装在车体表面的电子设备冻结进而发生故障,例如,2015 年辽沈地区出现因大量降雪导致安装在车体表面的信号感应线圈、测速雷达等设备冻结,继而出现车载设备功能异常. 基于上述分析,选取雷电、磁暴和冰雪作为非常态扰动事件,开展车载子系统韧性评估.

3.2 车载子系统韧性评估

由于雷电、磁暴、冰雪等非常态扰动事件发生频度低,缺乏足够的历史数据,因此,遭受上述事件影响导致车载子系统部件失效的概率很难准确估计.鉴于此,根据行业专家意见并结合不同事件对不同部件的潜在影响程度,将部件失效概率设置为区间取值. 将扰动事件对部件的影响程度划分为3 类,即重大、重要和一般,3 类影响程度下部件的失效概率取值范围依次为10-2~ 10-1、10-3~ 10-2和10-4~ 10-3.表1 描述了雷电、磁暴、冰雪3 类扰动事件下部件失效概率 ρei(t0) 、部件的失效率 λi和维修率 μi的取值.其中,部件失效概率 ρei(t0) 综合行业专家意见后确定,参数 λi、 μi依据文献[5]确定. 从表1 可以看出:雷电主要影响TCR、RS、BTM ant,磁暴主要影响TCR、GSM-R、RS、BTM、BTM ant,冰雪主要影响TCR、RS、BTM ant.

表1 不同扰动情景下部件参数取值Tab. 1 Component parameter values under different disturbance scenarios

假定扰动发生在t= 5 000 h,以扰动发生后2 h为测试期,每15 min 取样一次. 基于保守思想,选取失效概率区间最大值作为扰动事件下部件失效概率. 根据前述韧性计算方法,将表1 中参数取值代入式(6),依次计算得到3 种扰动情景下不同时刻部件的韧性指标,将其设置为根节点先验概率,再利用BN 正向推理,计算相应扰动情景及时间点非根节点的韧性指标.

图4 比较了韧性与可用性指标的差异. 可看出:在扰动发生后的较短时间内可用性指标几乎不发生变化,而韧性指标随扰动事件变化而变化. 例如,在扰动发生时刻(t= 5 000 h),车载子系统可用性为0.999 996,扰动发生后2 h (t= 5 002 h),其值仍保持在0.999 996 (由于数值变化很小,受计算精度限制,看不出数值变化);而伴随着扰动事件的发生,韧性指标发生了明显的变化. 在t= 5 000 h 时,面临雷击、磁暴、冰雪扰动时,系统韧性指标分别为0.881 9、0.801 7 和0.988 0;当t= 5 002 h 时,系统韧性指标相应变化为0.938 9、0.937 3 和0.993 9. 这是因为可用性指标反映的是统计意义上系统的平均性能,不受特定扰动事件影响;而韧性指标与扰动事件类型紧密相关,不同扰动事件下系统韧性指标不同.

图4 韧性指标与可用性指标的比较Fig. 4 Comparison of resilience index and availability index

图5 描述了不同扰动情景下部件与车载子系统的韧性. 其中,t= 5 000 h 时的韧性值反映系统抵御扰动的能力,t> 5 000 h 时的韧性值变化反映系统的恢复能力. 可以看出:韧性可全面描述部件与车载子系统抵御扰动和从扰动中恢复的能力;不同扰动情景下车载子系统韧性明显不同. 其中,磁暴影响最为显著,其次是雷电,冰雪影响最小. 这是因为磁暴、雷电会对多个部件造成重大、重要影响,而冰雪仅对少量部件造成重大、重要影响,对其余部件仅造成一般性影响. 而车载子系统的韧性是关于部件韧性的单调函数,因此出现图5 所示的结果.

图5 扰动情景对韧性的影响Fig. 5 Effects of disturbance scenarios on resilience

利用BN 反向推理,可以计算车载子系统在扰动发生后某时刻失去韧性(不可用)时各部件在该时刻失去韧性(不可用)的概率. 通过BN 反向推理可以找出造成车载子系统失去韧性的主要原因. 以雷击扰动为例,从图6 可以看出:若车载子系统在扰动发生时(t= 5 000 h)失去韧性,此时部件E20 (BTM ant)、E3/E4 (TCR)、E11/E12 (RSS)失去韧性的概率分别为0.845 49、0.100 75 和0.100 68,说明此时车载子系统不可用的最主要原因是部件E20 (BTM ant)不可用,其次是E3/E4 (TCR)和E11/E12 (RSS)不可用. 此外,需要注意的是,若扰动发生后2 h 车载子系统仍不可用,此时部件E20 (BTM ant)、E3/E4 (TCR)、E11/E12 (RSS)失去韧性的概率分别变化为0.992 56、0.001 83 和0.001 84,几乎可以认定是由于部件E20 (BTM ant)不可用造成的. 出现这一结果的原因是E20 (BTM ant)的维修率明显低于部件E3/E4 (TCR)和E11/E12 (RSS)的维修率.

图6 BN 反向推理Fig. 6 BN backward reasoning

3.3 部件重要度分析

为识别不同扰动事件下不同部件的重要程度,按照前述重要度指标定义,计算得到的3 种扰动情景下5 个重要度指标排序结果如表2 ~ 4 所示. 可以看出:同一扰动事件下,使用不同指标得到的部件重要度排序结果不完全一致. 例如,雷电干扰下,扰动发生时(t= 5 000 h)部件E5 的BI、CI、RAW 排序为7,而IP、RRW 排序为5. 这是因为不同重要度指标从不同角度反映部件的重要程度. 在实际应用中,应根据实际需要合理选择重要度指标.

表2 雷电扰动下部件重要度排序Tab. 2 Component importance rankings under lightning disturbance

表3 磁暴扰动下部件重要度排序Tab. 3 Component importance rankings under magnetic storm disturbance

面临的扰动类型不同,部件重要度排序也存在差异. 例如,雷电、磁暴扰动发生时(t= 5 000 h)部件E9 (GSM-R)的IP 排序分别为2 和5. 这一结论有很强的现实指导意义. 我国地域辽阔,不同地域列车面临的主要扰动事件类型不同,如南方容易遭受雷电干扰,而北方容易遭受冰雪灾害. 不同区域的铁路运营企业应根据面临的主要扰动事件类型,有针对性地确定车载子系统中的重要部件,加强对重要部件的检修和防护,以提高系统韧性.

除此之外,部件的重要度排序可能随时间动态变化,并且此变化不具有单调性. 例如,磁暴干扰下,当t= 5 000 h 时,部件E13 的RAW 排序为2,而当t=5 001 h 和t= 5 002 h 时,E13 的RAW 排序分别变为3 和7.

表4 冰雪扰动下部件重要度排序Tab. 4 Component importance rankings under snow and ice disturbances

3.4 参数灵敏度分析

由于表1 中设定的不同扰动情景下部件失效概率不是一个确定值,而是一定范围的数值区间. 因此,有必要通过灵敏度分析,验证部件失效概率的取值变化对系统韧性的潜在影响. 假定部件失效概率在取值范围内服从均匀分布,依据模特卡罗仿真思想,随机抽样2 000 次得到车载子系统韧性的频率直方图如图7 所示. 可以看出:雷电、磁暴、冰雪扰动发生时(t= 5 000 h),车载子系统的韧性取值范围分别 为 [0.880 0,0.990 0]、[0.840 0,0.990 0] 和 [0.990 0,1.000 0]. 这一结果反映了不同扰动事件对车载子系统韧性的潜在影响程度.

图7 不同扰动下车载子系统韧性的频率直方图Fig. 7 Frequency histogram of on-board subsystem resilience under different disturbances

4 结 论

引入韧性作为非常态事件下车载子系统运行稳定性测度指标,构建了车载子系统韧性量化评估方法和基于贝叶斯网络的韧性评估模型,并定义了5 种基于韧性的部件重要度指标. 算例结果表明:

1) 韧性可全面描述车载子系统抵御扰动和从扰动中恢复的能力,并与可用性指标存在明显差异.由于不考虑特定扰动事件影响,雷电等非常态事件发生时可用性指标稳定,而韧性与扰动事件紧密相关,且随扰动事件不同而取值不同.

2) 不同扰动情境下车载子系统韧性明显不同.其中,磁暴影响最为显著,其次是雷电,冰雪影响最小.

3) 部件重要度与扰动情景相关,同一部件在不同扰动情景下重要度排序可能不同;同时,部件重要度随时间动态变化,扰动发生后的不同时间点,同一部件同一指标的重要度排序可能不同.

猜你喜欢

可用性扰动韧性
强化粮食供应链韧性
一类五次哈密顿系统在四次扰动下的极限环分支(英文)
核电站DCS可用性测试应用研究
基于增强型去噪自编码器与随机森林的电力系统扰动分类方法
扰动作用下类岩石三轴蠕变变形特性试验研究
强化粮食供应链韧性
面向移动应用的软件可用性研究综述
带扰动块的细长旋成体背部绕流数值模拟
机构知识库网站可用性评价指标的计量学分析
房地产市场韧性犹存