基于离散时间贝叶斯网络的列控中心可靠性分析
2021-02-28齐金平周亚辉李少雄赵睿虎
王 康 齐金平,3 周亚辉 李少雄 赵睿虎 郭 浩
1. 兰州交通大学机电技术研究所,兰州,730070 2. 甘肃省物流及运输装备信息化工程技术研究中心,兰州,730070 3. 甘肃省物流与运输装备行业技术中心,兰州,730070 4. 中国铁路兰州局集团有限公司,兰州,730000
0 引言
列控中心具有完成轨道电路编码、区间信号机点灯控制、应答器报文储存和调用、站间安全信息传输等功能。若列控中心发生故障,将直接影响动车运营和乘客的生命安全。在动车组实际运营环境中,各组件不是互相独立的,而是存在着顺序依赖性和功能依赖性等动态特点[1],而且组成列控中心的各个组件采用的是冗余结构,这样可以提高其可靠性和可用性[2]。同时,某些系统零部件的失效呈现多态性[3],导致难以判断其故障类型。这些不确定因素会造成维修人员对故障诊断及维修困难,因此对列控中心的多态特性及动态特性进行分析显得尤为重要。
系统或部件的故障状态从“完全正常”到“完全失效”是一种衰退过程[4],即具有多态性,因此,二态分析方法已不能适应日益高度集成化且具有多态性特征的系统的可靠性分析。文献[5]在分析系统可靠性时,对系统定义了安全、亚安全和故障三种状态。文献[6]结合贝叶斯网络(Bayesian network,BN)和β-因子模型提出基于贝叶斯网络的多状态共因失效系统可靠性分析方法。文献[7]提出多状态马尔可夫模型,并用于计算重要的可靠性指标。文献[8]提出时变状态转移蒙特卡罗仿真模型,对P2P网络进行多态可靠性分析。文献[9]将性能退化失效分为软失效和硬失效,分析了性能退化对突发失效阈值的影响。但上述文献均未涉及系统的动态特性。文献[10]引入动态逻辑门,建立动态故障树,分析系统动态性能,但构造故障树的多余量相当繁重,还存在状态空间爆炸、计算效率低的问题。文献[11]采用马尔可夫矩阵迭代法求解动态故障树,并运用分层迭代法进行改进。文献[12]在将动态逻辑门转化为含顺序事件逻辑门的基础上,给出了顺序二元决策图的模型以及含有顺序事件的布尔运算规则,通过计算给出多单元顺序事件的发生概率,但仍然不能避免动态故障树的组合爆炸问题。文献[13]在分析车载系统结构及可靠性框图的基础上,运用动态贝叶斯网络评估运行可靠性和可用性,但忽略了局部组合爆炸和备件门节点失效时间仅能是指数分布的问题。文献[2]将动态故障树转化为动态贝叶斯网络,但并没有考虑部件故障的多态特性。以上对系统或部件的故障分析均未同时考虑动态性和多态性。
为避免空间爆炸问题,本文提出了一种根据系统或部件的功能逻辑关系直接建立离散时间贝叶斯网络(discrete-time Bayesian network,DTBN)的分析方法。
1 基于贝叶斯网络的多态性建模
1.1 二态系统建模
传统的二态系统只有正常和失效两种状态。依据布尔真值法,用“1”表示系统或组件发生失效,用“0”表示系统或组件正常工作。二态系统在运用贝叶斯网络进行可靠性分析时,将组成部件故障映射为贝叶斯网络的根节点,中间事件映射为中间节点,系统故障映射为叶节点。图1、图2为二态串并联系统转贝叶斯网络及对应的条件概率表。
图1 串联系统转贝叶斯网络Fig.1 Series system to Bayesian network
图2 并联系统转贝叶斯网络Fig.2 Parallel system to Bayesian network
1.2 多态系统建模
随着现代科技和工业制造水平的不断发展,产品的可靠性水平日益提高,在实际工程中多体现为多态系统,其失效方式大都呈现为疲劳、退化失效,即除完全正常和完全失效之外还存在着多种故障模式。由此,传统的二元决策图、可靠性框图和故障树等应用于二态系统的方法将不再适用[14]。
贝叶斯网络作为一种典型的不确定性知识表达与推理模型[15],具备描述事件多态性的能力,三态系统贝叶斯网络模型如图3所示。
图3 三态系统贝叶斯网络模型Fig.3 Bayesian network model of three state system
贝叶斯网络通过参数学习[16]可以优化更新每个节点对应状态的条件概率表的值,其参数学习包含数据完整情况下的最大似然估计和数据缺失情况下的EM算法。EM算法流程如下。
输入:观测变量数据Y、隐变量数据Z、联合概率分布P(Y,Z|θ),条件概率分布P(Z|Y,θ)。
输出:模型参数θ。
(1)选择参数的初值θ(0),开始迭代。
(2)E步:记θ(i)为第i次迭代参数θ的估计值,在第i+1次迭代的E步计算公式为
(1)
式中,Q(θ,θ(i))为完全数据的对数似然函数lnP(Y,Z|θ)在给定观测数据Y和当前参数θ(i)下,对未观测数据Z的条件概率分布P(Z|Y,θ(i))的期望;P(Z|Y,θ(i))为在给定观测数据Y和当前的参数θ(i)下隐变量数据Z的条件概率分布。
(3)M步:求使Q(θ,θ(i))极大化的θ,确定第i+1次迭代的参数的估计值θ(i+1)为
(2)
(4)重复步骤(2)和步骤(3),直到收敛。
2 基于DTBN的多态和动态建模及可靠性分析
2.1 离散时间贝叶斯网络
离散时间贝叶斯网络可用于分析动态系统组件间顺序依赖关系[17]。DTBN是传统贝叶斯网络在时域上的离散化,主要有三方面的优势[17]:一是可以描述部件故障的多态性;二是能处理部件顺序失效问题;三是利用贝叶斯网络进行定量计算。
DTBN通过在贝叶斯网络的基础上进行时域内的离散化来解决动态组件之间的顺序依赖性[18]。将一条完整的时间线[0,+∞)划分为n+1个间隔;再将任务时间[0,T)划分为n个间隔,即n个状态;最后将[T,+∞)定为最后一个或第n+1个状态。所以,存在有限且等于时间间隔的n+1个状态,即划分的每个节点对应一个状态,如图4所示。
图4 时间线间隔Fig.4 Time line intervals
假设随机变量A处于状态i(i=1,2,…,n)或A=i,这仅仅表示随机变量A在第i个任务区间或tA∈[(i-1)Δ,iΔ]内失效,即
(3)
式中,tA为组件A的故障时间;FA为累计分布;n为离散时间片段数;Δ为每个任务区间时长,Δ=T/n。
同理,如果随机变量A处于状态n+1,则随机变量A在任务时间T内没有失效,即
(4)
2.2 构建离散时间贝叶斯网络条件概率表
(1)与门。假设时间片段数n=2,则任务时间T被等分为2个时间间隔。用[0,Δ)、[Δ,T)、[T,+∞)表示3个任务区间的故障状态。与门的DTBN模型与节点S的条件概率表如图5所示。
图5 与门条件概率分布表Fig.5 AND gate conditional probability distribution table
(2)或门。假设或门的节点条件和与门相同,则其DTBN模型与节点S的条件概率表如图6所示。
图6 或门条件概率分布表Fig.6 OR gate conditional probability distribution table
2.3 基于DTBN模型的重要度及敏感度计算
重要度是指在系统中一个部件或最小割集对顶事件发生的贡献大小[19]。利用DTBN节点的条件独立性和双向推理的优点求出系统故障条件下各部件的故障概率,从而求解出各部件对系统的影响程度。
顶事件在任务时间T内的概率可用下式求得:
(5)
根据DTBN的联合概率分布,DTBN模型的可靠性业绩值(reliability achievement worth,RAW)重要度、可靠性降低值(reliability reduction worth,RRW)重要度、关键(fussell-vesely,F-V)重要度和概率(birnbaum measure,BM)重要度的计算如下。
RAW重要度描述单元是否发生故障对系统故障发生概率的影响:
(6)
式中,P(T=1)为系统故障的概率;P(T=1|Xi=1)为基本事件Xi概率设置为1 时的条件概率。
RRW重要度表示系统单元故障发生和不发生两种情况下系统故障发生概率之比,与RAW是相对的概念,即
(7)
F-V重要度描述单元故障对系统的贡献,表示为
(8)
BM重要度描述系统单元状态概率变化对系统状态概率变化的影响,表示为
(9)
敏感度的大小反映了根节点故障状态变化导致叶节点故障状态变化的快慢程度,表示为
(10)
式中,ai为根节点xi故障状态。
3 实例分析
3.1 列控中心及功能分析
列控中心(TCC)由安全主机单元(SCU)、通信接口单元、驱动采集单元(PIO)、冗余电源单元(DY)及辅助维护单元组成。通信接口单元包括轨道电路通信单元(TC)、调度集中系统(CTC)、地面电子单元(LEU)、计算机联锁(CBI)、临时限速服务器(TSRS)、相邻列控中心。列控中心的结构组成如图7所示。
图7 列控中心的单元组成图Fig.7 Unit composition diagram of the train control center
列控中心接收来自CTC/CTCS(中国列车运行控制系统)的临时限速命令,接收来自计算机联锁的进路信息,经过逻辑运算,选出一条正确的报文发送到LEU,通过LEU转发到室外有源应答器。车载列车自动防护(auto train protect, ATP)设备通过应答器传输模块(balise transmission module,BTM)接收应答器信息,控制动车组的运行。同时列控中心还会根据当前车站或者区间的临时限速状态,判断进站信号机是否需要降级,并把降级条件发送给计算机联锁。
在列控中心中,安全主机单元是列控中心的核心设备,一旦发生故障将导致列控中心的逻辑处理和系统管理出现错误,其故障模式为失效和正常。通信接口单元依靠电信号实现TCC与LEU及CTC间的通信,一旦发生故障将导致TCC设备无法对外传输信息,其故障模式包括电信号中断、电信号错误和正常。驱动采集单元一旦发生故障将无法对外部继电器进行驱动和状态采集,其故障模式为失效和正常。冗余电源单元一旦发生故障将导致供电中断,其故障模式为电源中断和正常。安全主机单元采用二乘二取二结构,其余单元均采用双系热备的冗余结构,在主单元发生故障后由备用单元继续工作。本文技术路线图见图8。
3.2 列控中心可靠性分析及故障诊断
将动车组运营过程划分为启动、运行、制动三个阶段,其离散时间贝叶斯网络模型如图9所示,节点含义见表1。
图9 列控中心的DTBNFig.9 DTBN of train control center
表1 离散时间贝叶斯网络中各节点含义Tab.1 Meaning of each node in DTBN
文章采用GeNIe软件构建DTBN模型,将列控中心各个单元的故障率[2]代入DTBN模型中,设置数据缺失率[20]为5%,调用EM算法进行参数学习。假设列控中心的一次任务时长为10 h,通过DTBN正向推理,可求得列控中心在一次运营任务中的失效率为1.232 662×10-9h-1。与采用动态故障树和动态贝叶斯网络相比,DTBN既便于计算[21-22],又充分考虑了列控中心故障的多态特性[2]。
通过DTBN反向推理,可以计算出一次任务结束后,如果列控中心发生故障,则在启动阶段的故障发生概率为0.17,在运行阶段的故障发生概率为0.5,以及在启动和运行阶段各单元的故障发生概率,如图10所示。列控中心在一次任务结束后发生故障时各节点的后验概率见表2,从中可以看到各时段各节点发生故障的概率。
图10 列控中心在制动区间内发生故障的离散时间贝叶斯网络图Fig.10 DTBN of train control center fault in braking interval
表2 列控中心在制动区间内故障发生时各节点的后验概率Tab.2 The posterior probability of each node when the train control center fails in the braking interval
利用DTBN的因果推理可以计算出,一次任务时长内列控中心特定单元处于不同故障状态的情况下其余单元的故障概率,由此可以判断在不同状态下各单元对列控中心的影响,因而能够识别多状态下的薄弱环节,对列控中心的可靠性预测和动车组运行及维修提供有力支持。
对列控中心故障数据进行分析和处理,确定列控中心DTBN参数学习的准确性。对列控中心DTBN模型进行故障诊断,结果见图11。
图11 列控中心故障诊断结果Fig.11 Fault diagnosis results of TCC
从列控中心的故障诊断结果可以看出,系统的薄弱环节顺序为PIO、DY、CI-TC、SCU、CI-LEU、CI-GS、CI-ADTCC、CI-CBI、CI-TSRS。其中PIO的故障概率达到0.585,因此,在系统设计阶段需着重加强PIO等薄弱单元的可靠性。
3.3 DTBN各重要度计算
由式(6)~式(9)重要度公式可分别求出列控中心各单元在启动、运行及制动时间区间内的重要度,如表3~表5所示。
表3 列控中心在启动区间内的重要度Tab.3 Importance of train control center in start-up section
表4 列控中心在运行区间内的重要度Tab.4 Importance of train control center in operation section
表5 列控中心在制动区间内的重要度Tab.5 Importance of train control center in braking section
由上述结果可知,导致列控中心失效的各元件的重要度顺序为PIO、DY、SCU、各通信接口。其中,PIO是列控中心的最薄弱单元。
3.4 DTBN敏感性分析
DTBN敏感性分析时,设置单元失效概率的不确定性值[2]为10%,得到列控中心对各单元的敏感程度。图12为列控中心在启动阶段的敏感性分析图,可知,导致列控中心失效的敏感性单元顺序为DY、PIO、CI-TC、CI-LEU、SCU、CI-GS、CI-CBI。由此,在列控中心运营阶段,要增强以上高风险环节的维护管理。同理可得运行阶段和制动阶段列控中心各单元的敏感性分析图,继而提高相应元件的可靠性,保证列车安全运营。
图12 TCC节点失效后的敏感性分析Fig.12 Sensitivity analysis after TCC node failure
4 结论
(1)建立了基于离散时间贝叶斯网络(DTBN)的列控中心动态概率安全评估模型并考虑了单元故障的多态特性。作为比较,分别采用动态故障树和动态贝叶斯网络对列控中心进行可靠性分析。
(2)利用DTBN模型对CTCS-2级列控系统的列控中心进行故障诊断、重要度和敏感性分析,可知列控中心的薄弱环节为PIO、DY、CI-TC、SCU、CI-LEU、CI-GS,且导致列控中心失效的敏感性元件顺序为DY、PIO、CI-TC、CI-LEU、SCU、CI-GS、CI-CBI。
(3)若用动态故障树求解,则列控中心有4099个最小顺序割集,按容斥原理计算,共有24099-1≈8.355×101233项。本文依据列控中心各单元的功能逻辑建立离散时间贝叶斯网络模型并求解,避免了组合爆炸问题,并简化了计算过程,提高了计算效率。
(4)相比动态贝叶斯网络,本文同时考虑多态性和动态性特点。总结了通信接口单元具有电信号中断、电信号错误和正常三种故障模式,根据DTBN反向推理,电信号错误的概率高于电信号中断;DTBN模型不仅处理了多态和动态冗余问题,还可将任务划分为三个阶段,可以得到在每个阶段列控中心各主/备部件的故障状况,从而为工作人员做出决策提供支持。
(5)兰新客专2018年全年CTCS-2级列控系统的列控中心现场维护数据验证了本文分析结果的准确性和有效性。