基于动态故障树的新型区间占检系统可用性分析
2019-06-17张彩珍孙国营
海 宁 张彩珍 孙国营 于 洋
1(兰州交通大学电子与信息工程学院 甘肃 兰州 730070)2(北京全路通信信号研究设计院集团有限公司 北京 100071)
0 引 言
“7·23甬温线特别重大铁路交通事故”后,为进一步提高运输安全,铁路总公司电务部提出实施区间逻辑占用检查的试验方案,目前主流是采用增设继电式电路实现。但继电式系统缺陷较多,于是提出通过在列控中心添加相对独立的软件模块来弥补继电式系统缺陷并优化系统,进一步保证行车安全,提高运输效率。
软件式区间占用检查系统是近年来较新研发的电务设备,目前处于试用阶段。交大盛阳科技的QJK-JS大量用于沪昆线,试用阶段上海铁路局管内因分路不良影响产生的行车事故,据车务段统计,较2017年大大降低,卡斯柯的QJK-KA在柳州电务段进行试用期间,柳州北及柳州站天窗次数每周减少2次。铁路局试用结果表明该设备降低了电务检修的频率,提高了行车效率,软件式区间占用检查系统较继电式系统而言具有更强的可用性,适宜在客运专线上推广。
国内外对动态冗余结构系统的可靠性及安全性分析的相关文献中,文献[3]系统故障等级划分不够全面,覆盖故障情况不够准确,对于系统的可预测性故障建模数量较少,得到的可靠性安全性数据有待商榷。同时文献[3]主要分析CTCS-2级系统中的列控中心,和区间占用检查系统相比,逻辑构成和实现的功能有很大差异。文献[4]由于状态定义的差异,对状态的转移分析不够精确,状态0至状态4的转移概率有偏差。文献[5]在分析二乘二取二的安全性时采用传统故障树与马尔可夫的模型,整个系统规模相对较大。文献[9]对QJK-JS型设备进行了硬件式设计探讨,并对调试实验分析方法进行了概述,但没有对设备进行安全性及可靠性分析。同时没有具体文献针对软件式区间占用检查系统的可用性进行建模分析。
所以本文采用动态故障树来建立系统的动态模型,基于线性搜索的算法进行模块划分后求解,与马尔科夫过程相比,能够精简冗余模型求解的工作量与建模的复杂度[6-7]。然后通过直观数据与曲线图对软件式系统进行分析,并与继电式系统进行相关可靠性安全性对比,验证了软件式系统的可用性。
1 区间逻辑占用检查系统
利用站内联锁列车占用三点检查原理,实施区间的逻辑占用检查,来解决自动闭塞区段列车占用丢失的系统称为区间逻辑占用检查系统。
目前既有线主流是使用继电电路来完成区间的逻辑占用检查,需要增加大量继电器,配线复杂,施工难度大。且继电式电路受环境影响较大,同时继电器老化会产生接点粘连,触点偏离原位置,继电器数量较为庞大,需较长时间的故障排查,从而会影响系统的安全性。同时继电式系统可防护的故障情景较少,例如:继电式系统无法防护紧追踪场景;无法对连续区段的故障占用进行防护;区间改方后,继电式系统无法完成占用检查的功能等。
当今铁路运量日益增大,铁路运输模式与调度情景会经常发生变化,如果系统防护的故障情景较少的话,会降级运输效率,同时会影响行车的安全。
软件式区间逻辑占用检查各功能模块独立,每个模块均为最小可替换单元,系统可靠性和安全性更强,同时系统可以防护列车运行的故障情景更丰富。
所以使用软件式主导的方式来代替传统的继电电路,可以更大限度地提高铁路运输中的行车安全,也可以弥补一些继电式系统的防护缺陷。
2 动态故障树原理
在本文对软件式区间占用检查系统基于动态故障建模过程中,设系统单位时间内发生失效的概率为系统失效率记为λ。λA即为A事件失效的概率,同理表示其他事件失效的概率。在系统出现不可避免因素而导致故障的时候,可以预测该故障的概率记为故障预测率C[16],该值越大,可靠性越高,对于不可预测的故障可以用1-C来表示。本文主要研究的是时间连续而状态离散的齐次Markov过程,状态转移过程与起始时间无关,只与时间差Δt有关,下文中Δt代表时间差值。
动态故障树模型是静态故障树模型理论的延伸,在传统故障树理论的基础上通过新动态逻辑门优先与门(PAND)以及热备门(HSP),对发生事件进行排序,同时描述系统功能之间的动态关系。动态故障树对于多模型的冗余系统来说具有更高的适用性[8]。
(1) 优先与门 优先与门是与门的一种延伸,底层事件必须同时完成后,才可以触发顶层事件的进行,同时附加了一个触发条件:下层时间须按照一定的顺序触发。如图1所示,图中1表示底层事件触发,0表示底层事件未发生,Y表示顶层事件未触发,N表示顶层事件发生,A、B代表两个不同的底层事件,C代表待触发的顶层事件。
图1 优先与门符号与马尔科夫转换链
可以看出,只有当底层事件A发生在事件B之前,优先与门才可以成立,从而触发顶层事件C,如果底层事件没有按照先后顺序触发,或B事件发生在A事件之前,优先与门则不能成立。
(2) 热备门(HSP) 热备门是由若干个相互独立的底层事件组成的模型,只有底层事件全部发生,才会触发顶层事件,但不考虑触发顺序。例如二乘二系统,两个系统互为主备系,只有两系都发生故障之后,才会使系统失效,但是不需要考虑主备系故障的顺序,如图2所示。
图2 热备门符号与马尔科夫转换链
若底层事件A与S的失效率同为λ时,设X(t)表示热备门输出状态,则:
3 动态故障树建模与解析
3.1 动态故障树建模
新型区间占用检查系统是基于二乘二取二安全计算机的系统[9-11],各功能模块独立,可根据需求独立裁剪或组合运用,当双系中有一个模块出现故障时,不会影响系统正常工作。所以不同于文献[3]与文献[7]中的模型,各模块之间需要相互关联是以互锁的形式存在,本文所建模型各模块具有相同的系统特性,可独立以支树的形式存在。与文献[5]中模型相比,都是对多模冗余的结构进行建模,但是基于动态故障树建模可以很好地控制系统建模与求解工作量的增长,精简了复杂度。
软件式区间占用检查系统结构如图3所示,主备机双机热备形成二乘二的结构,主备机中的上下模块相互构成了二取二故障-安全的硬件结构,每路输入都要经过上下模块的双CPU表决进入比较模块进行结果比对,结果一致才可输出。切换模块完成主备系的切换以实现双机热备的来保证系统的高安全性及可靠性。
图3 区间占检系统结构图
分析系统在包含比较模块与切换模块时,系统出现故障-安全的输出和导向危险侧的模式,得到软件式区间占用检查系统的动态故障树模型,如图4所示。
图4 软件式区间占用检查系统动态故障树模型
图4中每个事件的具体含义如表1所示。
表1 故障树事件含义
续表1
在软件式区间占用检查系统动态故障树模型中,热备门表示当主机与备机都处于故障-安全状态时,整个系统的输出就导向故障-安全侧。在模型中一共有3个优先与门,按从左到右分别命名为优先与门A、B、C。优先与门A表示当主机出现故障之后,切换到备机,备机危险侧输出导致系统输出危险侧。优先与门B表示备机的比较模块失效后,备机的上下模块同时故障无法进行二取二对比输出会导致备机危险侧输出。同理,优先与门C对主机也是类似解释。
通过上述分析可以得出:
R(t)=1-P(F)
(1)
S(t)=1-P(T2)
(2)
式中:R(t)为系统的可靠度,S(t)为系统的安全度,P为对应故障树的触发概率。
3.2 动态故障树模型的解析
本文采用基于线性搜索的算法对模型进行模块划分后求解,以T1子树为例进行深化解析。
从模型的最右侧进行深度搜索,过程中分别标记底层时间与过渡中层事件,首次搜索到该事件所用的步数,标记为1;再次搜索到相同事件时的步数标记为2;最后一次搜索到该事件的时的步数标记为3。将结果记录下来,如表2所示。
表2 首次搜索状态树的结果
第二次深度搜索中主要记录与中层时间链接的底层事件中,首次与最后一次搜索到相同事件所用的步数,分别用MIN和MAX表示。如表2所示,当节点N相连接的底层事件中,标记1的最小值MIN比该节点的标记1的值大,且与此节点相连接的所有底层事件中,标记3的最大值MAX小于该节点的标记2的值时,称节点N是独立子树。
Y表示一个可以成为独立子树的模块,S表示该模块为静态子树,D表示该模块是动态子树。
通过表3分析,可以得出,中层事件都可以用独立子树来表示,T1为动态子树,T3、T4T7、T8、T9、T10为静态子树。
表3 再次搜索状态树的结果
以T7为例采用基于二元决策图的静态分析法求解分析T7对应S1和S2两个底层事件[12-14]。通过观察T13静态子树可以发现,S7和S8的结构相似,即:Index(S7)=Index(S8)。假设Index(S7) 图5 T13对应的二元决策图 基于二元决策图的故障树计算出顶层事件的发生概率,向内推导T13故障树,得到两条节点为1的路径,分别为:S7->1;S7->S8->1。 利用互斥事件的概率公式可以计算出T13的发生概率: (3) 式中: P(S7)=P(S8)=(1-C)λ (4) 将式(4)代入式(3),可得: P(T7)=(1-C)λ+[1-(1-C)λ]× (1-C)λ[2-(1-C)λ] (5) 同理可以计算出其他静态子树的概率。 对于动态子树T12,本文使用马尔科夫过程进行分析,T12的初始状态如图6所示。 图6 T12故障树简化的Markov过程 根据T12的马尔科夫模型进行计算,根据链长为2的Markov链状态转移公式可知: λS11=bλT13=(1-C)λ[2-(1-C)λ] 通过下式即可得T12顶层事件的发生概率,同理可求得其他动态子树的概率[15]。 P(T12)=P(Y)=1+ (6) 对系统进行可靠性分析的过程中引入两个参数: 1) 故障修复率δ:系统出现故障后,在单位时间内完成修复的概率。 2) 故障可用率μ:因部分组件故障引起的系统报警,但是系统仍可以安全可靠的工作的概率。 基于以上几种参数,对该系统的状态进行分析定义: 状态0:双系正常工作(系统无故障)。 状态1:单系正常工作,另系故障可用。 状态2:单系正常工作,另系停机。 状态3:双系故障可用。 状态4:单系停机,另系故障可用。 状态5:双系停机。 状态转移图如图7所示。 图7 系统状态转移图 根据动态树故障模型,列出以下微分方程组: P′(t)=AP(t) (7) 式中: A= 假设初始条件双系正常,将P(0)=[1 0 0 0 0 0]6×1代入式(7)求解,可以得到系统的可靠度R: R(t)=P0(t)+P1(t)+P2(t)+P3(t)+P4(t)+P5(t) (8) 该系统采用二取二结构,对于可预测故障,通过比较环节来发现故障并导向安全侧;对于不可预测故障,可以在发现后实施故障导向安全的相关措施;对于单系两个模块在未预测的情况下同时发生故障,且故障类型和故障位置完全一致的情况下,比较模块才无法发现该故障,同时另一系已经故障停机才会导致系统有危险侧输出,这种情况出现的概率极低,可忽略。所以本系统所有状态均可导向安全侧,可认为系统的安全度S(t)=1。 通过事件发生概率进而求得系统的可靠度R与安全度S,采用拉普拉斯变换的方法求解式(7),同时使用MATLAB进行仿真分析。 系统对故障的容忍度可以用故障可用率来表示,仿真中,故障修复率δ固定为0.5,故障可用率分别取0、0.001、0.01、0.1、1在0~10 000 h变化,可靠性曲线如图8所示。从图中可以看出,故障可用率的越大,系统对故障的容忍度就变得越大,同时系统的可靠度也更高。 图8 可靠性随故障可用率变化曲线 故障修复率是指系统出现故障后,较短时间内在不影响系统工作完成故障修复的概率,指故障对系统的影响程度,故障修复率越高,系统的可靠性越高。仿真中,固定故障可用率μ=0.9,故障修复率分别取0、0.1、0.3、0.7、0.9,时间范围0~5 000 h,可靠度曲线如图9所示。 图9 时可靠性随故障修复率变化曲线 由上述仿真图中可以看出,可靠度与故障修复率和故障可用率正比例相关,当故障修复率与故障可用率更大的时候,系统的可靠性就越高。本系统采用了二乘二取二的多模冗余结构,具有较高的系统可靠性,双系热备工作,提高了系统的故障可用率,同时一系正常工作时可对另一故障系进行维修不需停止设备工作,大幅度提高了系统的故障修复率。 为了进一步分析两种系统的安全性与可靠性,采用相同的建模方式对继电式区间逻辑占用检查系统进行建模,继电式区间占用检查系统详见文献[1]。从横向角度进行比较,由于普速铁路使用继电电路实现区间占用逻辑检查需要增加大量继电器及继电组合电路,配线复杂,所以故障可用率与故障修复率就相对较低,从而影响了系统的可靠性。 在保证现场故障条件与列车运行环境相同的条件下,假设软件式系统中的运算模块、比较模块与切换器的失效率为1×10-6次/h,继电式系统中各继电器故障率同为1×10-6次/h,计算并记录两种系统的可靠度及安全度数据,时间范围从0~25 000 h, 并使用Origin85对计算数据进行曲线拟合对比。见表4、图10,表5、图11。 表4 两种系统的可靠度 图10 两种系统的可靠度曲线 表5 两种系统的安全度 图11 种系统的安全度曲线 由图10-图11可以看出,继电式区间占用检查系统在初始阶段具有更好的可靠性。但是随着使用寿命的增加,由于继电器和线路老化等各种故障,达到一定时间节点后可靠性低于软件型区间占用检查系统。同时由于继电器受物理工作环境较大且继电式系统防护情景不能满足运量的提升与对行车效率日益提高的需求,故长时间运行情况下,安全性相对较低,软件型系统虽然模块较多,但是受工作环境的影响较小。可靠性变化较小。同时主备系同时工作对比输出,实现任务级二取二的比较,具有更高的安全性。 本文主要分析了动态故障树模型下的软件式区间占用检查系统,通过故障可用率及故障修复率来分析该系统的可靠性,同时对继电式系统与软件式系统进行了安全性及可靠性对比。首先对动态故障树模型进行了解释,以模型为基础,采用线性搜索算法及二元决策图对系统进行了计算分析。结合数据与合肥电务段及郑州电务段的现场反馈,软件式区间占用检查系统减少了维护所需的天窗点,且便于升级改造,防护情景更加丰富,可靠性和安全性有明显的提升,可以更好地保证行车安全,提高运输效率,十分符合如今铁路事业高速发展下对行车要求日益增高的发展要求。4 仿真分析
5 继电式与软件式系统的分析对比
6 结 语