考虑共因故障的TMR分布式控制系统的可靠性

2018-04-08杨明极，曲祉双

大连工业大学学报 2018年2期

杨明极，　曲祉双

( 哈尔滨理工大学测控技术与通信工程学院, 黑龙江哈尔滨　150080 )

0　引　言

分布式控制系统(DCS)被普遍地应用在工控范畴，可靠性是其重要的指标之一[1]。航天、石油、军事等高危行业对工控系统的可靠性要求则更高。在设计工控系统时，除了通过元器件的选择、抗干扰设计等手段，采取双重冗余控制结构或者三重冗余(TMR)控制结构[2-4]也可以有效地提高系统的可靠性。在高危行业中，三重冗余的设计结构较双重冗余的可靠性更高。在已有文献中对这类工控系统进行可靠性分析[5-6]时，并没有考虑到常见的共因故障的情况，而这种情况对设备的可靠性有很大的影响。针对这一问题，作者在考虑了多种情况下的共因故障、故障模式、故障检测率以及修正率等因素，通过仿真对该系统进行了可靠性分析。

1　基于TMR的分布式控制系统结构

为了对基于TMR的分布式控制系统的可靠性进行评估，需要建立基于TMR的分布式控制系统的可靠性模型[7-9]。可靠性模型包括：(1)电源，包含总电源、各部分单独的工作电源及冗余电源；(2)网络，包含交换机和网线；(3)操作站、工程师站及历史站；(4)控制站，站控板，通信口；(5)输入输出卡件和逻辑电路；(6)电缆，包含屏蔽层、信号隔离层；(7)接地，包含全部机柜内的“模拟地”“数字地”“安全地”等。

这些因素是在进行分布式控制系统的可靠性模型评估时不可或缺的部分，它们彼此之间是串联模型的关系[10-13]。任何一部分发生失效都可能影响整个系统的正常运行。基于TMR的分布式控制系统在因素(1)～(5)中都采取三重冗余构造的配置。得到如图1所示的基于TMR的分布式控制系统可靠性模型。

基于TMR的分布式控制系统中的控制站部分由3块完全相同的运算模块构成，每个模块配置一个独立的故障检测单元和一块具有高可靠性的表决处理单元，如图2所示。

运算单元之间完全相互独立，通过时钟同步的方法对输入的信号实行同步采集，再同步运算处理，然后再通过表决单元对运算的结果进行表决，最后将表决结果输出。其中，检测单元对运算模块实行自检测，当检测模块检测出运算模块发生自身故障的时候，将向表决单元发送一个故障警告信号。系统作为三重冗余结构工作：假如表决单元没有接收任何来自检测单元的故障警告信息，表决单元将对运算输出的结果执行“三选二”表决；系统作为二重冗余结构工作：如果表决单元接收来自1个模块发送的失效警告信息，表决模块将去掉故障模块输出的运算结果，同时对其他运算单元输出的结果执行“二选一”表决；系统作为单通道结构工作：如果表决单元又接收来自另一个模块发生的故障警告信息，表决单元将去掉这一模块的运算输出结果，即只有一个模块输出正常；系统的输出转向安全状态：若此时再检测到模块出现故障，即3个控制模块全部故障[14]。

图1　基于TMR的分布式控制系统可靠性模型

图2　基于TMR的控制器结构图

2　基于TMR的分布式控制系统的马尔可夫模型

马尔可夫模型是一种常用的分析系统可靠性的方法，在分析中首先要已知系统可能出现的一系列状态，并且列出该系统每个状态之间的转移概率；在已知每个状态的初始条件的前提下，通过计算某时刻系统其余各状态发生的概率，得到系统的可靠度、安全度[15]。进行可靠性分析时作如下假设：(1)3个模块单元的软、硬件保持一致，也就是说各模块的修正率、故障检测覆盖率、故障率均相同且是常数；(2)系统出现安全故障且导致误操作后，系统被修复且随即重启的修正率为μSD；(3)单个模块的故障率为λ，修正率为μ0，安全故障率λS和危险故障率λD均等于λ/2，安全故障的检测覆盖率CS和危险故障的检测覆盖率CD均等于C，共因故障因子为β；(4)输出的表决单元完全可靠，即具有高可靠性[8]。

根据假设，如果某个模块在t时刻正常运行，而t+Δt时刻出现故障的概率

p=1-e-λΔt

(1)

当p很小的时候，该公式可以化简为

p=1-e-λΔt≈λΔt

(2)

基于TMR的分布式控制系统的马尔可夫模型的状态转换如图3所示。其中，Σ指的是当前状态转换到其他状态的概率和，λSDN指的是能被检测到的安全故障率，λDDN指的是能被检测到的危险故障率，λSDC指的是能被检测到的安全共因故障率，λDDC指的是能被检测到的危险共因故障率，λSUN指的是没被检测到的安全故障率，λDUN指的是没被检测到的危险故障率，λSUC指的是没被检测到的安全共因故障率，λDUC指的是没被检测到的危险共因故障率。

图3　基于TMR的分布式控制系统的马尔可夫状态转换图

在图3中控制系统可能出现13种状态：(1)状态0：三个模块都处于输出正确的状态，系统正常运行，工作模式为三选二；(2)状态1：一个模块出现被检测到的故障，此时系统其他两个模块组成二选一结构，系统输出正常；(3)状态2：一个模块出现没有被检测单元检测到的安全故障，这时系统为伪三选二，因为还有两个模块输出结果正确，所以系统仍能输出正确的结果；(4)状态3：一个模块出现没被检测单元检测到的危险故障，此时系统为伪三选二，但系统依旧能正常输出；(5)状态4：两个模块都出现被检测单元检测到的故障，此时系统还有一个设备正常工作，仍能输出正确的结果；(6)状态5：两个模块出现故障，其中一个故障被检测单元检测到，另一个未被检测到，这时系统表现为伪二选一模式，看似有两个模块正常输出结果，其实只有1个正确结果，表决单元通过比较发现结果不一致，系统仍然安全；(7)状态6：两个模块出现故障均未被检测到，其中包括一个危险故障和一个安全故障，此时系统是伪三选二，因为还有一个模块输出正确，通过表决单元后仍然能有信号输出；(8)状态7：两个模块出现危险故障，而且都没有被检测出来，系统处于伪三选二，通过表决单元会输出一个错误结果，整个系统处于危险状态；(9)状态8：三个模块出现故障，其中两个模块出现危险故障没有被检测到，一个模块发生故障被检测出来，系统为伪二选一，且两个结果均是错误的，系统处于危险状态；(10)状态9：三个模块出现故障均未被检测到，其中包括两个危险故障和一个安全故障，系统处于伪三选二，输出结果错误，系统处于危险状态；(11)状态10：三个模块出现故障，其中一个是没有被检测到的危险故障，另外两个是被检测到的故障，系统此时是伪一选一，输出结果错误，系统处于危险状态；(12)状态11：三个模块同时出现危险故障，并且都没有被检测单元检测到，系统表现为伪三选二，输出结果错误，系统处于危险状态；(13)状态12：系统安全故障。

在时刻t系统状态i的概率为pi(t)=p(X(t)=i)，其中i∈{0,1,2,…,12}。当P(t)=[p0(t),p1(t),p2(t),…,p12(t)]

P′(t)=P(t)A

(3)

式中，A表示状态转移密度矩阵。

根据状态转换图可知

a1,0=μ0，a1,4=2(1-β)Cλ，

a3,5=2C(1-β)λ，a3,6=(1-C)(1-β)λ，

a3,7=(1-C)(1-β)λ，a3,10=Cβλ，

已知初始条件P(0)=[1,0,0,…,0]，通过解状态方程(1)，可得到t时刻各状态概率，其系统可靠度

R(t)=p0(t)+p1(t)+p2(t)+p3(t)+

p4(t)+p5(t)+p6(t)

(4)

3　仿真结果及分析

针对方程(3)，采用Matlab中Ode45指令进行仿真计算。假设该系统单个模块的故障率λ为每小时0.000 01次。

3.1　共因故障因子对系统可靠性影响

令系统的修正率μ0为1/8，故障检测覆盖率C为0.9，系统误操作后修复并重新启动的修正率μSD为1/24，则在不同时刻t，β因子与系统可靠度R的关系见表1。由表1可以看出，随着β因子的逐渐增大，可靠度R逐渐变小。当β=0.05 时，经过17 520 h可靠性R要比没有考虑该因子时降低1.28%。

表1　β因子与系统可靠性关系Tab.1　Relationship between factor β and system reliability

当t=8 760 h，通过仿真，系统风险降低因子RRF与β因子的关系见图4。进一步验证了共模故障因子β越小，系统对风险的抵御能力越强。

RRF(t)=1/[1-S(t)]

(5)

S(t)=R(t)+p12(t)

(6)

图4　RRF与β因子的关系

3.2　故障检测覆盖率对系统可靠性影响

令系统的修正率μ0=1/8，β=0.02，μSD=1/24，则在不同时刻t，故障检测覆盖率C与系统可靠度R的关系见表2。由表2可以看出，随着检测覆盖率C的不断增加，系统的R有所增长。C=1时，系统的可靠度可以达到1。C=0.9时，R较检测率低或者不检测的高出很多。

表2　故障检测覆盖率与系统可靠性关系Tab.2　Relationship between fault detection coverage and system reliability

当t=8 760 h，通过仿真，系统的风险降低因子RRF与C因子的关系见图5。由图5可知，当C<0.6时，曲线斜率变化不大，即风险降低因子没什么改变；当C=0.9的系统风险降低因子比C=0.6的系统风险降低因子高出5～6倍。由此可见，C对R影响非常大。

(a) C<0.9

(b)C>0.9

图5系统风险降低因子与检测覆盖率的关系

Fig.5Relationship between risk reduction factor and detection coverage

3.3　修正率对系统可靠性的影响

令系统的β因子为0.02，系统误操作后修正并重新启动的修正率μSD为1/24，则在不同t时刻下修正率μ0与R的关系见表3 。

表3　μ0与系统可靠性关系Tab.3　Relationship between μ0 and system reliability

由表3可知，当C、β因子固定时，带修正的基于TMR的分布式控制系统的可靠度比不带修正的有所改善，但是改善并不明显。当μ0>0.002时，R几乎保持不变。

当t=8 760 h，通过仿真，系统的风险降低因子RRF与μ0的关系见图6。当μ0≥0.001 时，RRF趋于恒定，可靠度保持稳定。

图6　系统的风险降低因子与修正率的关系

Fig.6Relationship between risk reduction factor and correction rate

4　结　论

通过仿真基于TMR的分布式控制系统的马尔可夫模型可以看出，在考虑共因故障的TMR的分布式控制系统中，带修正的系统可靠性比不带修正的高，但是影响不明显。通过减少共因故障和增大设备的检测覆盖率，会使该系统的可靠性有明显的提高，同时风险降低因子会提升一个数量级。

参考文献:

[1] 白云飞.DCS技术及其发展展望[J].机械管理发展,2011(3):202-203.

[2] 焦育红.DCS维护与可靠性分析[J].石油化工自动化,2004(4):82-83.

[3] 胡晓.冗余结构提升DCS系统的稳定性和可靠性[J].山西冶金,2006(4):24-25.

[4] 何彦,李宇.浅谈分散型控制系统的可靠性[J].石油化工自动化,2007(3):39-42.

[5] LABS W. DCS adopt standards become enterprise friendly[J]. Instrumentation and Control Specialists, 2000, 73(7): 151-152.

[6] 王丽华,徐志根,王长林.可维修三模冗余结构系统的可靠度与安全度分析[J].西南交通大学学报,2002,37(1):103-107.

[7] 张超,赵伟,刘铮.基于FPGA的三模冗余容错技术研究[J].现代电子技术,2011,34(5):167-171.

[8] 陈志敏,吴首滨,简斌,等.浅谈Tricon控制器的三重冗余容错[J].数字技术与应用,2010(3):108.

[9] DU T C, LIU H. ESD of hydrocracking units based on TMR[C]//2010 International Conference on E-Product E-Service and E-Entertainment. New York: IEEE, 2010: 1-4.

[10] 齐培红,刘金刚.三模冗余中局部重构及模块同步技术研究[J].微计算机信息,2010,26(5):183-185.

[11] 王常力.分布式控制系统(DCS)设计与应用实例[M].北京:电子工业出版社,2004.

[12] PHILP K W, DEANS N D. Comparative redundancy, an alternative to triple modular redundant system design [J]. Microelectronics Reliability, 1997, 37(4): 581-585.

[13] 徐连军.双CPU冗余通信控制系统的研究与实现[D].西安:西安电子科技大学,2011.

[14] 杨其国.基于Markov过程的冗余系统可靠性分析[J].计算机仿真,2011,29(12):52-53.

[15] 陈州,倪明.三模冗余系统的可靠性与安全性分析[J].计算机工程,2012,38(14):239-241.