APP下载

基于分布式系统可修复控制方法可靠性和安全性分析

2015-06-05冯丽媛姚绪梁邹艾利

系统工程与电子技术 2015年11期
关键词:热备失效率双机

冯丽媛,姚绪梁,曹 然,邹艾利

(1.哈尔滨工程大学自动化学院,黑龙江哈尔滨150001;2.黑龙江科技大学电子与信息工程学院,黑龙江哈尔滨150022)

基于分布式系统可修复控制方法可靠性和安全性分析

冯丽媛1,2,姚绪梁1,曹 然1,邹艾利1

(1.哈尔滨工程大学自动化学院,黑龙江哈尔滨150001;2.黑龙江科技大学电子与信息工程学院,黑龙江哈尔滨150022)

冗余技术对于规模大复杂程度高的系统主要采用双机热备的方法,但其难点是不能准确定位失效单元。针对上述难点,提出一种基于分布式系统的可修复控制方法。通过对系统进行可修复设置,并利用马尔可夫过程进行建模和仿真,最后针对可靠性和安全性进行了分析。仿真结果表明,可修复控制方法可以提高系统的可靠性及安全性,冗余单元的故障检测率等于主单元的故障检测率且冗余单元的失效率大于主单元的失效率时,系统的安全性和可靠度达到最大值。

可修复控制;冗余单元;故障检测率;失效率

0 引 言

科学技术飞速发展的结果导致系统规模的迅速扩大以及复杂程度的日益加剧,系统安全性和可靠性受到越来越多的重视,通常情况下采用冗余技术来提高系统的可靠性和安全性。文献[1]分析了备份系统的可靠性,给出了仿真程序,但是备份系统没有给出具体的应用场合。文献[2]分别基于遗传算法和整数编程方法优化了冗余备份设计,但此方法只适用于串并联系统。目前较为常用的冗余技术有双机热备、三取二、二乘二取二等结构。对于规模较大的系统以及复杂程度较高的系统,经济成本是必须要考虑的因素,因此通常采用双机热备作为保障系统安全性和可靠性的冗余设计。文献[3]给出了一种利用可编程逻辑控制器(programmable logic controller,PLC)实现的双机热备系统的可靠性评估,PLC工作在主从模式下,但其分析的前提是备用单元的故障率要低于主单元的故障率,此前提条件限制了其应用场合以及增加了具体实现的难度;文献[4]以可修复供应链系统为例研究了双机热备系统的可靠性,不足之处在于其模型中定义的状态为完全可逆状态,这种假设在多数的系统上是不适用的;文献[5]对一般双机热备和相互比较双机热备两种方式的可靠性进行了对比,但对于相互比较双机热备的比较功能没有提及如何定位失效单元以及故障检测率的问题;文献[6]给出了一种可维修双机热备系统的可靠性分析,对于备用单元发生不可测失效时不能及时修复的问题,提出在状态转移图中增加一个状态来区分此种降级工作状态,其不足之处在于分析的模型仍然是常规的双机热备结构,并没有提高双机热备结构的可靠性;文献[7]提出了一种基于双机联合故障检测的双机热备系统方案,通过仿真与独立故障单元的双机热备系统的可靠性和安全性进行比较;联合故障检测的双机热备系统虽然在可靠性方面要优于基于独立故障单元的双机热备系统,但其始终为双机热备系统,仍然没有解决失效单元定位问题。

分布式系统的广泛应用促使分布式系统的安全性和可靠性受到越来越多的重视,尤其是针对一些大型、复杂的分布式系统,例如电力控制、铁路、民航等领域。为了尽早发现故障,减少损失,常规的办法是对系统进行冗余设计。文献[8]对基于分布式监控系统提出了一种改进方法,硬件上利用双机备份,软件上利用探测来确定软件是否运行正常,虽然原有的监控系统进行了改进,但其核心仍然是双机热备结构。文献[9]为电力系统中对分布式发电的可靠性评估,其中硬件部分采用双机热备结构,文章的重点在于研究分布式发电对可靠性的影响,并假设分布式发电单元作为备用发电单元。

综上所述,为提高双机热备系统的可靠性在双机热备系统的结构上有所调整,但仍然存在定位失效单元的问题。为了解决确定失效单元的问题,增加了冗余单元。基于上述考虑,本文基于分布式系统提出了一种分布式系统可修复控制方法,给出了其结构并对其进行建模分析。最后利用仿真结果验证了增加冗余单元的可修复控制方法可以提高分布式系统的可靠性和安全性。

1 双机热备系统问题描述

文献[5]对一般方式下的双机热备和具有比较功能的双机热备结构分别从可靠度和不安全度两方面进行了分析和比较。结果表明,一般方式的双机热备结构的可靠度要高于具有比较功能的双机热备结构,具有比较功能的双机热备结构的安全性要高于一般方式的双机热备结构。从综合的角度考虑,具有比较功能的双机热备结构是一个更好的折中方案。主备单元结果比较能够提高系统的安全性,但文章并没有给出主备单元比较的方法,以及如何确定失效单元的方法。

文献[7]对传统的双机热备结构进行改进,采用联合故障检测结构,并与具有独立故障检测的双机热备结构从可靠度和安全度两方面做了对比分析。结果表明,在一定条件下,联合故障检测的双机热备结构在可靠度和安全性两方面的性能要优于独立故障检测的双机热备结构。联合故障检测分为单元自检及它检,自检用于检测自身发生的故障,它检用于检测另一单元的故障,这种设置势必会降低主备单元的运行速度;利用心跳信号是否正常来检测是否发生故障的可靠性也有待考虑。

2 基于分布式系统可修复控制方法

双机热备方法的核心是当其中一个单元失效时,另外一个单元能够代替失效单元正常工作。关键的问题是要如何确定失效单元,无论是具有故障检测功能的双机热备结构还是具有联合故障检测的双机热备结构,其目的都是要确定故障单元。但仅仅依靠主备两个单元来确定失效单元是不够的,需要增加其他的判定条件来确定失效单元,并能使系统继续正常工作。

2.1 可修复控制结构

首先对分布式系统进行可修复连接设置,如图1所示:假设分布式系统有n层,每层有mi个节点(i=1,2,3,…,n),从分布式系统的第二层开始放置冗余节点。冗余节点的安放位置及数量与系统具体的节点设置有关。每层冗余节点的数量是上一层除冗余节点外所有节点的数量,即mi个冗余节点。每个冗余节点安放的位置为属于上一层同一节点控制的一组节点增加一个冗余节点。

图1 分布式系统可修复连接图

图2为可修复控制方法的方案图,输入信号同时进入主备单元进行处理,处理结束后对主备单元的结果进行比较,如果结果一致,则主单元输出;若比较结果不一致,冗余单元介入,进行失效单元的定位。输入信号进入冗余单元进行处理,运行结束后与主备单元的结果进行比较,3个结果中取2个相同的结果为正确结果,另一单元则确定为失效单元。

图2 可修复控制方法结构图

2.2 可修复控制方法的可靠性及安全性分析模型

目前对于系统可靠性及安全性分析较为常用的是马尔可夫模型,很多学者利用马尔可夫模型对双机热备结构的可靠性及安全性进行了研究。文献[4]中的可修复供应链系统、文献[5]中的两种双机热备结构、文献[6]中的可维修双机热备结构的可靠性和安全性的分析均采用了马尔可夫模型。由于可修复控制方法对于双机热备的结构并没有要求,因此本文选择了文献[7]中提出的基于双机联合故障检测的双机热备结构作为可修复控制方法中的双机热备结构。首先做如下假设:

(1)主单元、备用单元、冗余单元只能取正常或者失效两种状态,失效后不可维修。

(2)系统的状态转移过程为马尔可夫过程:主单元、备用单元、冗余单元的故障分布均服从指数分布,主单元与备用单元的失效率相等,为λ,冗余单元的失效率为λ1。

(3)主单元、备用单元及冗余单元发生可测失效时产生的危险输出的比例因子相等,为α。

(4)主单元的自检故障率等于备用单元的自检故障率,为c1;主单元的它检故障率等于备用单元的它检故障率,为c2;主单元的自检和它检检出同一故障率等于备用单元自检和它检检出同一故障率,为c12;冗余单元故障检出率为c3。

根据主备及冗余单元的状态,定义系统以下4种状态:

状态0:系统运行正常,主单元及备用单元均处于无故障运行;

状态1:系统运行正常,主单元或备用单元中有一个产生故障,另一个单元使系统正常工作,且产生的故障为可测失效故障;

状态2:系统运行不正常,处于失效状态,但不处于危险状态;

状态3:系统运行不正常,且处于危险状态;

系统在运行过程中若发生故障,系统状态在状态0~状态3之间转移,系统的状态转移图如图3所示。对可修复控制方法的状态转移图说明如下:

(1)状态0~状态1:当系统中主单元或备用单元任意单元发生可测失效,通过冗余单元定位失效单元时,另一单元正常工作,系统由状态0转移到状态1;

(2)状态1~状态2:当只有一个单元正常工作时,若发生可测失效则整个系统进入失效状态,但不会处于危险状态,仍然为安全状态;

(3)状态0~状态3:当主单元或备用单元发生不可测失效时,将导致整个系统处于危险状态;

(4)状态1~状态3:当只有一个单元正常工作时,若发生危险可测或危险不可测失效则整个系统进入失效状态,且处于危险状态。

图3 状态转移图

根据状态转移图,得如下方程:

由状态转移矩阵,列出如下微分方程:

对上式进行拉氏变换,有

带入初始条件P0(0)=1,P1(0)=0,P2(0)=0,P3(0)=0

求解上述微分方程,得

系统可靠度为

系统安全度为

3 可靠性及安全性分析

令文献[7]中的可靠度为R1(t),安全度为S1(t),则

因为

由此可见可修复控制方法的可靠度要高于文献[7]中给出的方法。

因为

所以

由文献[7]得

又因为

所以

即可修复控制方法的安全度要高于文献[7]中给出的方法。

若冗余单元的失效率与主备单元的失效率相同,冗余单元的故障检测率与主单元的故障检测率相同,由图4可以得出可修复控制方法的可靠度和安全度要高于文献[7]中提出的双机热备的方法。

图4 可靠度与安全度比较

根据可修复控制结构,系统中每层只有一个冗余节点,冗余节点的失效率与其他主备单元的失效率之间的大小关系是变化的,因此冗余节点的失效率变化情况会影响系统的可靠性和安全性。

图5分别为冗余单元失效率小于、等于及大于主备单元失效率时,冗余单元的故障检测率对于可靠度的影响。当冗余单元的故障检测率等于主单元的故障检测率时,系统的可靠度最高;当冗余单元的故障检测率大于主单元的故障检测率时,系统的可靠度最低。

通常情况下主单元的故障检测率要大于备用单元的故障检测率,即c1>c2。由于可修复控制结构的特殊性,冗余单元的故障检测率c3与c1之间没有固定的关系,c3与c1之间的变化情况会影响系统的可靠性和安全性。

图5 故障检测率对于可靠度的影响比较

图6分别为冗余单元故障检测率小于,等于及大于主单元故障检测率时,冗余单元的失效率对于可靠度的影响。当冗余单元的失效率大于主备单元的失效率时,系统的可靠度最高;当冗余单元的失效率小于主备单元的失效率时,系统的可靠度最低。

图6 失效率对于可靠度的影响

由以上分析可知,冗余单元的故障检测率以及失效率均会影响系统的可靠度,当冗余单元的故障检测率等于主单元的故障检测率以及冗余单元的失效率大于主单元的失效率时,系统的可靠度达到最大值。

当冗余单元的失效率等于主备单元的失效率时,由图7可知,冗余单元的故障检测率等于主单元的故障检测率时安全度最高;当冗余单元的故障检测率等于主单元的故障检测率时,由图8可知,冗余单元的失效率大于主单元的失效率时,系统安全度最高。由以上分析可知,冗余单元的故障检测率以及失效率均会影响系统的安全度,当冗余单元的故障检测率等于主单元的故障检测率以及冗余单元的失效率大于主单元的失效率时,系统的安全度达到最大值。

图7 故障检测率对安全度的影响

图8 失效率对安全度的影响

4 结 论

双机热备结构是目前应用广泛的冗余设计,为进一步提高系统的可靠性和安全性,并最大限度地减少额外成本,本文给出了一种适用于分布式系统的可修复控制方法。通过增加冗余单元对系统进行可修复设置,并利用马尔可夫过程进行建模和仿真,根据仿真结果对可靠性和安全性进行了分析。仿真结果表明,可修复控制方法可以提高系统的可靠性及安全性,冗余单元的故障检测率和失效率与主单元的故障检测率和失效率之间的关系均会影响系统的可靠性和安全性,当冗余单元的故障检测率等于主单元的故障检测率且冗余单元的失效率大于主单元的失效率时,系统的安全性和可靠度达到最大值。

[1]Amari S V,Dill G.A new method for reliability analysis of standby systems[C]∥Proc.of the Reliability and Maintaiability Symposium,2009:417- 422.

[2]Tannous O,Xing L,Rui P,et al.Redundancy allocation for series-parallel warm-standby systems[C]∥Proc.of the IEEE International Conference on Industral Engineering and Engineering Management,2011:1261- 1265.

[3]Parashar B,Taneja G.Reliability and profit evaluation of a PLC hot standby system based on a master-slave concept and two types of repair facilities[J].IEEE Trans.on Reliability,2007,56(3):534- 539.

[4]Ren S H,Zhang C L.Study on the reliability of hot standby repairable supply system based on Markov model[C]∥Proc.of the 6th International Conference on Service Systems and Service Management,2009:318- 322.

[5]Yan J P,Wang X S.Reliability and safety analysis of two modes of dual module hot spare architecture[J].Journal of the China Railway Society,2000,22(3):124- 127.(闫剑平,汪希时.两种方式双机热备结构的可靠性和安全性分析[J].铁道学报,2000,22(3):124- 127.)

[6]Yu M,He Z Y,Qian Q Q.Reliability analysis of repairable hotstand-by redundant system based on Markov model[J].Computer Engineering and Design,2009,30(8):2040- 2046.(于敏,何正友,钱清泉.基于Markov模型的可维修双机热备系统可靠性分析[J].计算机工程与设计,2009,30(8):2040- 2046.)

[7]Qin Q N,Wei X Y,Yu R R,et al.Reliability and security study of dual computer hot-standby system based on dual computer joint fault detection[J].Systems Engineering and Electronics,2011,33(12):2776- 2780.(覃庆努,魏学业,于蓉蓉,等.基于双机联合故障检测的双机热备系统可靠性和安全性研究[J].系统工程与电子技术,2011,33(12):2776- 2780.)

[8]Jiang M,Liu Y P,Gu X Z.An approach to improving reliability for distributed video-based monitoring systems[C]∥Proc.of the IEEE 3rd International Conference on Secure Software Integration and Reliability Improvement,2009:293- 294.

[9]Jahangiri P,Fotuhi-Firuzabad M.Reliability assessment of distribution system with distributed generation[C]∥Proc.of the IEEE 2nd International Conference on Power and Energy,2008:1551- 1556.

冯丽媛(197-8- ),女,博士研究生,主要研究方向为复杂系统可靠性及安全性、分布式系统可靠性及安全性。

E-mail:fengly1978@126.com

姚绪梁(196-9- ),男,教授,博士,主要研究方向为复杂系统可靠性及安全性、电力电子与电气传动。

E-mail:yao_1126@163.com

曹 然(198-0- ),女,博士研究生,主要研究方向为复杂系统连锁失效、博弈论。

E-mail:caohefan@126.com

Reliability and safety analysis of repairable control method based on distributed systems

FENG Li-yuan1,2,YAO Xu-liang1,CAO Ran1,ZOU Ai-li1
(1.College of Automation,Harbin Engineering University,Harbin 150001,China;2.School of Electronics and Information Engineering,Heilongjiang University of Science and Technology,Harbin 150022,China)

Redundant technology mainly uses the method of hot standby to cope with high complexity and large-scale system,but the difficulty is that it cannot accurately position the failure unit.In response to the difficulty,a repair method based on distributed control systems is proposed,which uses the repairable setting to realize fault position.By establishing Markov models and simulation respectively,the reliability and safety of the two schemes are analyzed.The simulation results show that the repairable control method can improve the reliability and safety,the safety and reliability of the system is maximized when the fault detection rate of the redundancy unit is equal to the main unit and the failure rate of the redundancy unit is greater than the main unit.

repairable control;redundancy unit;fault detection rate;failure rate

TP 273

A

10.3969/j.issn.1001-506X.2015.11.36

1001-506X(2015)11-2663-06

2014- 12- 03;

2015- 04- 28;网络优先出版日期:2015- 07- 27。

网络优先出版地址:http://www.cnki.net/kcms/detail/11.2422.TN.20150727.1601.006.html

国防科工局技术基础研究基金(Z192011B001)资助课题

猜你喜欢

热备失效率双机
Archimedean copula刻画的尺度比例失效率模型的极小次序统计量的随机序
热备动车组配置方案优化模型
东海区实时海洋观测数据库双机热备系统解决方案
深入理解失效率和返修率∗
双机、双桨轴系下水前的安装工艺
一种应用于分布式网络的地址分配及热备技术
基于改进龙格-库塔法反舰导弹贮存寿命研究
双机牵引ZDJ9道岔不同步问题的处理
PostgreSQL热备原理研究及流复制运用
Loader轴在双机桁架机械手上的应用