基于三重冗余的ETS控制系统设计及可靠性评估
2010-04-26邹见效徐红兵张正迁
邹见效,徐红兵,张正迁
(电子科技大学自动化工程学院 成都 611731)
汽轮机危急跳闸系统(ETS)用于监控对机组安全有重大影响的参数,当这些参数超过安全限值时,发送出紧急停车信号,避免危险扩散造成巨大损失,对于生产装置的安全、稳定、高效运行具有重要意义[1-2]。随着工业技术的发展,现代汽轮机的安全保护系统对可靠性的要求越来越高。提高系统可靠性有采用高可靠性的元器件和采用余度技术两种途径。在一定条件下,元器件的可靠性指标是一定的,提高系统可靠性的潜力有限。余度技术包含硬件冗余、软件冗余、时间冗余和信息冗余。硬件冗余又可分为被动冗余、主动冗余和混合冗余。由于硬件容错系统是在总线级进行数据比较和表决,而软件容错则在系统级实现容错,在实时控制系统领域,采用硬件容错比软件容错更为可靠[3-5]。
为达到较高的可靠性,现代汽轮机安全保护系统多采用双机冗余备份或三冗余。通常情况下三重冗余系统只能实现一次故障工作、二次故障安全。针对ETS系统结构特点,本文提出了一种三重冗余容错方案。
1 系统原理
根据《火电厂设计技术规程》(DL5000-2000),ETS接收来自汽轮发电机组TSI系统、锅炉FSSS系统及其他系统的报警和停机信号,进行逻辑处理后,输出跳闸信号至跳闸电磁阀,跳闸电磁阀卸掉保安系统的保安油,使汽轮机的主汽阀和调节阀迅速关闭,完成汽轮机跳闸的功能。ETS是汽轮机组控制系统中负责汽轮机危急跳闸的控制单元,安全、可靠地执行跳闸指令是ETS系统要考虑的重要指标[2]。本文采用三重化冗余容错的思想提高系统的可靠性和安全性:(1) 系统能够自动检测并隔离各组成模块及通道故障;(2) 允许在不中断系统运行的情况下对其实施维修和更换部件。
系统主要包含智能输入模块、主控制器、总线控制器和智能输出模块。传输总线采用带隔离的、满足CAN 2.0B规范的高速CAN总线。在本文系统中,CAN总线也采用三重化的冗余配置,分为用α、β、γ来表示。系统通过3组独立的输入模块采集外部汽轮机组报警和停机信号,通过总线控制器汇总到主控制器中。3个独立的主控制器分别通过3个总线控制器与3条冗余总线相连。通过对3个输入模块采集的信号进行3取2表决,并屏蔽故障通道数据,主控制器利用输入表决结果进行逻辑运算,得到输出跳闸信号。构成H型表决器的4个输出模块各自都能够通过系统总线得到3个主控制器对本模块的输出结果,并对结果进行软件表决。系统输出使用H型结构实现最终结果的硬件表决。
通过在线通道内自监测、通道间互监测及通道同步策略得到系统的故障表及数据偏差报告。利用预设的表决适应方案在表决时对故障模块、故障点进行屏蔽处理,从而实现系统高可靠的冗余容错。通过故障-安全比较器和故障-安全电路可保障系统的故障-安全性。系统原理框图如图1所示。
图1 三重冗余系统原理框图
2 三重冗余系统冗余容错策略
2.1 信号表决
三重冗余ETS系统共设置了输入表决面、输出表决面和H型表决器表决面:(1) 输入表决面采用软件在主控制器中实现,用于对输入采集数据的进行3取2表决;(2) 输出表决面采用软件在输出模块中实现,用于对来自3个主控制器的运算结果进行3取2表决;(3) H型结构利用4个输出模块共同构成硬件的3取2表决器,可进一步提高输出的可靠性。表决面的设置如图2所示。
前两个表决面处的表决数据通信通过总线控制器转发数据实现。3个主控制器分别连接3个总线控制器,通过总线控制器实现表决数据的转发。为防止硬件表决器发生故障而引发不安全的结果,将最终输出反馈回主控制器,再一次对输出与主控制器的运算结果进行对比验证。通过3个表决面的设立和反馈验证的功能,系统的每一个部分都得到了监控,屏蔽了大部分器件失效时引发事故的可能,保证了系统的安全。
表决适应方案主要有3-2-0和3-2-1-0两种。其中,“3”表示3路数据均有效,采用的表决机制为完整的3取2表决方案;“2”表示仅有两路数据有效,此时采用可预先设定的“双重化缺省值”替代无效的那一路数据进行3取2表决;“1”表示仅有一路有效。在3-2-1-0表决适应方案中,采用唯一有效路作为最终结果,不再进行表决比较;而在3-2-0表决适应方案中,则采用“默认缺省值”作为最终结果。默认缺省值可根据系统要求设定为安全值或是保持前一状态;“0”表示3路全部无效,不进行任何比较,此时,直接采用默认缺省值作为最终结果。
图2 表决面设置示意图
2.2 系统故障检测与自测试
能否实时准确地检测出系统故障并对故障进行隔离是系统冗余容错设计的关键。系统采用模块通信故障检测和模块内通道自测的故障检测方案。
(1) 模块通信故障检测:系统中3个主控制器都必须实时准确地了解整个系统各模块的通信故障,以便作出正确的处理。在三重冗余ETS系统中,利用心跳检测[6]的方法检测总线上输入、输出模块和总线控制器的通信故障,及时地通过总线控制器把故障信息传达给主控制器。
(2) 模块内部通道自测试:自测试包含智能输入、输出模块和主控制器的自测试。每一个主处理器轮流控制自测试程序。主控制器执行输入、输出自测试后,再把自测试控制命令传给下一个主控制器。输入/输出自测试能够检查模块内部采集/输出通道的单点故障。
2.3 主控制器同步
冗余系统要求通道间始终运行同一任务,仅允许有限偏差。对于上电初始或是模块维修更换,在同步过程中,新上电的主控制器初始化后,首先判断有无其他正常的主控制器在线,通过相连的总线控制器获取另两个主控制器的状态。若检测到其他主控制器在线,则通过总线控制器向其发送同步请求,并通过总线控制器之间的数据转发实现主控制器之间的数据和状态同步。
2.4 故障处理
3通道间采用主动并列运行、分机余度形式。当系统模块出现通信故障时,直接屏蔽该模块的功能;若出现模块自测试故障,则屏蔽其相应通道的数据。通过3-2-1-0表决适应性方案,当系统出现一次故障、二次故障后,系统隔离故障部分,故障部分变为二余度、单余度工作,由于采用分机余度形式,其他部分不受影响;当系统出现3次故障时,系统则变为安全态。
3 系统可靠性评估及调试
系统可靠性是指系统在规定条件下和规定时间内完成规定功能的能力。可靠性是一个定性的概念,而实际工作中往往需要用可靠度定量地表现可靠性的高低。可靠度是指系统在初始时刻(t=0)时可靠度为1的条件下,在0~t时间内正常工作的概率。由于系统是冗余系统,系统发生故障是余度性能降级的动态过程,利用马尔可夫过程理论能够对余度系统进行精确的可靠性建模分析,较为真实地描述系统的实际工作过程。
3.1 H型表决器可靠性分析
由图1可知,H型表决器由两个源模块(A,B)和两个漏模块(C,D)组成。漏模块D受控于源型模块A和B,其逻辑表达式为D=A&B。系统输出要为有效,必须同时有一个源模块和一个漏模块输出为“真”。表1为H型表决器的真值表,通过真值表可知,H型表决器实现了输出模块A、B、C的3取2表决。由其工作原理可知,H型表决器可靠性关系为:
表1 输出模块真值
假设H型表决器中源型和漏型输出模块的可靠度相同,并且设为R,则H型表决器可靠度为:
3.2 单模系统可靠性建模
单模系统由一个输入模块、一个主控制器和一个输出模块组成,如图3所示。
图3 单模系统结构框图
假设输入模块、主控制器和输出模块的失效率分别为λIN、λMC和λOUT;系统的修复率为μ。可得到单模系统的马尔可夫状态转移图如图4所示。
图4 单模系统马尔可夫模型
其中,P0代表系统的完好状态,PF代表系统失效的状态,当单模系统中任何一个模块失效,则整个系统失效。Pi(t)(i=0,F)表示时刻t系统处于Pi状态的概率,Pi(t+1)(i=0,F)表示时刻t的下一时刻系统处于Pi状态的概率。
3.1 三重冗余系统可靠性建模
为了方便讨论及建模,把H型表决器作为一个部件来考虑,可得如图5所示系统逻辑框图。
系统工作状态划分为工作态、安全态和故障态。工作态指系统正常工作;安全态指系统输出一个预设的安全状态;故障态指系统输出不受控制。假设系统的表决适应方案采用3-2-1-0,在同一时刻只有一个模块失效。当输入模块或主控制器全部失效而H型表决器有效时,根据3-2-1-0的表决适应方案,系统将输出预设的安全值,系统处于安全状态。当H型表决器失效时,则整个系统失效。定义输入模块的失效率为λIN,主控制器的失效率为λMC,H型表决器的失效率为λH,系统的修复率为μ。经过修复,可使系统恢复到最初状态。
图5 三冗余系统可靠性逻辑框图
为了表述方便,下文使用IN代表输入模块,MC代表主控制器,H代表H型输出结构模块。系统处于完好状态时,有3个输入模块、3个主控模块和H型模块处于工作状态,以(3IN,3MC,H)表示。系统的马尔可夫模型状态图如图6所示。
其状态可描述为:
(1) 状态P1(3IN,3MC,H)表示系统的完好状态;
(2) 状态P2(3IN,2MC,H)表示系统有1个主控制器失效,2个主控制器有效,输出模块对2个主控制器的输出数据及一个双重化缺省值进行3取2表决;
(3) 状态P3(2IN,3MC,H)表示系统有1个输入模块失效,主控制器对2个输入模块的数据以及一个双重化缺省值进行3取2表决;
(4) 状态P4(IN,3MC,H)表示系统有2个输入模块失效,1个输入模块有效,系统使用3-2-1-0表决适应方案,直接使用该有效输入模块的值;
(5) 状态P5(3IN,MC,H)表示只有1个主控制器正常工作。系统直接使用该有效主控制器的输出值;
(6) 状态P6(2IN,2MC,H)表示有1个输入模块和1个主控制器失效,主控制器采用双重化缺省值与2个输入数据进行3取2表决,输出模块对2个主控制器的输出数据以及一个双重化缺省值进行3取2表决;
(7) 状态P7(IN,2MC,H)表示有1个输入模块和2个主控制器有效,主控制器使用唯一有效的输入模块的值进行运算;
(8) 状态P8(2IN,MC,H)表示只有2个输入模块和1个主控制器有效,输出表决时使用唯一有效的主控制器的输出值;
(9) 状态P9(IN,MC,H)表示只有1个输入模块和1个主控制器有效,系统相当于单机模式,不进行表决,直接使用有效路的值作为输出结果;
图6 三冗余系统的马尔可夫模型
(10) 状态PS表示系统处于安全态,输入模块或主控制器全部无效但H型表决器有效时,根据3-2-1-0的表决适应方案,系统输出预设的安全值,为安全状态。
(11) 状态PF表示系统处于故障态,H型表决器无效时输出无法受系统控制,系统处于故障状态。
设Pi(t)(i=0,1,2,…,F)表示时刻t系统处于Pi状态的概率。由控制器马尔可夫模型和全概率公式可得控制器马尔可夫模型方程组:
对于微分方程组,其初始条件为t=0时,所有模块均完好,故有:
3.4 系统仿真与分析
对可靠性方案的评价往往要涉及系统部件的可靠性数据,而这些数据在设计阶段不易获得。可以使用估计的数据来进行分析,但必须保证各个方案评价中使用的数据具备可比性。针对汽轮机组的工业应用场合,并参考文献[7-9]对模块故障率的假设,在ETS系统的可靠性仿真中,假设输入模块的故障率为4E-6,主控制器的故障率为2E-6,输出模块的故障率为4E-6。由H型结构的可靠度表达式2R2–R4可知,H型的故障率为1E-9。在相同的具有可比性的条件下,对三重冗余系统和单模系统进行可靠性仿真。
由于可靠度与系统的修复率无关,把系统的修复率μ设为0。从图7的可靠度曲线可见,到300 000小时(约34年)后,三重冗余系统的可靠度还高达0.6,在相同的模块故障率条件下,三重冗余系统的可靠度远大于单模系统的可靠度。
图7 三重冗余与单模系统可靠度
假设整个系统的修复率μ为0.01,对三重冗余系统和单模系统的安全度进行仿真,如图8所示,三重冗余系统的安全度接近1,单模系统的安全度收敛于0.999。
通过对各部分采用三重化冗余配置,加入输入、输出和H型表决面,完成了输入采集、输入表决、输出计算和输出表决的三重化冗余处理,在相同的故障率和修复率下,使其可靠度和安全度大大提高,能够满足汽轮机组安全保护系统的高可靠性的要求。
3.5 系统调试
三重冗余ETS系统采用模块化设计,通过背板方式互联,背板间通过总线级联,机柜配备双重化冗余一体化电源(220 VAC、24 VDC)。系统逻辑采用某300 MW汽轮机发电机组ETS系统逻辑,采用梯形图编程实现并运行于主控制器中。为方便系统调试,设计了模拟试验盘,可检查通道的动作情况并有相对应的指示灯。模拟盘还设计了主机复位、通道投切、电超速试验隔离、等调试功能。通过反复的汽轮机信号采集,主控制器表决、输出表决及H型驱动、输入/输出内部通道自测试及模块通信故障检测等方面的测试,验证了系统的功能性。并且经过长时间通电试验,系统运行良好,其稳定性得到证明。
图8 三重冗余与单模系统安全度
4 结 论
针对汽轮机组对安全保护装置ETS系统结构特点,提出一种三重冗余容错方案,通过选择合理的余度配置和管理方案、完善的模块自测试和故障监控措施,实现了二次故障工作,三次故障安全,以较少余度实现较高的容错能力。考虑可维修条件下及不同部件不同失效率的情况下,建立三重冗余系统和单模系统的Markov可靠性模型,利用MATLAB对系统可靠度和安全度进行仿真,从理论仿真上验证了三重冗余系统比单模系统有更高的安全性和更高的可靠性。现场调试和长时间通电实验,证明了系统应用于汽轮机组安全保护装置的功能性和稳定性。其冗余容错设计符合汽轮机安全保护系统高可靠性和高安全性的要求。
[1] 何湘杰, 张 静. PLC在汽轮机ETS系统中的应用研究[J].汽轮机技术, 2005, 47(3): 225-226.HE Xiang-jie, ZHANG Jing. Study on application of PLC to ETS system of steam turbine[J]. Steam Turbine Technology,2005, 47(3): 225-226
[2] 吴天一, 王 兵, 崔旭东, 等. ETS系统在24 MW汽轮机的应用实现[J]. 石油化工自动化, 2007, (??)2: 23-25.WU Tian-yi, WANG Bing, CUI Xu-dong, et al. The application of ETS system in the 24 MW turbine set[J].Automation in Petro-chemical Industry, 2007, (??)2: 23-25.
[3] BOLDUC L P. X-33 redundancy management system[J].Aerospace and electronic systems magazine (IEEE), 2001,16(5): 23-28.
[4] CHEN Guang-yu, HUANG Xi-zi, TANG Xiao-wo. Analysis of phased-mission system reliability and importance with imperfect coverage[J]. Journal of Electronic Science and Technology of China, 2005, 3(2): 182-186.
[5] 靳红涛, 焦宗夏, 王少萍, 等. 高可靠三余度数字式作动器控制器设计与实现[J]. 北京航空航天大学学报, 2006,32(5): 548-552.JIN Hong-tao, JIAO Zong-xia, WANG Shao-ping. Design and realization of high reliability tri-redundancy digital actuator controller[J]. Journal of Beijing University of Aeronautics and Astronautics, 2006, 32(5): 548-552.
[6] 尹康凯, 王明伟, 李善平. 高可用性集群中多个节点的心跳模型研究[J]. 计算机工程, 2005, 31(15): 102-106.YIN Kang-kai, WANG Ming-wei, LI Shan-ping. Study of multi-node heartbeat model used in HA Cluster[J].Computer Engineering, 2005, 31(15): 102-106.
[7] KIM H, JEON Hyung-Joon, LEE Key-seo, et al. The design and evaluation of all voting triple modular redundancy system[C]//Proceeding Annual Reliability and Maintainability Symposium, Seattle. Wadhington,USA:IEIE,2002: 439-444.
[8] DHILLON B S, SUBRAMANIAN P. Reliability analysis of triple modular computer systems with redundant voters and restricted maintenance[J]. Journal of Quality in Maintenance Engineering, 2001,7(2): 151-164.
[9] 王鸿欣, 崔光照, 杨 扬. 基于三模冗余结构的列车监控记录系统[J]. 汕头大学学报(自然科学版), 2007, 22(4):41-45.
WANG Hong-xin, CUI Guang-zhao, YANG Yang.Research of monitoring and recording system based on tmr structures[J]. Journal of Shantou University (Natural Science), 2007, 22(4): 41-45.