一种非完全冗余提高可靠性的设备布置结构
2019-11-13蒙冠霖褚雪芹张方杰
蒙冠霖 褚雪芹 张方杰
【摘 要】目前,DCS系统设计通常会采用完全冗余的方式,即由两台完全相同的设备采用一用一备的方式进行工作,当设备发生故障切換时,在设备允许的情况下通过指示灯报警、二层画面显示、光字声光报警的方式提醒运行人员。但另一方面,由于核电DCS系统的复杂性,并不是所有的设备都具有上述功能,本文提供一种采用非完全冗余的方式,即去掉部分的冗余功能,但可以提供更高的系统可靠性。
【关键词】核电厂;DCS系统;冗余;系统可靠性;系统结构
中图分类号: TM623 文献标识码: A文章编号: 2095-2457(2019)30-0008-002
DOI:10.19694/j.cnki.issn2095-2457.2019.30.003
A Kind Of Non-fully Redundant Device Structure Who Will Improve System Reliability
MENG Guan-lin CHU Xue-qin ZHANG Fang-jie
(China nuclear control systems engineering co., LTD., Beijing 100176, China)
【Abstract】Currently, DCS system designs are usually fully redundant. The system is operated by two identical devices in one device. When the device fails over, the operation personnel are reminded by means of indicator light alarm, two-layer screen display, and light word sound and light alarm. On the other hand, due to the complexity of the nuclear power DCS system, not all devices have the above functions. This article provides a way to use non-full redundancy, which removes some of the redundancy features, but provides higher system reliability.
【Key words】Nuclear Power Plant; DCS; Redundancy; System reliability; System structure
0 引言
在自动化系统中,尤其核电中应用的大型DCS系统,系统的稳定可靠是第一要务,因此在这些系统中会采用冗余的方法。冗余技术就是增加多余的设备,以保证系统可靠的工作。为了达到高可靠性性和低失效率相统一的目的,我们通常会在控制系统的设计和应用中采用冗余技术。合理的冗余设计将大大提高系统的可靠性,但是同时也增加了系统的复杂度和设计的难度,应用冗余配置的系统还增加了用户投资。
目前,DCS系统设计通常会采用完全冗余的方式,即由两台完全相同的设备采用一用一备的方式进行工作,当设备发生故障切换时,在设备允许的情况下通过指示灯报警、二层画面显示、光字声光报警的方式提醒运行人员。但另一方面,由于核电DCS系统的复杂性,并不是所有的设备都具有上述功能,本文提供一种采用非完全冗余的方式,即去掉部分的冗余功能,但可以提供更高的系统可靠性。
1 事故分析
1.1 事故经过
某电厂DCS系统二层操作画面由于冗余服务器全部故障造成全部离线,机组被迫停机。
浙江某电厂DCS(T-ME/XP系统)采用冗余交换机提供二层画面的数据交互服务,系统共有4台操作员站,可以同时对系统进行操作,四台操作员站均为双网卡配置,同时连接到1号和2号交换机,以保证当一台交换机发生故障时,不影响系统的正常运行,如图1所示。
图1 事故前操作员站及交换机网络结构图
事故发生时,两台交换机故障,后经厂家检查是由于机柜内4台散热风扇2台故障造成散热不好最终引起交换机死机,更为重要的是,经厂家人员检查发现第一台交换机故障是在26天前。但由于一方面设备没有报警信息送至DCS系统监视画面,另一方面由于机柜布置的原因,交换机竖直安装,最终导致运行人员未及时发现,造成事故扩大。
1.2 整改措施
根据事故原因,该电厂采用如下整改措施:
(1)更换机柜散热风扇。
(2)更换新交换机(安装在同样位置,采用相同型号)。
(3)在运行人员巡检中增加该项巡检。
(4)加强运行人员和检修人员安全教育及技术培训。
1.3 整改措施分析
就此次事故而言,散热风扇故障造成机柜内温度过高是事故的直接原因,因此更换风扇并增加巡检是一种有效的“亡羊补牢”式的处理方案,虽然看似有效,但是大大增加了运行人员的巡检负担,以一台典型的核电机组为例,单台机组包括83台控制柜,18个供电柜,8台网络柜以及4个服务器柜,合计113台机柜,以每个机柜平均检查时间为3分钟计算,则总时长约为5小时40分钟,如果把每个机柜检查时间增加到5分钟,则检查总时长为10小时25分钟,可行性较差。即使实施这种人员检查的方式,由于电子设备故障概率较小,检查人员会逐渐形成思维惯性,也会造成无法及时发现。
另一种方式则是更换将各种设备状态引入到DCS二层画面,这就要求DCS厂家和设备厂家支持这种功能。对于新机组和新DCS,在考虑上述隐患的基础上可以通过系统设计实现上述功能,但是对于老机组而言,如本例中的机组DCS本身和系统中的设备不具备这种功能时就不具备可行性。