核电厂DCS 故障分析及应对措施
2024-04-23梁军,龙腾
梁 军,龙 腾
(核电运行研究(上海)有限公司,上海 200120)
0 引言
核能是安全、经济、高效的清洁能源,是我国能源体系中重要且可靠的组成部分。自1991 年12 月15 日秦山核电300 MWe 机组投入运行以来,我国核电机组一直保持安全、稳定运行。截至2022 年12 月31 日,我国大陆核电装料运行核电机组共55 台,总装机容量为0.57 亿千瓦,总运行堆年523 堆年,运行机组数量及装机容量均列世界第三。但在近五年的时间内,发生了13 起因为DCS 故障而引起的非停事件,引起行业深度关注。
1 核电厂DCS 概述
1.1 DCS 介绍
DCS(Distributed Control System,分布式控制系统)主要是以微机或微处理器为基础,对生产过程进行集中管理、操作、监视以及分散控制(图1)。
图1 DCS 系统示意
1.2 核电厂DCS
核电厂DCS 综合了计算机技术、网络技术、CRT 和过程控制技术,以其良好的可操作性、可靠性、维护方便和故障率低等优点,成为生产实时过程控制的核心和应用发展最快的控制系统。核电厂DCS 系统结构按功能分为工艺系统接口、自动控制和保护、操作和管理信息、全场技术管理4 个层次,系统架构如图2 所示。
图2 DCS 系统总体架构
目前,核电厂投运的机组全部采用DCS 作为热工控制系统,因此,DCS 系统的可靠性直接关系到机组运行的安全性和经济性。近年来DCS 故障频出,有必要对DCS故障进行分析,并提出应对措施,以提高设备的可靠性。
2 核电厂DCS 故障及共性原因分析
2.1 核电厂DCS 故障介绍
(1)某核电厂4 号机组蒸汽发生器水位高高叠加P7 信号导致反应堆自动停堆。
(2)某核电厂1 号机组停堆保护信号误动导致自动停堆。
(3)某核电厂4 号机组蒸汽发生器主给水隔离阀误关闭导致反应堆停堆。
(4)某核电厂3 号机组蒸汽发生器液位降低触发反应堆自动停堆。
(5)某核电厂3 号机组仪控系统网络交换机故障导致蒸发器液位低触发反应堆自动停堆。
(6)某核电厂1 号机组两台循泵同时跳闸引发停机停堆。
(7)某核电厂1 号机组汽轮机润滑油压力高超质量位导致停机。
(8)某核电厂1 号机组60%功率平台线性负荷变化试验期间,蒸汽发生器二次侧水位高触发反应堆自动停堆。
(9)某核电厂1 号机组100%功率平台APA RB 试验期间,蒸汽发生器二次侧水位低触发反应堆自动停堆。
(10)某核电厂蒸汽发生器低水位叠加汽水失配信号触发反应堆自动停堆。
(11)某核电厂4 号机组DCS 网络故障导致自动停堆。
(12)某核电厂4 号机组P320 通信控制器故障导致F8000 网络失去冗余。事件原因为:CCL2 控制器的背板插孔故障。
(13)某核电厂1 号机组因汽轮机保护系统故障导致反应堆自动停堆。
2.2 故障分析
针对上述典型事例的根本原因进行分类,大体可以分成以下3 类:①DCS 硬件故障4 起,分别对应上述的5/11/12/13 事件;②设计缺陷6 起,分别对应上述的2/4/8/9/10/11 事件;③管理或者人员相关5 起,分别对应上述的1/3/4/6/7 事件。
3 共性原因分析
3.1 硬件故障
(1)30CRA51 或/和30CRA54 机柜的网络交换机SCALANCE 发生故障(事件5)。
(2)3KIT11 交换机故障,产生网络风暴(事件11)。
(3)CCL2 控制器的背板插孔故障(事件12)。
(4)汽轮机保护系统A 列通信模块CP443-5 偶发故障叠加通信模块CP443-5 固件(版本V7.1.5)存在缺陷(事件13)。
3.2 设计缺陷
(1)安全仪控系统停堆保护逻辑存在设计缺陷(事件2)。
(2)主给水泵流量参与的蒸汽发生器液位控制逻辑在设计上有缺陷(事件4)。
(3)SG 水位控制的镜像负荷设计存在缺陷。GCT(蒸汽旁排系统)在阀门闭锁状态下其压力控制器仍产生蒸汽负荷信号参与SG(蒸汽发生器)液位控制,当GCT实测压力值大于设定值时,GCT 控制器不断输出虚假的蒸汽映像负荷给SG 的水位调节系统,导致给水流量持续增大,SG 液位触发停堆阈值(事件8)。
(4)设计上对100%功率平台失去一台APA 泵且备用泵未启动的瞬态工况考虑不充分,给水流量失配部分停堆参数设置不合理,一二回路功率下降速度不匹配(事件9)。
(5)DCS 环形网络架构未设置阻断机制,造成网络风暴蔓延,导致CP 控制器控制异常,引发主给水泵转速控制异常(事件10)。
(6)程序水位逻辑设置与实际工况不符(事件11)。
(7)反应堆保护系统中主蒸汽流量质量位信号阈值设置不合理(事件11)。
3.3 管理或者人员相关
(1)工程NC-DCS 组态人员未理解设计人员答复意见,错误地发起DEN(事件1)。
(2)调试期间DCS 软件修改管理不到位,方案准备环节变更方案错误、审查环节未有效把关、验证环节验证手段不充分(事件3)。
(3)维修人员未严格遵守电站程序,超工作票范围操作30LAB13CF001 仪表二次阀门(事件4)。
(4)运行机组仪表在线与工艺系统在线的先后关系没有得到应有的重视和正确的界定,导致运行人员执行系统充水操作单过程中未严格遵守程序的使用规定,在仪控人员还未反馈仪表在线状态的情况下,执行下一步操作(事件4)。
(5)人员技能不足。在前期风险分析中未能有效识别出设计叠加设备缺陷。C529UC 软件组态中质量位使用原则与之前约定不符,将BODE 参数作为停泵信号质量位,导致风险分析过程中无法识别隐含缺陷(事件6)。
(6)变更管理流程中风险识别不到位,未对重大技术变化点进行专题审查,导致跳机逻辑变化没有充分讨论并有效防范(事件7)。
3.4 故障解决思路
(1)4 例硬件故障中的2 例是因为交换机故障产生了非停,1 例是网卡故障,1 例是通信模块故障。因此对于涉及停机停堆的DCS 系统,都应该选取质量可靠的设备,并密切跟踪厂家的设备升级换代及固件版本更新情况,及时下载最新的固件或者升级成新的更可靠的产品。
(2)设计缺陷或者不足共有6 例,其中有4 例是发生在相对新设计的堆型上,如EPR 有2 例,VVER 有2 例,另外60 万机组2 例(秦二厂属于较早期的DCS 设计,当时没有设计网络风暴阻断机制,昌江属于调试试验未完全完成以及质量位设计缺陷导致)。因此对于新的控制理念的设计,以及在运机组的改造提升等方面,必须进行完善的分析,确保能够涵盖实际工艺的全过程。
(3)管理或者人员方面的不足。需要从加强培训、提高人员技能、提升人员责任心、完善管理程序、打造执行力等方面执行。
4 应对措施
4.1 硬件故障
针对硬件故障的应对措施是:①当系统设备发生首次故障时,应及时对故障的原因进行深入分析;②加强与设备供货商的沟通协调,建立经验反馈和快速响应机制;③深入研究DCS 系统及其故障模式,升级DCS系统异常的应急预案,增加叠加故障下的风险分析和应对措施;④加快推进网络交换机升级改造,引入合理的网络风暴阻断机制;⑤专业人员需经常关注西门子工业官方网站版本升级信息,若发现在用设备已有新版本发布,需收集信息与西门子电站公司沟通,确认新版本优化内容及是否应用于现场升级。
4.2 设计缺陷
针对设计缺陷的应对措施是:①对于运行机组中的保护逻辑,应进行充分的排查和分析,找出设计缺陷,避免落入设计“陷阱”;②对于不同机组发生的事件开展经验反馈时,应深入分析事件过程,增加对于其他机组的适用性分析评价;③EPR 机组二回路控制调节系统逻辑设计复杂,影响范围广,结合本次事件经验,后续生产活动涉及调节系统的瞬态试验,分析和质疑逻辑设计可靠性,模拟验证设计试验的相关逻辑,预想最不利的情况并制定预案;④在调试环节、接产环节对涉及到机组控制逻辑参数修正的调试步骤进行有效地管控,确保控制参数满足机组要求,避免给运行机组留下隐患;⑤针对机组重要的控制系统应安排专人收集正常运行期间、机组瞬态期间、执行机构检修之后的数据,并进行统计分析,定期给出分析报告,诊断出控制系统可能存在的问题;⑥在相关的操作规程中增加打闸前的风险提示和关注要求。
4.3 管理或者人员相关
针对管理或者人员相关的应对措施是:①DCS 软件修改需要结合DCS 平台的技术特点,对变更或升级方案修改实施内容进行检查,必要时进行软件组态语句层级的分析,在修改实施后,需要有完整的验证方案,完整覆盖所有修改项目;②提高维修工作包准备的质量,杜绝超工作许可证范围作业;③规范仪表在线过程管理,界定仪表在线与工艺系统在线先后顺序;④需加大DCS 设备管理人员对软件可靠性的研究力度,熟悉组态时内部设置规则,提升DCS 大数据下风险分析能力;⑤厂家资料的更新需及时了解、熟悉并掌握,涉及现场有变化的要及时提出变更申请;⑥对于重要设备的设计逻辑控制要进行重点分析;⑦重大变更项目的设计审核、试验验证及差异化分析等环节加强控制。
5 结束语
本文通过对中国大陆近5 年核电厂中发生的因DCS系统故障导致的非计划停机停堆事件进行故障分析,旨在提炼出DCS 系统故障在非停事件中的各种具体始发事件和原因,以期能够找到贡献大的因子,以便对未来的核电站DCS 设计、运维、技改等,提供一定的信息和指导作用。