核电DCS 改造风险评估与控制方法
2022-07-25姚力恺YAOLikai马蜀MAShu王志武WANGZhiwu涂画TUHua彭超PENGChao刘立华LIULihua
姚力恺YAO Li-kai;马蜀MA Shu;王志武WANG Zhi-wu;涂画TU Hua;彭超PENG Chao;刘立华LIU Li-hua
(①苏州热工研究院设备管理中心,深圳 518000;②中广核核电运营有限公司重大设备管理办公室,深圳 518000;③大亚湾公司中长期改造项目部,深圳 518000)
0 引言
国内外第二代核电建设高潮已过去30-40 年,上世纪80-90 年代建成的核电站正逐渐面临延寿考验。上世纪建成的核电仪控系统普遍使用模拟控制技术,目前面临备件停产、设备老化、难以增加冗余设备导致CCM 设备数量偏多、抗干扰能力弱且难以与当前无线化智能化的手持工具相兼容的诸多问题。因此国内外多个核电站都在考虑和实施将旧有的模拟量控制系统改造为新型的数字化DCS控制系统。
目前已经实施的模拟量系统改造为数字化DCS控制系统的成功经验尚且不多,改造过程中面临工期紧、任务重的诸多困难,还必须控制风险。如果继续沿用通用的新建电厂DCS安装调试风险控制方法可能无法完成在大修期间完成设备安装调试工作且控制好风险。本文通过系统梳理突破过去风险控制方法产生的经验反馈和成熟的风险控制方法。提出根据风险概率和后果评估风险,构建全范围、全生命周期验证测试系统,提前进行数字化施工等方法在缩短DCS改造实施工期的同时控制风险。
1 风险评估方法
控制改造风险的整体思路如图1 所示。首先通过经验反馈梳理已有的风险控制措施,然后梳理已有的DCS系统在运维过程的故障历史,统计哪一类故障模式容易成为突破式的故障模式,即已有的风险控制措施对该类故障模式的风险控制不足。
图1 风险评估与控制流程
DCS系统在运行过程中故障导致的预期总损失满足式(1)。
其中Pi为第i 种故障模式发生的概率;Ai为该故障模式导致的直接后果损失,如故障导致跳机的损失;Bi为维修成本,如更换备件的物料和人工成本;Ni为具有该故障模式的设备总量。
由于Ai一般显著大于Bi,因此通过风险控制措施显著降低Pi或Ai即可降低总损失。
根据经验反馈输入的突破性故障模式,在设计、实施、运维各个阶段选择合适的风险控制方法,通过降低Pi或Ai,即可降低预期总损失。同时根据在实施过程中发现的新的突破性故障模式不断迭代风险控制方案。
在选取风险控制方案时遵循以下原则,如图2 所示,重点针对发生概率高且后果严重的故障模式,对后果严重但发生概率低或发生概率高但后果较轻的故障模式在成本允许的条件下适当关注其风险控制方法。对于发生概率低且后果轻的故障模式可忽略。
图2 风险控制方案选取原则
1.1 已有风险控制方法
如图3 所示,在设计过程中,通过对图纸的设计验证以确保各层级的设计满足上一层级的需求。同时通过单体、系统集成、全系统联调、在厂安装测试和最终全电厂联调的方式验证实际设备满足需求规格书的要求。这一套V型设计验证流程已在新建DCS系统的设计建造调试过程中广泛应用。
图3 设计验证流程图
图3中右侧各项测试工作是对设计需求和目标的最终验证,在确保设备具备设计功能的同时也可以发现大量非预期特性或缺陷并及时更正。DCS系统新建项目中通常单体测试、系统集成、全系统联调包含的具体测试项目为:
①电源性能测试,如电源电压、功率;②IO 通道性能测试,如通道精度等;③裕量测试,如CPU 负荷,内存裕量,网络裕量;④冗余功能测试;⑤接线测试,检查实际接线与图纸一致性;⑥画面检查;⑦自诊断功能测试;⑧超量程测试;⑨外观检查;⑩尺寸测试;⑪控制和保护功能测试,主要验证其与上游设计的逻辑图和模拟图功能一致性;⑫可维护性测试;⑬响应时间测试。
上述测试中的大部分内容用于测试设备实际构成、逻辑与设计要求的一致性。某项目工厂测试阶段发现的缺陷类型分布如图4 所示,其中软硬件详细设计缺陷占主要数量。其中大部分为比较简单的“粗心”类错误,如错误的接线、错误的线标、软件中变量名错误等。
图4 某项目工厂测试阶段缺陷原因分布
1.2 突破性故障模式
在完成已有测试验证后,DCS系统将交付电厂进入商业化运营阶段。在此过程中,在运营过程中,DCS系统中各类设备不可避免的发生随机故障,但有3 类情况应极力避免:①单个设备故障导致停机或停堆的严重后果;②设计缺陷导致机组或设备工作在某种特定但必然会处于的状态时会导致停机停堆或大幅度降功率;③某种共模因素导致大量设备同时故障。
在经过已有风险控制方法测试验证后发生的上述3类情况在本文中定义为突破性故障。
对某集团近10 年来14 起DCS系统故障导致停机停堆或大幅度降功率的突破性故障案例进行分析,可总结成表1。
表1 DCS 系统故障导致的突破性故障案例
通过分析某核电集团历年其他有一定后果的DCS设备故障情况,如表2 所示,卡件/继电器等硬件类故障次数占多数。
表2 DCS 系统故障原因分类
如表3 所示,其中通信类设备和IO 模块的故障次数占多数。
表3 DCS 系统故障卡件类型统计
考虑到通信设备通常有冗余且较少传输重要信号,对部分型号IO 设备和控制器失效后果的结果见表4 至表6。在实际工程中,单一设备故障可以导致停机停堆的IO设备占总IO 设备的总数不足10%。但考虑到单一设备故障如果导致停机停堆的损失非常严重,而增加冗余的成本较低。因此依然有必要进行专门的梳理,以尽量减少单一设备故障导致停机停堆或大幅度降功率的情况发生。
表4 模拟量输入输出卡件故障直接后果分布
表5 数字量输入输出卡件故障直接后果分布
表6 控制器故障直接后果分布
1.3 改造特有风险
DCS改造项目相对于新建DCS项目具有以下特点:
时间压力更大:改造项目通常安排在长大修窗口进行,旧设备拆除和新设备安装调试工期不超过60 天。而新建DCS项目安装调试时间则在半年以上。
空间受限:改造活动在已有厂房进行,厂房内存在不在改造范围内无法移动的设备,旧设备拆除若与新设备安装同步进行则可能阻挡新设备安装。
保留使用的旧设备存在缺陷隐患:为控制工期和成本,改造过程中会留用部分旧设备(如电缆)。旧设备在整个改造过程中可能受损或因老化存有缺陷,有可能导致改造后的故障。
2 风险控制方法
2.1 整体
如图5 所示,为控制核电DCS改造风险,以风险评估方法为基础,将经验反馈数据整理和分析后在接口与接线、合同与供应链管理、人因工程、通信等12 个领域以全范围全生命周期验证测试系统、电缆端接管理系统、3D 虚拟化设备拆装仿真系统、电缆老化检测与评估工具作为软硬件基础设备,开展专项的风险评估与控制、测试流程来整体控制DCS改造风险。各个专项的风险评估与控制、测试流程贯穿整个设计、制造、测试、调试、运维过程。
图5 风险控制方法整体结构
2.2 设计阶段
对已经发现的突破性故障模式,在设计审查阶段最容易降低风险的措施是适当提高冗余设计的合理性,减少单一故障导致严重后果的设备数量。在设计阶段容易出现的问题包括:多个冗余的信号自身或其质量位信号通过单一设备传递或计算;供电回路中存在单一失效使冗余彻底丧失的设备;冗余的回路中部分设备故障后没有报警。
通过分析每个设备的故障后果,即危害分析,可以发现此类问题。基于DCS设计实际情况,对所有DCS设备进行危害分析难度大、工作量大。可通过从误动或据动会导致直接严重后果的下游输出设备(如IO 卡)开始,向上游梳理其相关设备,对其相关设备逐个进行危害分析。在梳理过程中,已经设计有冗余的部分不可直接忽略,宜仔细评估冗余设计中是否存在下列情况:①冗余部分失效后无报警;②冗余设备间同步信息或状态的设备失效可能导致冗余整体失去。同时在设计阶段宜充分考虑热设计、降额、电磁干扰和设备老化的影响,避免由于共模因素导致的设备故障率高,使冗余设备同时故障。
2.3 调试测试阶段
DCS改造工作安排在大修窗口进行,此时若执行调试试验时发现设计错误,重新修改设计导致的时间延误将带来极大的经济损失。因此需通过构建全范围、全生命周期验证测试系统,使得绝大部分调试试验可以在该系统上提前开展。通过在该系统提前执行核岛控制输入输出检查、闭环动态验证和报警逻辑功能验证、常规岛/电气控制逻辑功能验证、基准设计瞬态等试验,可有效节约改造工期15 天,创造大量经济效应。同时在该系统对各项潜在风险进行充分的测试,可以避免商运后各项突破性故障。
一种典型的验证测试系统结构如图6 中所示。通过拓展半实物仿真技术(图中ATE 系统),连接实体DCS(图中LFV系统)与工艺仿真模型(图中FSE),在工厂内实现涵盖全厂DCS及工艺系统、覆盖整个项目的周期的全范围闭环验证技术。系统通过硬接线将重要信号与真实DCS相连,通过系统采集分析后与模拟机(图中FSE)系统相连实现工艺系统的全范围模拟,同时通过网络实现第三方控制系统的模拟和一些非重要信号的模拟。
图6 某典型全范围、全生命周期验证测试系统结构
在全范围验证测试系统上,可进行下列测试:①设备故障测试:模拟典型设备故障,确保故障后不导致非预期、突破性后果且有充足的故障诊断信息以方便维修人员修复故障。②机组控制试验:包括对正常可能出现工况的模拟,以验证功能设计的完备性。此时应注意尽量使用现场真实数据作为系统输入,并涵盖机组启停机过程中的各种预期出现的工况。③运行操作测试:由操作员进行实际操作,发现潜在的人因陷阱,验证运行程序。④维修操作测试:由维修人员进行维修操作,确保维修过程不导致故障影响扩大至不可接受程度。通过上述测试可部分替代大修改造期间的测试,预计可节约15 天左右工期。
2.4 施工阶段
由于DCS改造的施工窗口较正常新建机组短,因此应提前对DCS改造施工过程进行推演并对其中工作量大、出错几率高的环节进行针对性优化。某核电站的DCS改造过程中,使用3D 技术对电气厂房和DCS机柜设备进行数字虚拟化,在3D 虚拟场景中进行设备的拆装和运输操作,寻找出最优的拆装顺序、运输路径。针对改造过程中大量的电缆拆装和部分电缆修改敷设需求,某核电站的DCS改造项目建立了电缆信息管理系统并开发了电缆缺陷诊断装置。使用数字化的施工过程管理方法,可以最大限度的实现施工过程的并行化,实现最优关键路径排列,并有效的降低人因错误带来的风险,避免电缆在施工过程中未能发现的损伤带入到商运后的风险。
2.5 运维阶段
DCS系统在运维阶段面临的主要困难和风险包括设备老化、通信系统故障、改造验证困难等。通过全范围验证测试系统可在运维期间持续进行人员训练、改造验证测试、通信故障测试。同时通过易老化元件识别,提前制定合适的老化缓解措施,可有效的降低设备老化带来的共因风险。针对DCS系统相对模拟系统新增加的大量数字化通信设备的老化管理,可通过在系统中预留的数据管理软件,对数据流量、异常数据包等进行实时分析。利用网络流量、负荷、丢包率、延时、光功率等指标监测通信设备的老化状态。
3 结束语
在全范围梳理核电模拟系统向DCS系统改造升级的各项风险的基础上,重点研究在各个阶段可以采取的风险控制措施。目前各项风险控制措施涉及的设备已完成设计和部分制造,正在大亚湾核电厂30 年大修DCS改造项目中测试。通过本文总结的一整套风险控制方法,可在有效缩短改造工期的同时有效降低改造风险。