APP下载

浅谈在线处理日立DCS系统CPU故障的方法

2015-04-18刘军华

机电信息 2015年21期
关键词:光纤网络红灯通讯

刘军华

(广东大唐国际潮州发电有限责任公司,广东 潮州515723)

0 引言

随着科学技术的进步,DCS在火电厂过程控制领域的应用水平得到了迅速提高,其控制范围覆盖了 MCS、FSSS、SCS、DEH、ETS等功能。而整个DCS的核心部件即CPU,CPU一旦发生故障,轻则导致DCS局部死机,对机组的安全稳定运行带来影响,重则引起整个DCS网络通讯瘫痪,机组跳闸。本文就某单元机组的核心MCS1控制器CPU故障进行了详细分析,并提出了解决办法。

1 某电厂DCS系统及CPU设备简介

某电厂#2单元机组于2004年开始基建、投产,其DCS控制系统为日立公司的HIACS-5000 M,该系统主要特点为:

(1)采取冗余设计,系统采用双光纤环状冗余网络、令牌双方向传送、信息回绕(LOOPBACK)、双CPU互为备用运行技术,系统某一个部件出故障时迅速切换至备用部件,不影响整个系统运行。

(2)各CPU控制器自治分散控制各个系统,即由某对独立的互为冗余的CPU完成对相关工艺系统的控制。

(3)软件系统人机界面(HMI)友好,维护人员通过使用维护站(EWS站、HIST站),便可完成对控制逻辑、画面的组态,并下装至指定CPU控制器中;硬件系统配置灵活,扩展能力强。

(4)所有CPU控制器均挂靠在双环网的光纤网络上,机组所有实时信息通过光纤网络实时共享给各CPU控制器;同时,CPU控制器也可以将实时的控制信息发送到网络上。

2 MCS1控制器CPU故障概览

2014年12月27日,#2机组满负荷运行,15:00左右,DCS系统状态画面报“光纤单网故障”。维护人员立即赶往#2机组电子间、工程师站检查确认,发现MCS1控制器备用CPU故障(脱网)。

检查发现CPU面板上有3处异常指示红灯(常亮),其代表意义如下:

(1)ERR红灯亮——该CPU故障,失去热备用;

(2)NERR红灯亮——NCP-F内部发生错误;

(3)MEME红灯亮——NCP-F发生SRAM校验错误。

在这种情况下,MCS1控制器仅剩一个CPU在运行,机组由双光纤冗余网络运行变成单光纤网络运行,极有可能随时发生通信阻塞(光纤网络中MCS1变成信息孤岛)的危险,进一步直接造成与此控制器相关的设备失去监视,远方无法操作、控制。

3 MCS1控制器CPU故障分析及处理

常见的引起DCS系统CPU故障的原因主要有如下几点:

(1)主、备CPU控制器之间切换不成功引发CPU控制器故障;

(2)主(备)CPU通讯接口硬件(CPU网板)故障,导致控制器单向通讯或故障不能切至备用运行;

(3)控制器电源切换扰动导致CPU死机;

(4)电子元器件老化导致控制器故障。

检查DCS系统主、备冗余电源正常,电源模块(交流220 V转直流5 V)输出电压未见波动。主CPU控制器未发生故障,而发生故障的是备用CPU控制器,也排除了主、备CPU切换过程中发生的故障。故可大致推断故障原因较有可能是备用CPU设备硬故障。

在工程师台收集错误信息(MCS1+MDA、MCS1+MDADETAIL均可收集,而B控制器因故障,所有信息均无法收集),从 MCS1+MDA收集的错误信息最后一行error log(Initialization Err,datafile open failure)中可以看出,B控制器在打开某一文件时报错,进而导致该CPU初始化时死机。

MCS1控制器CPU在控制逻辑设计中,作为单元机组核心的“大脑”部分,直接控制机炉协调,具体涉及汽轮机主指令控制、锅炉主指令控制、CCS综合阀位指令控制、所有制粉系统的给煤量控制,机组部分重要调门控制、实发功率联锁汽轮机本体疏水门控制(DCS逻辑通讯点)、风量低保护跳闸磨煤机控制、RB逻辑控制等。针对这一特殊情况,为防止处理故障CPU时出现其他不可控风险,必须做好安全技术措施,主要从两个大的方面着手:

首先,考虑本CPU控制器内信号,为防止故障CPU恢复正常并进行初始化时相关控制信号异常,导致其控制的DCS逻辑、现场设备异常动作,应做好以下安全技术措施:

(1)解除机组AGC控制,保持负荷稳定;

(2)解除机组汽机主控、锅炉主控自动控制;

(3)解除运行的制粉系统中的给煤量自动控制;

(4)将本控制器相关调节阀切至“就地位”。

其次,考虑与本CPU控制器相关的信号,为防止故障CPU恢复正常并进行初始化时与其他控制器间逻辑通讯点信号(包括DCS通讯点、机柜间硬接线)跳变,应做好以下安全技术措施:

(1)DEH切至阀位控制,即DEH手动控制(正常运行时,DEH阀位即汽机综合阀位指令受MCS1遥控控制);

(2)做好相关重要通讯点强置(在接收端强置);

(3)运行人员暂时减少其他不重要操作。

确认安全技术措施完成后,将故障CPU由RUN切至STOP,1 min后再由STOP切至RUN,此时CPU模板上的指示灯发生了变化,ERR、NERR红灯仍亮,MEME红灯灭,说明该CPU仍处于故障状态。联系日立公司技术人员并确认后,确定更换该故障CPU。

确认故障CPU在STOP位,在工程师台上切至MCS1+MDB控制器,点击维护,进入模板带电插拔画面,进行该控制器CPU的模板带电插拔工作,确认无误后,点击preparation,系统自动将该CPU隔离出来。戴好防静电手环,按照CPU硬件更换操作步骤,将CPU拔出。

检查被更换的CPU和将要更换的CPU的异同(仅需修改CPU的光网地址设置),确认新CPU在STOP位,再次对所有设置确认无误后,将新CPU推入卡槽,依次恢复相关连接。

工程师台上切至MCS1+MDB控制器,完成最后的初始化工作(点击INITIAL,此时CPU会自动检查,并自动将DCS控制逻辑下装进去),大约5 min后操作界面提示“操作完成”,点击确认后退出维护界面即可。进入电子间将该CPU由STOP位切至RUN位,RUN、STBY同时绿灯闪亮,大约1 min后RUN、STBY绿灯变为常亮,在工程师台上进行逻辑点强置工作,确认该CPU工作正常(热备用状态)。逐步恢复相关安全技术措施,将逻辑强置点释放,确认新更换的CPU工作正常,至此,工作全部结束。

4 结语

发电机组在商业运行中,在线处理控制器CPU故障风险较大,而处理类似直接关系到机组的协调自动控制、机炉重要联锁保护的主、重要CPU故障时,考虑到要采取的后备、安全隔绝措施,其难度无疑更大。一旦系统控制器发生故障,将直接造成局部或全部设备失去监控,而若在处理CPU故障时因维护人员相关技术、安全后备措施做得不当,或故障处理失败,更有可能导致设备跳闸甚至机组跳闸的严重后果。本文详细阐述了某厂成功处理#2机组DCS系统中MCS1控制器CPU故障的过程,为其他机组运行时在线更换同类型系统DCS(或其他DCS系统)的主、重要CPU控制器提供了可靠的参考依据,积累了宝贵的经验。

[1]刘新亮.日立DCS控制系统H5000M的故障分析与预防[J].江西电力,2012(2):47-49.

[2]北京日立华胜控制系统有限公司.6-3-H-5000M 系统硬件维护说明[Z].

[3]电力行业热工自动化技术委员会.火力发电厂分散控制系统典型故障处理预案:日立HIACS-5000M系统[M].北京:中国电力出版社,2012.

猜你喜欢

光纤网络红灯通讯
《茶叶通讯》简介
《茶叶通讯》简介
通讯报道
基于深度学习的光纤网络链路故障诊断与定位方法
基于多模式匹配算法的网络安全入侵检测系统设计
为什么红灯停,绿灯行
红灯笼
通讯简史
红灯停,绿灯行
红灯变堵“墙”