浅谈DCS系统生产应用中存在的问题和处理策略
2018-03-04高士忠
高士忠
(厦门国贸中顺环保能源股份有限公司,福建厦门361022)
0 引言
分散控制系统(DCS)于1975年问世,经历40多年的发展历程,在各行各业生产过程控制中占据了重要的地位。DCS系统的稳定运行直接关系到企业生产的安全稳定进行,通过同行业的交流、网络/报纸杂志等的学习可知,在热电企业生产过程控制中,由于DCS系统自身原因引起热工保护误动而造成的机炉电联跳,在全部热工保护误动中占有一定的比例。目前新建、扩建、改建热电企业的炉外脱硫脱硝、化水控制、输煤控制系统等均采用和锅炉主系统相同的控制系统,即DCS系统。主辅系统统一,控制系统单一,备品备件通用性强、管理方便,维护检修人员的培训相对较集中,在很大程度上降低了企业的运营成本。随着DCS系统应用的范围变广,DCS系统自身出现的问题概率也就增加了;随着计算机技术的飞速发展,不断推动DCS系统的技术革新,其在功能方面逐步强大,但在企业实际生产应用中,DCS系统在投入运行后的管理和运营维护等方面还存在很多问题,具有一定的安全隐患。
1 我司近几年来DCS系统运行存在的问题和处理策略
我司共两期工程三台锅炉两台发电机组,Ⅰ期2×75 t/h循环流化床燃煤锅炉,配备2×6 MW汽轮发电机,DCS系统采用福大自动化科技有限公司IAP-Pinecontrol系统,自2004年投运以来,截至目前已投入使用14年左右的时间,DCS控制系统基本是不间断连续可靠运行,硬件基本都没有更换过。本系统硬件采用的是OMRON-CS1D系列,系统共有五个控制站,每个站都配有双路CS1D-CPU、双路ETN21以及各种规格的IO卡件。Ⅱ期1×75 t/h循环流化床燃煤锅炉项目的控制系统采用和利时HOLLIAS-MACSV5系统,于2013年投运。目前两套控制系统的操作模式都是独立运行的(两套不同品牌的系统),在运行1#锅炉和3#锅炉、2#锅炉和3#锅炉时(即运行Ⅰ期与Ⅱ期部分炉、机、电的设备时),必须同时要兼顾到两套系统的操作员站,坐在操作1#、2#锅炉系统操作员站的人员就无法方便快捷地监控到Ⅱ期设备。根据近几年的运行情况,我司所投运的这两套DCS系统相对还是很稳定的。
后按照环保要求,我司于2013年进行炉外脱硫脱硝改造,配套和利时HOLLIAS-MACSV5系统;为了达到超低排放标准,2017年环保设备进一步升级改造(SNCR项目、臭氧脱硝项目),配套和利时HOLLIAS-MACSV6系统。在整个项目实施过程中,为了在MACSV5系统上能监控到MACSV6系统的数据,通过局域网,将MACSV6系统数据并入MACSV5系统进行监控,但也存在一些的问题,出现过双服务器自身重启、控制站死机、网络风暴等危及生产安全的现象。
下面结合我司近几年来DCS系统运行过程中出现的问题进行简单分析,希望能给大家提供有益的帮助。
1.1 案例一
2006年3月28日,Ⅰ期DCS系统运行中,操作员站的监控画面所有监测点数值状态显示“@@@@”符号,操作人员无法监控到现场运行设备情况,也无法进行远程操控,导致锅炉、汽机先后联跳停运。后检修人员赶到现场发现两台服务器CPU处于100%运行状态,无法进行软件操作(有死机现象),先后重新启动服务器后系统恢复正常。
1.1.1 操作员站无法监视原因分析
查询当时的历史记录和报警记录,发现两台服务器在机组联跳前还有数据存储和报警记录,由此可判断,在两台服务器重启前,服务器还在工作,还在采集数据和处理历史存储、报警等任务。后重新启动服务器这段时间就没有任何记录,由此说明数据传输层工作正常。问题发生在监视层,各个操作员站和服务器之间通信出现了堵塞和异常,造成操作员站监控画面无法监视和操控,即操作员站与服务器站失去联系,通信网络中断。
1.1.2 机组联跳原因分析
经过大量数据分析,在服务器重新启动前出现锅炉“MFT”保护动作,接着相关机组设备也联跳(含停止给煤机),同时数据显示跳闸的原因是“炉膛温度低”。DCS系统的逻辑运算控制和运行过程都在控制站进行,与服务器及操作员站无关,因此,服务器和操作员站的停机和异常不会影响逻辑程序的正常运行。根据数据显示分析,在锅炉“MFT”动作时,服务器仍然在正常工作采集数据。在操作员站无法监视到机组运行的情况下,操作人员无法准确判断机组运行状态,即无法通过操作员站下达操控指令,机组设备运行参数偏离正常的工艺控制参数,导致“炉膛温度低”热工保护动作,引起“MFT”动作,导致锅炉风机大联锁动作跳炉。
1.1.3 汽轮机组跳机原因分析
锅炉风机联跳,影响整个系统的蒸汽压力,汽机抽汽压力低,也就跟着“抽汽压力低”热工保护动作联跳汽机。
1.1.4 服务器死机引起锅炉跳闸原因分析
首先,当时服务器并没有死机,仍然在采集、存储数据和报警,只是和操作员站之间的通信中断了;其次,服务器和操作员站属于监控部分,和控制站的逻辑程序控制完全独立,服务器和操作员站的异常不影响逻辑,更不会引起跳闸。
锅炉跳闸原因是在操作员站无法监视到机组运行的情况下,操作人员无法准确判断机组运行状态,即无法通过操作员站下达操控指令,机组设备运行参数偏离正常的工艺控制参数,导致“炉膛温度低”热工保护动作,引起“MFT”动作,导致锅炉风机大联锁动作跳炉。
1.1.5 预防类似情况发生的方法
从各种数据分析,要避免这种情况,方法如下:
一是服务器的CPU负荷不能太高(60%以上持续超过5 min就算高了);
二是拆除了老式针式打印机以及有影响的外部设备(声卡、U盘等),操作员站禁止运行游戏等和系统无关的程序;
三是服务器和外部系统的数据交换联系(输煤系统、CEMS系统、TSI系统等)要严格控制,尽量减少与外围数据有交换联系的系统(能合并成一个最好),预防数据交换联系过多,增加服务器本身的不稳定因素;
四是解决DCS系统内部网络通信数据交换引起的异常现象,将系统外围数据采集功能移至操作员站进行数据采集(外围计算机或者网络出现异常时,只影响单机操作员站,不影响服务器与其他操作员站间的数据交换),确保整套系统正常运行。
1.2 案例二
2006年6月16日,Ⅰ期DCS系统2#控制站双CPU故障指示灯均亮,各操作员站对于2#控制站所含的信号均无法监控操作,监控画面上的数据点位置显示“????”符号。
1.2.1 原因分析
检查现场操作员站显示及DCS系统对各控制站CPU运行监视情况并进行分析判断,2#控制站CPU处于故障状态,无法运行而引起整个控制站瘫痪,导致现场与控制站之间的数据交换中断,致使操作员站无法监控到现场设备运行数据。在各方面的协调配合下,检修人员在最短时间内发现2#控制站内部一条机笼间的数据线版本高引起整个控制站出现瘫痪,后经过重新拔插,数据交换正常,CPU运行正常,系统恢复稳定运行,并于机组停运期间更换版本号不一样的数据通信线,调试好后正常投入运行至今。
1.2.2 预防类似情况发生的方法
在停运检修期间,与厂家技术人员一起对整套系统所有软、硬件进行彻底的检查、试验、调试,针对2#控制站机笼间数据通信线的软件版本不配套引起控制站右侧CPU故障后自动切换到左侧CPU又出现相同问题而瘫痪的事故进一步做了详细的检查,发现整套系统就2#控制站出现一条版本不配套的数据通信线,其他控制站机笼间的数据线均正常,自2006年7月1日检查后正常投运至今。
1.3 案例三
2010年7月30日,Ⅰ期DCS系统操作员站画面电动门、风机等各状态显示为黑色,数秒后自动恢复正常。
1.3.1 原因分析
通过大量的历史数据检查分析,在故障现象发生时间段,服务器1、服务器2历史数据存储正常,说明当时服务器数据读取正常;通过查报警历史,在这个时间段里出现了多条原来一直存在的报警(相当于报警更新),说明有出现过报警更新,导致报警更新的可能原因有IFIX的开关、网络切换等;操作员站、服务器在某个时刻出现网络切换,导致数据在切换过程中出现了丢包现象,造成操作员站画面出现部分数据无显示的现象。
导致网络切换的因素有:控制站CS1W-ETN21网络数据交换卡出现通信异常自动切换、思科交换机使用年限久、网络线接头松动、老化等等。
1.3.2 预防类似情况发生的方法
针对类似情况,为防患于未然,通过对已连续运行5年多的(5个控制站)10个CS1W-ETN21网络数据交换卡进行重新测试、试验,针对切换速度滞后、信号灯显示相对较弱的更换了3个卡件;并将思科交换机S2950更新为S2960版本交换机;为进一步确保系统网络正常,将整套系统控制站到交换机的10条网络线进行更新。经过近几年的运行,类似上述现象再未出现。
1.4 案例四
炉外脱硫脱硝和利时HOLLIAS-MACSV5系统,整个网络框架是上双路下双路冗余布局,双服务器,2017年调试运行中出现过双服务器自身重启、控制站死机、网络风暴等危及生产安全的现象。
(1)由于种种原因,炉外脱硫脱硝系统品牌一致、软硬件版本不一样,为了将MACSV6数据通过网内通信并入MACSV5系统,在做控制站逻辑算法时,由于低版本要兼容高版本,出现两台服务器先后自动重启现象,操作员站画面无法监测到生产数据,监控层与服务器网络通信中断,给生产带来了很大的安全隐患,在数据采集工作完成后,整套系统调试好正常投运过程中,再一次出现被挂控制站CPU不运行、SNET等不亮等现象,直到检修人员只能重新启动控制站,整套系统才正常运行。和利时系统在进行软硬件升级时,首先需要考虑到用户现场实际情况,对于低版本兼容高版本时的不稳定不安全因素,应及时和客户沟通并告知,因此,在今后新建、扩建、改建时要着重注意整套系统软硬件的兼容性,否则会给企业生产带来安全隐患。
(2)在MACSV5系统维护过程中,如在进行逻辑算法程序编译正常后在线下装时,时常出现初始化下装,最终为了确保生产正常运行,直到机组停运时才下装。MACSV5.2.5系统,服务器在做切换时,时常要切三次以上才能正常切换,给维护检修人员带来了极大的不便。后经向厂家技术人员详细了解,MACSV5.2.5系统本身具有缺陷。
2 DCS系统运行维护管理措施
DCS系统是确保我司正常生产过程控制的核心,包含的主要设备多,系统是否稳定运行,大都取决于DCS系统的日常维护检修工作是否到位,这对我们热控管理和维护检修人员提出了更高的要求。因此,我们要建立完善的DCS系统管理规定(软硬件管理、审批管理、电子间管理等制度);同行业间多进行交流学习,平时出现的现象和处理要做好台账记录,不断提高维护技能,不断创新提高自身的维护检修水平和能力,以进一步保障DCS系统更稳更优地服务于生产过程控制。
3 结语
我司两套不同品牌版本不一的DCS系统,监控整个企业生产的设备较多,DCS系统还肩负着第三方数据采集任务(环保、能源计量、碳排放数据采集),在生产运行过程中也会出现不同的缺陷问题,但有些缺陷问题具有相似性,采取适当措施可以预防。笔者能力有限,仅就近几年参与DCS系统维护检修生产时遇到的问题在文中进行了阐述,供大家参考。在未来功能逐步强大的DCS系统会更加完善,更加稳定,也将更好地为热电行业安全稳定生产服务。