maxDNA集散控制系统DPU通信故障分析及优化
2014-12-11庄义飞
庄义飞
(马鞍山当涂发电有限公司,安徽 马鞍山 243000)
0 引言
马鞍山当涂发电有限公司一期2×660MW机组主机部分采用美国Metso Automation(美卓)公司生产的maxDNA分散控制系统。该系统由高速切换以太网(maxNET)通讯和美卓公司特有的分散控制单元(DPU)组成。近年maxDNA控制系统在电力生产中被广泛使用,而分散控制系统对机组运行的安全性和经济性影响逐渐增大,因此分散控制系统的可靠性至关重要,本文通过对该控制系统在运行过程中出现的故障现象和处理方法进行分析,提出合理的优化方案,以更好的发挥maxDNA控制系统的工作性能。
1 故障分析及处理
maxDNA分散控制系统采用一个高速数据通信网络——maxNET连接工作站(maxSTATION)和分散处理单元(DPU)等设备。maxNET通信系统基于交换式快速以太网结构,对数据高速公路每个站点提供100Mbps冗余数据通信。此外,该控制系统采用软件背板(SBP)处理分散控制通信问题,所有基本通信均基于预定服务,而无需考虑客户从何处、如何与信息源连接,客户与信息源之间无专用的硬件服务器,由此带来的控制系统优越性就是克服了硬件服务器故障造成的性能瓶颈,SBP服务被设计在每一个DPU和maxSTATION中,采用直接DPU处理保证系统带宽最大化。
1.1 DPU通讯故障现象
2014年7月16日在对控制系统检查过程中发现#1机组汽机侧控制系统1T04主DPU在和其他DPU数据交换时,部分控制逻辑程序存在通讯故障,该DPU无法正常接收其他DPU的实时数据,造成部分通讯中断,逻辑进程无法正常执行,对应设备处于失控状态。公司#1机组DCS系统汽机侧配置7对控制单元,每对控制单元为1:1冗余,一对100%在线热备DPU中任何一个都可以作为主DPU,主、备DPU之间的连接使两个DPU内保持相同的数据库,检测到一个重要故障时,将自动切换到备用DPU,切换时间以毫秒计。
但是,此时1T04主DPU只是少量通信存在故障现象,整个控制单元未被判断为故障状态,依然保持该DPU为Active状态,故障现象较为隐秘,而1T04控制单元中包括B给水泵、辅助蒸汽系统、顶轴油泵、事故油泵等重要设备控制逻辑,DPU间的通信中断将导致该控制单元内的系统无法正常工作,甚至存在保护拒动等风险。图2是当时通讯异常的一处,反映的现象是该DPU在调用1T02 DPU数据时发生通讯故障,InA、InB和InC 3个输入项为红色底纹,且数值被系统标注为引用坏值(Bad Ref),对于引用坏值,系统默认规则是不参与程序处理,真实数据丢失,控制逻辑进程处于中断状态,类似的通讯异常点一共有35处。
图1 DCS系统网络结构图Fig.1 DCS system network structure
图2 通讯故障现象Fig.2 Communication failure phenomenon
1.2 故障原因分析及处理
结合故障现象对整个控制单元进行排查,发现该DPU不是所有访问其他DPU的通讯都存在问题,且DCS控制系统的网络状态显示正常,所以大致可以判定故障点集中在该DPU本身。将1T04辅DPU切换至Active状态,检查确认辅DPU工作正常,且未出现类似主DPU通讯异常的状态,由此断定故障现象是1T04主DPU自身造成。此时原主DPU为Inactive状态,但是故障现象依然存在,采取重启和更换DPU卡件等工作,也未能消除故障。最终将故障点锁定在DPU的CF卡上。
CF卡内存储有核心处理器需要的WinCE操作系统和应用固件、I/O管理器诊断代码固件、组态文件以及DPU地址等配置文件,故障原因应该是CF卡存在介质故障或者组态文件出错导致和其他DPU间的个别数据通信故障,通信故障点不但自身存在问题,而且会不断占用网络通信资源,从而引发大面积通信故障。通过更换CF卡并重新写入相应的组态文件和配置文件后,1T04主DPU所有通信恢复正常。
图3 多次访问优化前(左图),多次访问优化后(右图)Fig.3 Times before access optimization (left), multiple access after optimization (right)
2 暴露问题及防范优化措施
MaxDNA控制系统采用软件背板(SBP)处理分散控制通信问题,所有基本通信均基于预定服务,所以在没有硬件服务器的基础上,DPU之间的通讯要受制于每个独立的DPU硬件设备的工作能力,maxDNA控制系统中每只DPU在和其他DPU以及工作站的通讯数据都做了限定。硬件出厂时控制单元间通讯预定数量默认限值为200,该限值可以通过在线组态查阅system文件夹下SBPLIMITS功能块中HardLimConnLoop属性获取,在DPU间通讯数量低于该限值时能保证DPU工作的稳定性和数据处理的快速性。然而DPU之间的通信在整个DCS系统中优先级最高,配置的扫描周期最短,相应的DPU间通信的数量限值也最少。
在本次故障排查过程中,该机组DCS控制系统暴露出关于忽略预定服务数量限制的重要问题。在对DCS系统进行组态时,没能够充分考虑到DPU的处理数据能力的局限性,各个分散控制单元之间没能够进行充分合理优化,出现个别DPU工作负荷繁重,另外部分工作负荷较轻的不平衡现象。同时在和其他DPU进行通信时,存在同一数据多次传递,重复占用网络资源,影响整个控制系统的工作性能。
防范优化措施:
1)严格制定涉及DCS组态内容修改相关制度,不能随意增减组态内容。
2)优化DPU间的通讯,避免同一点数据的多次访问。如果A控制单元序需要多次调用B控制单元某个数据,为了避免每次调用时读(预定)数据引起的网络通讯负荷增加,可以采取逻辑优化,对B控制单元该数据调用一次后,将该数据保存为A控制单元中的一个内部变量,然后在其他计算中使用该内部变量,见图3。
3)利用系统停运机会,合理分配各个分散控制单元的组态内容,均衡各个单元的负载,删除现有组态里的“垃圾”组态文件和“废”组态文件。另外及时对CRT画面和报警等内容进行合理优化,降低DPU负荷。
4)做好离线组态的备份工作,避免误动备份离线组态文件内容,或者损坏备份离线组态文件存档,避免造成将损坏的离线组态文件下装至控制器内。下装离线组态文件前将DPU中CF卡格式化,避免有残留文件对新组态造成影响。
3 结束语
对DCS系统中重复访问现象进行优化后,发现实际跨DPU访问数量明显减少。另外,DCS网络是控制系统的核心部分,当网络出现故障时,往往故障点不易排查,后果影响相对比较严重。合理优化使用DPU,能够在提高机组运行稳定性和安全性的同时延长DPU的使用寿命。
[1]王永新.DCS数据通讯故障的分析[J].热电技术,2009(01):46-47.
[2]何滔.maxDNA集散控制系统故障分析[J].自动化与传动,2013(3):50-51.
[3]杨丽.maxDNA分散控制系统的分析与探讨[J].仪器仪表用户,2012,01:88-90.