二滩水电站监控系统改造几起典型故障分析
2016-04-08席光庆李阳阳武法磊周胜伟简振远宋永恒
席光庆,周 瑜,李阳阳,武法磊,周 琪,周胜伟,简振远,宋永恒
(雅砻江流域水电开发有限公司,成都 610051)
二滩水电站监控系统改造几起典型故障分析
席光庆,周 瑜,李阳阳,武法磊,周 琪,周胜伟,简振远,宋永恒
(雅砻江流域水电开发有限公司,成都 610051)
摘 要:对监控系统技术改造过程中出现的信号误报警、调度通信系统数据通信异常、101规约通信数据刷新慢及AGC/ AVC工作站死机4个典型故障进行分析,发现上述问题分别由回路电磁干扰、程序存在bug、流程考虑不周全、固件版本落后及负荷分配计算程序不合理引起。通过下列处理方法故障全部得到解决:加强回路抗干扰能力及在程序中对信号进行滤波,剔除程序bug、合理安排进程启停时间及顺序,优化程序流程及策略以减少发送的数据量、缩短发送队列的长度,升级固件版本、优化负荷分配计算程序以防止AGC/ AVC工作站死机。结果表明所采用处理方法是有效的。
关键词:二滩水电站;监控系统;调度通信;AGC/ AVC;IEC60870-5-104
2016,33(02):123-127
二滩水电站地处中国四川省西南部攀枝花市盐边与米易两县交界处,处于雅砻江下游,坝址距雅砻江与金沙江的交汇口33 km,距攀枝花市区46 km,系雅砻江水电基地梯级开发的第一个水电站。该水电站为堤坝引水式水电站,水电站最大坝高240 m,水库正常蓄水位海拔1 200 m,总库容58亿m3,调节库容33.7亿m3,电站主厂房内布置有6台单机容量550 MW的混流式水轮发电机组,装机总容量3 300 MW,保证出力1 000 MW,多年平均发电量170亿kW·h。工程以发电为主,兼有其他综合利用效益。1991年9月开工,1998年7月第1台机组发电,2000年完工,是中国在20世纪建成投产最大的电站。
1 监控系统概述
二滩水电站计算机监控系统自1998年投运以来,经过十多年的运行,出现设备老化、存在运行安全隐患等情况。为保证计算机监控系统的安全性、可靠性,对其进行技术改造。
1.1 系统组成
电站控制级采用非常人性化设计的系统,实时数据服务器采用双机热备冗余方式工作,主要负责电站数据采集、处理并记录数据的计算和处理,实时数据、运行文档的存储、归档和检索,实时数据库的生成及管理等。
现地控制单元LCU(Local Control Units)设备采用新一代智能PLC(Programmable Logic Controller)和其智能I/ O(Input/ Output)。现地控制单元LCU中的每个智能控制装置采用冗余的多处理器单元、双电源模块、双网络通信模块。CPU(Central Processing Unit)模板性能参数:主频为384 MHz,内存为64 MB。I/ O模板都带有各自的CPU,这种基于多CPU结构设计的智能控制器满足“智能分散、功能分散、危险分散”的计算机监控系统设计理念。
1.2 网络结构
网络设备采用某知名品牌交换机,通讯协议采用TCP/ IP(Transmission Control Protocol / Internet Protocol)协议,整个网络发生链路故障时能自动切换到备用链路。网络结构采用10/100/1 000 Mbps双星形光纤工业以太网(按IEEE 802.3u设计,网络介质采用光纤,通信规约采用TCP/ IP,传输速率不小于100 Mbps)。监控系统网络结构图如图1所示。
2 改造过程中的重点问题
2.1 开停机过程中信号误报警
新监控系统在开停机过程中,各台机组多次收到“GTUPS2(Generator-Transformer Unit Protection System 2)关闭调速器关机电磁阀动作”报警信号,瞬时复归(3~4 ms)。2014年5月2日,5号机组启动试验机组停机过程中,收到“五号机GTUPS3跳FCB动作”报警信号,瞬时复归(4 ms)。
图1 监控系统网络结构Fig.1 Network structure of the monitoring and control system
图2 调度通信网关机网络连接方式Fig.2 Connection mode of gateway network of dispatch communication system
2.2 调度通信系统数据通信异常
2.2.1 调度通信系统原理
如图2所示,调度通信网关机硬件设备采用机架式嵌入计算机,2台调度网关机之间并列冗余方式。监控系统LCU同调度系统通信网关机采用IEC60870-5-104直接通信。调度通信网关机采用IEC60870-5-101和IEC60870-5-104同调度进行通信[1-2]。
调度通信网关机运行进程有以下6个。
(1)数据管理进程GW:负责实时库、进程维护等功能。
(2) IEC60870-5-104Ser进程:向调度传送数据,并接收调度侧设定值。
(3) IEC60870-5-104Cli进程:从监控系统LCU获取数据,并将调度设定值下发给AGVC(Automatic Generation Control&Automatic Voltage Control)。
(4) IEC60870-5-104Ser_ZIN进程:向主服务器和AGVC工作站传送数据(链路状态,用于AGVC退出判据)。
(5) IEC60870-5-104Cli_ZIN进程:从调度侧获取潮流数据。
(6) IEC60870-5-101Ser进程:实现调度101通信功能。
2.2.2 发现的问题
(1) 2014年4月30日10:20 ,电厂AGC工作正常,省调称看不到二滩电厂全厂数据,持续了9 min。检查发现1#调度通信网关机(主用)的104cli进程死机并反复重启,持续10 min后,GW/104srv/104cli全部重启,恢复正常。省调经过约9 min后,自动切换到2#调度通信网关机,数据刷新恢复正常。
(2)2014年5月26日12:00,接省调通知,11:55左右二滩数据为0。经检查发现1#调度通信网关机的通信进程104cli反复重启,同时1#调度通信网关机的内核进程GW也发生了重启,调度检测到与二滩1#调度通信网关机通信中断,链接至2#调度通信网关机后正常,期间数据不刷新持续15 min+19 s,数据置0持续2 min+26 s。
2.3 调度通信101数据刷新缓慢
二滩电厂调度通信刚投入运行时,调度侧反馈101通道数据刷新缓慢,模拟量刷新较慢,开关量刷新也较慢,极端情况下,比IEC60870-5-104通道慢4~5 min。
2.4 监控系统双套AGC/ AVC工作站死机
2.4.1 AGC/ AVC结构
二滩水电站监控系统AGC/ AVC(Automatic Generation Control/ Automatic Voltage Control)硬件设备位于后台机房主服务器柜内,采用智能PLC装置,2台AGC/ AVC控制器之间通过切换装置实现冗余[3-4]。
2.4.2 发现的问题
(1) 2014年4月29日22:30,新监控系统上调整水头设定值时(将水头由159 m调整为161 m),监控系统上发“AGVC2 AU或MCPU故障”、“AGVC1 AU或MCPU故障”报警信号,全厂AGC自动退出。监控系统上成组控制画面中部分数据不刷新且显示“F”码;后台机房检查发现1号服务器柜内1#机架AGVC1上“ER”灯点亮,2号服务器柜内2#机架AGVC2上“ER”灯点亮。
(2) 2014年5月21日7:42 AGVC1,AGVC2机架故障,全厂AGC退出,现地检查AGVC1,AGVC2机架故障灯亮,双机架退出运行。立即对双机架进行复位紧急处理,8:02核对定值正确后,申请调度同意将AGC投入省调侧运行。整个过程AGC退出运行20 min。
3 原因分析及解决办法
3.1 开停机过程中信号误报警
现场检查排除了保护误动的可能,通过相关试验,基本排除新监控系统误报以及振动导致接点抖动现象的可能性,同时监控报警时保护装置均无动作信号和报警信号。经过分析,怀疑是相邻出口“启动高压油(220 V交流电源)”回路对该回路(24 V直流)存在干扰。此整体回路在发变组保护柜至监控系统之间的部分,已通过试验排除了干扰存在的可能性。在发变组保护柜内,这2条回路有1~2 m的并行部分。
使用RCS-985保护装置的两副相邻出口接点(试验过程中均一直处于分位),第1副接点通过空气开关与交流电源相连(试验中,交流电源电压等级可设定);第2副接点经并行的1.5 m线接至示波器。通过空气开关的开闭操作,查看在1.5 m并行回路上感应的电压。
通过试验测试表明:
(1)交流电源电压为50 V,空气开关进行闭合操作后,查看到第2副接点回路上冲击感应电压超过20 V(本示波器最大电压量程显示为±20 V,冲击感应电压的正负与空气开关闭合时刻交流电源电压处于正半波或负半波有关),稳态感应电压幅值为2.5 V左右。
(2)交流电源电压为220 V,空气开关进行闭合操作后,查看到第2副接点回路上冲击感应电压超过20 V,稳态感应电压幅值为7 V左右。
以上试验结果表明,在回路并行长度1.5 m情况下,220 V交流回路的开闭操作,会在相邻回路上感应出超过20 V的冲击感应电压。另外,冲击感应电压的大小决定于空气开关闭合时刻交流电源电压的瞬时值,冲击感应电压的正负决定于空气开关闭合时刻交流电源电压瞬时值的正负。此感应电压较大,会导致监控系统信号报警。另外,去掉并行回路线,仅仅考察装置插件电路板上两回路的感应干扰,试验结果表明:在此情况下,冲击感应电压绝大多数情况在5 V以下,最大不超过8 V,稳态感应电压在500 mV以下。
由此可知,监控系统信号的误报警,主要原因在于屏柜内两条回路之间的感应干扰[5]。
针对此问题,提出了如下3种解决方法:①在信号传输线路上增加隔离继电器;②改进信号传输回路抗干扰防护措施及改善传输环境,提高信号传输线路的抗干扰能力;③在监控系统程序内增加信号延时滤波。
目前,综合考虑3种方式,采用了第③种方法,即在监控系统中将所有能引起紧急停机的信号进行30 ms滤波。若信号持续时间小于30 ms,监控系统不启动流程,防止干扰造成紧急停机。后续将通过实际运行效果进一步进行完善,确保机组安全开停机。
3.2 调度通信系统数据通信异常
3.2.1 原因分析
(1)当IEC60870-5-104 Client同监控系统某个LCU通信中断后,由于该程序bug的存在,导致IEC60870-5-104cli进程崩溃退出。由于设置了进程自动重启功能,104cli将立即自动重启。因为bug的存在,104cli进程反复重启,在这个过程中,由于104cli不断重新启动,未能采集到现地LCU的数据,所以造成省调度中心侧看不到二滩全厂的数据。
最后因104cli多次连续重启,最终导致GW也同样崩溃。由于操作系统设置程序自启动功能,将自动重启关闭的进程。在进程GW/104srv/104cli重启的过程中,iec104srv先于iec104cli进程启动起来,这时实时库中的数据为带无效位的“0”,调度侧发送总召唤命令后,iec104srv将响应总召唤命令,上送这些数据,从而导致严重后果,造成数据“0”上送至调度。
3.2.2 程序bug原因分析
(1)在iec104cli的发送s帧函数中,当socket的write失败时,没有关闭socket重新连接导致后续再次write或read操作,引起SIGPIPE错误,进程退出。
(2)当下面的设备断开或重新启动的时候,如果恰好iec104cli发送s帧,bug就会起作用。这种几率很低,所以平时多次试验也不能重现bug。
(3)由于iec104cli程序被守护,因此退出后立即重新启动,启动后当它试图和GW连接并注册时失败。失败的原因在于,iec104是bug引起的崩溃退出,而不是正常退出,以致于没有在GW中注销自己, GW认为该进程已经注册,不能重复注册。
(4)这样iec104cli在瞬间就完成多次的反复启动退出,造成GW不能及时释放socket资源,导致GW崩溃退出。
(5)当被守护的进程再重新启动后,一切恢复正常。
3.2.3 解决方法
(1)更正了程序bug,优化了程序代码。
(2)系统只守护GW进程,不守护其他进程。GW启动后按可配置的时间序列启动其他进程,保证程序启动的顺序的可控性。
(3)对可能引起GW异常的所有信号进行处理,确保在GW自身异常退出之前,停止所有由它启动的进程。
(4)进程若发生重启,重启进程顺序如下:首先启动数据管理进程GW 5个均变为;5 s之后,启动104Cli进程。再5 s之后,启动104Cli_ZIN进程。20 s之后,启动104Ser进程,5 s之后,启动104Ser_ZIN进程,1 s之后,启动101Ser进程。
(6)在调度通信网关机每隔15 s做数据库镜像。
3.3 调度通信101数据刷新缓慢
3.3.1 原因分析
经过测试分析,调度通信系统数据不刷新(实际为数据刷新慢)主要是以下几个原因导致:
(1)目前运行的IEC60870-5-101从站程序的数据报文采用了一个先进先出的发送队列(该队列长度早期设置为8 000条),要发送的数据根据先后顺序排入队列。在发送时,从队列里逐个读取发送。
(2)报文的长度在5~240个字节之间,每包数据的发送时间在50 ms~2 s之间。
(3)二滩遥测数据的阈值较小,刷新比较频繁,从而导致发送队列很长,进而影响了整个数据发送的实时性。
(4) SOE(Sequence Of Event)优先发送:如果在某段时间SOE数据较多,可能一直在发送SOE,会导致在某个时间段遥测数据一直不刷新。
3.3.2 解决方法
为解决前述问题,采用了如下策略:
(1)对遥测数据,不再采用来多少发多少的方法,而采用先扫描最新数据,有变化再发送的策略来减少发送的数据量。
(2)保证遥信数据不丢失,缩短发送队列的长度。
(3)每个循环对遥信和遥测均处理,保证不会出现遥测数据长期不刷新。
上述方法在模拟环境上试用后,效果良好。
3.4 监控系统双套AGC/ AVC工作站死机
3.4.1 第一次死机
(1)原因分析:经检查认为双机架死机原因为AGC系统程序中2台机架AGVC1和AGVC2同步程序运行超时,导致机架同步故障。
(2)解决方法:禁用AGC系统手动同步功能,升级机架AGVC1和AGVC2的固件版本。
3.4.2 第二次死机
(1)原因分析:经分析模拟发现,当水头发生变化,如对水头进行了人工调整时,且当机组全部处于振动区下限边缘时,在四机投入AGC情况下,如果新设定值大于某一定值时,则会造成负荷分配程序死循环,从而导致2个机架同时死机。在离线测试时,已能够完全模拟重现该故障。
(2)解决方法:对负荷分配计算程序进行优化。
4 结 语
通过对二滩水电站计算机监控系统技术改造过程中发现的问题进行深入分析,寻找优化解决办法,很好地处理了存在的问题及安全隐患,保证了机组正常开停机、AGC/ AVC及调度通信系统正常收发数据、正常下达控制命令等,最大限度地发挥计算机监控系统的优势,保障水电站的安全稳定运行。
参考文献:
[1] DL/ T 634.5104—2009,远动设备及系统第5-104部分:传输规约采用标准传输协议集的IEC60870-5-101网络访问[S].
[2] DL/ T 822—2002,水电厂计算机监控系统试验验收规程[S].
[3] 张俊蔚.水电站计算机监控自动化系统的开发与应用[J].甘肃水利水电技术,2008,84(3):27-29.
[4] 王定一.水电站计算机监视与控制[M].北京:中国电力出版社,2001.
[5] 王 光,王 凯.二滩电厂关机电磁阀信号瞬时报警分析报告[R].南京:南京南瑞继保电气有限公司,2014.
(编辑:赵卫兵)
Typical Faults in the Technical Reform of Monitoring and Control System for Ertan Hydropower Plant
XI Guang-qing,ZHOU Yu,LI Yang-yang,WU Fa-lei,ZHOU Qi,ZHOU Sheng-wei, JIAN Zhen-yuan,SONG Yong-heng
(Yalong River Hydropower Development Company, Ltd.,Chengdu 610051,China)
Abstract:In the process of technical renovation for the monitoring and control system, there are four typical faults: false alarm signals, abnormal data communication in dispatch communication system, slow data refreshing of the 101 communication protocol and AGC/ AVC workstation crash. Through analysis, we found that these faults are caused by circuit electromagnetic interference, software bugs, ill-considered procedures, outdated firmware version and unreasonable allocation in calculation procedures, respectively. We can solve all the faults by strengthening circuit anti-interference ability and filtering signals in the program, removing program bugs , reasonably arranging the start-stop time and orders in processing sequence, optimizing process and strategies to reduce the amount of data sent and shorten the queues length, upgrading the firmware version, and optimizing the load distribution of calculation program to avoid halt of AGC/ AVC workstation system. Results show that the measures are effective.
Key words:Ertan hydropower plant;monitoring and control system;dispatch communication system;AGC/ AVC;IEC60870-5-104
作者简介:席光庆(1983-),男,湖南永州人,工程师,硕士研究生,主要从事大型水电厂计算机监控、综合自动化、通信技术、流域化电力生产管理及项目计划管理等工作,(电话)028-82907464(电子信箱)xiguangqing@ ylhdc.com.cn。
收稿日期:2014-10-13;修回日期:2014-11-18
doi:10.11988/ ckyyb.20140867
中图分类号:TP273
文献标志码:A
文章编号:1001-5485(2016)02-0123-05