APP下载

SCADA系统故障应急处理方案的探讨

2017-05-16张家玮

山西电力 2017年2期
关键词:交换机调度检修

李 烨,张家玮,冯 艳

(1.国网山西省电力公司检修分公司,山西 太原 030032;2.国网山西省电力公司电力调度控制中心,山西 太原 030001;3.河北兴泰发电有限责任公司,河北 邢台 054000)

SCADA系统故障应急处理方案的探讨

李 烨1,张家玮2,冯 艳3

(1.国网山西省电力公司检修分公司,山西 太原 030032;2.国网山西省电力公司电力调度控制中心,山西 太原 030001;3.河北兴泰发电有限责任公司,河北 邢台 054000)

SCADA(supervison control and data acquisition)是数据采集与监视控制系统,是调度自动化系统的核心,是保证电网调度生产运行的技术基础。为适应国网公司“三集五大”体系建设的要求,实现山西省变电站无人值守的规划,并充分发挥检修公司生产值班室备用监控的作用,SCADA系统接入了全省所有500 kV及以上输变电设备信息,它的稳定运行对检修公司的安全生产起着至关重要的作用。对SCADA系统故障发生时的应急处理方案进行探讨,并进行了实例分析。

SCADA系统;无人值守;备用监控;应急处理

SCADA系统是调度自动化系统的核心,是保证电网调度生产运行的技术基础。该系统可以通过变电站远动工作站直采直送设备实时运行数据、告警信息或遥控命令,也可以通过站端KVM、远方终端或图形网关等方式实现“告警直传、远程浏览”功能。对于调度员和监控员来说,SCADA系统就像是人的“眼睛和耳朵”,值班人员通过SCADA系统实现了电网和设备的远程调控。

1 SCADA系统配置规模

山西省电力公司检修公司(检修公司)生产指挥平台将19座500 kV及以上变电站、81条输电线路数据全部接入SCADA系统,按照监控信息规范要求进行了核对完善。实现了对全省500 kV及以上输变电设备的远程监控、远程信息浏览以及实时遥测、遥信信息的采集功能。

目前,检修公司SCADA系统的配置如下:部署2台历史服务器、2台SCADA服务器、1组磁盘阵列、1台WEB服务器、6台工作站、1台物理隔离装置、1台防火墙以及网络、光纤交换机等主要局域网络设备。检修公司调度SCADA系统结构图如图1所示。

图1 检修公司调度SCADA系统结构图

2 检修公司SCADA系统的功能

检修公司自动化系统主站功能主要包括SCADA、变电站集中控制等功能,并能提供信息查询等辅助服务功能[1]。

2.1 SCADA功能

SCADA功能包括:数据采集和处理、事故告警处理、控制和调节、趋势曲线记录、报表显示打印、模拟盘接口、系统事件处理及系统时钟同步、动态着色等,各项指标均应达到或超过调度自动化系统实用化标准。除此之外,还应该能正常接入DTS调度员仿真系统并同时可以实现智能化电网D5000系统的进一步升级改造。

2.2 变电站集中控制

检修公司所辖变电站正朝着无人、少人值守的运行模式发展,因此SCADA系统应能满足对无人值班变电站的综合管理及远程操作和控制的要求。系统需能提供集控站责任分区、责任区域的设置和管理、责任区域相应的信息分层处理等功能。

2.3 计算机联网及通信

采用DL476-92通信规约实现与现有SCADA系统、高层应用软件的数据交换和联网运行。通过计算机通信所采集的数据,在数据的应用功能及处理上与通过RTU设备所采集的数据相同。

系统支持与电力市场交易系统、电力营销系统、电量计费系统、负荷管理系统、OMS等其他系统通信的功能,并具备与诸多的电力系统应用软件接口的能力。

WEB浏览服务通过正向安全隔离装置与SCADA系统通信服务器通信取得实时信息,WEB浏览服务器通过防火墙直接挂在MIS网上,以保证两系统的完全隔离,保证SCADA系统的安全[2]。

2.4 WEB浏览服务功能

提供了一个其他系统访问SCADA系统实时数据的平台,可实现信息查询等辅助服务。用户通过WindowsXP、Vista、Linux等Web浏览器工具,浏览器软件,获得实时和历史信息,画面、图表与SCADA系统统一生成,不需另外生成和维护。

3 OPEN-3000系统故障应急处理方案

OPEN-3000系统是一种兼具先进性、实用性及可靠性于一身的EMS子系统,但在实际运行中也会出现各种各样的故障及运行异常的情况。这些异常及故障,有些是系统本身的BUG所造成的,但还有些则是无法预料及不可避免的情况。产品故障与服务中断都会影响到公司调度运行、生产管理的正常进行以及对今后无人值守站运行情况的实时监控。因此如果需要及时排查系统异常并快速处理系统故障,就应对OPEN3000系统故障诊断和快速恢复的技术方案进行深入研究和学习,可以很大程度上提高管理水平与使用经验,实现对电网运行状况的实时监控。

本方案所列问题现象与处理方法可帮助技术人员快速准确地找到问题的症结所在,及时恢复系统,保证SCADA系统的安全稳定运行。

3.1 计算机硬件类故障

3.1.1 故障现象

a)实时遥测遥信数据无法正常刷新。

b)工作站操作界面无响应或者响应速度慢。

c)通过ems用户无法登录服务器。

3.1.2 故障原因及分析

a)主机服务器的磁盘阵列受到损坏。

b)对系统的操作日志进行检查,对服务器磁盘信息检测进行检查。

3.1.3 解决方案

a)拔掉硬件出现故障的服务器网线。

b)将系统应用切为备机运行,故障服务器暂时停止运行。

c)将故障服务器进行关闭。

3.2 网络故障

3.2.1 故障现象

a)交换机发生故障,告警窗弹出故障告警。

b)告警窗显示“交换机某个端口断网”告警。

c) 操作界面通断显示某台主机网络状态异常,已断网,并且无法更新“刷新时间”。

3.2.2 故障原因及诊断

a)交换机未通电,或者交换机本身硬件发生故障。

b)交换机硬件故障。

c)在该端口上连接的主机之间网线出现故障。

d)出现故障 (常见情况是掉电)。

3.2.3 解决方案

a)对交换机恢复供电。

b)关闭故障的交换机并报修。

c)对于交换机故障,进行及时关闭。

d)如果是主机间网线故障的情况,进行及时的更换。

e)对主机的供电情况进行检查。

3.3数据库故障

3.3.1 故障现象

a)数据库发出告警:数据库连接失败或系统进入1+N状态。

b)数据库无法通过sqlplus进行连接。

c)无法ping到数据库服务器。

d)曲线、历史告警不能查看。

3.3.2 故障原因及诊断

a)数据库服务器磁盘损坏。

b)数据库实例服务崩溃。

c)数据库磁盘空间满。

3.3.3 解决方案

a)重新启动ORACLE。

b)重新拔插网线,或更换新的网线(如果是光纤连接,还需要检查是否有物理损坏,若有损害需要进行及时更换)。

c)对DB_SERVICE应用进行切换或者重启。

d)对数据库容量联系厂家进行容量扩充或者将部分采样与历史告警数据备份后清除。

3.4 厂站类故障

a)故障类型:单个网络通道;成组常规通道退出;所有厂站通道退出。

b)故障原因及诊断:网络连接中断;对方服务中断;终端服务器软件或者硬件故障;前置交换机与终端服务器未正确连接或连接已中断;通信规约进程出现异常。

c)解决方案:更换终端服务器的端口,修改通道定义,如果故障被排除,基本判断为终端服务器与通道板连接线问题,并逐层更换排查;恢复物理连接,通知对方启动服务;对终端服务器进行更换;并恢复终端服务器与交换机的连接;将相应规约进程抹掉[3]。

3.5 WEB服务类故障

3.5.1 故障类型

a)网页的内容用户在电脑的WEB客户端无法进行浏览,错误提示为“无法显示该页”。

b)通过电脑客户端登录时出现错误,错误提示为“无法连接数据库”。

c)通过客户端登录后,界面图形显示数据不刷新。

d)登录前置机界面中后,不能正确显示遥测遥信信息甚至无显示。

3.5.2 故障原因及诊断

a)未将服务器信息发布软件进行启动;或者已启动软件,但配置不正确,网络运行异常。

b) 网络设备(如防火墙) 的端口未全部开放 , 例 如 : 11000, 11112, 11115, 11125,12063,12064,12069,8000。

c)服务器与物理隔离的连接出现中断。

3.5.3 解决方案

a) 启动 tomcat,启动方法:catalina.sh run &,或将PUBLIC应用重新启动。

b)可以通过端口8000进行通讯,尽快修复、排查网络设备故障。

c)开放网络设备(如防火墙)的端口。

d)把某些设备间中断的连接进行恢复:如物理隔离与服务器的连接[4]。

4 SCADA系统故障应急处理实例展现

4.1 数据库故障

2015年8月16日10点05分,自动化人员接到检修公司生产值班室值班员汇报:值班人员在使用SCADA系统过程当中,发现历史曲线不能正常查看,历史告警不能正常查询。自动化人员立即启用故障应急处理预案,对故障原因进行分析判断,可能的故障原因如下:data_srv应用异常;midhs服务异常;数据库磁盘空间满;数据库故障。分析出故障原因后进行逐项排查,结果登录到商用库服务器,查看数据文件所在分区磁盘空间使用百分比为100%,从而最终确定故障原因为数据库磁盘空间已满。

此故障的具体处理步骤:自动化人员联系厂家人员进行数据库的扩容;若无法进行扩容,则应将数据库中部分采样与历史告警数据备份后删除,留出足够的运行空间,保证系统的正常使用。

4.2 主机服务器所有应用断网

检修公司调度自动化人员在日常巡视SCADA系统过程中突然发现:有1台主机服务器中所有应用都断网,“刷新时间”不更新,系统中数据上传发生异常。自动化人员立即对故障原因进行排查,判断可能的原因为:该服务器的广播报文无法被其他机器收到。

判断出可能的故障原因后,自动化人员及时采取故障处理措施:检查断网服务器是否能ping通其他机器。如果无法ping通,修改出错的地址或者子网掩码,并重启该服务器;sys_appstatus或者sys_servicemanage进程不在运行,则运行进程或该服务器系统重启。最终自动化人员修改出错的地址后,主机服务器恢复了正常的网络连接。

5 调度SCADA系统功能的进一步完善

5.1 增加智能语音告警模块

系统自带语音告警功能单一,无法满足集控中心实时监控及安全生产要求。为此,需要在现有调度SCADA系统上另外增加智能语音告警功能模块,提高告警的自动化程度。

5.2 增加远方调取定值和软压板投退模块

为了满足调控一体化建设要求,SCADA系统需要包含软压板投退功能。为此,需要在现有调度SCADA系统上另外增加远方调取定值和软压板投退功能模块,使系统的功能得到完善,从而提高作业效率。

[1]曹茂昇,高伏英.电网调度自动化主站运行 [M].北京:中国电力出版社,2011.

[2]王华忠.监控与数据采集(SCADA) 系统及其应用(第2版)[M].北京:电子工业出版社,2012.

[3]周宇植.电网调度自动化厂站端调试检修 [M].北京:中国电力出版社,2011.

[4]王振明.基于WEB的SCADA系统 [M].北京:机械工业出版社,2010.

Discussion on the Fault Emergency Treatment Plan of SCADA System

LI Ye1,ZHANG Jiawei2,FENG Yan3
(1.Maintenance Co.of State Grid Shanxi Electric Corporation,Taiyuan,Shanxi030032,China; 2.State Grid Shanxi Electric Power Corporation Dispatch and Control Center, Taiyuan,Shanxi030001,China; 3.Hebei Xingtai Power Generation Co.,Ltd.,Xingtai,Hebei054000,China)

SCADA system is the core of dispatching automation system and the technical basis to guarantee the grid dispatching operation.In order toadapt tothe requirement of“Three Intensifications and Five Systems”ofSGCC,and alsoin order torealize substation unattendance all over Shanxi province,the information of all the transmission and transformation equipments of 500 kV and above in Shanxi province is accessed to SCADA system.Its stable operation plays a vital role in the safe operation of maintenance companies.This article has discussed the fault emergencytreatment plan ofSCADAsystem,and carried out practical case analysis.

SCADAsystem;unattended;alter monitor;emergencytreatment

TM734

A

1671-0320(2017)02-0043-04

2017-01-12,

2017-02-10

李 烨(1986),女,山西定襄人,2009年毕业于太原理工大学电气工程及其自动化专业,助理工程师,从事电力调度自动化系统的日常运维和管理工作;

张家玮(1982),男,山西忻州人,2009年毕业于太原理工大学电力系统及其自动化专业,硕士,工程师,从事电力系统调度设备监控和继电保护管理工作;

冯 艳(1973),女,河北邢台人,1999年毕业于石家庄电力学校化学监督专业,技师,从事热控技术检修工作。

猜你喜欢

交换机调度检修
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
基于强化学习的时间触发通信调度方法
一种基于负载均衡的Kubernetes调度改进算法
虚拟机实时迁移调度算法
检修
修复损坏的交换机NOS
使用链路聚合进行交换机互联
变电站一次设备检修的意义及具体检修内容分析
电力系统继电保护二次回路的维护与检修
茂名式大修