面向智能电网全网的故障告警管理
2013-08-20章燕卿梁侃
章燕卿 梁侃
柯桥供电分局 浙江 312030
0 前言
随着电网的飞速发展和自动化技术的不断进步,电力系统的规模迅速扩大,电力运行方式日益复杂,调度人员需要关心、监视的数据信息也成倍增加,形成了涉及多家厂商,多套产品的复杂局面,给调度人员带来了极大的工作负担,由于调度人员的疏忽或处理不及时会造成对电力安全运行的潜在隐患。同时支撑电力调度的调度自动化系统自身也可能出现各种异常情况,如自动化系统故障、网络中断、数据采集通道中断、系统软件异常、机房设备和环境异常等,倘若发生异常情况而没有及时发现,则可能导致调度人员无法进行正常的调度指挥,严重时可能影响整个电力的安全运行,造成巨大的经济损失和社会影响。针对这种情况我们提出了一种面向智能电网全网的故障告警管理模式,其主要作用就是对支持自动化机房的动力环境、设备状态、系统状态进行在线监控,及时对系统出现的运行异常情况自动产生告警,通过多种告警方式通知相应的值班人员,以及时处理系统的异常或故障。
1 基于全网的逻辑拓扑结构
电网所监测的内容,包括动力环境数据、自动化运行数据、设备、网络工况数据、电力运行数据等,并不是孤立存在的。这些数据之间存在着复杂的联系,某一个环节出现了问题,必然会产生一系列的影响。我们这里所要研究的就是通过被监测数据之间的联系,构建出专业应用层面的逻辑拓扑模型,将故障告警系统真正建成一个综合了动力环境、通信网络、服务器、系统软件、应用业务在内的大系统。
电网一般需要监控的系统包括 EMS、DPMS、电能量采集系统等多套自动化系统。监控对象也涉及应用进程、服务器工况、运行环境、业务功能等多个方面。以浙江省调为例,如果以EMS系统为核心出发,各个监控对象间的关系可以描述为:前置机通过101或104通道采集上来的前置数据经 SCADA核心交换机传输给 SCADA主机,在SCADA主机上,5分钟数据以文件的形式经由正向隔离装置传输给位于III区的DPMS及以热定电等系统,作为基础数据进行业务计算。同时前置机将三级网实时值通过三级网应用服务器,发送到三级网通信服务器,最终传输到地调三级网应用服务器。前置机还将计划/转发值经由 I区核心交换机发送给三级网计划服务器,然后通过正向隔离装置传输到DPMS服务器。运方计划值在DPMS服务器上生成,经由Ⅲ区日志服务器通过反向隔离装置传输到Ⅱ区日志服务器,然后发送到SCADA主机转换成指令数据。省调SCADA主机将电网历史数据通过SCADA核心交换机传输给电力市场数据库服务器及SCADA数据库服务器。计划处导入的安全校核所需文件通过III区日志服务器经由反向隔离装置传输到II区日志服务器,再用数据FTP转发到PAS主机;在PAS主机上,安全校核程序对这些文件进行处理后生成结果文件;三级网计划值服务器通过FTP下载安全校核结果文件,通过正向隔离装置传送给III区日志服务器,最后计划处读取结果文件。
我们将各个系统运行的每台服务器都看作一个节点,服务器之间的业务进程关系作为有向连接线,服务器运行的动力环境、内存状况、硬盘状况、系统进程等这些被监视的物理对象组合起来作为虚拟的隔断器,可以生成专业应用层面的逻辑拓扑结构图(见图1)。
图1 逻辑拓扑结构图
其中每条连接线的起始两端都各设有一个虚拟隔断器,其内部结构如图2所示。
图2 虚拟隔断器
只要构成虚拟隔离器的几个部分任何一个出现故障,虚拟隔离器将呈现开断状态,该条连接线将开断。反之虚拟隔离器将是闭合状态,该条连接线将呈现正常运行状态。
2 故障告警处理流程
构成电力系统的任何部分并不是孤立存在的,它与其他部分构成了互为依赖的错综复杂的各种关系。因此系统中发生的故障告警也不会是孤立存在的对象。有些故障告警会引发一系列的连锁影响,从而导致更多相关告警的出现。相应的,有些监测到的告警本身并不是故障源,而只是其他故障影响造成的。因此,在众多相关告警中,根据其逻辑拓扑关系,找出其根源性故障告警是非常重要的,可以实现快速关键问题定位,加快事件解决速度、提高维护服务效率、减轻值班人员劳动强度等效果。我们在上文中提出的构建综合了动力环境、通信网络、服务器、系统软件、应用业务等在内的逻辑拓扑结构,目的就是在此基础上进行故障告警管理,实现告警智能归并和故障定位。
图3展示了故障告警处理逻辑流程。统一数据平台负责采集包括动力环境、通信网络、服务器、系统软件、应用业务等各方面的缺陷告警信息,形成标准的故障告警事件。由于不同厂家的多套系统有可能会对同一事件从不同角度进行多次告警,因此有必要进行告警合并,以保持告警信息的准确性和精确性。以上文构建的逻辑拓扑模型为基础,对故障告警事件进行相关性分析进行告警智能归并和故障根源点定位。经过分析后所有根源故障都被甄别出来组成主告警;每个主告警一起的连锁告警则被定义为副告警。在此基础上结合告警规则库对所有故障告警事件进行分级。分级后的告警通过故障告警传递模块在监控台以列表,图表,拓扑着色等的方式用B/S模式展现出来;另一方面所,有告警将通过告警智能纠错库的分析得出正确数据。同时告警事件将会通过故障告警通知功能按照级别以语音、短信、音响等方式广播出去。所有的告警事件都会被存入告警库,被加以统计分析自动形成各类报表。
图3 故障告警处理逻辑流程
3 告警智能归并及故障点定位
告警智能归并及故障根源点定位是故障告警管理中的关键环节。其方法主要是通过归并分析引擎和告警事件关联规则来进行处理。告警事件关联规则是由包含动力环境、通信网络、服务器、系统软件、应用业务等层面的逻辑拓扑模型和经验知识库共同组成。图4就是告警智能归并的流程图。
图4 告警智能归并的流程图
我们可以看到对于系统接收到的告警事件,归并分析引擎通过关联规则,进行智能归并,找出故障根源点;分析结果作为经验输入知识库与逻辑拓扑结构结合起来进一步丰富和优化关联规则,形成一个闭环。因此告警智能归并是一个循序渐进的过程。
归并分析引擎主要是通过逻辑拓扑结构和有经验知识库提供的因果关系推断告警根源。告警之间虽然有着错综复杂的各类关系,但基本关系却可归纳为两种:
(1) 单串结构
图5中的A、B、C等三个告警出现时,归并推断引擎在图中确定出其在图中的位置,通过从树根向上遍历的查找确定其为单串关系,且其中A为这个关联关系的树枝顶点。在这种单链关系中,故障根源比较容易确定,三个告警信息的根源,可确定为A,解决了A这个故障,其他B、C两个问题一般就不存在了。
(2) 多串关系
图6中的D、E、F三个告警呈多链结构。当三个告警同时出现时。其中F可能由D引起,也可能由E引起。这种多链关系中无法简单地推断出主从关系。我们引入时域和影响度两个因素来帮助确定根源。时域就是指两个原因故障的发生时间,影响度是指在多个树枝中哪个树枝的可能性高一些。当多个根源中出现,其中一个的出现时间最早同时影响度最高时,即可确定其为根源性告警。如本例,如果D的影响度高,且时域在前;则可判断D为根源告警。在无法根据逻辑拓扑结构进行根源性告警判断时,归并分析引擎还将自动引入经验知识库,利用值班人员的经验来确定因果关系。
图5 单串结构
图6 多串结构
4 实例分析
下面我们以实际运行过程中发生的实例来说明问题:电网同时从各监测系统中采集到下列告警:
(1) IIIqu_syslog服务器安全校核结果文件d:powermarketJ年月日SensDataForCheck.xml.txt文件不存在;
(2) IIIqu_syslog服务器安全校核结果文件d:powermarketJ年月日PowerFlowForCheck.xml文件不存在;
(3) IIIqu_syslog服务器安全校核结果文件d:powermarketJ年月日DailyDangerousPointResult.xml文件不存在;
(4) IIIqu_syslog服务器安全校核结果文件d:powermarketJ年月日DailyChangeScheduleForCheck.xml文件不存在;
(5) IIqu_syslog 服务器安全校核结果文件 d:powermarketJ年月日DailyChangeScheduleForCheck.xml文件不存在;
(6) Zjpas01-1服务器文件系统/users/ems/open2000e/var/使用率为100%,超出阈值95%;
(7) Zjpas01-1服务器安全校核程序应用进程运行异常这些告警之间可以通过关联规则找到其因果关系。从这一模型中我们可以分析得出IIqu_syslog和IIIqu_syslog这两台服务器上的安全校核结果文件不存在是因为 Zjpas01-1上的安全校核程序运行异常造成的,而安全校核程序IIqu_syslog则是因为其使用的 /users/ems/open2000e/var/文件系统溢出造成的。所以由此判断出 Zjpas01-1服务器文件系统 /users/ems/open2000e/var/使用率为 100%这一告警为故障根源,只要处理了这一故障其余故障就都会得到解决。
5 结论
当前面向智能电网全局,构建一套跨专业的高度智能化的故障告警管理系统已经需要提上议事日程。这套系统将成为保证电力安全运行的重要支撑平台,将电力安全调度的工作由被动变为主动,减轻值班人员的劳动强度,增强调度自动化系统的可靠性和电力调度的安全性;另一方面,通过对各类历史报警信息的统计和分析,告警处理预案的建立和完善,将极大提高电力调度及系统的智能化管理的水平。在本文中我们从电网数据层面和专业应用层面探讨了构建跨专业综合调度值班系统的一些关键技术;为构建新一代同时监控动力环境、通信网络、服务器、系统软件、应用业务、电网数据等多层次多功能的故障告警管理系统打下了理论基础。
[1]秦立军,马其燕.智能配电网及其关键.技术中国电力出版社.2010.
[2]匡洪海,黄少先.配网停电管理系统方案设计.2004.
[3]林宇峰.智能玷污那个技术体系探讨.电网技术.2009.
[4]郭志忠.电网自愈控制方案.电力系统自动化.2005.