APP下载

基于电力信息系统的监控分析与应急处置系统设计及其关键技术

2018-05-14程明刘显明洪微明鄂驰张俊锋

数字技术与应用 2018年2期
关键词:应急处置

程明 刘显明 洪微明 鄂驰 张俊锋

摘要:电力信息系统安全稳定运行是电力系统正常运行的强力保障。组成信息系统各种软硬件资源由于其本身固有特性,不可避免的会出现故障,引发信息系统宕机,甚至影响电力系统运行。针对上述问题本文提出了电力信息系统监控分析与应急处置系统(Monitor Analysis and Emergence Disposal System For Electronic Information System, MAEDS)。MAEDS运用大数据技术对信息系统运行过程中的状态数据进行计算,在软硬件资源出现故障及时告警,从而保证信息系统的高可靠性和可用性。MAEDS建设完成后在国网江西省电力有限公司部分信息系统进行了试点应用,结果表明,该系统能有效地提高信息系统的可用性。

关键词:电力信息系统;故障监控;应急处置

中图分类号:TP315 文献标识码:A 文章编号:1007-9416(2018)02-0181-03

电力行业是国家重要的基础性行业。得益于电力技术和信息技术的飞速发展[1],电力信息化水平也不断地提高。电力企业结合自身需求,纷纷开展信息系统建设,如国家电网公司的智能电网调度控制系统[2]及南方电网公司的一体化电网运行智能系统[3],随着电力企业信息化建设的不断推进,对信息系统的可靠运行提出了更高的要求[4]。

信息系统的正常运行受制于机房设施、操作系统、网络、中间件、数据库及信息系统自身等多维度软硬件资源因素。相关研究表明,信息系统的软硬件资源因其本身固有的失效性,组成信息系统的软硬件资源总会出现故障,一旦出现故障,小则影响信息系统部分功能;大则引起信息系统的宕机。

本文研究多维度信息系统监控技术以及信息系统故障统计规律和模式,应用大数据技术对信息系统运行过程中监测得到的数据进行快速计算处理,建立机器学习模型,设计信息系统故障应急可视化处置流程,最后建成了电力信息系统监控分析与应急处置系统并在国网江西省电力有限公司部分信息系统进行了试点应用。

本文首先阐述了MAEDS系统的体系架构,然后详细阐述了系统设计所涉及到的关键技术,接着对系统的应用及应用结果进行了介绍,最后对本文进行了总结。

1 体系架构

1.1 系统总体架构

为了实现系统对多套信息系统进行监控,采用智能代理的分布式监控管理框架,系统总体架构如图1所示。运维管理人员登录监控分析与应急处置系统,即可对被监控信息系统进行监控。

主监控节点:系统通过主监控节点实现对多台受监控服务器节点进行资源运行监视与调度控制。为避免单点故障,主监控节点可支持多机高可用集群模式部署。

受监控服务器节点:通过部署于受监控信息系统主机服务器(受监控节点)中的智能代理组件采集信息系统的监控指标数据,可分为网络接口层、服务器层、服务层、应用层等四个层次类别。网络接口层主要包括主机网络状态数据,如IP地址、端口、上下行流量等。服务器层主要包括主机BIOS与操作系统状态数据,包括CPU负载、内存占用率、磁盘I/O等。服务层主要包括中间件、数据库等平台软件的状态数据。应用层主要针对业务应用系统的可用性、性能等状态数据。同时,智能代理组件接收从主监控节点发送的控制命令和消息,執行对受监控服务器节点的应急重启恢复及其它控制操作。

1.2 系统逻辑架构

系统逻辑架构如图2所示,自下而上,分别是采集层、数据层、控制层。采集层负责通过SNMP、WMI等协议实时收集网络中指定的服务器、受管交换机、路由器等节点的状态数据。数据层负责对采集层收集的监测数据进行存储和进一步处理。控制层负责对数据层提供监测数据及对数据的处理结果进行可视化监视、故障应急恢复控制及预测分析。

1.3 系统功能架构

监控分析与应急处置系统主要包括八大功能模块,分别是运维视图、监控管理、告警管理、资源管理、数据管理、流量分析、报表管理、系统管理。

2 关键技术

2.1 监测指标集

MAEDS通过对网络设备、主机服务器、数据库、中间件及应用服务、网络端口和链路、存储设备及业务系统等进行监测,获取相应的指标参数,构成监测指标集。

2.2 智能代理分布监控

MAEDS在每台集群计算机上安装智能监控代理(Smart Monitor Agent,SMA)[5]收集计算机的工作状态信息,在监控主机上安装运行监控服务端。智能监控代理与监控服务端之间通过XML格式传递监控数据,监控服务端采取定期轮巡智能监控代理获取监控信息。监控主机使用心跳探测,可以发现集群内任意计算机的运行状态。

将智能监控代理部署于受控主机服务器的操作系统中,智能监控代理将通过网络与监控主服务器建立心跳连接,根据指定的策略对主机(物理机或虚拟机)的运行状态进行实时监控,当服务器硬件故障、网络中断或者关键进程(可通过进程名称或PID进行设定)运行异常等关键事件发生时,智能监控代理将执行相应的策略动作,策略脚本可根据实际情况进行灵活定制。监控主服务器接收到智能代理发送的告警或故障消息后,或者智能代理心跳连接超时后,监控主服务器将判断该主机发生故障。

2.3 支持向量机

Cortes和Vapnik在1995年提出了支持向量机(Support Vector Machines,SVM),支持向量机被广泛应用于处理多维问题中。MAEDS采用支持向量机对监控数据进行处理并将信息系统运行状态进行分类[6]:首先输入N组训练数据,MAEDS将通过这些数据进行自我学习,其中,表示信息系统监控值的集合,表示信息系统状态类型,学习的目标是要在N维监控值的集合空间中找到一个超平面,该超平面能准确划分信息系统在一组随机监控值集合条件下信息系统会产生的运行状态。超平面方程定义为:,其中是超平面的权值,是偏差。要使超平面划分的确信度高,那么超平面到数据点的间隔也必须越大,也就是需要最小。此时SVM变成一个凸二次规划问题,可用二次规划法求解出w使其能准确划分在某一监控值的集合条件下,信息系统所属的状态类型。

2.4 故障自動恢复处理技术

实现开放式脚本编程框架,脚本框架为用户提供可扩展的自定义信息应用管理命令调用编程环境,用户可使用Python语言,通过脚本自定义对应用、服务或操作系统进行控制。脚本发布后即可参与任务调度,任务调度可分解成各子任务分配给各智能代理节点执行,执行完成后返回执行结果。

2.5 可视化技术

通过基于业务视图的拓扑展示,可以实现整个全局业务的状态监控及单个业务的各关键环节进行实时监控。可为全局值班人员提供全局业务的实时状态,当业务出现故障时,通过业务示图可非常容易的找到业务组件的故障点,实时展现故障信息,达到快速定位故障的效果。

3 应用分析

基于电力信息系统故障快速处置的MAEDS系统已完成软件研发及测试工作,并在国网江西省电力有限公司的部分信息系统投入试运行,如表1所示。

信息系统可用率指标是指信息系统正常运行的时间与其在某一运行周期时间的比值,如式3-1所示:

(3-1)

式中,表示信息系统可用性指标,表示信息系统正常运行时间,表示周期内时间,包含两部分:系统正常运行时间和故障时间,如式3-2所示:

(3-2)

我们在所部署的信息系统,选取季度时间作为信息系统周期运行,并取2015年四季度信息系统(未部署MEADS系统)出现故障的时间总和及2016年四季度信息系统(已部署MEADS系统)出现故障的时间总和,如图3所示:

由图6可知,2015年尚未部署MAEDS系统是,四季度的信息系统可用率在97%上下波动。2017年初,MAEDS系统在部分信息系统投入试运行后,四季度的信息系统可用率提高到99.99%左右。

4 结语

本文深入阐述了电力信息系统监控分析与应急处置系统的体系架构及监测指标、智能代理分布监控、支持向量机、故障自动恢复处理、可视化等关键技术。系统能同时对多套信息系统运行情况进行监控,通过采集信息系统运行过程中的指标数据进行建模,获取信息系统正在运行状态及预测信息系统未来运行状态,从而保证信息系统高可靠运行。目前该系统已在江西省电力公司部分系统中投入试运行,试运行结果表明,该系统能有效的提高信息系统可用率具有了良好的应用效果。

下一步工作将在保持原有设计思想的前提下,深入研究基于电力信息调运体系的监控分析与应急处置关键技术,进一步提升系统的使用价值和运行效果。

参考文献

[1]梅峥,厉启鹏,李西太,等.电力消息邮件体系架构及关键技术[J].电力系统自动化,2016,40(20):126-132.

[2]辛耀中,石俊杰,周京阳,等.智能电网调度控制系统现状与技术展望[J].电力系统自动化,2015,39(1):2G8.

[3]汪际峰.南方电网一体化电网运行智能系统建设初探[J].南方电网技术,2012,6(2):1-5.

[4]王建设.电力企业信息化的建设与管理初探[J].电力信息化,2009(2):18-19.

[5]毛卫良,盛焕烨.一个智能代理体系结构模型[J].计算机应用研究,2000,17(4):4-6.

[6]Liang L, Cheng M, Ma Y, et al. Fault Detection with Dynamic Principal Component Analysis and Support Vector Machines[C]//Proceedings of the 2015 International Conference on Network and Information Systems for Computers (ICNISC). IEEE Computer Society,2015:263-265.

猜你喜欢

应急处置
强化风险防控,提高调控应急处置能力