大数据环境下电力信息系统监控预判的智能分析
2019-08-02刘昕林罗伟峰黄萍邓巍
刘昕林, 罗伟峰, 黄萍, 邓巍
(深圳供电局有限公司, 深圳 518000)
0 引言
进入21世纪以来,电力在现代人的生活中已经占据十分重要的地位,我国自从改革开放以后,各个行业对电力的需求也在呈现出逐年上升的趋势。为了满足各个行业对电力的需求,传统意义上的电网系统逐渐不能满足现代社会对于电力的需求,智能电网逐渐取代了传统电网。另一方面,随着电力信息系统和基础设备的增加,电力信息系统以及基础设备的故障也随之不断增长,因此如何避免信息系统以及基础设备故障的发生也称为电力系统中的一个重要课题。在众多信息系统以及基础设备故障的研究中,故障预测是防范电力系统故障的有效手段之一[1]。故本文从智能电网出发,利用大数据理论对信息系统以及基础设备的故障监控进行预判和分析。
该项研究可以为运维工程师提供故障预测、故障快速定位,从而有效降低告警数量,确保日常业务工作正常进行,进而有效节省运维成本[2-3]。从电力公司角度看,该项研究为深入拓展电力领域业务提供机遇 ,同时也为公司在局内拓展其他业务打下坚实基础。
1 相关背景及流程
1.1 项目背景
本次研究鉴于笔者工作关系,选用中国南方电网有限责任公司作为研究对象。中国南方电网有限责任公司,于2002年12月29日正式挂牌成立并开始运作。公司经营范围为广东、广西、云南、贵州和海南五省(区),负责投资、建设和经营管理南方区域电网,经营相关的输配电业务。
该公司数据中心本阶段纳入监控系统范围的资源情况如下:服务器1 054台,oracle数据库106套,中间件67套,网络设备53个,安全设备5个,存储设备33台,虚拟化平台3套,核心业务系统7套(具体包括综合管理系统、资产管理系统、营销管理系统、协同办公系统、财务管理系统等)。其中,本期建模项目需要可能涉及到的虚拟化平台1个,核心业务系统7个。目前,这些设备每年新增的性能检测数据已达到10亿条;而随着时间延长,数据库中的历史数据存量颇丰。根据供电局业务发展规划,供电局需要对运维数据进行深度挖掘,从而为运维工作提供支持和帮助。
1.2 项目目标
本次研究的综合目标为,通过对本文通过对南方某电力局磁盘使用率,cpu使用率等情况的数据挖掘,将目标的数据人为划分为5个警告等级,并且通过数学模型实现预测出一天内各个样本数据发生的警告等级(例如,某样本数据可能会在一天内从3级警告转为5级警告),同时对于较高警告等级的数据也预测其发生的时间(例如预测某个样本数据从3级警告转为5级警告会发生在5天后)。
1.3 算法比较以及选择
1.3.1 逻辑回归算法
鉴于本次研究的数据特点以及笔者自身的能力,随机森林算法和回归算法是本次研究比较理想的数学模型[4-5]。本次预测最终的预测结果为警告等级,属于离散随机因变量范畴,因此本次回归模型可以选用逻辑斯谛回归模型,具体模型为:
其中Y仅表现为0(否)、1(是)两种情况下的变量
1.3.2 随机森林算法
随机森林算法的基本原理是从原始训练样本N中,又放回的随机抽取K个样本生成新的训练样本基本,然后根据自主样本集合,生成K个分类数组成随机森林[6]。其本质为决策树算法的一种改进,其具体实施为,首先用N来表示样本个数,M表示特征数目。然后输入特征数目m,用于确定每一个一个节点的决策结果并且要求,m应远小于M。其次从N个样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作预测,评估其误差。接着对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。最后,根据这m个特征,计算其最佳的分裂方式。
1.3.3 算法选择
通过比较逻辑回归以及随机森林两种算法,其中相比于随机森林算法逻辑回归算法的优势在于,计算速度快,简单易于理解并且可以直观的看到各个特征的权重[7-8];其不足在于对于数据以及场景的适应能力有一定的局限性。
相比于逻辑回归算法,随机森林算法的优势在于具有较高的准确率,并且抗噪声能力较强,同时也容易实现并行化。但是其不足在于如果决策树较多时,比较占用系统资源。
鉴于本次研究的实际情况,公司硬件设备以及系统资源较为充沛,同时对于预测的准确率要求较高,因此本次预测模型选用后者随机森林模型。
2 相关模型以及实现
2.1 目标以及方法
由于本次研究存在较多状态,本文只选用最为典型的3级告警转为5级告警的概率预测作为该次研究的范例进行说明。首先要从告警数据中提取正(3转5)负(3转3)样本。对于每个5级告警,其之前一天之内的所有3级告警均可构成一条正样本;而在每个5级告警之前5天(5天是为了消除短时间内VM_Storage性能的相似性)以上的3级告警之间均可构成一条负样本,并且正样本略少于负样本。
本次预测模型选用,随机森林(Random forest,RF)算法,该算法属于集成机器学习算法,利用随机采样技术bootstrap和节点随机分裂技术构建多棵决策树,通过投票得到最终分类结果。RF具有分析复杂相互作用分类特征的能力,对于噪声数据和存在缺失值的数据具有很好的鲁棒性,并且具有较快的运算速度,其变量重要性度量可以作为高维数据的特征选择工具,近年来已经被广泛应用于各种分类、预测、特征选择以及异常点检测问题中[9-10]。
2.2 数据预处理
2.2.1 缺失值处理
数据缺失是数据分析中经常碰到的问题。缺失值产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机器问题所导致的数据收集或保存失败造成的数据缺失,比如存储器损坏,服务器挂起所导致某段时间数据未能收集。人为原因是由于人的主观失误、历史局限等因素造成的数据缺失。对于缺失值的处理,从总体上来说分为删除缺失值和缺失值填充。缺失值填充的方法又有均值填充、中位数填充、众数填充,线性插值等方法。本次鉴于综合因素的影响,如果无特殊声明,选择均值填充的方式处理缺失值。
2.2.2 异常数据处理
经过数据缺失分析之后,需要对数据中的异常值进行检测[11-13]。在处理数据的时候,常常会遇到个别数据值偏离预期或大量统计数据值结果的情况。如果把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性。如果把这些数据值简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常值,然后将其剔除。判断和剔除异常值是数据处理中的一项重要任务,异常值指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。
异常至少包括三个方面的异常:第一是类型不匹配异常,比如本来是number类型结果填了一个date类型;第二是大小不匹配异常,对于string类型可能出现非法字符,可能出现字符串太长或太短,对于number类型超过合理范围的最大值或最小值,整型变成了浮点型,对于date类型,出现类似2月30号这种逻辑上的错误取值;第三是分布上的异常,比如正态分布,取这个值的范围在3Sigma外可能是异常值[14-15]。最重要的是要结合具体的字段含义来分析出现的值是否合理。对于异常值的处理可以参考缺失值的处理技术,删除或者填充。
对于告警数据表列出的字段,并没有类型不匹配的情况。而大小不匹配、分布异常需要结合具体的业务意义来判断,业务意义需要逐字段与客户深入交流。
2.3 数据模型的建立及调优
使用随机森林算法建模,将数据集的80%作为训练集,20%作为测试集。使用随机森林的袋外错误率(Out-of-BagError)作为标准,选择最合适的随机森林中树的规模。具体情形如图1所示。
图1 随机森林算法建模
为了使模型尽量不产生过拟合现象,根据OOB结果,随机森林采用92棵决策树。训练出的模型的特征重要程度如图2所示。
图2 随机森林算法模型特征
由上图得知,最重要的性能指标有:整体状态(黄),整体状态(红),已使用空间百分比(1小时前),已使用空间百分比(3小时前),整体状态(灰),已使用空间百分比(0.5小时前),剩余空间大小等。
单棵决策树建树结果如图3所示。
图3 建树结果
2.4 模型性能评估
精度,召回率,F1-score以及准确率如表1所示。
如表1所示,模型的精度为0.78,召回率为0.77,F1-score为0.77。
根据混淆矩阵,可以得出模型的准确率为0.77,模型的预测效果较好如表2所示。
表1 模型性能评估
表2 模型预测效果
2.5 ROC曲线及AUC值
如图4所示。
图4 ROC曲线及AUC值
模型的AUC值为0.87,因此模型的分类性能较好。随机森林的分类间隔:模型的平均分类间隔为0.43,较低,说明模型分类性能较好。随机森林的带外错误率:模型的OOB为0.24,较低,说明模型分类性能较好。
3 总结
本文通过对南方某电力局磁盘使用率,cpu使用率等情况的数据挖掘,通过数据的分析从而预测一天内三级警告转为五级警告的概率,从模型评估指标来看,1天内3级告警转5级告警概率预测模型效果较好,符合预测需求。
此外,模型的应用场景为:
1、如果发生了3级告警,一天之内要不要去处理(1天内3级告警转5级告警概率预测模型);
2、如果一天之内不处理,那么几天内处理比较合适(3级告警转5级告警时间间隔预测模型)。模型使用方式是以告警数据和虚拟化平台存储性能数据作为输入,输出当前3级告警是否会在1天内转为5级告警,以及转移成5级告警所用时间。
但是由于本次用于模型训练的数量较少,因此模型的性能受到样本过少的限制。后期通过积累更多的样本可以使模型的性能更加出色。