基于大数据日志的预警技术分析
2017-06-19刘翠玲
胡 聪 刘翠玲 吴 尚
基于大数据日志的预警技术分析
胡 聪 刘翠玲 吴 尚
(国网安徽省电力公司信息通信分公司,合肥 230022)
随着电力网络信息化的发展,信息技术已经深入到电力生产的各个环节。电力系统在运行过程中产生大量的日志信息,其中的某些数据可能包含着与系统的运行状态相关的信息。如何对海量日志信息进行分析处理,深层挖掘信息的潜在价值,从而全面掌握系统状态,及时发现故障隐患是十分重要的。本文对大数据质量提升和分析方法进行了介绍,并对预警模型进行了研究,对大数据背景下电力系统预警技术的研究有一定的参考意义。
大数据;监控;预警
电力系统的物理硬件设备高度依赖系统的信息空间,从而决定了电力系统的安全性受信息系统的直接影响。电力系统风险的传播具有很强的耦合性,比如当信息系统发生故障时,测量设备和控制终端的正常运行也会受到影响,从而进一步影响到整个系统的正常运行[1]。并且随着整个系统规模的不断膨胀,信息系统中累积的日志信息数量已经非常庞大,这些信息的类型多种多样,并且可能隐含大量关系系统运行状态的信息,可见这些日志具有典型的大数据特征。如果采用大数据的日志采集和处理手段,对日志信息进行深层次地挖掘,就可以及时发现系统运行中可能存在的问题,实现系统的故障预警,从而避免不必要的损失[2]。本文针对大数据日志预警技术设计的技术问题入手,对大数据日志信息处理技术进行了介绍,对数据质量提升和分析技术进行了分析,并以变压器为例对预警模型进行了研究和建立。
1 基于大数据的日志信息处理技术分析
1.1 提高大数据日志信息的质量
提高大数据日志信息质量的方法主要有数据清洗和数据转换。
1)数据清洗
该过程主要工作是更新优质数据资源,并对数据进行分解和重新组合[3]。清洗的流程如图1所示。
图1 数据清洗流程
(1)错误类型的确认和定义。其中包括分析数据和清洗规则的定义,分析数据就是根据数据的不一致性和错误实际情况,利用分析程序提取数据属性,从而发掘数据的质量问题[4]。清洗规则的定义是对数据清洗和转换的规则进行定义,制定数据清洗和转换的语言并完成转换代码的生成。
(2)错误实例的搜寻和识别。主要包括属性错误的自动检测以及算法的重复记录检测。属性错误的自动检测主要利用统计法和聚类法对数据的属性错误进行检测[5]。算法的重复记录检测主要是通过相关的算法对重复记录的情况进行检测。
(3)错误的纠正。主要是对数据进行标准化。
(4)干净数据回流,将已经进行处理后的数据传送回系统,并将原有数据删除。
2)数据转换
该过程主要是采用数据的泛化、规范化以及属性构造等流程实现数据质量的进一步提升,使数据的精度和性能得到提高。数据转换的流程图如图2所示。
图2 数据转换流程
(1)结构数据的转换。系统首先对数据字典的信息进行读取,掌握数据类型定义和数据库结构等信息,根据设定好的数据库结构生成中间数据库。
(2)用户数据的转换。根据用户需要对数据源的用户数据进行读取,并根据设定好的数据库表数据生成数据库数据。
(3)目标数据的导入。根据用户读取用户数据,并根据设定号的数据库表数据生成数据库数据。
1.2 日志信息的质量分析流程
日志信息质量分析的对象主要是电网的实时运行数据。将数据跳变、设备精度原因引起的不良数据进行准确过滤出,避免误报警的发生,同时对设备的工作状态进行分析,对装置的变化趋势进行分析[6]。日志信息的质量分析流程如下。
1)不良数据的检测。参考实时运行数据和子按下监测数据的关系,制定计算模型,对检测值进行分析评估,避免因设备故障和自身误差造成误报警。
2)分析数据的准确性。根据在线监测数据自身特性,对传感器采集数据的准确性进行评估,并对检测数据的趋势进行监控,根据传感器类型设定标准。
3)对设备的异常趋势进行跟踪。当发现设备数据出现异常时,结合电网运行情况对误差原因进行分析,构建趋势变化预警模型,对设备运行状态进行实时跟踪,设备出现异常趋势时快速发出预警信息,并提供预警分析报表[7]。
利用大数据处理技术对系统中的异常日志信息进行分析,可以及时发现系统中的异常设备,从而及时采取措施,避免事态的恶化。对潜在风险的分析判断是日志分析的意义所在,这对提高系统的安全性和可靠性具有很强的实用价值。
2 预警模型的研究与建立
预警模型执行对监控模型采集的数据进行分析处理,利用一定的预警判定方法封装数据,当发生预警事件时,将事件的详细信息封装并形成系统事件并上传给预警处理模块进行后续处理。本文的预警模型针对变压器采用回归算法和聚类法建立。
2.1 回归算法模型
假设为变压器的预警指标数值,1,2,…,X(甲烷、氢气、乙烯、乙炔等)是前个时间的值,假设与之间为如下的线性关系:
式中,~(0,2),0,1,…,,和2的值未知。
假使
(2)
那么变压器的线性回归矩阵的表达式为
上式中的利用最小二乘函数()= (-)T(-)求得的最小值',则回归方程可表示为
(4)
在变压器的预警过程中,利用求得的值可以对系统中对应指标的值进行确认,用该值和设定的预警参考值进行比较,从而可以完成系统的预警功能[8]。回归算法可以利用指标若干时刻的数值对下一时刻的数值进行预测,可以更加准确、有效地实现预警功能[9]。
2.2 聚类算法模型
本文的聚类方法采用模糊聚类的算法,该算法过程比较简单,其过程可分为以下3步:①进行训练样本的标准化处理;②进行聚类,即利用适当的距离模式求得数据的模糊矩阵,并利用聚类算法实现样本的聚类;③求得最优聚类结果。模糊聚类模型的建立可以通过下面4个步骤实现:
假设样本数量为,每个样本有个量化指标,x则为样本的指标。
1)对样本进行标准化处理,因为只有在数据标准化处理之后才能建立特征值矩阵。数据标准化的方法多种多样,现在我们以极值法为例,首先将数据归一化,计算方法为
式中,为样本标准化后的数值;是原始数值;max是未处理的数据最大值;max是未处理的数据最小值,则样本指标的特征值集合为
(6)
式中,是样本指标的特征值,其中=1, 2, …,;=1, 2, …,。
2)模糊矩阵关系矩阵的建立。
其中
(8)
式中,R是样本和的关系,=1, 2, …,,= 1, 2, …,。
3)样本的聚类分析。通常采用编网法进行。
4)分析聚类结果。
模糊聚类模型建立的流程图如图3所示。
图3 模糊聚类模型建立流程
2.3 建立预警模型
以变压器为对象的预警模型如图4所示。
图4 变压器预警模型
图4所示的预警流程如下。
1)检测并收集原始数据,参考历史数据分析运行状态和参数的关系,建立设备动态模型。
2)与在线设备同时运行动态模型,并根据运行状态生成预测值。
3)比较检测点的预测值和时间值,并用回归算法和聚类法进行分析,实现设备的初步预警。
4)利用辅助分析工具对设备的故障原因进行分析[10]。
2.4 预警机制在电力系统运行的应用
利用以上的日志预警原理,建立了电力设备在线监控平台,并通过在线监测数据接入对电力设备的运行状态进行监控和报警。通过对设备历史和实时数据的检测分析,分辨出需要进行预警处理的设备,并通过人工确认,对报警信息进行分析,从而及时发现设备问题,进一步维护电力系统的稳定运行。图5为变压器问题在线监测查询系统的查询界面。从图中可以清楚地看出,变压器的故障原因和故障类型,使变压器的维护工作更加轻松高效。
图5 设备问题在线监测查询界面
3 结论
在电力系统信息化发展的今天,如何对电力系统运行过程中产生的庞大日志信息进行分析和处理,获取深层次的系统运行状态信息,从而对故障隐患做出预警处理是电力系统研究的重要课题。其中,对海量日志的筛选和质量提升,以及预警模型的建立是关键。本文对常用的数据分析和质量提升方法进行了介绍,对基于回归算法和模糊聚类模型的预警方法进行了分析,对大数据环境下的预警技术研究具有一定的参考意义。
[1] 胡士. 数据挖掘技术在电力设备状态检修中的应用研究[D]. 北京: 华北电力大学, 2007.
[2] 郭乃网, 苏运, 瞿海妮, 等. 电力大数据安全体系架构研究与应用[J]. 电气技术, 2016, 17(11): 143-145.
[3] 林森, 欧阳柳. 基于大数据理论的电力客户标签体系构建[J]. 电气技术, 2016, 17(12): 98-101, 112.
[4] 周国亮, 朱永利, 王桂兰, 等. 实时大数据处理技术在状态监测领域中的应用[J]. 电工技术学报, 2014(S1): 432-437.
[5] 葛磊蛟, 王守相, 王尧, 等. 多源异构的智能配用电数据存储处理技术[J]. 电工技术学报, 2015, 30(S2): 159-168.
[6] 宋亚奇, 周国亮, 朱永利. 智能电网大数据处理技术现状与挑战[J]. 电网技术, 2013, 4(4): 927-935.
[7] 谭勇, 王伟. 智能故障诊断技术及发展[J]. 飞航导弹, 2009(7): 35-38.
[8] 林升梁. 多元线性回归模型在骨龄评估中的应用[J]. 吉林医学, 2011, 32(24): 5107-5108.
[9] 刘连福. 一元线性回归方程中回归系数的化种确定方法[J]. 沈阳师范大学学报:自然科学版, 2008, 12(4): 38-42.
[10] 杨廷方. 变压器在线监测与故障诊断新技术的研巧[D]. 武汉: 华中科技大学, 2008.
Analysis of Early Warning Technology based on Large Data Log
Hu Cong Liu Cuiling Wu Shang
(Information and Communication Branch, State Grid Anhui Electric Company, Hefei 230022)
With the development of information technology in the power network, information technology has gradually penetrated into all aspects of power production. The power system to produce a lot of log information in the operation process, some of which may contain data associated with the running state of the system information, how to log information on mass analysis, the potential value of deep mining information, so as to fully grasp the state of the system, found the problems in a timely manner is very important. In this paper, the method of improving the quality of large data and analysis methods are introduced, and the early warning model is studied, which has a certain reference value for the research of power system early warning technology under the background of big data.
big data; monitoring; early warning
胡 聪(1981-),男,安徽合肥人,硕士研究生,高级工程师,研究方向为企业信息化。