基于多变量自动回归的电力大数据异常值检测平台设计*
2022-11-28李英俊乔斌强
刘 涛,李英俊,邢 峰,乔斌强,刘 斌
(乌兰察布电业局,内蒙古 乌兰察布 012000)
1 引言
为了加速现代电网智能化,在电网中广泛安装了多种数据采集装置与信息管理系统,例如智能电表、远程测控终端和同步测量装置、配电管理系统、能量管理系统、用户管理系统和电厂管理系统等,这些装置和系统产生了大量数据,是智能电网大数据的主要来源[1-2]。对于这些大数据进行分析,能够为电网的运行控制提供科学的决策依据,以保证电网的安全稳定运行。在此过程中,为提升电网管理水平,以电力大数据为依托利用先进的技术手段进行电网的实时监测与分析,并对其运行状态进行预测,由此也产生了海量实时数据流[3-4]。但数据流中异常值的存在会使得数据分析结果产生较大偏差,甚至有可能会造成一些决策失误[5]。因此为了解决这些问题,需要设计一种快速且准确的异常值检测方案。
国外主要是上下文对数据类别进行划分,在根据机器学习中的监督、非监督以及半监督学习方法对数据异常进行检测,但国内的方法并不拘泥于以上几种,而是采用了更加多样化的方法进行数据异常检测。例如董泽[6]等人提出基于EWT-LOF的数据异常值检测平台设计方法,该方法结合密度检测方法以及信号分解法对大数据中异常数值进行检测。首先对收集的数据进行小波变换处理,提取数据的时间变化趋势。通过LOF 局部离群因子和箱型图分别完成对所有采集数据中的局部异常数值以及序列中的异常点的获取。金鹏[7]等人提出基于深度信念网络的数据异常值检测方法,为解决高维度数据在异常值在线检测过程中困难程度相对较高的问题,通过深度信念网络对原始数据进行降维,并对上述高维度数据的特征和降维后的原始数据分别进行提取以及异常值检测处理。将滑动窗口模型以及QSSVM 进行结合后应用于数据异常值的检测处理中,从而实现数据中异常值的在线检测。
为了进一步提高电力大数据异常值检测准确率,缩短检测耗时,本文提出了基于多变量自动回归的电力大数据异常值检测平台设计方法,并通过对比实验,对该平台的有效性进行了验证。
2 平台架构
为解决电力大数据中异常值检测问题,设计平台各层面以及具体功能如下:
(1) 首先是由网络数据流、日志、告警数据以及大量安全数据等所组成的数据源层面[8];
(2) 其次由网络数据流、告警数据以及日志接入服务所组成的数据收集层面,该层面可以对数据进行读取识别,并根据不同的电力数据采取不同的接入方法。利用工具Gopacket 以及Avro 获取数据,从中提取出数据的维度特征并将特征数据传输到平台;
(3) 实时计算层面,又称实时分析层面,该层面主要利用处理工具Flink对数据进行低延迟的处理,可对收集的数据进行统计、分析、重组,提取数据的特征,并将所提取的特征输入到平台中;
(4) 利用集群Kafka所构成的数据管道层面,可通过该层面将实时分析层面与数据收集层面进行连接。Kafka所拥有的缓存数据功能具有着可靠性高、吞吐力强的特点;
(5) 由Elasticsearvh、HDFS 所构建成的数据存储层面,为所获取的大量数据提供可靠的存储服务以及吞吐性较高的读写服务;
(6) 最后是数据分析,该层面由数据的挖掘、网络异常数据检测模型、关联分析和回溯取证等功能模块所组成。
各层面之间分工明确,首先将收集到的数据投放至数据管道,最后将经过Flink处理工具读取识别的数据移至Elasticsearvh以及HBase进行数据分析处理。具体如下图1。
3 多变量自动回归数据异常检测
通过多变量自动回归的方法对实验所需的电力数据进行收集,并对获取到的数据进行分析比对,从而实现电力数据中异常值的检测。
3.1 数据的表达
分析电力的评价数据时间变化特点,电力数据取值区间为{1,2…M},且M需要是离散、有序的整数,在该区间中的取值分布r是M向量,如下式:
式中,所有电力数据中评价数值为d的数据占总数据量的比例用rd表示。
假设电力数据中的时序数据用R进行表示,同时R=(r(1),…,r(t),…,r(T)),r(t)代表时间戳为t的电力评价数据,并且是涵盖多个变量的向量。为实现评价数据的有序性,需要对R进行累积分布处理。如下式:
式中,x(t)代表累积分布,其第d个元素为。
对数据进行累积处理后,不仅可以保证数据的有序性,同时可以对数据分布问题进行更加详细的描述。假设评价数据分布状态描述分别为a、b、c,其中a=[1,0,0,0]、b=[0.5,0.5,0,0]、c=[0.5,0,0,0.5]。由于a、b相似度大于a、c之间相似度,需要进行累积分布,其中a'=[1,1,1,1]、b'=[0,5,1,1,1]、c'=[0.5,0.5,0.5,1]。
根据向量之间相似度的判断标准对进行累积分布的数据进行分析,发现还有可能存在a、b相似度大于a、c之间相似度的问题,同时发现数据中最后一项始终为1,且数据项之间为非递减关系,因此对其进行描述。具体如下:
式中,电力的时序评价数据集为X=(X(1),…,X(T)),D=M-1为累积评价分布参数X(t)的维度,同时X(t)CD。
3.2 异常数据产生过程模型
根据上述3.1可知,X=(X(1),…,X(T))为电力的时序评价数据集,其中数据X中可能会存在异常数据,所以无法利用X直接对电力数据进行直接描述。
考虑上述问题,假设电力的基本数据A={a(1),…,a(T)}为潜在变量,电力评价数据X(t)(1≤t≤T),且符合下述条件:
式中,a(t)代表基本数据的分布描述参数,y代表电力数据中异常数据的分布参数,时间t的权衡系数用pt进行表示,pt值的大小反映着电力基本数据的权重,pt值越大其权重越大,t时间段内的外部环境噪声kt进行表示。为保证各参数在模型中的有序性,电力基本数据以及异常数据的处理必须是合理有效的,且yCD。
在X中所包含的基本电力数据a(t)平滑时,在产生异常数据y时,X会随之产生变化。电力的正常数据a(t)也会随着之前的时间t发生变化,同时适当的突变行为也是允许的,具体的表达方式如下:
式中,t之间的重要时间点为w[0…1],数据变化倾向用bCD表示,初始时间点所产生的基本数据用a(0)进行表示。
3.3 数据的稀疏性
异常数据很少存在于电力时序评价数据中,由此可知,在上述公式(5)中,-p 的非零元素是具有稀疏性的。假设电力评价数据中的异常数据的最大个数用表示,且。由下式先验分布函数获取p值,同时pt不再相互独立:
式中,先验分布函数包含以下特点:
(1) 易解释。产生异常数据时可以轻松获取其产生的时间点;
(2) 异常数据产生时,累积分布函数最大熵分布异常数据的数量,不偏向于向量p;
3.4 目标函数
为了检测出电力数据中的异常数据,且实现对检测出的数据进行详细的描述,本文利用极大似然估计方法将概率p(X,Z)最大化联合,所有的变量集合用Z进行表示。选择适合的先验分布方法可以较好地定义上述问题。如果产生的误差为同分布且独立的高斯分布,且~N(0,σ2·1)。在公式(5)、(6)中加入以εt及,具体如下式:
式中,a(t),X(t)CD,CD值域范围的数据正态分布为( )。根据下式对y、b、ω以及a(0)进行先验分布且不提供信息:
式中,y、b、ω以及a(0)可以代表自变量x。分析上式可知,向量的取值范围是有界限的,因此该先验分布函数是有效的。
当所有存在变量的取值都在合理且有效的范围内时,p(X,Z)计算公式如下:
式中:
将(11)最大化以获取目标函数以及最优σ2,具体计算公式如下:
3.5 模型的预测与选取
利用Bayesian information criterion可以确定最优参数。在设定参数的同时,最小化下式(15),从而获取到的最优值,具体计算公式如下:
通过对电力时序评价数据的分析,不仅可以获取到电力基本数据以及异常数据,也可以预测即将出现的评价值。由于采集到的电力数据中异常数据具有稀疏性的特点,可通过下式(18)对T+1情况下的评价值进行计算,并判断出即将产生的数据是否为异常数据,具体如下式:
在上述所构建的平台的基础上,利用多变量自动回归的方法对电力数据进行收集与分析,检测出电力数据中所存在的异常值,该方法不仅降低了检测过程中所需的时间消耗,同时又保证了数据检测的准确度。
4 实验与结果
为了验证基于多变量自动回归的电力大数据异常值检测平台设计方法的整体有效性,需要对该方法进行测试。本实验通过Matlab平台实现,实验环境如下:
(1) CPU为2.20 GHz i7-4702MQ;
(2) 硬盘为1TB;
(3) 内存为8GB;
(4) 系统为Windows 8.1。
实验数据来源为中国电力网(网址为http://www.chinapower.com.cn/)。分别采用基于多变量自动回归的电力大数据异常值检测平台设计方法(方法1)、基于EWT-LOF 的数据异常值检测平台设计方法(方法2)和基于深度信念网络的数据异常值检测平台设计方法(方法3)进行测试,并对三种方法的错误率、消耗时间以及漏报率进行比对,具体结果如下:
(1) 对实验收集的数据进行异常值检测,并对三种方法的错误率进行详细比较,具体情况如图2所示。
(2) 选取相同数据组进行检测,观察三种方法在检测过程中所消耗的时间,具体情况如图3所示。
(3) 在与上述相同条件下,对三种方法的漏报率进行对比,具体情况如图4所示。
对上述图2、3、4 进行分析可知,与其他两种方法相比,方法1 的错误率、漏报率以及所消耗时间优于其他两种方法。因为基于多变量自动回归的电力大数据异常值检测平台设计方法首先建立了具有高存储、低输出延迟率等特性的电力数据异常值检测平台,利用多变量自动回归的方法对电力数据进行检测,并对获取到的评价数据进行了累积分布处理,在保证了数据有序性的同时,又对数据分布进行了细致精准描述,最后利用高斯分布解决了电力数据评价值中异常值稀疏的问题,因此该方法既能保证检测准确度的同时又能缩短检测时间的消耗。
5 结束语
现今电力大数据中异常值检测问题已经引起了社会各界的广泛关注。传统方法的检测结果存在着错误率较高、消耗时间较长以及漏报率较高等问题,因此本文提出基于多变量自动回归的电力大数据异常值检测平台设计方法,在电力数据获取、处理以及存储等多种功能为一体的电力数据异常值检测平台上,利用多变量自动回归的方法完成异常值检测,该方法不仅能够缩短检测时间,同时又能够提升检测结果的准确度。