基于孤立森林算法的电力营销数据异常识别
2022-07-26陈婷许睿孟维丽娅刘畅许蕾胡文彦
陈婷, 许睿, 孟维丽娅, 刘畅, 许蕾, 胡文彦
(云南电网有限责任公司,电力客户服务中心, 云南,昆明 650000)
0 引言
在电力营销网络中,对电力营销数据进行特征分析和异常检测,根据电力营销数据的异常特征量分析结果,对其数据规则展开研究,不仅有利于提高电力营销的规律性分析水平,还能够提高对电力营销数据的优化检测能力[1]。因此,对相关电力营销数据异常检测方法的研究受到电力领域的极大关注。
一般来说,对电力营销数据的异常特征检测是建立在对电力营销数据异常特征分析基础上实现的[2]。然后结合对电力营销异常数据的特征提取和大数据挖掘结果,实现数据的语义特征分析和重组[3]。目前,常用的电力营销数据异常识别方法有基于改进谱聚类算法的电力数据异常检测方法[4]、基于低秩模型的电力数据异常检测方法[5]以及基于Spark框架的电网异常数据辨识与修正方法[6]等,但随着电力网络的不断优化和电力技术的更新,传统方法已难以适用于现阶段的电力营销异常数据识别。
为提高对电力营销数据异常的识别能力,本文提出基于孤立森林算法的电力营销数据异常识别方法,并通过仿真测试结果证明了该方法在提高电力营销数据异常识别能力方面的优越性能。
1 电力营销数据的大数据分析和存储结构
1.1 电力营销数据分析
为了实现对电力营销数据异常的识别,首先需构建电力营销数据异常特征检测和大数据存储结构模型,并结合空间分布式融合调度的方法设计电力营销异常数据存储网格结构模型[7]。
电力营销数据存储结构模型如图1所示。
图1 电力营销数据的存储结构模型
在图1所示的电力营销数据分层存储结构模型中,结合空间分布式融合调度对电力营销数据展开分层调度和信息融合处理,从而构建电力营销数据分层加权组合结构模型[8],可得到电力营销数据分层特征信息融合结果W={w,w1,w2,…,wk},其中,k=1,2,…,n表示数据层数。在电力营销异常数据的信息覆盖区域,假设存在M个电力营销数据分层传输链路层,通过分块区域融合得到电力营销数据分层组合调度形式为X=[x1(k-1),…,xn(k-M)],电力营销异常数据的模糊度差分融合参数分布为η,得到电力营销数据分层存储的区域模块特征估计值如下:
(1)
式中,y表示电力营销数据估计值。在此基础上,利用优先级划分方法构建电力营销异常数据的本体结构特征量如下:
(2)
式中,ω(t)表示电力营销数据分层存储的维数,p(t)表示电力营销异常数据分布的Source与Sink节点之间的距离,bi表示电力营销数据结构特征量。
根据上述分析,构建电力营销异常数据的存储结构模型[9],通过空间分布式网格匹配过程可知,电力营销数据的分块融合判决准则需满足:
(3)
式中,Rtol表示电力营销数据分块检测特征量。然后根据电力营销异常数据源分布检测异常特征,结合主成分分析的方法得到电力营销数据分层的属性特征量,再通过虚拟空间异构融合构建异构特征分布集,通过语义本体融合得到电力营销数据的分块检测特征量[10]。根据上述过程实现电力营销异常数据的存储和优化调度。
1.2 数据特征分析
根据电力营销数据分析结果,采用压缩感知方法提取电力营销数据异常特征,并分析其特征谱结构,然后通过随机解耦性特征分解方法分解电力营销数据异常谱特征[11-12],并计算密集场景中电力营销异常数据分布特征集Itrust的统计特征量,得到电力营销异常数据识别的信任度如下:
(4)
式中,Dtrust表示电力营销数据分布特征集,β表示信任度系数。根据频谱特征分解结果构建电力营销异常数据的参数辨识模型,得到标准正态分布如下:
(5)
式中,j(a,c)表示电力营销异常数据的重构向量a→c的个数,d表示标准正态值。在此基础上,对电力营销异常数据进行稀疏特征分解和重组,从而实现对电力营销异常数据的模糊管理,继而得到电力营销异常数据定位的回归分析模型如下:
(6)
式中,λ表示模糊度映射值。根据回归分析结果,结合互信息特征匹配进行电力营销异常数据的分块检测和网格区域匹配[13],得到电力营销异常数据的模糊递推公式如下:
(7)
式中,CIntrai(n)表示电力营销异常数据访问节点i的最优间隔,CInteri(n)表示电力营销异常数据特征的分布时隙。根据上述分析,利用随机解耦性特征分解方法分解电力营销数据异常谱特征,建立电力营销数据异常数据的识别模型,可有效提高数据的异常识别能力。
2 电力营销数据异常识别
2.1 电力营销异常数据特征提取
本文通过随机解耦性特征分解方法分解电力营销数据异常谱特征,从而建立电力营销数据异常数据的多尺度特征分解模型,得到电力营销异常数据的模糊概念分布集表达式如下:
(8)
式中,μi表示电力异常数据概念信息分布集[14]。在此基础上,利用孤立森林学习算法得到电力营销异常数据挖掘的自相关分布特征量,再通过孤立森林学习过程实现自适应寻优,得到电力营销异常数据的稀疏异构特征点集如下:
(9)
式中,Hac表示孤立森林学习的收敛性,∂表示自适应寻优解,l表示收敛长度。在异构环境下,得到电力营销异常数据识别的异常特征提取模型如下:
(10)
式中,δ表示异常特征提取值。根据异常特征提取结果,采用分块信息融合的方法进行到电力营销异常数据检测和信息重构,提高到电力营销异常特征分析能力。
2.2 电力营销异常数据识别输出
在随机森林学习下,提取电力营销数据异常数据的关联特征量,通过关联规则调度和粗糙集特征匹配方法完成电力营销数据异常特征检测和识别。电力营销数据中异常数据的关联特征分布优化解如下:
(11)
式中,z表示关联系数。在此基础上,构建电力营销数据异常数据的统计特征量,得到电力营销数据异常数分布的概念函数,然后通过稀疏性特征重组构建电力营销异常特征分析模型,通过模糊控制方法检测电力营销异常数据[15],得到异常特征检测模型为
(12)
式中,γ表示模糊控制值。根据模型检测结果,采用频谱特征分解的方法进行电力营销异常数据的空间线性结构重组,得到重组结构模型如下:
(13)
式中,x(m)表示空间线性结构函数,w(n)表示频谱特征分解函数。然后进行电力营销数据异常特征检测和识别,对识别结果采用孤立森林算法进行过程寻优控制,得到寻优函数为:
(14)
式中,φ表示电力营销数据异常特征分布的关联系数,其取值介于0和1之间。结合模糊度识别可得到电力营销数据异常分布的关联系数λ为
(15)
式中,σj表示电力营销数据异常数据分布的维数。通过压缩感知和孤立森林学习,得到电力营销数据异常扩展函数如下:
(16)
综上分析,结合关联规则项特征融合和孤立森林算法,实现了对电力营销数据的异常检测与识别。
3 仿真实验与结果分析
为验证上述基于孤立森林算法的电力营销数据异常识别方法在实际应用中的性能,设计如下仿真实验并对结果进行对比分析。所用的对比方法分别为文献[4]中的基于改进谱聚类算法的电力数据异常检测方法、文献[5]中的基于低秩模型的电力数据异常检测方法以及文献[6]中的基于Spark框架的电网异常数据辨识与修正方法。
仿真实验环境设计如下:电力营销数据异常特征采样节点数为240个,电力营销数据聚类分块区域为200 m×200 m,电力营销数据的检测频率为800 kHz,多元回归分析的迭代次数为120次。根据上述仿真参量设定,对电力营销数据中的异常信息展开识别。
首先将电力数据采集信号经A/D变换转换为数字信号,然后利用MATLAB模型进行数据的分析处理,并绘制信号的时域波动情况如图2所示。
图2 电力营销数据异常识别时域波形
以图2所示的电力营销数据为研究对象,利用本文方法对其中的异常数据展开初步识别,通过构建信息融合模型提取数据的关联特征,再通过关联规则调度和粗糙集特征匹配过程识别出异常数据的输出特征,得到识别结果如图3所示。
图3 电力营销数据异常识别结果
分析图3所示结果可知,应用本文方法后,在5 s后,电力营销数据的输出结果存在一个明显的波动,证明此时,应用基于孤立森林算法的电力营销数据异常识别方法识别到了异常电力营销数据,初步证明了该方法的有效性,能够实现对异常数据的检测识别。
在此基础上,为进一步验证本文方法的应用性能,以异常数据识别精度为检验指标。异常数据识别精度计算过程如下:
(17)
式中,W表示总识别次数,e表示错误识别次数。利用对比实验的方式测试本文方法、基于改进谱聚类算法的方法、基于低秩模型的方法、基于Spark框架的方法的有效性,得到对比结果如表1所示。
分析表1所示结果可知,随着实验次数的增加,不同方法对电力营销数据异常的识别精度也在不断变化。三种对比方法中,基于低秩模型的方法和基于Spark框架的方法的识别精度较为接近,基于改进谱聚类算法的方法的识别精度更高,最高可达到0.925。而本文方法的识别精度随着呈现下降趋势,但最低的识别精度可达到0.906,最高则可达到0.945。由此可知,基于孤立森林算法的电力营销数据异常识别方法的识别精度更高,应用优势最强。
表1 不同方法电力营销数据异常识别精度对比
4 总结
本文基于孤立森林算法设计了一种电力营销数据异常识别方法。结合空间分布式融合调度的方法设计电力营销异常数据存储网格结构模型,然后根据电力营销异常特征检测结果,对电力营销异常数据进行稀疏特征分解和重组,从而实现对异常数据的模糊管理。然后结合互信息特征匹配进行电力营销异常数据的分块检测和网格区域匹配,在随机森林算法的支持下,提取电力营销数据异常数据的关联特征量,通过关联规则调度和粗糙集特征匹配方法实现对电力营销数据异常的检测和识别。经实验分析可知,该方法对电力营销数据异常识别的精度较高,识别性能较好,证明该方法具有良好的应用前景。