基于时间序列预测的电力异常大数据检测研究
2023-10-05马一宁余少锋钟建栩席凌之廖崇阳
马一宁,余少锋,钟建栩,席凌之,廖崇阳
(1.南方电网能源发展研究院有限责任公司,广东广州 510000;2.南方电网调峰调频发电有限公司信息通信分公司,广东 广州 510000)
时间序列模型也叫动态数列模型,是指能够将同一统计指标数值按照发生时间的先后顺序进行排列的数据处理模型。在实际应用过程中,时间序列预测注重分析已有数据的历史变化趋势,并可在综合下级统计变量的同时,推测数值指标的后续变化形式[1-2]。在时间序列模型的作用下,待选取数据的排列行为始终满足随机变量原则,即为使变量指标之间的映射连接关系不受影响,默认时间序列模型认知下,有且仅有一个数据变量能够完全满足另一个数据变量的预测计算需求。
电力异常大数据是一种非常规的电信号数据参量,能够与常规电信号数据融合在一起,但前者的连续性负荷特征较为明显,会导致电信号负荷曲线出现过度波动的表现形式[3]。为准确预测包含电力异常大数据的信号负荷曲线的变化规律,传统改进分段式检测方法通过确定异常值坐标的方式,计算明显波动特征在连续负荷曲线中所占比重,再联合标准预测模型,实现对电量异常大数据的检测与处理[4]。然而在异常大数据节点数量相对较多的情况下,此方法对于信号负荷曲线变化规律的预测准确性则相对有限,这就使得电网主机对连续性电量信号的精准检测能力受到了较大影响。为解决上述问题,提出基于时间序列预测的新型电力异常大数据检测算法。
1 电力异常数据修正
在时间序列预测模型的作用下,电力异常数据修正包含降维预测系数计算、离散化修正权限确定等多个执行步骤,具体研究方法如下。
1.1 时间序列模型
对于电力网络环境而言,时间序列模型中的所有指标数值都具有可加性,且序列组织中每一个指标数值的大小都与其所反映预测周期的表现时长有直接映射关系。因此在实际应用过程中,为使所有电力异常大数据都得到准确标注与记录,应使时间序列模型中所有变量数据之间的数值映射关系都保持稳定存在的状态[5-6]。设r、i表示两个不同的电力异常大数据编码系数,f表示基于时间序列的电量信号预测指标,αr表示编码系数为r时的数据序列参量,αi表示编码系数为i时的数据序列参量。联立上述物理量,可将电力异常大数据的时间序列模型表示为:
式中,wr表示编码系数为r时的电力异常大数据预测权限,wi表示编码系数为i时的电力异常大数据预测权限。为使电力异常数据修正结果具有真实参考价值,在建立时间序列模型时,应选取大量的大数据信息作为变量指标。
1.2 降维预测系数
在时间序列模型中,降维预测系数决定了电力异常大数据变量的实际分布情况。一般来说,降维预测系数的物理取值越大,就表示电力异常大数据变量之间的间隔距离越大;反之,降维预测系数的物理取值越小,就表示电力异常大数据变量之间的间隔距离越小[7-8]。假定d1、d2表示两个随机选取的电力异常大数据标度参量,且d1≠d2的不等式条件恒成立。设a表示最小的电力异常大数据降维系数,φ表示常规电量数据的预测权限值,βa表示电力异常大数据的预测权限值。在上述物理量的支持下,联立式(1),可将降维预测系数计算表达式定义为:
在时间序列预测模型中,降维预测系数能够影响电力异常大数据与常规电量数据之间的分布配比关系。
1.3 离散化修正权限
如果将常规电量数据看作核心预测变量、将电力异常大数据看作干扰预测变量,则可认为只有在已知离散化修正权限条件的基础上,才可以得到较为准确的数据指标检测处理结果[9-10]。规定表示一个已定义的常规电量数据,且指标的取值始终属于[1,e)的物理区间。表示电力主机在单位时间内所能记录的常规电量数据均值,c0表示电力异常大数据离散化分布系数的初始取值,A表示一个已定义的电力异常大数据,l表示基于时间序列预测模型的电量数据修正配比系数,μ表示既定的电量数据修正定标特征。在上述物理量的支持下,联立式(2),可将基于时间序列预测的电力异常大数据离散化修正权限表达式定义为:
对于电力异常大数据来说,只有在离散化修正权限取值结果保持为恒定物理数值的情况下,才可以实现对常规电量数据传输行为的准确预测。
2 电力异常大数据检测
根据时间序列预测模型的定义条件,建立完整的Hadoop 预测平台,再按照电力大数据异常特征值计算、并行检测强度确定的执行流程,实现基于时间序列预测的电力异常大数据检测算法的设计与应用。
2.1 Hadoop预测平台
Hadoop 平台负责对电力异常大数据进行实时检测,并可以在时间序列预测模型的作用下,干扰常规电量数据、电力异常大数据之间的分布配比关系,从而使得电力主机能够准确分辨出异常节点处的电信号的输入与输出行为能力,进而最大化避免异常数据指标对常规数据指标的影响[11-12]。具体的Hadoop 预测平台连接结构如图1 所示。
图1 Hadoop预测平台连接结构
在Hadoop 预测平台中,Hbase、Hlive、Sqoop 结构同时存在于应用集群内部,可以将已输入的常规电量数据与电力异常大数据分离开来,从而节省电网主机检测电信号负荷曲线变化规律所需的消耗时长。
2.2 电力大数据的异常特征值
电力大数据的异常特征值决定了电网主机对于电力异常大数据指标的检测与判别能力,在时间序列预测模型的影响下,该项物理指标的取值结果会在(-∞,+∞)的物理区间内不断波动,直到其数值水平在一个既定数值两端的波动幅度完全相等。一般来说,为避免大量运算步骤对电力异常大数据信号负荷曲线变化规律造成影响,规定该稳定系数项为电力大数据异常特征值的近似取值结果[13-14]。设λ表示电力大数据的异常行为系数,表示异常电量指标的稳定波动频率,ΔT表示电量信号的单位波动周期。联立上述物理量,可将基于时间序列预测模型的电力大数据异常特征值计算表达式定义为:
受到时间序列预测模型的影响,规定电力大数据异常特征值指标的实际取值越大,异常电力信号与常规电量信号之间的表现差异性也就越强。
2.3 并行检测强度
并行检测强度计算是电力异常大数据检测算法设计的关键执行环节,能够在异常特征值指标的基础上,对常规电量信号与异常电力信号进行准确区分。一般来说,并行检测强度参量的物理取值越大,就表示时间序列预测模型对于电力异常大数据的区分准确性越高,此时电网主机所得到的电信号检测结果也就越符合实际应用需求[15-16]。设θc表示异常特征为c时的电力信号传输向量,ξ表示既定的电力异常大数据标记系数,v1、v2、…、vn表示n个不同的电力异常大数据并行传输权限,n表示时间序列条件下的电力大数据最大预测权限,x表示既定的电力信号检测标度参量。在上述物理量的支持下,联立式(4),可将并行检测强度表达式定义为:
至此,完成对各项指标参量的计算与处理,在保障时间序列模型作用权限的前提下,实现新型电力异常大数据检测算法的顺利应用。
3 实例分析
在应用电网中,常规电力数据信号负荷曲线的变化趋势相对较为平缓,其区域性极大值与区域性极小值之间的物理差值水平相对较低。如果常规电力数据与电力异常大数据混合在一起,异常信号节点处的信号负荷曲线则会出现明显波动的变化情况,此时整条电力数据信号负荷曲线的变化趋势都会受到影响。
电网主机对于包含电力异常大数据的信号负荷曲线的预测准确性,反映了主机元件对于连续性电量信号的精准检测能力,通常情况下,电网主机所预测出的包含电力异常大数据的信号负荷曲线越贴合给定曲线的变化规律,则表示主机元件对于连续性电量信号的精准检测能力越强。
图2 给出了一组标准的包含电力异常大数据的信号负荷曲线。
图2 标准信号负荷曲线
分析图2 可知,在标准曲线中,信号负荷值的明显波动状态存在于第40-60 min 与第80-100 min 的实验区段之内,前者的极限负荷差值为2 249 MW,后者的极限负荷差值为2 765 MW,即在80-100 min的实验区段内,电力异常大数据对于常规电力数据的影响能力相对较强。
选取基于时间序列预测的电力异常大数据检测算法、改进分段式检测算法作为实验组、对照组的检测应用技术。分别利用实验组、对照组的应用方法对电力信号进行检测,在对实验组、对照组检测信号进行简单区分后,将其与给定的包含电力异常大数据的信号负荷曲线进行对比,如图3 所示。
图3 信号负荷值的实验曲线
实验组:实验组信号负荷曲线的变化规律始终与标准信号负荷曲线保持一致,在第40~60 min 的实验区段内,实验组信号负荷的极限差值为2 200 MW,略小于理想极限负荷差值;在第80~100min 的实验区段内,实验组信号负荷的极限差值为3 000 MW,大于理想极限负荷差值。
对照组:对照组信号负荷曲线的变化规律则并不能与标准信号负荷曲线保持一致,在电力异常大数据的影响下,在第40~60 min 的实验区段内,对照组信号负荷的极限差值为1 300 MW,远小于理想极限负荷差值;在第80~100 min 的实验区段内,对照组信号负荷的极限差值为2 400 MW,小于理想极限负荷差值。
在基于时间序列预测的电力异常大数据检测方法的作用下,电网主机所预测出的包含电力异常大数据的信号负荷曲线能够较好贴合给定曲线的变化规律,符合精准检测连续性电量信号的实际应用需求。
4 结束语
新型电力异常大数据检测电力异常大数据检测方法在时间序列预测模型的基础上,对离散化修正权限的作用能力进行约束,再借助Hadoop 平台,确定电力大数据异常特征值的具体计算结果,从而使得并行检测强度的物理数值更贴近实际应用需求。实用结果显示,与改进分段式检测方法相比,在时间序列预测模型的作用下,电网主机所预测出的包含电力异常大数据的信号负荷曲线能够更好贴合给定曲线的变化规律,对于连续性电量信号的精准检测确实起到了促进性影响作用。