APP下载

基于组合优化LOWESS的电能量数据缺失处理方法

2017-12-20陈俊龙东杨舟韦杏秋

电测与仪表 2017年3期
关键词:阶数预测值计量

陈俊,龙东,杨舟,韦杏秋

(广西电网有限责任公司电力科学研究院,南宁530023)

0 引 言

电能计量的智能化、系统化、模块化是电力系统计量技术发展的趋势[1]。由于电能计量设备本身的故障异常[2]、传输信号不稳定等原因,造成计量自动化终端采集回来的电量计量数据缺失等问题,影响后续电能量数据在计量实际业务的分析、应用。文献[3-6]分别介绍了均值替代、空间自回归、多项式插补、线性插值等通常的数据缺失值处理方法,但当电能量数据不平稳或者缺失偏态情况严重时,通常处理方法的预测误差变得不可控,缺值处理效果欠佳。黄喻[7]、董芳英[8]、苏连成[9]等在地理、基因、材料等领域扩展应用了局部加权回归散点平滑法(Locally Weighted Scatter Plot Smoothing,LOWESS)进行数据缺失处理,并且得到了较好的结果,但现有的LOWESS回归模型其准确性受限于给定的窗口和多项式的阶数。Jae[10]提出了一种启发式方法,通过交叉检验技术来选择最优的LOWESS窗口,对比分析模型与固定窗口的LOWESS模型在微阵列基因数据分析中的表现。因此,本文提出一种基于预测误差最小化的组合优化LOWESS回归的电能量缺失数据插补处理方法,通过对比固定窗口和阶数在非平稳的电能量数据上的预测效果,研究参数优化LOWESS模型的准确性、适应性以及相对优势性。本文提出的组合优化LOWESS模型为电能量数据缺失值处理的自动化、高准确率提供了解决方案。

1 模型介绍

1.1 LOWESS回归模型

非参数回归具有开放式的探索变量关系,拟合曲线能较好描述变量之间的关系以及能拟合复杂的数据的特点。因此,非参数回归比参数回归拟合更加灵活,能更有效地减少参数回归模型可能存在的模型偏差。LOWESS是非参数回归模型中的局部多项式模型的一个扩充,其形式是非参数回归模型的稳健—M估计。稳健性反映的是这一种性质:当真实模型与假定的理论模型有一定的偏离时,仍能维持较好的统计性质。LOWESS模型首先需要对数据进行局部多项式估计,则应用于电能量数据缺失处理的LOWESS模型一元非参数回归模型为:

式中yi是实际的电能量数据;m(xi)是模型预测值;ui是随机误差项,i=1,2,3,…n。ui的数学期望为0。假设m(xi)在计量自动化终端采集回来的电能量数据x0附近有p+1阶导数,则在x0的某一邻域有:

组合优化局部加权多项式拟合模型中设有加权误差平均和满足:

其中,wi是拟合模型的权重函数,满足如下条件:

其中 Δ[i](vj)*=|xi-xj|/|xq-xj|,且有 i,j=1,2,…,n,q=[hn],[hm]表示缺失电能量数据的宽度h和个数n的乘积。

由公式(1)则得到m(xi)的估计值为^m(xi),其误差为:

其稳健权数为

利用稳健权数δi对模型进行局部多项式估计,可以得到新的误差ci。重复以上过程,直至达到初始设置的次数,则可以得到稳健估计值。利用wi替代公式(4)中的wi,并根据公式(3)应用误差最小化规则,多次计算逼近后得到实际电能量数据的插补值。

1.2 缺失数据自动处理算法

为了构建准确的电能量缺失数据自动处理的方法,需要对所有历史数据进行遍历,当识别到空值时将下标保存进集合中,设集合T的大小为h。对电能量缺失数据集合进行预测的过程进一步包括以下步骤(见图1)。

图1 缺失数据自动处理流程Fig.1 Missing data process flow

步骤一:初始化迭代最大步骤f,迭代窗宽步长l;

步骤二:重复进行组合优化局部加权多项式拟合回归模型预测,对于每次回归,应用预测误差最小化规则判别此次的预测值和加权误差是否加入结果集S={(t1,ei)},然后根据窗宽步长按风险最小化规则更新窗宽d和拟合阶数p,并将中间计算值存入结果集 S={(ti,ei)};

步骤三:将结果集和权函数相乘,然后加和得到最终预测值;所述最终预测值满足:

式中 s,j=1,2,…,h,z,kj是权函数,z等于结果集的数量,且有:

其中 j=1,2,…,z,z等于结果集的数量;

步骤四:经验风险最小化原则判别原则为,若ei小于S中所有的误差,则保存ti和ei入集合S;若ei大于预测值对应的误差,则不保存,所述窗宽更新和拟合阶数更新条件为:若ei<ei-1,则d=d+l,否则,d=d-1,n=n+1。

若最大步骤f设定为10,所述迭代终止条件为局部加权多项式拟合回归中的最后n项加权误差的差值在-0.1~+0.1内波动。则其窗宽步长为l=d/10,其中d为初始化局部加权多项式拟合回归的窗宽。

2 模型验证

2.1 验证数据

随机选取验证数据,本次是来自某供电局编号为0202I1B032****在2014年的输入有功电能量数据,具体数据如表1所示,表1中的记录时间为电表采集时间,写入时间为数据插入数据库时间,输入有功为终端采集回来的电表计量的电能值。所采用的缺失值是用随机无重复抽样的方法进行抽取,抽取的缺失值比例占总数据集的比例为10%。

表1 有功电能量数据Tab.1 Active power electricity data

2.2 参数优化LOWESS回归准确性验证

由于在用电过程中,用户在一段时间内的用电行为总是类似的,如夏天的时候,制冷设备的使用等。因此,可以考虑使用一段时间内的数据进行本时间内的预测,同时考虑到用电规律的时间差距效应,离缺失值越远的数据,从逻辑上来说,离预测点越远的数据对预测点的影响越小。因此关键的问题在于如何选取一个合适的宽度,使得该宽度以外的值对预测点的影响为0。通过LOWESS回归来自适应数据以达到精确插值的效果。

假设电能量的缺失数据分别为602及594,初始化宽度d=20,p=1,迭代最大步骤设定为10。迭代终止条件为组合优化LOWESS回归中的最后n项加权误差的差值在+0.1~-0.1波动,则迭代过程及模型计算结果如表2所示。

2.3 不同缺失比例数据下模型的适应性验证

利用本文提出的参数组合优化LOWESS回归,采用上述的迭代计算,可以得到所有数据的预测值和实际值的对比(见图2、图3)。由图2可以看出,参数组合优化LOWESS回归的电能量缺失值处理的预测能力较为准确,与实际情况偏离不大;而图3中,展示了缺失比例在0%~50%的模型的预测电能和实际电能平均差值的曲线图,则说明参数优化LOWESS回归的电能量缺失值在数据集的高比例缺失下表现良好。

图2 预测值和缺失值对比图Fig.2 Comparison of predictive and missing data curve

2.4 参数优化与固定参数LOWESS回归对比

图3 不同缺失比例的平均误差Fig.3 Mean error at different missing proportions

对于窗宽比起阶数对预测后模型的估计偏差影响更大。因此以窗宽为自变量,研究不同固定参数和参数优化LOWESS模型在预测集上的累计误差。以步长为0.1,窗宽在0.1~0.5的LOWESS模型和组合优化后的LOWESS模型的累计泛化误差变化(见图4);由图4中可以发现,组合优化的LOWESS算法的累计误差要小于窗宽为0.1~0.5的LOWESS模型,因此,从一个较长的时间来看,组合优化的LOWESS模型较之固定参数LOWESS模型造成的偏差会更小,得到的结果更加精确。

图4 固定参数与组合优化LOWESS的累计误差变化Fig.4 Accumulative error of fixed and optimized parameters LOWESS method

表2 迭代计算过程及预计结果Tab.2 Iterations calculation flow and prediction results

4 结束语

电能量数据缺失数据自动插补是电能计量系统智能化的不可缺少的部分。针对实际电能量数据的统计分布特性,考虑到通常的均值替代等方法对电能量数据缺失的处理效果欠佳,LOWESS模型的估计偏差受限于其给定的窗宽和拟合阶数的特性,本文提出一种基于预测误差最小化的参数组合优化LOWESS回归模型的缺失数据自动处理方法,通过对比固定窗口和阶数在非平稳的电能量数据上的预测效果,研究参数优化LOWESS模型在模型准确性、适应性以及相对优势性三个方面,得出如下结论:

(1)参数组合优化LOWESS模型能适应电能量数据不同数据分布、不同缺失比例等情况,在预测过程表现良好,预测准确率高;

(2)对于数据集上缺失比例在0~50%的范围内,模型表现良好,缺失比例增大时,模型的泛化误差没有显著性的增长;

(3)参数组合优化LOWESS模型相比起宽度比例在0.1:0.5的LOWESS模型在实际数据集上的表现更好,其累计误差均低于固定参数的LOWESS模型。

猜你喜欢

阶数预测值计量
IMF上调今年全球经济增长预期
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
关于无穷小阶数的几点注记
确定有限级数解的阶数上界的一种n阶展开方法
《化学分析计量》2020年第6期目次
法电再次修订2020年核发电量预测值
关注日常 计量幸福
计量自动化在线损异常中的应用
基于因子分析的人力资本计量研究