APP下载

基于EEMD-EN-SVR的短期负荷预测方法

2020-09-25黄海林

关键词:特征选择用电负荷

刘 辉,黄海林

(1.安徽职业技术学院 机电工程学院,安徽 合肥 230011;2.中国建材集团安徽节源环保科技有限公司,安徽 合肥 230088)

0 引言

预测就是根据一定规律来推算事物将来的发展趋势. 由于预测问题本身存在复杂性和不确定性,虽然对于同一个预测问题而言有多种预测方法,但是传统预测方法的预测精度往往不能令人满意[1]. 因此,新的预测理论和方法一直是国内外学者研究重点.

目前,短期电力负荷预测的方法可以分为2大类:传统预测方法和人工智能预测方法[2]. 其中,传统预测方法有回归分析法、灰色模型、时间序列法、自回归滑动平均模型等[3];人工智能预测方法有支持向量机(Support Vector Machine,SVM)、神经网络、模糊逻辑方法等[4]. 短期负荷预测易受多种因素干扰和影响,比如夏季气温的变化对负荷波动的影响十分显著,另一方面,现有的单一负荷预测方法往往具有一定的局限性,使用单一的负荷预测方法难以取得较好的预测效果. 因此,为提高短期负荷预测精度,需要对电力负荷波动的诸多影响因素进行考虑,提取出那些主要的、有效的影响因素作为特征,降低输入维数,利用特征处理技术与单一预测方法相结合的组合模型对电力负荷进行预测.

文中的特征处理技术涉及原始负荷序列分解后的特征提取与特征选择. 分解原始负荷序列的方法有小波变换方法或经验模态分解(Empirical Mode Decomposition,EMD)方法. 其中小波变换方法具有局部化特性明显的优势[5],但该方法要依靠相关人员的经验来确定所使用的小波基函数和分解尺度,所以并不是一种自适应的分解方法;而EMD方法可以避免小波分解的弊端,自适应地分解非平稳负荷序列,从而使得预测精度进一步提高.

神经网络以及支持向量机方法是目前短期负荷预测的主要方法,二者都属于人工智能预测法. 其中,基于统计理论支持向量机方法能够得到全局最优解,从而避免神经网络方法存在容易陷入局部最优解等问题.

结合现有的研究成果,针对短期电力负荷易受到复杂环境影响且具有非平稳性的特点,本文提出一种新的EEMD-EN-SVR组合短期负荷预测方法. 将基于弹性网回归(Elastic Net,EN)的特征选择环节加入到集合经验模态分解算法(Ensemble Empirical Mode Decomposition,EEMD)和粒了群算法优化的支持向量回归(PSO-SVR)预测模型之间. 将通过EN 方法获得的最优特征集作为优化的PSO-SVR 预测模型的输入特征,再对模型进行训练. 本文最后以某地区的真实负荷数据结合本文所提方法进行算例分析,结果表明,本文提出的新的组合预测模型能够取得更好的预测效果.

1 电力负荷数据及其影响因素

1.1 负荷预测影响因素

电力负荷是具有多种周期叠加的复杂非线性时间序列[6]. 它主要取决于生产和生活的规律性变化,同时受时间、温度和其他随机因素的影响. 其中时间因素对于用户的用电的影响主要在于人们生活或工作的规律性变化. 节假日用电相对于工作日用电都会有较大变化. 温度变化会导致一些大功率电器的使用,从而带来用电负荷的变化. 降雨对于人们的出行有影响,从而使当日用电负荷增加. 还有一些其他随机因素比如大规模停电、数据记录错误等对于短期电力负荷预测的精度影响很大,故需要先对负荷数据进行预处理,排除此类因素的干扰.

1.2 负荷数据分析

对于原始负荷数据的分析,图1示例某地区连续2个工作日负荷,图2示例该地区连续2周的工作日负荷. 从图1中可以看出,相邻2个工作日的用电负荷曲线相似程度较高,同时从图2中可以看出相邻2周的同时段用电负荷曲线也较为相似. 负荷变化的周期性为定义预测模型的输入特征提供依据.

图1 日负荷曲线

图2 周工作日负荷曲线

2 基于EEMD-EN-SVR的负荷预测模型

本文所构建的组合负荷预测模型主要包括用电特征的定义、特征选择、负荷预测3个部分. 具体流程如图3所示.

图3 负荷预测模型

2.1 定义用电特征

通常情况下在对某地区进行负荷预测之前,需要对该地区的负荷波动特性进行分析,得到该地区的负荷变化规律,定义用电特征.

电力负荷是具有一定周期性和随机性的多因素叠加的复杂非线性时间序列. 为得到更好的预测结果,进行预测时就不能够直接提取历史负荷数据作为负荷预测的输入特征,而应将原始负荷序列进行分解,得出一系列不同频率近乎平稳的分量,通过这些分量找出影响负荷信号变化的因素,定义用电特征.

小波分解和经验模态分解是经常使用的信号分解方法. 小波变换本质仍然是傅立叶变换,不适用于解决非线性问题. EMD 方法是Hilbert-Huang变换核心部分,是一种新的自适应信号处理方法[7]. 为减少EMD由于信号间歇性而出现的模态混叠现象,Wu等提出集合经验模态分解算法[8].

EEMD分解方法适用于各种类型的信号,并且在处理非平稳信号上具有明显的优势,克服小波方法与EMD方法的缺点. 因此,本文采用EEMD方法对负荷数据进行分解提取用电特征.

EEMD方法基本步骤如下:

1)确定EMD分解次数M,并令当前实验次数m=1.

2)给原始序列x(t)添加随机高斯白噪声序列n(t):

3)对ym(t)进行EMD分解,得到k个IMF分量ci,m(t),i=1,2,…,k,以及一个剩余分量rk,m(t).

4)当m

5)对M次实验的所有IMF分量和剩余分量求均值,得到EEMD分解的第k个IMF分量和剩余分量

式中,分解次数M一般选择100次左右,并且每次添加的高斯白噪声幅值相同.

对于某地区某周的原始负荷序列x(t)的EEMD 分解如图4所示.采用EEMD 方法将原始负荷序列自适应分解为各个不同时间尺度的IMF分量. 其中第1行是原始负荷序列x(t),第2到6行是不同尺度的IMF分量,第7行是剩余分量,反映从高频到低频不同尺度下的负荷波动特性,相对于原始负荷序列x(t)的波动更为平稳.

令该地区第i日第j个时刻点为

图4 EEMD分解示意图

则i日j时刻点所对应的信号分量如下式:

那么对于该用户第i日的用电特征的定义如式(5)或式(6):

Fi中每一列代表该时刻点对应的用电特征,Fi代表该日的用电特征,将用于下一步的特征选择.

2.2 特征选择

在提取用电特征的过程中可能会得到一些对于负荷波动特性分析无用甚至有偏差的特征. 因此,直接采用EEMD分解后的分量所定义的用电特征集可能存在大量冗余或者不相关的特征. 这会导致负荷预测模型复杂度和计算时间大大增加,而特征选择能够剔除冗余或不相关特征,提高模型的泛化能力、精度以及计算速率[9],因此需要对用电行为特征进行选择.

特征选择的搜索策略方法主要有穷举式搜索、随机搜索、启发式搜索3种[10]. 这3种方法各有不同应用场景,如果特征数较少,穷举式搜索策略较佳;如果需要较快的计算速度可以采用启发式搜索;如果对特征子集性能要求较高,同时计算时间又比较宽裕,随机搜索策略方案最佳[11].

依据特征或者特征子集评价准则的不同,特征选择方法还可以进行分类. 其中过滤式(Filter)特征选择方法运行效率高,适合大规模数据集[12]. 封装式特征选择方法(Wrapper)的精确度高,相对来说计算效率低,不适合大规模数据集[13]. 嵌入式特征选择方法(Embedded)直接利用所选的特征训练模型来进行特征筛选,并根据这个模型的表现来评价特征,它比过滤式特征选择方法的精度高;比封装式特征选择方法的计算效率高.

本文根据后续算法的相关性选择嵌入式特征选择方法中的正则化方法. 常用的正则化方法有Lasso回归、岭回归、以及EN等. 岭回归是带有L2正则化项的回归,可以使用岭回归来估计选择特征和压缩特征系数,但是岭回归无法将特征系数压缩为0从而产生稀疏解. Lasso方法采用L1正则化改进岭回归无法将特征系数压缩为0的缺点,从而获得特征系数的稀疏解,但是Lasso存在着以下几种缺点[14-15]:

1)对每个特征系数都进行等量的压缩,很可能导致过度惩罚;

2)无法高效地处理多重共线性问题,如果特征中存在着群组效应时,只能选出一个特征而将其余重要特征去除;

3)假设样本数量为N,特征数为p,最多只能选择出min(N,p)个变量,即当p>>N时,最多选出N个特征,会使模型过于稀疏.

Zou等提出弹性网回归(Elastic Net)算法[16],表达式如下:

其中:λ1、λ2是正则化参数,L1范数能够求得稀疏解,岭罚项使得弹性网具有组效应. 由于L1范数和岭罚项都有压缩特征系数作用,为避免过度压缩,需要对弹性网进行一次大小为1+λ2的比例变换进行重放缩. 令α=λ1/(λ1+λ2),λ=λ1+λ2,则式(7)可以等价于下式:

由于L1范数正则化与L2范数正则化方法具有互补性,弹性网回归结合二者优势,可以有效处理样本数量远少于特征的问题. 因此,本文在特征选择步骤中选择弹性网回归对提取的用电特征进行选择.

在使用Elastic Net方法时,需要对惩罚系数λ以及α进行合理选择. 本文采用均方根误差(MSE)作为评价标准,即在α值一定的情况下,采用交叉验证的方式寻找最优的惩罚系数λ,具体步骤如下:

1)选取n天的实际用电负荷数据,并且从中提取每个时刻点的用电特征Wi以及实际负荷Load(i,j).

2)确定本算法的输入与输出,并对输入进行归一化处理. 其中输入是待预测时刻点前7天相同时刻点EMD分解的分量,输出是该时刻点实际负荷,对于第i日第j个时刻点,输入输出如下式:

3)对于本算法选取合适的α值,本文根据经验,令α=0.5.

4)选择k个不同的λ值,对于每个λξ(ξ=1,2,…,k),将输入输出带入到弹性网中进行十折交叉运算[17],得到10个MSE值,如下式:

5)计算10个MSE值的均值MSE′ξ,那么MSE′ξ最小时所对应的λξ即为最优的惩罚系数λ.

6)利用得到的最优λ值重新拟合弹性网回归,得出最终的特征选择结果.

2.3 负荷预测

支持向量机估计回归函数时,其基本思想是通过非线性变换将输入向量映射到高维空间中,再利用原空间的核函数代替高维空间的点积运算. 对于训练样本集,其中xi是输入,yi为输出,N为训练样本个数,回归函数如下:

上式w是权重向量,b是截距. 采用结构风险最小化原理来确定参数w和b,如下式:

式(13)是一个凸二次规划问题,它的原始问题的对偶问题可以通过引入Lagrange乘子建立Lagrange函数,并对求偏导置零得出:

式中,K(xi,xj)=[ϕ(xi)∙ϕ(xj)] 是满足Mercer 定理的核函数. 本文采用的核函数是高斯核函数K(xi,xj)

从公式的推导过程可以看出,SVR的2个主要参数惩罚因子C、RBF核函数参数σ对于预测模型的性能至关重要,传统的根据经验所选取参数值具有主观性,网格搜索法效率又过低. 故本文中采用粒子群优化算法(Particle Swarm Optimiza⁃tion,PSO)代替常用的网格搜索法对这两个参数进行选择.PSO算法选取最佳参数的流程如图5所示.

负荷预测的输入为{X1,2,…,k,Xk+1,Xk+2,Xk+3}.其中X1,2,…,k是特征选择的结果,Xk+1,Xk+2,Xk+3分别是编码好的日期类型、平均温度以及降雨量. 特征选择的结果要进行归一化,编码后的日期类型、平均温度以及降雨量无需归一化.

对测试集进行预测的前提是训练集要得到全局最优的C和σ,这需要在负荷预测模型的各个参数初始化后通过粒子群算法寻优.

图5 PSO算法流程图

3 实验结果及分析

3.1 实验数据及其预处理

本实验采用的电力负荷数据是来自我国南方某电力公司的真实记录. 用电数据每15 min记录一次,每天共96个记录值. 实验前进行必要的负荷数据预处理与负荷预测影响因素量化.

(1)负荷数据预处理. 本实验所采用数据的异常主要包括连续0值、缺失、负值、值过大等. 对于这些异常数据,需要对其进行数据替换、数据修补等预处理以避免产生过大误差. 数据替换通常在负荷数据大量连续异常时使用,如长时间停电导致用户负荷数据缺失,此时可采用前后两个相同时段负荷的均值来替换. 数据修补通常用于单个或者少数连续异常值,这种情况下可以采用前后两个时刻点负荷的均值进行修改.

(2)负荷预测影响因素量化. 在前文中分析负荷预测的影响因素有温度、降雨、日期类型等. 需要将温度和降雨量以及日期类型进行编码之后才能作为负荷预测输入. 对应的编码如表1.

表1 影响因素编码

3.2 实验设计

本实验提取该地区连续半年的用电负荷数据,进行提前1天的短期负荷预测,其中预测日前4周作为训练集. 设计4 组实验来分别验证本文所提出组合预测模型的有效性与鲁棒性,实验均在Matlab R2016a上进行,具体内容如下:

实验1 对比本文提出的组合预测模型和单一预测模型,在测试集目标日的预测精度来考察本模型的有效性.

实验2 在用电特征定义这一步骤,采用EEMD方法进行特征提取,在对比算法中采用EMD以及小波分解方法进行用电特征提取.

实验3 在用电特征选择这一步骤中采用EN方法,对比算法则采用Lasso方法.

实验4 在负荷预测这一步骤中采用SVR方法,对比实算则采用广义回归神经网络(general regres⁃sion neural network GRNN)方法.

实验2~4在特征提取、选择以及负荷预测过程中采用别的可替代算法来验证模型的鲁棒性. 对于负荷预测精度评价采用日平均相对误差(MAPE)和日均方根误差(RMSE)2个量化标准,如下式:

式(16)与(17)中,Load(t)是目标日t时刻的实际负荷值,Load*(t)是目标日t时刻的预测负荷值.

3.3 实验结果

表2 对比本文所提出的结合EEMD 与弹性网特征选择的组合预测模型和单一预测模型(GRNN,SVR)在测试集目标日的预测精度. 表2、表3、表4分别对比在特征提取、特征选择、负荷预测阶段采用不同算法的预测精度对比.

图6给出在实验1中组合预测模型以及2种单一预测模型在测试集目标日的负荷预测结果,图7给出每个计量点预测值的百分误差. 图8、图9、图10分别给出在实验2、实验3、实验4中采用不同算法拟合的负荷预测结果.

表2 本文模型与单一预测模型精度对比

表3 不同方法提取特征的精度对比

图6 3种不同模型在目标日的负荷预测结果对比

图7 本文模型与单一预测模型模型预测误差对比

图8 不同方法提取特征在目标日的负荷预测结果对比

图9 不同特征选择方法在目标日的预测结果对比

图10 不同负荷预测方法在测试集目标日的结果对比

表4 不同方法进行特征选择的精度对比

表5 不同方法进行负荷预测的精度对比

3.4 实验结果分析

对表2可以分析得出,本文所提出的基于EEMD-EN-SVR的短期负荷预测方法的各项误差指标均优于单一预测方法SVR或GRNN. 从图5和图6可以看出,本文所提出的组合预测模型对于待预测日负荷曲线拟合效果更好,相对于单一预测方法SVR或GRNN而言,本方法的精度更高.

通过表3和图7分析得出,采用EEMD特征提取方法所预测出的目标日负荷与实际负荷的误差比小波和EMD方法小.

由表4和图8可以得出,相对于Lasso,采用EN方法进行特征选择所得出的预测负荷与实际负荷的误差更低. 如果对提取出的特征进行筛选,预测误差将会大大减少. 相对于不进行特征选择来说,采用EN方法进行特征选择的负荷预测结果的mape降低了3.3%,rmse降低了4.2%,因此特征选择这一步骤是不可或缺的.

由表5和图9的分析可以看出,在负荷预测阶段分别采用SVR与GRNN方法,在训练集中GRNN的误差指标比SVR小,但在测试集中误差却高于SVR. 即相对于GRNN方法而言,SVR能有效抑制过拟合,有较强的泛化能力,对于本文所提出的模型具有更好的适应能力.

通过以上分析可以最终得出,本文所提出的EEMD-EN-SVR组合预测模型预测效果更佳. 在本文提出的组合预测模型下,在各个阶段采用不同的算法,该模型均能良好适用,鲁棒性较强. 其中在特征提取步骤采用EEMD方法,特征选择步骤采用EN方法,负荷预测阶段采用SVR方法效果最好.

4 结论

为提高短期负荷预测的精度,本文先采用EEMD方法提取用电特征,再采用EN方法对用电特征集合进行特征选择,筛选出那些对于预测模型贡献最大的特征,从而构造出预测模型. 通过在南方某电力公司的真实记录上进行实验,结果表明,本文提出的基于EEMD-EN-SVR的短期负荷预测方法相比于基于单一预测模型的方法更具有效性;在特征提取、特征选择、负荷预测这几个步骤采用不同的算法,本模型均表现出较低的误差和良好的鲁棒性.

猜你喜欢

特征选择用电负荷
人造革合成革拉伸负荷测量不确定度评定
3项标准中维持热负荷要求对比分析
正交基低冗余无监督特征选择法
网络入侵检测场景下的特征选择方法对比研究
Opening flexible resources by integrating energy systems: A review of flexibility for the modern power system
安全用电知识多
对输配电及用电工程的自动化运行的几点思考
用电安全要注意
用电监察面临的问题及反窃电对策
基于特征聚类集成技术的在线特征选择