基于特征降维和组合模型的短期电力负荷预测

2022-05-14徐先峰陈雨露

计算机仿真 2022年4期

徐先峰，赵依，龚美，陈雨露

(长安大学电子与控制工程学院，陕西西安 710064)

1 引言

随着电力生产和市场化消费程度的不断提高，电力负荷预测如今已经成为能源管理系统的重要组成部分[1]。准确的电力负荷预测结果有助于发电厂合理地调度发电量，安排发电机组的起停，提高发电设备利用率，降低发电成本。因此，精确负荷预测是实现是保证电力系统稳定、经济运行和电网科学管理的基础，具有重要意义[2-3]。

在负荷预测方面，传统的预测模型有自回归移动平均模型(ARIMA)[4]、支持向量机(SVM)[5]、BP神经网络[6]等。其中，ARIMA是一种时间序列分析模型，它具有所需数据量少、计算速度快等优点，在拟合和预测平稳的线性关系数据的问题上具有较好的能力。但电力负荷数据具有非线性特点，因此单一的ARIMA算法在电力负荷的预测上精度有限。近年来，深度学习由于其强大的数据挖掘和建模能力，也逐渐应用于电力负荷的预测。目前使用较多的深度学习模型有长短期记忆网络(LSTM)[7]，深度信念网络(DBN)[8]，卷积神经网络(CNN)[9]等。LSTM网络避免了传统神经网络“梯度爆炸”的问题，具有较高的灵活性并能深度挖掘数据中潜在非线性关系，因此在负荷预测上表现出了巨大优势。

随着机器学习方法在负荷预测中的广泛应用，预测模型也逐渐由单一模型向组合模型转变。文献[10]将小波分解与二阶灰色神经网络相结合，提高负荷预测精度；文献[11]提出基于小波变换和模糊自适应共振理论网络的组合算法；文献[12]采用CEEMDAN排列熵方法将负荷时间序列分解为不同子序列，并根据子序列不同的特性分别构建LIESN预测模型。组合模型由于能融合多种模型的优势，弥补单个模型的缺陷，所以往往能够提供比单一模型更准确的预测结果。

另一方面，充分考虑外部因素的影响有助于提高负荷预测精度，然而计及外部因素影响将会提高输入信号的维数，从而加重了预测模型的学习负担，影响了学习效率，而特征降维方法能有效地解决该问题。文献[13]利用主成分分析(PCA)对多维负荷原始数据进行降维预处理；文献[14]将独立成分分析(ICA)用于特征提取，并结合BPNN模型进行负荷预测；文献[15]采用灰色关联度分析(GRA)定量分析多元负荷之间以及和各气象影响因素之间的耦合性，并结合LSTM网络实现多元负荷短期预测。随机森林是一种准确性高、泛化能力强、易于使用的集成算法，除了常用于解决分类、回归等问题，也可在特征降维问题中作为特征选择的方法[16]。文献[17]利用基于随机森林的平均精确率减少法(Mean decrease accuracy)进行特征排序，结合DBN实现母线负荷预测。本文拟采用基于随机森林的平均不纯度减少法(Mean Decrease Impurity， MDI)实现多维数据的特征降维。

基于上述分析，本文在使用MDI作为特征降维方法的基础上，将综合各模型的优点，提出一种融合CEEMDAN、ARIMA和LSTM的组合预测算法。该算法在利用CEEMDAN对电力负荷进行分解获取低频以及高频分量后，结合ARIMA挖掘低频的平稳性优势以及LSTM挖掘高频的随机性优势，对低频、高频分量进行分别预测，并叠加作为最终预测结果。将其与其它单一算法和组合算法进行对比，实验证明该组合模型能达到更佳的负荷预测精度。

2 基于随机森林平均不纯度减少法的特征提取

随机森林是通过有放回的重复采样(Bootstrap Sampling)方式，从原始样本集中随机抽取样本作为样本子集，再基于各样本子集生成决策树并组成森林集合。

在构建随机森林的过程中，决策树中的每处节点分裂都是基于某个最优的特征作为分裂条件。针对分类问题，可以利用不纯度来确定节点分裂的最优条件，即确定在何处进行分类以及进行分裂的特征变量。因此，在训练决策树的过程中，可以通过计算每个特征减少了多少树的不纯度来作为衡量其重要程度的依据。平均不纯度减少的越多，说明该特征的重要度越高，进而达到特征选择的目的[18-19]。

基尼指数是度量样本集合的不纯度的常用计算方法。基尼指数表示在集合中一个随机样本被分错的概率，集合D的基尼指数的定义如下[16]

(1)

式中，B为训练样本中样本种类数，pb表示集合D中随机选中的样本属于类别b的概率，(1-pb)表示样本被分错的概率。

如果样本集合D根据特征A而被分裂为D1和D2两个子集合，则在特征A的条件下，集合D的基尼指数为

(2)

式中，|D|表示集合D中的样本数，|D1| 表示集合D1中的样本数，|D2|表示集合D2中的样本数。

若决策树经由某特征进行分裂后平均基尼指数减少越多，即经过此种特征分裂后集合变纯的程度越大，就代表该特征的分类能力和重要程度越大，反之同理，因而计算平均不纯度减少可以作为一种特征重要性评估的方法。平均不纯度减少的定义为

(3)

式中，K为决策树的个数，Ginin(D)表示第n棵决策树分裂前集合D的基尼指数，Ginin(D，A)表示第n棵决策树经过特征A分裂后集合D的基尼指数。

3 CEEMDAN信号分解算法

具有自适应白噪声的完整经验模态分解(Complete ensemble empirical mode decomposition with adaptive noise， CEEMDAN)是一种智能算法，可分解复杂的时间序列。CEEMDAN不仅突破了傅立叶变换的局限性，而且不存在类似小波变换中预先选择小波基函数的问题，具有良好的时频分辨率和适应性[20]。针对信号X(t)的CEEMDAN算法分解步骤如下：

1)生成含噪信号集Xi(t)

Xi(t)=X(t)+ωi(t)

(4)

式中，ωi(t)(i=1，2，…，I)为满足高斯分布的白噪声，I为集合样本数。

(5)

3)计算一阶残差分量

(6)

4)计算二阶IMF

(7)

式中，Ej(·)表示信号的j阶IMF；εj为控制白噪声能量的参数。

5)对于k阶分量，(k=2，3，…，K)，K为设置的最高IMF阶次，计算k阶残差

(8)

6)计算k+1阶分量

(9)

7)重复步骤5、步骤6，直到残差不可再分解或达到最高IMF阶次，最终残差满足

(10)

信号可表示为

(11)

4 CEEMDAN-ARIMA-LSTM组合预测模型的构建

由于电力负荷受到温度、湿度、电价等众多不确定因素的影响，使负荷呈现出高度复杂的变化，直接对原始数据进行建模将导致模型出现学习不充分、迭代时间过长等缺陷。为此，本文首先针对包含历史负荷和5种外部影响因素的6维原始电力负荷数据，采用MDI方法实现输入数据特征的特征降维，提高学习模型的训练效率。之后以降维后的数据集为输入(综合考量原有数据集的维度数目以及降至不同维度时的实验效果，最终确定目标维度为3维)，构建CEEMDAN-ARIMA-LSTM组合模型，具体构建原理如下：

CEEMDAN-ARIMA-LSTM算法以将负荷序列看成由一个低频成分和一个高频成分的累加和为前提，在利用CEEMDAN算法对原始电力负荷进行分解得到低频分量和高频分量后，剔除噪声分量(IMF1)，再分别采用ARIMA和LSTM模型对低频(线性)成分和高频(非线性)成分进行建模、预测，最后将ARIMA和LSTM模型的预测结果线性叠加得到最终的预测值。该组合模型的核心思想在于充分发挥ARIMA模型和LSTM模型分别在拟合线性时间序列和非线性时间序列方面的优势，兼顾负荷数据表现出的线性及非线性特性。具体实验流程如图1所示。

图1 CEEMDAN-ARIMA-LSTM算法流程图

5 算例分析

5.1 实验数据

本文实验数据选用了英格兰地区2011年的电力负荷数据，包含历史负荷、温度、湿度、日前发电电价、日前边际损失电价、实时边际损失电价六个影响因素在内的总计4392条24点实时数据样本信息(采样间隔为1小时)。其中训练集为6月1日至11月27日的4320条数据样本，测试集为11月28日至11月30日的72条数据样本。

用于评价实验结果的指标为平均绝对百分误差(MAPE)和均方误差(MSE)，其公式为

(12)

(13)

4.2 应用MDI方法进行特征降维

针对特征降维过程，利用MDI方法作为特征筛选算法。通过直接将温度、湿度、日前发电电价、日前边际损失电价、实时边际损失电价五个外部影响因素对电力负荷影响程度的大小进行排序，以筛选出与电力负荷相关性最强的两个主要因素，并与历史负荷形成预测模型的输入数据集。

为了提高模型的收敛速度，避免由于负荷与各因素之间量纲的不同影响降维效果，对原始样本数据分类别进行了归一化处理，公式如下

(14)

式中，X*为归一化后的值，X为样本序列值，Xmin为样本序列中的最小值，Xmax为样本序列中的最大值。

利用MDI计算得出各特征变量的重要性评分如图2所示。

图2 特征重要性评分

由图2可见，各个特征变量都对负荷的变化产生了一定影响，但日前发电电价、日前边际损失单价的重要性评分最高，说明这两个因素最能代表外部因素对负荷变化的主要影响，与电力负荷的相关性最强。

为了进一步验证MDI特征降维算法的有效性和优越性，本文还引入了常用的两种特征降维方法PCA[13]、GRA[15]作为对比，并把使用不同方法特征降维后的数据和未经特征降维后的数据分别输入LSTM和BP神经网络进行预测，预测结果如表1所示。

如表1所示，应用MDI、GRA、PCA三种方法进行特征降维后，LSTM和BP模型的预测结果精度都有明显提升，但MDI的提升效果最好。其中，应用MDI方法后的LSTM模型较未降维的模型，预测结果的MAPE值降低了0.34%，MSE值降低了26363.89；BP神经网络模型较未降维的模型，MAPE值降低了0.90%，MSE值降低了186，988.82，有效验证了MDI特征降维算法在负荷预测中提升模型学习效率的重要作用。

表1 负荷预测中特征降维效果对比

4.3 基于CEEMDAN-ARIMA-LSTM的负荷预测

对原始数据集进行特征降维后，为了更好地对比所提组合模型与单一LSTM模型之间的预测性能，将分别设置提前1小时预测的纵向对比实验。针对CEEMDAN-ARIMA-LSTM模型展开的具体实验过程如下。

首先采用CEEMDAN算法将原始负荷数据进行分解，加入I=500组的白噪声信号，标准差设置为0.2，分解后得到的子序列图如图3所示。

图3 CEEMDAN算法分解结果

依据提取顺序，将第一个IMF分量(图中IMF1)视为噪声并剔除，剩余的IMF分量均代表着原始数据中不同的非线性特征，在本实验中视为同类模式，计算其累加和并将其视作高频成分，残余分量(图中R10)视为低频成分。重构后的信号曲线如图4所示。

图4 重构后的高频与低频信号

接下来分别利用ARIMA和LSTM模型对重构后的低频成分和高频成分进行拟合和预测，两个模型的主要实验参数设置如表2所示。

表2 各模型实验参数设置

利用CEEMDAN-ARIMA-LSTM模型以及单一LSTM模型对2011年11月28日至2011年11月30日的电力负荷进行预测所得到的曲线如图5所示。

图5 CEEMDAN-ARIMA-LSTM与单一LSTM模型预测结果对比图

从图5可以看出，CEEMDAN-ARIMA-LSTM组合模型与单一的LSTM模型相比，预测得到的曲线更加贴合真实曲线，尤其波峰和波谷位置的改善效果最为明显。为了对预测性能进行更加科学准确的评估，表3计算了两个模型的性能指标。

表3 各模型预测性能指标

实验结果表明，在利用信号处理方法将原始负荷序列进行分解后，基于高频与低频信号建立的组合预测模型的预测能力要明显优于单一的模型。其中CEEMDAN-ARIMA-LSTM模型较单一LSTM模型的MAPE值降低了0.38%，MSE值降低了29546.26。探究其原因正是在于利用多种异质的学习机搭建的组合模型，克服了单一预测模型受限于本身固有结构而存在性能上限的缺陷，实现了模型之间的优势互补，进而提高预测精度。

为了进一步验证所提算法的优越性，增加不同组合模型之间预测性能优劣的对比，本实验还将AutoEncode-VMD-BP组合模型作为对照。两种组合模型预测误差曲线如图6所示。

图6 组合模型预测误差曲线图

显然，基于深度学习LSTM神经网络建立的组合预测模型预测能力优于基于浅层神经网络BPNN建立的组合预测模型，其中CEEMDAN-ARIMA-LSTM模型在各点的预测误差基本控制在[-400，200]之间，这也直接显示了深度学习在挖掘数据间潜在非线性关系方面的优秀能力，进一步验证了本文所提算法的优越性。

6 结论

本文首先基于LSTM网络和BP神经网络，研究了利用基于随机森林的平均不纯度减少法对原始数据集进行有效降维后在提升电力负荷预测效果方面的影响，并在完成特征降维的基础上，提出了基于信号分解的组合预测模型CEEMDAN-ARIMA-LSTM。实验结果表明，在考虑多类外部影响因素的电力负荷预测过程中，采用有效的特征筛选方法剔除次要影响变量可以显著提高模型的学习效率，改善模型的预测性能。此外，本文所提出的新的组合预测模型与单一LSTM模型以及AutoEncode-VMD-BP模型相比，MAPE值达到0.77%，具有更高的预测精度，说明融合信号处理技术与深度学习的组合预测模型能够有效突破单一模型的预测瓶颈，具有更高的预测精度和工程应用价值。