基于时间序列组合模型的电力负荷预测
2023-12-09徐帅刘丹丹
徐帅,刘丹丹
(上海电力大学电子与信息工程学院,上海 200000)
随着我国经济的高速发展,各领域对于用电量的需求逐步增大。准确的用电负荷预测能够为电力行业部署提供相关依据,有利于电力部门做出合理的调度规划[1]。同时,负荷预测的结果是根据往年负荷做出的历史规律总结,分析其与真实数据的差异,能够提高用电效率,进一步发掘节能潜力[2]。电力负荷数据一般按照时间的顺序进行记录,因此可视为时间序列数据。时间序列数据之间往往包含着特定的规律与特点,因此一直以来有大量研究聚焦于时间序列预测方法。
经典的时间序列算法有差分整合移动平均自回归模型(Autoregressive Integrated Moving Average model,ARIMA)、指数平滑法等[3]。20 世纪80 年代,较多研究人员开始关注使用机器学习算法预测时间序列,如支持向量机和极限学习机算法等[5]。但是经典的机器学习算法对历史数据依赖较大,抗噪声能力不强,容易产生过学习现象。自2006 年以来,深度学习算法由于加深模型结构,突出特征学习的优良特性,成为了时间序列预测的主要研究方法。卷积神经网络(Convolutional Neural Networks,CNN)[7-8]。与传统的全连接神经网络相比,有着相对简单的网络结构,提高了训练速度。循环神经网络(Recurrent Neural Network,RNN)[9]存在过拟合问题,为了解决RNN 梯度消失和爆炸的问题,长短期记忆(Long Short-Term Memory,LSTM)网络[9]添加了门控循环结构来筛选和保留有效数据,在预测精度上有所提升。
但是,这些算法仍然不能很好地解决非稳定非线性时间序列的预测问题。因此,提出采用模态分解算法对原始序列进行分解,使其先行稳定,而后使用组合神经网络CNN-BiLSTM 对于负荷数据进行预测。实验证明,该算法有效地提高了预测精度。
1 基本原理
1.1 数据分解算法
经验模态分解(Empirical Mode Decomposition,EMD)根据本身的时间特性来进行数据分解。分解出来的本征模态函数(Intrinsic Mode Function,IMF)分量中含有原序列数据不同频率模式的部分特征[11]。EMD 的作用在于对不平稳数据进行分解处理后,得到平稳化分量。
但这一过程会出现模态混叠现象。自适应噪声完备集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)是由EMD 方法发展而来的[12],有效地避免了模态混叠现象。CEEMDAN 算法的分解步骤分为三部分。
1)在原始负荷数据y中添加N次自适应高斯白噪声得到yN,对新的负荷数据进行EMD 分解,并对得到的N个模态分量进行集总平均,得到第一个本征模态分量,再计算减去第一个模态分量后的残差。第一个本征模态分量IMF1和残差r1分别为:
2)在残差r1中添加N次自适应高斯白噪声后,分解成N个模态分量IMFi2,继续求解得到第二个IMF2分量和残差。本征模态分量IMF2和残差r2分别为:
3)重复以上步骤得到k个IMF 分量和最终的残差rk,原始负荷数据y可以表示为:
较之EMD 算法,CEEMDAN 算法可以减小重构误差,具有更快的计算速度及能够减少幅值很小的低频IMF 分量个数等特点。因此,选取该算法作为分解非平稳序列的方法。
变分模态分解(Variational Mode Decomposition,VMD)方法将原始数据信号分解成指定个数的单分量调频信号。VMD 通过迭代循环,分解得到指定数量的有带宽限制的IMF 分量[13],具有抗噪声干扰和避免边界效应等优点。但如果信号很长、数据量大,VMD分量带宽可能会发生重叠,所以实验中VMD不作为第一次分解方法使用,VMD 用于处理CEEMDAN拟合效果较差的分量,进行二次分解。
1.2 卷积神经网络
CNN 网络主要由输入层、卷积层、池化层、全连接层和输出层组成。通过卷积层提取特征,实现参数共享,使原负荷数据特征增强,简化网络参数[14]。在池化层对特征做进一步约减,去除冗余信息,使用下采样操作,捕捉更高阶的特征。同时减少了全连接层中的输入大小和参数数量,以此来加快运算速度和防止过拟合。CNN 网络结构如图1 所示。
图1 CNN网络结构图
1.3 双向长短期记忆网络
双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,BiLSTM)是在LSTM 神经网络上进行了双向循环的改进。LSTM 网络能够通过门控模块对输入单元信息选择,决定上一时刻和当前时刻信息的保留程度,从而确保LSTM 网络对信息的长期记忆[15]。其结构如图2 所示。
图2 LSTM结构图
单向的LSTM 网络难以挖掘数据前后时间双向的联系,因此不能充分利用时间序列的有效特征。BiLSTM 结构如图3 所示,BiLSTM 采用双向LSTM 循环结构。正向LSTM 和反向LSTM 可以递归未来和过去隐藏层的状态,相互独立来处理反向和正向的数据,输出层按照设定的权重对正向和反向的结果进行结合计算最终的结果[16]。BiLSTM 网络更好地挖掘了数据的时序特征。
图3 BiLSTM结构图
2 组合模型
组合模型是将数据处理算法和神经网络相结合对时间序列进行预测,首先采用混合模态分解算法处理负荷数据,再使用CNN-BiLSTM 神经网络对数据训练预测,得到优化结果,提升了短期负荷预测的预测精度。组合模型结构如图4 所示。
图4 组合模型结构图
在数据预处理过程中,采用CEEMDAN 算法将原始数据加入白噪声逐次迭代,求解出多个IMF 分量和残差。对于各个分量进行逐一预测,将单个预测结果拟合优度低于0.4 的分量通过VMD 算法进行二次分解,以此来提高预测准确度。最终将各个分量的预测结果汇总求和得到原始时间序列的预测结果。
神经网络CNN-BiLSTM 模型由输入层、卷积神经网络、双向长短期记忆神经网络和输出层组成。选用一维卷积神经网络,负荷数据由输入层传入到卷积神经网络中,设定层数为2 并添加一层最大池化层。对负荷数据做特征提取之后,将特征传入BiLSTM 网络。设置BiLSTM 网络层数为2,激活函数选用Tanh,神经元数设置为32。LSTM 网络对于输入的特征会保留有价值的信息,通过门控遗忘无效的信息。利用Bi-LSTM 可以对过去和未来的内在数据联系进行进一步提炼,从而提高准确度。BiLSTM网络中加入Dropout 层,对于神经网络训练单元按照一定比例进行随机失活,以解决过拟合问题。输出层为dense层,用于汇集网络信息,输出预测结果。在网络训练中设置EarlyStopping 和ReduceLROnPlateau函数来防止过拟合和动态减小学习率。
3 实验分析
时间序列数据为西班牙某地的用电负荷,采集的时间为2015 年1 月1 日0 时 至2018 年12 月31 日24 时,数据采样间隔为1 小时,共有35 064 条数据。采用四种评估指标,对提出的组合算法(CEEMDANVMD-CNN-BiLSTM,CVCB)与SVM、RNN、LSTM、CNN-LSTM 网络的预测结果的指标作对比,证明文中算法有效地提高了准确度。
3.1 数据归一化和评估指标
数据的大小本身存在一定差距,导致在训练过程梯度下降求最优解速度慢、预测精度低等问题,所以采用数据归一化将负荷数据压缩到[0,1]范围内。归一化公式如式(6)所示:
式中,x为原始数据,xnorm为归一化的数据,xmax为负荷数据的最大值,xmin为负荷数据最小值。
评估指标有拟合优度R2、均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE),如式(7)-(10)所示:
式中,n为预测时间点的个数,为负荷的平均值,为负荷的预测值,yi为负荷的真实值。
3.2 实验过程与分析
实验中负荷数据采用滑动窗口方式处理,以24为时间步长来重构输入数据。将2015 年1 月1 日至2018 年12 月24 日的数据作为训练数据,预测2018年12 月25 日 至2018 年12 月31 日 共7 天总计168 小时的数据。
首先将原始负荷数据送入五种网络模型(SVM、RNN、LSTM、CNN-LSTM、CNN-BiLSTM)分别进行训练及预测,对比不经过数据分解的各个网络的预测效果。原始数据与五种网络预测的结果对比如图5所示。相比于其他四种网络,未经预处理的数据在CNN-BiLSTM 上预测效果更加准确。
图5 未经预处理数据的不同网络预测结果
表1 给出了五种网络模型预测结果的评估指标。从各项指标可以看出,CNN-BiLSTM 网络的预测误差更小,网络拟合程度更高。
表1 不同网络的评估指标
由表1 可知,未经预处理数据的预测误差整体偏大,预测值和真实数据吻合度不高,所以使用CEEMDAN 算法对负荷数据进行分解。经过分解后产生IMF1-IMF12和一个残差。由图6 可以看出各个分量的频率较为稳定,呈现出较强的周期性。
图6 经过数据分解的IMF分量
将分解出的13 个分量采用两种方式送入网络模型。第一种方式:将13 个时间序列分量集成维度为(35 064,13)的新序列,以24 为步长重构输入数据送入神经网络模型中进行预测(记为Ensemble,简记为En)得到模型预测效果。另一方式则采用逐一预测,将13 个维度为(35 064,1)分量逐一送入神经网络模型(记为Respective,简记为Re),将各个分量的预测结果相加得到完整的负荷预测结果。
按照上述两种方式,采用CNN-BiLSTM 神经网络模型对两种输入方式进行训练。预测结果如图7所示。En 的预测评估指标如下:R2为0.92、RMSE 为397、MAE 为333、MAPE 为16%。Re 的预测评估指标如下:R2为0.95、RMSE 为180、MAE 为146、MAPE为8.02%。可知Re 比En 在各项评估指标上表现效果更好,所以采用Re 的输入方式。
对于Re 预测方式,在预测过程中比较发现,IMF1的预测指标R2为0.21,MAPE 为191%,由此对IMF1单独进行二次分解再预测。为了进一步提高精度,采用了EMD、CEEMDAN、VMD 三种方式分解方法对IMF1重新分解,再次送入CNN-BiLSTM 网络中预测,得到IMF1预测结果,如图8 所示,VMD 的预测曲线与真实值更加贴近。不同分解方式的评价指标比较如表2 所示。
表2 IMF1再分解的评估指标
图8 IMF1不同分解方式的预测结果
由表2 可以看出VMD 分解的效果更好,提高了IMF1 的预测精度,由此提高整个模型的预测准确度,所以采用CEEMDAN 和VMD 结合的数据分解方式。为了进一步验证网络CNN-BiLSTM 的优越性,将五个网络模型与数据分解相结合进行训练预测,预测结果如图9 所示,相较于其他网络,CNN-BiLSTM更加吻合数据真实值。各项评价指标如表3 所示。
表3 数据分解后不同网络的评估指标
图9 数据分解后的不同网络预测结果
由表3 可知,原始负荷数据经过CEEMDAN 和VMD 结合的数据分解处理后进行预测,各个网络的预测精度均有所提升。在五种网络模型中,CNNBiLSTM 的预测精度最高。
4 结束语
提出模型是一种数据分解结合算法与网络预测模型组合的负荷预测方法。首先将CEEMDAN 和VMD 算法相结合的数据分解算法对负荷数据进行预处理,再使用CNN-BiLSTM 网络对各个分量逐一预测,叠加分量结果得到最终预测负荷。
具有多重影响和不稳定性的原始数据经过分解后产生一定数量的分量,该分量具有稳定性和周期性等特点,有利于网络模型进一步挖掘数据的时序性和规律性。利用CNN 提取数据的特征,并利用BiLSTM 可以递归未来和过去的状态,进一步挖掘时序之间隐藏的关系。数据分解与网络模型的结合,充分利用了数据关联和网络特征,能够进一步提高预测精度。