基于组合模型的短期电力负荷预测
2022-12-17曹赟姚方张功勋
曹赟,姚方,张功勋
(山西大学 电力与建筑学院,山西 太原 030013)
0 引 言
短期负荷预测一般指预测未来几小时的电力负荷或未来几日的电力负荷,可为电力规划调度提供重要的理论依据,关乎生产管理的合理性。目前,短期负荷预测主要通过分析历史负荷数据建立负荷预测模型,对将来短期负荷进行预测,主要方法为数学分析方法和机器学习方法。传统的负荷预测方法主要为数学分析方法,包括时间序列模型和回归分析模型等。这些模型相对简单,当负载序列稳定性高时,性能良好,但仅使用历史负荷值,在应对短期电力负荷复杂快速变化趋势时,难以实现较高的预测精度[1]。基于机器学习预测包括支持向量机[2]、深度学习[3-5]和提升算法等。深度学习在处理非线性、高维数据上有显著优势,有卓越的自动特征提取能力。因此近年来长短期记忆网络普遍应用到负荷预测中,文献[4]对长短期记忆网络(long short-term memory,LSTM)改进,使其对时变性、耦合性和多元性冷热电负荷预测达到较好的预测结果,表明了LSTM网络在负荷预测中的优势。文献[6]中,负荷预测模型基于极限提升算法(XGboost) 运用在真实电网数据试验中,证明提升算法模型在负荷预测方面具有有效性和优越性。文献[7]运用一种基于梯度提升决策树的机器学习方法(Catboost算法),可以有效处理回归预测问题,极度简化了前期数据处理和特编码方式转化为数值型特征的步骤,并在负荷预测试验中表现优良,证明了该算法在负荷预测中的可行性。
单一的提升算法对时间序列负荷预测仍有局限性,为此本文将结合LSTM算法在处理时间序列负荷上的优势与Catboost算法的鲁棒性结合,构建了LSTM-Catboost组合模型。本文将某商业园区负荷数据、天气数据和时刻数据分别输入到LSTM网络和Catboost模型,然后通过均方误差倒数方法计算各方法的权重,得出最终预测结果,通过算例表明LSTM-Catboost组合模型比其他模型预测更准确。
1 LSTM网络与Catboost算法
1.1 LSTM网络
循环神经网络(recurrent neural network,RNN)是一种具有内存的网络,在预测时间序列方面的工作效率很高。在RNN中,信息从每个神经元流到其图层中的其他神经元。LSTM是RNN单元的一个扩展,它克服了RNN单元在对大型时间序列处理时所存在的梯度消失和梯度爆炸的缺点。
1.2 Catboost算法
Catboost算法是集成学习领域中Boosting分支的代表,属于梯度提升框架的一个高效实现形式。Catboost比传统的梯度下降树有更高预测精度、更低的过拟合和更短的训练时间。Catboost提出了排序提升策略以解决标准梯度下降树模型存在的梯度偏差和预测偏移问题,同时采用了完全对称决策树来提高模型的泛化能力与预测速度。CatBoost使用对称二叉决策树作为基本预测器,在选择树结构时对树叶值进行随机排列估计,每次分裂节点均使用相同的策略,使其有较强的鲁棒性。
2 LSTM-Catboost组合模型
2.1 数据预处理
负荷预测主要依据历史数据,首先对历史数据进行选择和填补。本文利用垂直数据的平均值来填补空缺数据,而对于某列元素NAN值较多的情况,对列进行删除,例如降雨量多数情况为0便不考虑本列对负荷的影响。
为提升损失函数的收敛速度,0均值标准化方法被采用。样本归一化后的值计算如式(1)所示。
(1)
2.2 组合模型
1) 权重系数
组合预测模型是提升预测精度方法之一,其中最重要的一部分是确定权重系数。本文以LSTM、Catboost模型作为单个预测模型,并采用均方误差倒数方法确定权重系数,计算公式如式(2)所示。
(2)
式中:eMSEi为第i个模型的样本均方误差值。通过与其他参数倒数方法比较,此方法获得的权重组合模型训练精度最好。通过式(3)计算最终值。
(3)
2) 组合模型
LSTM-Catboost组合模型流程如图1所示。
第一步,将负荷数据、温度数据和时刻数据等进行预处理,对处理好的数据进行划分,分为训练集、验证集和测试集。
第二步,将训练集输入LSTM网络中进行训练和手动调节超参数。将验证集输入到网络,当训练次数达到最大或者损失值达到最小时保存模型,确保LSTM模型达到良好的预测效果。因Catboost算法在超参数调优方面具有优势,可将训练集和验证集同时输入到算法中,保存训练模型。
第三步,将测试集同时输入两模型中,得出结果,运用均方误差倒数方法确定权重,将两单一模型组合,获得最终的预测结果。
图1 LSTM-Catboost组合模型流程
3 算例分析
3.1 样本数据和操作平台
样本数据集为某商业园区每小时的负荷数据、对应的温度数据和时刻数据。从2014年1月1日零时到2018年1月1日零时的负荷数据,按照6.3∶2.7∶1 的比例划分训练集、验证集和测试集。
3.2 误差指标
本文负荷预测误差比较运用平均绝对百分误差(eMAPE)、均方误差(eMSE)和均方根误差(eRMSE),如式(4)~式(6)所示。
(4)
(5)
(6)
3.3 模型参数设置
LSTM网络通过一系列试验和测试最终选取。LSTM堆叠层数两层,隐藏层大小为128,损失值选取0.2,学习率为0.001,对整个训练集训练10次。Catboost算法的参数最终确定迭代次数为700,学习率为0.015,选取叶子数为4,深度为6。
然后对权重参数进行对比学习,采取三种方法进行对比,对比试验结果如表1所示。
从表1可看出,均方误差倒数法所得模型最优,因此使用均方误差倒数法来计算最终预测结果。
表1 三种权重算法的结果比较
3.4 试验结果及分析
预测2017年12月29日24时至12月30日24时的负荷。将差分整合移动平均自回归模型(autoregressive integratedm moving average model,ARIMA)时间序列预测结果和反向传播算法(BP算法)的测试结果与本文模型的测试结果进行比较。可以看出本文模型较传统的负荷预测方法和单一深度学习算法预测精度明显提升,如图2所示。
图2 本文算法预测结果与ARIMA算法和BP算法预测结果比较
将XGboost和梯度提升决策树的测试结果与本文模型的测试结果进行比较,证明了本文模型的优越性,本文模型较提升算法预测精度明显提升,如图3所示。
本文算法误差指标与提升算法误差指标对比如表2所示,可知本文算法预测精度高。
4 结束语
在对负荷预测要求不断提升的前提下,为提高负荷预测精度,本文提出了一种基于LSTM 网络和 Catboost 模型的双模型组合预测方法,该方法结合了LSTM网络的时序性和Catboost模型的鲁棒性和通用性。与单一模型比较,本文方法具有更好的预测精度。本文方法可以对商业园区日负荷进行准确预测,从而对电力分配调度和电网布局进行有效指导。
图3 本文算法预测结果与提升算法预测结果
表2 本文算法误差指标与提升算法误差指标对比