基于双重注意力机制和GRU 网络的短期负荷预测模型

2022-02-24卢先领

计算机工程 2022年2期

李晓，卢先领

（1.江南大学轻工过程先进控制教育部重点实验室，江苏无锡 214122；2.江南大学物联网工程学院，江苏无锡 214122）

0 概述

随着国家大力推进泛在电力物联网的建设，电力系统已向高智能、信息化方向发展。电力负荷预测是其中重要的一环，其结果将对电力系统的部署、规划和运行产生很大的影响。此外，准确预测电力负荷不仅可以保证电力系统的安全，而且也能保证供电企业对供电项目进行实时调度［1］。

短期电力负荷预测主要对电力系统未来几小时到一天的用电量进行预测，电力负荷的随机性和非线性，使得预测难度提升。同时，受实时变化的环境因素如温度、降雨、湿度、光照等以及用户主观的影响，短期负荷预测的复杂程度进一步增加，精确的短期负荷预测成为一项极具挑战的任务［2］。

短期负荷预测有较多方法，其中传统的预测方法有时间序列法［3-4］、回归分析法［5］等。这些方法的实现原理简单、运算速度快，适合处理结构简单、规模小的数据集。但随着基础设施不断完善，用户规模不断扩大，电力数据呈现爆发式增长。同时，由于其电力数据非线性、适应性差的特点，传统方法逐渐被淘汰，而机器学习方法因其强大的适应性和非线性处理能力得到应用。支持向量回归（Support Vector Regression，SVR）［6-8］、神经网络模型［9］展现出不错的效果。文献［10］引入灰色关联分析改善样本筛选，提高数据利用率，并利用混沌粒子群算法优化完善最小二乘支持向量机的参数选择，从而能更好地进行负荷预测。文献［11］根据负荷参考指标的非线性提出核主成分分析来改进极限学习机（ELM）神经网络，降低了输入维数，有效地提高了预测精度。文献［12］提出一种基于最大偏差相似性准则的BP 神经网络短期电力负荷预测算法，通过改进最大偏差相似性准则，在最大偏差相似性准则算法聚类后的类中心负荷特征的距离基础上，使用预测日的负荷特征向量来确定预测日的相似日类别。上述方法将影响居民用电情况参量的相关性纳入考虑范围，突出了重要特征。但由于所采用的关联规则方法依赖专家经验，导致特征选取具有一定的主观性，且无法根据实际情况做出自适应的调整，预测时精度呈现不稳定性。

深度学习算法在处理大数据量问题时具有良好的特征提取能力，而短期负荷预测需要从复杂多变的历史负荷数据中提取典型特征，才能做出准确的负荷预测，所以深度学习方法被广泛应用到短期负荷预测中。文献［13］将深度残差网络应用到负荷预测中，具有很好的泛化能力，但同样忽视了时序性的研究。通过研究历史负荷数据得知，负荷有明显的周期性规律，因此在研究短期负荷问题时要考虑其时序性。深度学习模型中的LSTM 网络、GRU 网络能记忆相关历史信息，从而学习负荷的变化情况。文献［14］提出一种Seq2seq 模型，通过LSTM 网络构建的编解码器分析用户负荷数据的周期性波动特征，建立负荷数据的相关性并进行预测。文献［15］通过隔离森林算法挖掘清理异常历史负荷数据，利用LSTM 网络学习负荷的时序特性并进行预测。文献［16］通过卷积神经网络CNN 提取负荷特征，并利用LSTM 网络学习负荷的长短期依赖关系。相较于手动提取特征，该方法的提取结果更全面且误差更小。文献［17］引入循环神经网络（Recurrent Neural Network，RNN）以捕获在时间上距离很远数据间的相关性，并利用Zoneout 技术解决梯度消失问题，大幅减少待训练的网络参数。文献［18］提出一种双向GRU 网络预测模型，通过分析过去和未来的负荷信息学习其周期性和非线性。上述方法虽然能很好地处理负荷在时序上的相关性问题，但忽视了实际运行中各输入特征的关联关系，存在片面性。

深度学习中的注意力机制［19］是根据人们在处理全局图像时，自主增强焦点区域信息通过抑制其他冗余区域表达的选择性来反映全局信息，而衍生出的以从众多信息中自主选择对当前任务更关键信息的一种信息处理方式［20］。基于上述原理，针对短期负荷预测深受实时变化的环境因素与居民自身主观因素影响的问题，设计出特征注意力机制和时序注意力机制，利用特征注意力机制来分析不同输入参量对负荷的重要程度，挖掘出关联关系。同时，利用时序注意力机制分析各历史时刻的负荷对待预测时刻负荷的重要程度，来选择关键时间点数据，从而提高预测精度。

本文提出一种基于GRU 网络的双重注意力机制，利用特征信息的关联性和时序信息依赖性提升负荷预测的准确率。使各时刻的原始输入信息结合前一时刻GRU 网络隐藏的状态信息，并将其输入到特征注意力机制中，分析得到各输入特征的影响力权重，加权后得到优化后的输入数据。在此基础上，使用GRU 网络学习特征，将当前时刻网络的隐藏状态输出结合各历史时刻的隐藏状态输出，并通过时序注意力机制，分析得到各历史时刻隐藏状态的影响力权重，加权后得到当前时刻最终隐藏状态的输出，最终通过全连接输出层得到预测结果。

1 深度学习模型原理

1.1 GRU 网络

通过研究历史负荷数据得知，负荷有明显的周期性规律，因此在研究负荷问题时要考虑其时序性。深度学习模型中LSTM 网络及GRU 网络能记忆相关历史信息，从而学习负荷变化情况。LSTM 网络被广泛使用，能够分析时间序列数据及捕获长期依赖关系。而GRU 网络由LSTM 网络改进而来，其通过减少及合并门结构单元优化LSTM 复杂的内部结构，从而在保证精度的前提下提高网络的训练速度［21］。LSTM 包含输入门、遗忘门和输出门，而GRU则只包含更新门和重置门，后者减少了参数的训练。更新门控制前一时刻状态信息保留到当前状态中的程度，值越大表示前一时刻的状态信息保留越多。重置门控制当前信息与先前信息结合的程度，值越小说明忽略的信息越多。GRU 网络结构如图1所示。

图1 GRU 网络结构Fig.1 Structure of GRU network

GFEU 网络结构参数单据关系如式（1）～式（4）所示：

其中：zt为更新门；rt为重置门；Xt为当前输入为输入和过去隐层状态的汇总；ht为隐藏层输出；Wz、Wr、Wh～均为可训练参数矩阵。

1.2 注意力机制

注意力机制是一种模拟人脑注意力的模型，借鉴了人脑在某个特定时刻对事物的注意力会集中到特定的地方，而减少甚至忽略对其他部分注意力的特点。注意力通过对模型的输入特征赋予不同的权重，突出更关键的影响因素，帮助模型做出更加准确的判断。

在特征关联分析方面，利用GRU 网络分析前一时刻隐藏状态输出和当前时刻输入特征，通过多层感知机构建的注意力机制分析得出注意力权重，来反映当前各输入特征对待预测信息的重要程度，提高预测模型的学习效果。

目前国际形势复杂多变，中美贸易纠纷不断升级，新形势下，国内地板行业面临木材原料供应紧张，出口市场受阻，国内竞争日益激烈的局面;但总体来看，木地板行业发展平稳，优质环保地板需求增长，品牌企业业绩增长显著，消费集中向大品牌、个性化品牌倾斜。

在时序分析方面，注意力机制通过概率分配方式对GRU 网络各历史时刻进行重要性分析，突出关键时刻输出的比重，帮助模型做出更准确的预测。

基于上述理论，利用特征注意力机制来分析不同输入参量对负荷的重要程度，挖掘出其关联关系。同时，利用时序注意力机制分析各历史时刻的负荷对预测时刻负荷的重要程度，来选择关键时间点数据，从而提高预测精度。

2 基于双重注意力机制和GRU 的负荷预测模型

2.1 特征注意力机制

影响大众电力消费行为的因素有很多，如温度、降雨、湿度、光照、节假日等。为探索相关因素对人们电力消耗的关联性高低程度，引入如图2 所示的特征注意力机制，并采用多层感知机的方法量化各特征影响力的权重。

图2 特征注意力机制Fig.2 Feature attention mechanism

将特征时间序列前一时刻GRU 网络的隐藏状态ht-1和当前时刻输入特征作为特征注意力机制的输入，通过式（5）对当前时刻各特征进行注意权重的计算后进行式（6）的归一化处理，并根据注意力权重增强或削弱相关输入信息的表达，将当前时刻得到的权重与对应特征相乘，输出Xt，从而自适应优化相关特征的影响力。

其中：Ve∈ℝT、We∈ℝT×q、Ue∈ℝT×T均为多层感知机需要学习的神经元权重；be∈ℝT为偏置参数；q为编码器GRU 网络最后一层隐藏层神经元数量。特征权重和优化的输入信息的计算公式如式（6）和式（7）所示：

通过特征注意力机制学习当前时刻各输入特征与待预测负荷信息的相关性，并自适应处理原始输入的特征，以强化相关特征影响力及弱化不相关特征。

2.2 时序注意力机制

居民当前用电负荷情况受历史状态影响较大，且不同时刻的负荷情况影响力不同。为研究每一历史时刻状态信息对当前预测结果的影响程度，引入如图3 所示的时序注意力机制至GRU 网络，以自适应处理历史状态信息，并强化相关时刻状态信息的影响力。

图3 时序注意力机制Fig.3 Temporal attention mechanism

以包含各历史时刻信息的最后一层隐层状态作为时序注意力机制的输入，分析历史状态与当前状态的关联性，并赋予影响权重，计算公式如式（8）～式（11）所示：

2.3 基于双重注意力机制的GRU 模型

双重注意力机制的GRU 模型包括输入向量、特征注意力层、3 层GRU 网络、时序注意力层、全连接层输出。输入向量结合前一时刻GRU 网络的隐藏状态，经过特征注意力层计算得到各特征量对当前预测情况的影响权重，并得到修正后的输入特征。经过两层GRU 网络学习特征，再通过时序注意力层计算出各历史时刻输出信息的影响权重，得到改进后的当前时刻隐层状态输出，最后输入到全连接层得到最终预测结果，结果如图4 所示。

图4 基于双重注意力机制的GRU 网络模型结构Fig.4 Structure of GRU network model based on dualstage attention mechanism

将原始输入信息和前一时刻GRU 网络的输出通过注意力机制进行计算，并得出当前时刻输入的特征对本次预测的权重，赋予原始输入信息对应权重，得到新的输入信息。此外，GRU 网络随着层数的增加，非线性拟合能力也不断提高，学习效果越好。但考虑到训练时间的问题，层数的选择也要适中。实验设置3 层GRU 网络：第1 层设置128 个神经元，以学习特征；第2 层设置64 个神经元，以减少冗余数据的干扰；第3 层设置29 个神经元。时间步长为24，学习率为0.001，训练周期为1 000 次。另外，结合当前时刻网络输出与历史输出，并通过注意力机制分析所输入特征对预测的影响权重，突出关键时刻的影响因素，得到新的输出向量。最后通过全连接层得到预测结果。

3 算例分析

3.1 数据集

本文采用3 个真实的电力负荷数据集验证模型性能，分别为美国纽约电力市场（2018—2020 年）数据、印度旁遮普省电力消耗（2019—2020 年）数据、美国德克萨斯州电力可靠性委员会（2006—2012 年）数据。包括：24 点负荷数据，温度，湿度，光强，降雨量，节假日情况（工作日为1，休息日为0），并间隔1 h 采集1 次数据。为分析本文模型的效果，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNNLSTM、Attention-CNN-GRU 模型进行对比。SVR 模型采用径向基核函数（RBF），惩罚因子为1 000；KPCA-ELM模型设置了5 个主成分，ELM 模型为单隐藏层结果；DBN 模型采用了神经元个数均为25 的3 层隐藏层结构；GRU 模型采用了神经元个数均为29 的3 层隐藏层结构，时间步长为24，学习率为0.001，训练周期1 000 次。单注意力机制模型的GRU 网络采用了神经元个数均为24 的3层隐藏结构，时间步长为24，训练迭代次数为1 000次，学习率为0.001；Attention-CNN-GRU模型由2个卷积层、2个池化层和全连接层组成CNN框架。为保证实验的有效性和可靠性，所有方法的实验条件均相同。

3.2 评价指标

误差指标采用平均绝对百分比误差（Mean Absolute Percentage Error，MAPE）和均方根误差（Root Mean Square Error，RMSE），计算公式如下：

其中：n为预测点个数；li表示第i点的真实值表示第i点的预测值。

3.3 实验结果与分析

3.3.1 Mendeley 数据集上的实验结果对比

本文将2018—2019 年的美国纽约电力市场电力数据作为训练数据，将2020 年的数据作为测试数据。各模型预测误差如表1 所示。

表1 不同模型在Mendeley 数据集上的预测精度比较Table 1 Comparison of prediction accuracy among different models on Mendeley data sets

实验结果表明，本文模型的误差为3.82%，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU 模型相比，分别降低了2.65、1.32、2.25、1.66、1.29、1.05、0.65 个百分点。RMSE 模型的误差也小于其他模型，可见本文模型比传统机器学习、深度学习方法有更好的预测效果。此外，相比于传统关联分析与神经网络相结合的模型，本文模型取得的预测效果更好。

3.3.2 Kaggle 数据集上的实验结果对比

本文将印度旁遮普省电力消耗（2019—2020 年）数据集前18 个月作为训练数据，后6 个月作为测试数据。各模型预测误差如表2 所示。

表2 不同模型在Kaggle 数据集上的预测精度比较Table 2 Comparison of prediction accuracy among different models on Kaggle data sets

实验结果显示，本文模型的误差为3.17%，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU 模型相比，分别降低了2.67、1.44、2.04、1.51、0.99、0.69、0.36 个百分点，充分证明了本文模型的准确性。

为更直观地描述本文模型的预测效果，图5 给出了各模型针对印度旁遮普省某日上午电力负荷数据的预测曲线。由图5 可知，各模型均能预测曲线的走势，总体上误差相差不大，但随着时间的推移，到负荷最低点时，各模型间的差异开始凸显。传统模型SVR、GRU、DBN 的误差都较大，Attention-GRU、CNN-LSTM、KPCA-ELM 模型的误差略优。虽然Attention-CNNGRU 模型的效果很好，但本文模型的误差更小，准确率更高。综合分析，本文模型的性能最优。

图5 负荷曲线1Fig.5 Curve of load 1

3.3.3 ERCOT 数据集上的实验结果对比

本文将2006—2009 年美国德克萨斯州电力可靠性委员会电力数据作为训练数据，2010—2012 年的数据作为测试数据。各模型的预测误差如表3 所示。

表3 不同模型在ERCOT 数据集上的预测精度比较Table 3 Comparison of prediction accuracy among different models on ERCOT data sets

实验结果表明，本文模型的预测精度达到97.33%，均方根误差仅为107.754 kW，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU 模型相比，平均绝对百分比误差分别减少了2.1、0.65、1.51、0.95、0.85、0.48、0.22 个百分点，均方根误差分别降低了143.377 kW、120.677 kW、137.093 kW、129.71 kW、122.717 kW、81.683 kW、35.424 kW。综合分析，本文模型在MAPE 和RMSE 指标上均有显著减少，表明该模型的预测性能优于其他方法。

为验证特征注意力机制自适应挖掘各特征参量的关联性，对训练完成的模型进行实验，提取某日24 h 的特征分析情况。关系热力图如图6 所示，其中每个方块的颜色表征该特征与待预测负荷的相关性分数，每行所有方块表征的相关性分数和为1，方块的颜色代表相关性分数的高低，颜色越浅，对应的特征与待测数据越相关，对待测数据影响力越大。

图6 负荷关联特征热力图Fig.6 Association heat map of load

由图6 可知，节假日所对应的热力图颜色很淡，表明节假日对用户负荷情况影响很大。在温度所对应的热度图中，在午间时分颜色越来越淡，可知午间温度高时对负荷的影响也很大。而湿度对负荷的影响不大，只在早晨和夜晚时分略有影响。光强对负荷的影响主要在正午光照最强时，天气晴朗时降雨减少，对负荷的影响也变小。总体关联关系较符合居民用电规律。

为更直观地表征本文模型的准确性，使用各模型对美国德克萨斯州电力可靠性委员会某日的数据集进行预测，结果如图7 所示。由图7 可知，各模型均能预测曲线的走势，误差相差不大，但到负荷最低点时，误差开始增大。传统模型SVR、GRU、DBN 误差均较大，Attention-GRU、CNN-LSTM、KPCA-ELM 模型略优，虽然Attention-CNN-GRU 模型的效果也很好，但本文所提模型误差更小，准确率更高。在最高负荷点时，各模型的误差也有所增加，但本文模型预测精度相对更高。

图7 负荷曲线2Fig.7 Curve of load 2

4 结束语

针对电网负荷影响因素不稳定以及递归神经网络捕获负荷数据的长期记忆能力差导致的预测精度下降问题，本文提出一种基于双重注意力机制和GRU 网络的短期负荷预测模型。针对多变的输入特征，通过特征注意力机制分析相关特征的重要性，从而优化输入特征。同时，使用时序注意力机制，并结合历史信息，分析负荷的时序特性，挖掘关键历史信息，以优化模型的输出，提高模型预测准确度。实验结果表明，本文模型与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU 模型相比，预测精度分别提高了2.47、1.14、1.93、1.37、1.04、0.74、0.41 个百分点。下一步将引入特征选择算法以寻找更优的参考特征，并通过加深GRU 网络隐藏层的深度，优化注意力模型，提高关联分析能力与短期负荷预测精度。