APP下载

基于多任务高斯过程模型的短期负荷预测研究

2021-03-10朱维娜

科技创新导报 2021年25期
关键词:多任务

朱维娜

摘要:电力负荷预测是电网调度的重要问题之一。本文研究一种基于多任务高斯过程,包含曲线聚类的回归模型在短期负荷预测上的应用,该模型可以利用非齐次的相似日负荷数据同时完成多任务学习、聚类与预测。通过实例分析,表明了该模型在基于相似日聚类的短期预测上具有一定的可行性及有效性,为研究短期负荷曲线聚类与预测提供了新的模型参考。

关键词:电力负荷  多任务  高斯过程  曲线聚类

中图分类号:TM715

Abstract: Power load forecasting is one of the important problems of power grid dispatching. This article studies the application of a regression model based on multi task Gaussian process including curve clustering in short-term load forecasting. The model can use non-homogeneous similar daily load data to complete multi task learning, clustering and forecasting at the same time.  The example analysis shows that the model has certain feasibility and effectiveness in short-term forecasting based on similar days clustering, and provides a new model reference for the study of short-term load curve clustering and forecasting.

Key Words: Power load; Multi-task; Gaussian process; Curve clustering

隨着我国电力大数据建设的持续推进,电力负荷数据可以被实时的高频采集存储,一段时间内的多组负荷数据近似于具有某些共同结构但包含噪声的函数对象,聚类作为数据挖掘的重要方法之一,对于负荷的函数型聚类分析也称为负荷曲线聚类分析,在近年来成为负荷预测研究的一个热点方向[1,2]。

目前负荷曲线聚类预测有直接聚类和间接聚类,直接聚类是基于原始负荷数据直接对曲线聚类,如有研究[3]使用GMM聚类算法对智能电表用户分季节聚类,结合聚类结果预测负荷;间接聚类针对高维的负荷数据先做降维处理再聚类,相关研究[4]中先利用PCA算法将负荷数据降维至可视化的三维,确定聚类算法的最佳类数和k-means聚类的初始聚类中心后,再使用智能电网用户的数据进行聚类。本文研究的是一种基于自适应模型的直接聚类[5],由于短期负荷曲线具有较大的随机性,较符合高斯过程,而高斯过程凭借可以提供预测值不确定性分析等优点,已在多个领域已有广泛应用,该模型还结合了机器学习的多任务学习思想,充分利用了数据的共享信息,且对于非齐次的数据比较友好,可以适应实际中经常面临的数据不完整问题。

短期负荷预测受到天气、节假日等多种因素的影响,许多学者会基于相似日对负荷进行聚类预测,如有研究[6]在对钢铁企业的电力负荷做预测时考虑了生产工况存在的日相似性,对相似日聚类后结合优化算法预测,取得较好的效果。由于节假日大部分生产活动的不确定性较大,因此本文主要研究工作日的短期负荷预测。

1模型介绍

1.1多任务高斯聚类回归模型

对于一天内的负荷曲线,模型结构定义如下:

其中表示条负荷曲线,假定聚类数目为类,以潜变量表示第条负荷曲线属于类的概率,服从多点分布。

表示划分为第类的负荷曲线的均值函数,假定均值函数服从高斯过程,记为,其中是第个高斯过程的均值函数,是第个高斯过程关于超参数的协方差核函数。

是第条负荷曲线的个体特征函数,假定个体特征函数也服从高斯过程,记为,其中是第个高斯过程关于超参数的协方差核函数。

是随机误差项,也服从一个高斯过程,记为,其中是第条负荷曲线函数的方差。

模型中的协方差核函数均用指数二次核来刻画,这是一种在包含高斯过程的文献中常见的核,这个核取决于两个超参数,核的形式如下:

1.2参数估计与预测

该模型的参数估计主要采用变分EM算法,变分方法已被证明非常适用于复杂高斯过程问题的推理[8]。

在该模型中,假设对于任意的和都有、、、相互独立,通过在训练样本数据对数似然和潜变量的分布之间引入KL散度,获得训练样本数据对数似然的一个下界,这个下界与潜变量的分布 和超参数集合有关,在潜变量和相互独立的假设下,可以分别计算出和真实超后验分布的解析近似和,其中,。接下来在变分EM算法的E步根据这个下界来更新和的解析近似分布和,在M步中最大化这个下界以优化超参数,迭代E、M这两个步骤直至收敛,即可估计出超参数集合。

对于一条新的负荷曲线,根据已知部分观测值,预测其他时间点的负荷,首先在已估计出均值函数的基础上,扩展时间点为增加预测时间点的,即可得到覆盖所有时间网格点的均值函数,此时仅需采用EM算法,根据新个体已知的部分观测值和均值函数,在E步估计出新个体的潜变量的后验分布,再通过M步更新这个新个体的超参数,迭代E步和M步直至收敛即可估计出新个体的所有参数。最后基于新个体属于每一类的概率对均值函数进行加权计算,就得到了最终的预测结果。

2实例分析

选用美国电力公司2021年9月9日至10月7日的除去非工作日共22d的实时负荷数据,采集频率为5min/每次,数据来源于PMJ电力市场官网公开的电力负荷数据集,存在轻度缺失。由于该模型有多个高斯过程,训练模型的时间复杂度较高,仅选用15min粒度负荷数据,最终得到了22条在时间上有96维且存在少量缺失值的负荷数据。

按照时间顺序,选择前21条负荷数据作为训练样本,第22条曲线作为新个体,即10月7日的负荷曲线,将新个体前80个时间点的负荷作为已知数据,后16个时间点(4h)作为待预测时间点。

首先初始化模型的参数:结合曲线形态设置聚类数目,设每个均值函数所服从高斯过程的均值为0,协方差核的超参数,每个个体特征函数所服从高斯过程的协方差核的超参数,每条负荷曲线方差。然后用训练样本数据训练模型,模型经过两次迭代后收敛,用时35s。最后第22条负荷曲线的已知数据带入训练好的模型估计新个体的参数,模型经过6次迭代后收敛,用时7s,即可得出新个体包含待预测时间点的负荷曲线函数,结果如图1所示。

图1中的蓝色曲线即为新个体的负荷曲线,以20:00为界,前半段是对新个体已知负荷数据的(黑点)拟合,后半段是对待预测时间点负荷数据(红点)的预测,用3种不同的颜色区分被聚成的3类训练样本数据,虚线表示每个类的均值函数。如图1所示,预测结果十分接近美国电力公司10月7日20:00-24:00的真实负荷,除了对真实负荷尾部波动的预测不够好,但该波动也可能受其他因素的影响,以下是对该模型的进一步探索。

表1的每行分别是对美国电力公司10月5日、10月6日和10月7日在20:00-24:00时间段的16点负荷预测RMSE,第一列是用单一高斯过程(GP)的方法,仅基于新个体当天20:00前的80个负荷数据做预测,第二列和第三列都是用本文介绍的多任务高斯过程(Multi_task GP)的方法。区别在于:第二列选择10月5日前的负荷数据训练模型,然后基于该模型分别对3条新曲线做预测,而第三列在预测10月6日和10月7日的负荷曲线时,分别加入了前一天和前两天的负荷数据重新训练模型后再预测。如表1所示,第一列的预测RMSE远大于第二列,第三列的预测RMSE略小于第二列。这表明,对比单一高斯过程模型,该模型在处理这个短期负荷预测的问题上有显著优势,而且新的负荷曲线数据的加入可能会进一步提升该模型的预测效果。

3结语

本文利用美国电力公司的工作日15min 粒度负荷数据研究了一种多任务高斯过程的聚类回归模型在短期负荷预测上的表现。通过多次对比发现,在这个短期负荷预测问题上,该模型的预测负荷与实际负荷基本吻合,在对比单一高斯过程模型时具有突出优势,且加入新的负荷曲线数据重新训练模型可能会对该模型的预测效果有提升作用,为研究短期负荷的精准预测提供了有价值的模型参考。

参考文献

[1]邓威,郭钇秀,李勇,等.基于聚类及趋势指标的长短期神经网络配网负荷短期预测[J].湖南电力,2021,41(4):27-33.

[2]魏勇,李学军,李万伟,等.基于空间密度聚类和K-shape算法的城市综合体负荷模式聚类方法[J].电力系统保护与控制,2021,49(14):37-44.

[3]薛琳.基于用电行为分析的低冗余特征配电网短期负荷预测研究[D].吉林:东北电力大学,2019.

[4]吴孟林.智能电网中居民用户聚类与短期负荷预测研究[D].重庆:重庆邮电大学,2019.

[5] Leroy Arthur,Latouche Pierre,Guedj Benjamin and Gey Servane.Cluster-Specific Predictions with Multi-Task Gaussian Processes[EB/OL].(2020-11-17).[2021-10-22].https://arxiv.org/abs/2011.07866v2.

[6]胡函武,杨英,魏晗,等.短期負荷预测方法综述[J].电子世界,2018(20):109.

[7]李维钧.基于相似日聚类的钢铁企业电力负荷预测[D].大连:大连理工大学,2021.

[8] Hensman James,Fusi Nicolo and Lawrence Neil D.Gaussian processes for big data[EB/OL].(2013-9-26).[2021-10-22].https://arxiv.org/abs/1309.6835.

3171500338299

猜你喜欢

多任务
异构混合云服务下的多任务算力度量方法
数字时代的注意困境:媒体多任务的视角*
结合自监督学习的多任务文本语义匹配方法
面向多任务的无人系统通信及控制系统设计与实现
基于中心化自动加权多任务学习的早期轻度认知障碍诊断
基于判别性局部联合稀疏模型的多任务跟踪
基于多任务异步处理的电力系统序网络拓扑分析
DSP多任务实时操作系统内核设计
一类完全由内积构造的多任务核的几个性质
基于单片机应用系统的多任务程序结构设计