基于EEMD-GA-BP模型的风电功率短期预测研究
2022-01-28朱恩文朱安麒王洁丹刘玉娇
朱恩文, 朱安麒, 王洁丹, 刘玉娇
(长沙理工大学数学与统计学院, 湖南长沙410114)
为应对能源枯竭和环境恶化等问题,人类开发了多种清洁无污染的可再生清洁能源,其中风能发电相较于其他新能源发电方式具有建设周期短、费用低、应用场地广泛等突出优势。近年来,全球风电产业迅速发展,根据全球风能理事会(GWEC)发布的数据[1],2019年全球风能产业新增装机容量为60.4 GW,同比增长19%,截至2020年3月,全球风能总容量已超过651 GW。我国幅员辽阔,海岸线长,具有丰富的风能资源,近几年来我国新增装机容量一直位居世界榜首,2019年我国新增装机容量26 870 MW,累计装机容量236 402 MW,占据全球风能总容量39%。由此可以看出风力发电在我国有着很大的优越性与可行性。为了满足我国风力发电产业的发展需求,提高风能行业在电力市场的价值,并确保我国大规模风电并网更加安全高效,许多学者都期望能够提出更加有效的风电功率预测方法。
风电场的预测主要分为风电功率的预测、风速的预测、风向的预测以及它们的混合预测。目前国内外风速预测方法主要分为物理模型、统计模型[2]、空间相关性模型[3]、人工智能模型[4]、组合模型[5-6]等5种。Ambach和Schmid[2]将一个具有交互作用的多元季节性时变阈值自回归模型(TVARX)与阈值季节自回归条件异方差(TARCHX)模型结合在一起以联合预测风速、风向和气压,并扩展了风速和风向的预测性能。Bilgili和Sahin[7]利用人工神经网络ANN方法并结合来自土耳其的4个不同站点的数据,利用周边观测站的实测数据,成功地预测了目标站点每日、每周、每月风速。季梦凡[8]先基于3种常用模型对风电功率进行单一模型预测,再根据5种基于权重的组合方法(预测误差平方和倒数法、均方差误差倒数法、熵值法等)构建出5种组合模型对风电功率进行提前10 min和1 h的预测。Cai等[9]利用广义回归神经网络(GRNN)与集成经验模态分解(EEMD)相结合的方法预测风电功率,首先利用EEMD技术进行分解,再通过基于交叉验证参数的GRNN对每个固定模态函数进行预测并叠加得到最终预测,结果表明,该方法具有较高的预测精度。徐遵义等[4]基于风速影响因素,建立了基于NARX神经网络和SVR的风电功率组合预测模型。Korprasertsak和Leephakpreeda[10]对风电场发电量的短期预测的著名模型(如ARMA模型、ANN模型、GP模型)进行比较研究,并基于这些模型的预测性能进行加权多重组合预测,最终得到每个单一模型在预测中具有有限的预测能力,而多重组合模型可以产生具有统计置信度的可靠预测的结论。从上述文献中可以看出,风电场预测研究主要侧重于:1)利用物理模型、统计模型、人工智能模型或组合模型对风电场风速或风向进行预测;2)考虑风电场风速信息,对超短期风电功率进行直接或间接预测。但是如何综合风速、风向及历史功率信息建立模型并根据模型不同预测特点加以组合,从而整体提高风电输出功率的短期预测精度,还需要进一步研究。
1 研究方法
1.1 箱型图异常值检测法
如图1所示,箱形图是用来反映数据分布特征的统计图,它还可用于质量管理,快速辨别异常值[11]。在统计学中,将所有数值按从小到大的顺序排列并划分为4等份,其中位于分割点的3个数值就是四分位数,分别记作Q1、Q2、Q3。四分位间距是指上四分位数Q3与下四分位数Q1的差,用公式表示为rIQR=Q3-Q1。箱形图异常值检测法:异常值被定义为数据集内限之外的数据,即小于Q1-1.5rIQR或大于Q3+1.5rIQR的值,
图1 箱型图
FL,FU=Q1-1.5rIQR,Q3+1.5rIQR。
与基于正态分布的3σ原则相比,箱形图识别异常值对数据分布没有任何限制性要求,并且根据四分位数的具体定义可知,四分位数不会受到异常值的影响,所以箱形图分析法更能客观地检测出异常值[12]。
1.2 EEMD算法
经验模态分解(empirical modal decomposition, EMD)是由Huang等提出的新的信号预处理分析方法,该方法广泛应用于非平稳和非线性信号处理,其本质是将信号中不同频率的波动或趋势逐级分解,最终得到频率不同的本征模态函数(intrinsic mode function),简称IMF[13]。EMD算法具体分解步骤如下:
① 设置原始信号为x(t),再算出所有的局部极值点,然后利用三次样条法进行插值连接得到x(t)的上包络E1(t)和下包络E2(t)。
② 计算E1(t)与E2(t)的平均值,构造出二者的均值曲线m1(t):
m1(t)=E1(t)-E2(t)。
③ 计算原始信号x(t)与均值曲线m1(t)的差值,得到h1(t):
h1(t)=x(t)-m1(t)。
④ 判断h1(t)是否满足IMF约束条件,若满足,则h1(t)为第一个IMF分量,记c1(t)=h1(t);若不满足,便将h1(t)看作一个新的信号x(t),重复步骤①~③,直到hk(t)满足IMF约束条件,成为第一个IMF分量时停止,记c1(t)=hk(t)。Huang等定义了标准差SD来控制IMF分解停止准则,
(1)
式中:hk-1(t)、hk(t)分别为第k-1、k次筛选IMF的过程中产生的信号序列;SD为hk-1(t)、hk(t)之间的标准差,且通常情况下取值设定在0.2~0.3,即当SD值满足0.2 ⑤ 将IMF分量c1(t)与原始信号x(t)分离,得到剩余分量r1(t), r1(t)=x(t)-c1(t)。 ⑥ 将剩余分量r1(t)当作一个新的原始信号x(t),重复以上步骤,直到rn(t)满足式(1)的停止准则或者成为一个单调函数时,分解停止。 ⑦ 上述分解过程中,x(t)被分解为n个 IMF分量c1(t),c2(t),…,cn(t)和一个剩余分量rn(t),x(t)可以表示为 相较于其他非平稳分析方法,EMD分解方法具有自适应性、完备性、正交性三大优势,但是该分解方法存在模态混叠现象,从而使得分解所得的IMF分量缺乏物理意义,进而影响到预测精度。为了对EMD模型进行改进,Wu和Huang[14]提出集成经验模态分解(ensemble empirical mode decomposition, EEMD)算法。该算法的关键是将向原始信号中引入白噪声序列,运用白噪声频谱均匀分布的特点大大减弱IMF分量的模态混叠现象。需多次重复该过程,并对EMD分解结果取均值就可以很好地抵消零均值白噪声对分解结果的影响[15-16]。 EEMD算法的具体分解步骤如下: ① 参数初始化:设置EMD分解次数为m,白噪声标准差为α(一般为原始信号0.1~0.4倍标准差); ② 在原始信号x(t)中多次加入具有零均值、标准差为α的随机白噪声序列,得到新的序列xi(t),并依照上述EMD算法进行分解,得到各自的IMF分量cij(t)和剩余分量ri(t),其中cij(t)表示第i次引入白噪声后分解所得的第j个IMF分量; ③ 对m次EMD分解结果进行集成平均运算,消除白噪声影响,得到最终EEMD分解结果为 在EEMD分解过程中,参数的设定对结果的影响较大。若白噪声标准差过小,EMD分解结果很难得到较好的改善;若白噪声标准差过大,分解时所提取的真实信号就会变少,产生一些虚假谐波分量。分解次数越大越好,但次数越大,循环所耗费的时间越多。本文EEMD算法中将白噪声标准偏差设置为原始信号的0.1倍,EMD分解次数设定为1 000次。 BP神经网络是一种前馈神经网络,其特点在于信号的前向传播和误差的反向传播,它的网络结构分为一个输入层和输出层,以及一个或多个隐藏层。BP神经网络的训练过程主要分为2个部分:第一部分是指信号的前向传播,从输入层输入样本数据,经过层层计算处理,然后将信号发送到输出层;第二部分是指误差反向传播过程,将误差分配给各层神经元从而获取各层的误差信号,根据误差依次调节两层之间的权重与阈值。这2个部分就是一次学习过程,不断重复这个过程,直到网络输出的误差降低到设定的学习目标或训练次数达到预设数量为止。 由于风电场风速波动较大,导致风电输出功率不平稳,本文采用EEMD信号分解方法对风电场输出功率进行平稳化处理,并将其与BP模型进行组合预测,预测流程如图2所示。 图2 EEMD-BP模型预测流程 BP神经网络的连接权重通过局部改进的方向逐步调整,它会使权重向局部极小值收敛,也就是说,尽管实际与期望输出之间还存在着较大误差,但继续学习下去,网络误差减少的速度会很慢或不再变化。此外,在网络拓扑结构的选择上,BP神经网络的拓扑结构目前还没有一个系统的理论指导,只能根据经验判断,因此怎样在实际应用中选择合适的网络结构是一个难题。 遗传算法(genetic algorithm,GA)是一种参数优化方法,它是对自然界生物进化机制的模拟,将自然界“优胜劣汰,适者生存”的生物进化原理引入模型的参数优化中。通过遗传算法进行随机全局搜索来选取最优的初始权值和阈值,并将其作为初始权值来训练BP网络,能够有效弥补BP神经网络局部极小化的缺点,使其能够更好地进行样本预测。遗传算法参数优化流程见图3,具体步骤如下: 图3 遗传算法优化BP神经网络流程 ① 种群初始化:将多个给定的初始权值矩阵的集合作为一个种群,集合中的每一个初始权值矩阵就是一个个体,采用二进制编码表示。因此一个三层BP网络结构中,一个个体中染色体编码的长度(即权值与阈值的数量)用公式表示为 N=ninput·lhide+lhide·moutput+lhide+moutput, 式中ninput、lhide、moutput分别为模型中各层神经元的数量。 ② 计算每条染色体所对应个体适应度。适应度是一个染色体个体能否被继续保留的标准,为了达到优化效果,需要尽可能地降低预测与期望值之间的残差,因此,选择预测样本的预测与期望之间的误差矩阵范数作为适应度函数输出。 ③ 选择算子: 根据每个个体适应度值的高低进行概率转化,从种群中选择2个个体作为父方和母方,因此适应度好的个体更有可能被选中。 ④ 交叉算子: 抽取父母双方染色体上的基因进行互换(即2个个体中的二进制编码串上的数值进行互换),产生2个新的子代个体。 ⑤ 变异算子:子代染色体上的基因变异(即单个个体的二进制编码串上的数值进行取反)。 ⑥ 重复步骤②~⑤,直到最优种群产生。 本文所用数据来源于网站“https:∥www.kaggle.com/”,为2018年土耳其某风电场风力涡轮机的SCADA数据集。SCADA系统以10 min的间隔测量和保存风速、风向、发电等数据。由于极端天气、人为检修、数据采集与测量等因素的影响,数据集中存在着部分异常数据和缺失数据。异常数据不能真实反映风电机组的发电规律,如果不正确识别和剔除异常数据,将对后续风电场功率预测建模造成极大影响,导致预测精度降低。 本文首先以0.5 m/s为间隔单位,将风速划分为相等的50个风速区间,然后对每个风速区间的风电功率数据采用箱形图分析法,剔除所有位于功率数据集内限FL,FU之外的数据点[17]。最后根据风电相关原理筛选部分异常数据(如输出功率为负值、零值等)。筛选出的异常数据与正常数据的对比如图4所示,其中剔除的异常数据占据总数据集的比例为9%,不会影响数据建模。但为了保证数据集的完整性,本文进一步采取热卡填充的方法对风电功率缺失值进行数据重构,即在整个样本数据集中找出一个距离最接近的样本,再用该对象的实际值填补缺失值。由于风速极大地影响了风电功率,因此本文将风速按0.05 m/s间隔划分为500个区间,以每个区间的平均值作为该风速区间风电功率的插补值。 图4 数据清洗前后的风速-功率散点图对比 经过数据清洗、重构后,数据集的记录单位均为小时,本文从中随机提取包含1 000个连续数据的子序列,并对该风电功率序列进行集成经验模式分解,将白噪声标准偏差设置为原始信号标准偏差的0.1倍,EMD分解次数设定为1 000次,共产生8个IMF分量以及一个剩余分量RES,如图5所示。从图5中可以看出,这些分量变化相对比较平稳。 图5 风电功率序列EEMD分解结果 将EEMD分解后所得的IMF分量及残差分量分别作为训练样本建立BP神经网络模型,模型参数如表1所示。将前一天的风电功率分量作为模型的输入向量,未来一小时的风电功率分量作为网络的输出值,建立24输入、1输出的网络结构,采用遗传算法对BP模型参数进行优化,预测各个分量未来连续24 h的预测值,对分量进行求和,得到未来24 h的风电功率值。为了比较EEMD-GA-BP模型的预测性能,本文同时利用相同数据建立了ARIMA模型、BP模型、EEMD-BP模型作对比分析。 表1 BP神经网络训练参数 风电预测的准确性至关重要,在实际建模过程中,由于测量工具、预测方法的不完善,难免存在预测误差。为了量化预测误差,本文选用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、均方根误差(RMSE)和归一化均方根误差(NRMSE)等4类指标作为模型评价准则,其计算公式为: 表2列出了上述模型的4类评价指标值,根据预测误差大小对比,可以看出基于历史功率建立的EEMD-GA-BP模型的MAE、MAPE 、RMSE和NRMSE值均低于另外3种方法。就均方根误差而言,EEMD-GA-BP模型预测性能相较于ARIMA模型提升了59%,相较于BP模型提升了53%,相较于EEMD-BP模型提升27%。 表2 不同模型预测误差对比 为了更准确地判断模型在不同预测时间尺度上的预测效果,本文将预测时间尺度分为3、6、24 h进行多步预测。表3列出了不同预测时间尺度下,模型预测的归一化均方误差。从表3中可以看出,预测时间尺度较低,如3、6 h时,简单的BP模型反而能达到较优的预测效果,但是随着预测步长的增加,模型的预测精确度明显降低。而EEMD分解算法和遗传算法从整体上降低了风电功率未来24 h的预测误差,模型预测效果比较稳定。 表3 不同时间尺度模型预测归一化均方误差(NRMSE)对比 图6给出了4种模型未来24 h风电功率预测值对比。从图6中可以看出,EEMD-GA-BP模型预测曲线与实际功率曲线最贴近,说明该方法整体的拟合度较好,且预测效果最为稳定。并且与BP模型和EEMD-BP模型相比,EEMD-GA-BP模型明显改善了未来12~24 h时间段的预测精度。 图6 模型输出功率预测值对比 采用箱型图异常值检测方法能够很好地剔除原数据集中的分散性异常数据以及堆积型异常数据。遗传算法与EEMD分解算法相结合的方式改进BP算法,比单一BP模型预测效果更为稳定,解决了传统BP神经网络模型存在的局部极小化问题,并且根据不同时间尺度预测结果对比,得到EEMD-GA-BP模型比传统的ARIMA模型、BP模型、EEMD-BP模型预测精度更高,更为稳定。1.3 EEMD-BP算法
1.4 遗传算法优化的EEMD-BP算法
2 实证分析
2.1 数据预处理
2.2 EEMD分解
2.3 预测结果及分析
3 结语