基于变量选择深度信念神经网络的风速预测

2021-02-03李大中张克延

华北电力大学学报(自然科学版) 2021年1期

李大中，李昉，张克延

(华北电力大学控制与计算机工程学院，河北保定 071003)

0 引言

风力发电作为一种清洁、可持续的发电方式，成为新能源发电的重要组成部分，在经济社会快速发展的今天，受到各国广泛重视[1]。自然界中风速本身的波动性和间歇性，导致风电功率具有不确定性，进而严重影响电网电能质量及安全稳定运行[2]。影响风电功率的主要因素是风速，因此，准确的风速预测对优化风电系统运行策略和提高发电效率意义重大[3，4]。

国内外学者对风速预测方法进行了大量研究，常用方法包括:时间序列法[5]、神经网络[6]、卡尔曼滤波[7]、支持向量机[8]等，以上方法在风速预测领域的应用由来已久，各方法适用范围和侧重点有所不同。

近年来，各种深度学习算法不断涌现，为进一步提升风速预测精度，一系列深度神经网络算法被应用到风速预测领域，为风速预测提供了新的解决思路。相比于预测效果较为有限的浅层模型，深度神经网络模型对风场大数据的利用效率更高，预测效果更好。

文献[9]通过结合循环神经网络和卷积神经网络各自的优势，提出一种卷积循环神经网络(CRNN)深度学习风速预测模型，相较于其他常用模型，该模型具有更高的预测精度和泛化性能。文献[10]将长短期记忆网络模型(LSTM)应用到风场短期风速预测中，并对我国海南某风场实际采集的风速数据序列进行训练和预测，实验结果表明，该预测方法可有效提高实测风速序列短期预测精度。文献[11]首先采用模糊信息粒化技术对风速数据进行提取，然后建立长短时记忆网络风速预测模型，并对西班牙某风电场实测数据进行仿真，结果表明该模型预测效果优于其他基本模型。以上研究均表明，采用深度神经网络风速预测模型，能够获得比浅层模型更高的风速预测精度。然而，上述方法均存在对风场数据运用不充分的问题，仅使用了风速序列进行风速预测或未对数据进行筛选便输入到风速预测模型，所以预测模型的有效性和泛化能力还需要进一步验证。

深度信念网络(Deep Belief Network，DBN)是一种常见的深度神经网络模型。因其深度特征提取能力强等优点，在光伏发电[12]、负荷预测[13]、交通[14]、疾病预测[15]和故障诊断[16]等领域有良好的应用。

基于此，本文提出一种基于最大信息系数变量选择(Maximal Information Coefficient，MIC)深度信念网络(Deep Belief Network，DBN)的风速预测方法(以下简称MIC-DBN预测模型)。采用最大信息系数算法对风场SCADA数据集中数十项实测参数进行变量相关性分析，实现数据降维，筛选出模型输入变量数据集。构建DBN风速预测模型，对国内某风场1.5 MW风电机组实际测量数据进行训练和测试，通过与其他常用建模方法对比，证明MIC-DBN模型具有更好的预测精度。

1 风场SCADA数据处理

风场运行历史大数据为风速预测提供了丰富的数据基础。本文选用国内某1.5 MW双馈异步风力发电机组2013～2015年SCADA历史数据，其中包含44项风机运行实测数据，本文所取风速范围:3～20 m/s。由于弃风限电、传感器故障和外界环境等因素的影响，风场采集到的大量数据中不可避免存在“坏值”[17]。若不加处理直接使用，会影响模型可靠性和预测精度，因此，需要对数据进行预处理。由文献[3]可知，风速与风功率关系密切，通过绘制风速-风功率散点图，可以比较清晰的找出“离群点”并将其剔除，进行数据清理，如图1和图2所示。

图1 风速-风功率散点图

图1中红色点代表“离群点”，蓝色点则代表正常值，剔除离群点后，风速-风功率散点图如图2所示。

图2 风速-风功率散点图

2 变量选择和深度信念网络

2.1 基于最大信息系数的变量选择法

Reshef 等人于2011年提出最大信息系数理论[18](Maximal Information Coefficient，MIC)。MIC用来衡量两个变量之间的关联程度，具有计算复杂度低，鲁棒性强等优点。特别是当样本数据集容量较大时，MIC可以快速探寻出变量间的潜在关系，而不局限于某种特定的函数关系，符合普适性和公平性的要求，同时，相比于互信息算法具有更高的准确性和可靠性。MIC的计算主要基于互信息理论和网格划分。

设给定两种变量X={x1,x2,x3,…,xn}和Y={y1,y2,y3, …,yn}，n为样本个数。则X和Y之间的互信息计算公式可以表示为

(1)

式中：p(x,y)代表X和Y的联合概率密度函数；p(x),p(y)分别代表X和Y的边缘概率密度函数。定义p*q大小的网格，并在变量X和Y的方向上对数据进行划分，通过查看落在第(x,y)网格中散点的频率计算出p(x,y)、p(x)和p(y)的大小，得到I(X;Y)。需要注意，网格划分方式并不唯一，故需要选择使互信息值达到最大的网格划分方式。同时，将互信息值归一化(0,1)区间内。最大信息系数的计算公式归纳如下：

(2)

式中：B为网格划分时p*q的上限值，文献[18]经过大量实验仿真确定B值大小为n0.6，其中n为数据量大小。给定一个多变量数据集L={l1,l2,l3,…,lm,q},其中待选变量个数为m,目标变量为q，任意待选变量与目标变量之间的相关性均可利用最大信息系数计算得到，即MIC(li,q)。MIC(li,q)愈大则表明待选变量与目标变量之间相关性愈强，反之则愈弱[19]。同样可以用来降低待选变量间的冗余性即计算MIC(li,lj)，MIC(li,lj)越大，表明两个待选变量之间的冗余性越强，只需要保留其中一个变量，反之，MIC(li,lj)较小，则两个变量均需要保留。

2.2 深度信念网络简介

Hinton于2006年提出深度信念网络(Deep Belief Network，DBN)模型及其学习方法[20]。DBN是由多个受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)层叠得到的一种深度网络。作为概率生成模型，相比于浅层网络表现出了更强的特征提取能力，在预测领域应用广泛。

构成DBN模型的单个RBM由可见层v和隐含层h组成，层内神经元无连接，层与层间通过权重实现全连接，每层RBM的输出作为下一层RBM的输入。DBN预测模型分为底层RBM训练学习和顶层BP神经网络预测两部分，拓扑结构如图3所示。

图3 DBN网络结构

模型底层使用的RBM是一种能量模型，采用无监督贪心算法完成训练学习[21]。利用能量函数可以将单个RBM表示为

(3)

式中：θ={wij,ai,bj}为RBM模型参数，分别代表可见层对隐含层的连接权值、可见层的偏置值和隐含层的偏置，vi和hj代表可见层和隐含层节点的状态，n和m代表可见层和隐含层中的神经元个数。由式(3)可以得到可见层与隐含层的联合概率分布为

(4)

(5)

(6)

将训练样本输入RBM单元进行逐层训练，不断调整该层RBM参数θ，学习得到DBN预训练模型参数θ，可采用最大似然函数获得

(7)

式(7)中，N指训练样本数量。由此可以得到RBM参数θ={wij,ai,bj}的更新规则[22]：

(8)

式中：ε为学习率；〈·〉data为训练样本期望；〈·〉recon为重构模型定义分布。

模型顶层使用BP神经网络(典型前馈型神经网络)，作用主要有两个：(1)微调并优化模型参数；(2)将利用底层RBM模型训练学习获得的重构特征作为预测网络的输入，通过BP神经网络拟合输出。

3 MIC-DBN风速预测模型

3.1 输入变量选择

以经过预处理的风场运行数据为基础，利用MIC进行变量筛选。本文以风速作为X，其余参数作为Y,求出各变量与风速的MIC值。根据分析结果可知，与风速间MIC值排名前19位的变量均>0.7，包括：发电机加权平均输出X18、风速计划命令X20、发电机转速X10、总耗电量X30等。为确保输入变量间冗余性较低，需要进一步分析这19项变量之间的MIC值。

在这19项变量中，与风速有直接密切关系的共3项：2 s最大风速X17、1 min平均风速X9和10 min平均风速X8，这3项变量间具有强相关性，且均与模型输出有直接关系，故均不予保留；与输出功率有直接密切关系的共5项：发电机加权平均输出X18、发电机输出X6、30 s发电机平均输出X16、1 min发电机平均输出X12和10 min发电机平均输出X31，这5项变量间具有强相关性，故只保留与风速间MIC值最大的一项即发电机加权平均输出X18；功率因数X3和30 s平均功率因数X15、右偏航次数X28和左偏航次数X29、总耗电量X30和总发电量X32与风速计划命令X20和变桨角度X40，这四组变量内部均存在强相关性，故分别只保留与风速间MIC值最大的一项即功率因数X3、右偏航次数X28、总耗电量X30和风速计划命令X20。

经过上述筛选过程，最终从43个待选原始变量中选取了7个与风速间相关性较强的变量作为风速预测模型输入，如表1所示。

表1 筛选出的变量及其对输出的影响值

由表1可知，输入变量筛选结果共包括7项变量，分别为: 功率因数X3、发电机转速X10、发电机加权平均输出X18、风速计划命令X20、右偏航次数X28、总耗电量X30和齿轮箱轴承温度X33，以上各变量与风速间MIC值均>0.72，表明与风速间的相关性均较强，可以作为风速预测模型的输入变量。

3.2 预测模型

在3.1中已经确定了风速预测模型的7个输入变量，即输入层有7个神经元，输出层为1个神经元。本文选用由2个RBM堆叠而成的DBN模型，顶层采用经过遗传算法优化的BP神经网络。

将训练样本数据输入DBN预测模型，每一组输入数据包含7个同时刻风机实测变量参数，输出数据为每一组输入数据对应的同时刻风速数据。首先通过2层RBM进行逐层训练学习，再利用BP神经网络对模型参数进行微调优化，然后使用测试数据集验证模型的有效性和泛化性能。

为了定量评价预测模型性能，本文分别采用平均绝对百分比误差(MAPE)、均方根误差(RMSE)和平均绝对误差(MAE)来衡量模型预测值与真实值之间的偏差，各指标计算公式如下:

(9)

(10)

(11)

式(9)～式(11)中，N为样本数量；yb为实际风速值；ya为模型预测风速值。图4为MIC-DBN风速预测模型流程图。

图4 MIC-DBN风速预测模型流程图

4 模型测试分析

本文依据国内某风电场1.5 MW双馈异步风机SCADA历史数据,已知数据采样间隔为1 min，选取风场2013年11月～2014年10月数据作为风速预测模型训练样本集，选取2014年11月和2015年1月数据作为测试样本集。本文采用2个RBM堆叠而成的DBN模型，DBN无监督学习率调整为0.06，向后微调学习率设置为0.1，数据批次为30，每一批数据201组，RBM训练次数设置为100，两层隐含层节点数均设置为32。

首先以2014年11月数据作为测试样本，预测结果如图5所示。为了测试MIC-DBN风速预测模型的优越性，本文选择BP神经网络模型和GA-BP神经网络模型与MIC-DBN模型进行预测精度对比，并根据平均绝对百分比误差、均方根误差和平均绝对误差这三个指标进行对比分析，结果如表2所示。

图5 MIC-DBN风速预测模型预测结果

由表2结果可知，MIC-DBN模型预测精度最高，其中与BP和GA-BP相比误差评价指标：MAPE分别降低了2.838%和0.648%；RMSE分别降低了0.090 3和0.017 9；MAE分别降低了0.191 5和0.074 3。模型预测精度有了明显提高，验证了本文方法的可行性和有效性。

表2 模型预测精度对比

为了进一步验证本文所提方法的适用性和泛化能力，采用与训练学习数据集在时间维度上不连续的2015年1月数据作为新的测试样本，预测结果如图6所示，与BP和GA-BP模型测试对比结果如表3所示。

图6 MIC-DBN风速预测模型预测结果

表3 模型预测精度对比

由表3结果可知，同样是MIC-DBN模型预测精度最高，其中与BP和GA-BP相比误差评价指标：MAPE分别降低了6.666%和1.253%；RMSE分别降低了0.412 5和0.086 6；MAE分别降低了0.454 9和0.141 4。测试结果表明，当采用与模型训练样本数据在时间上间断的数据样本测试时，MIC-DBN模型预测精度波动较小，仍保持在较高水平，而BP和GA-BP则出现较大幅度的波动，预测精度明显下滑。从而进一步反映出MIC-DBN风速预测模型具有良好的有效性和鲁棒性。