基于互信息冗余性分析的神经网络风电功率预测
2016-11-26易灵芝刘智磊
易灵芝, 刘智磊, 龙 辛
(1.湘潭大学 信息工程学院,湖南 湘潭 411105;2.湘电风能有限公司,湖南 湘潭 411105)
基于互信息冗余性分析的神经网络风电功率预测
易灵芝1*, 刘智磊1, 龙 辛2
(1.湘潭大学 信息工程学院,湖南 湘潭 411105;2.湘电风能有限公司,湖南 湘潭 411105)
针对神经网络的性能与网络的输入变量和训练样本关系密切的特征,提出基于互信息冗余性分析的神经网络风电功率预测方法,实现通过互信息的相关性排序滤波器来筛选各输入变量与目标变量间的相关性,以获取相关度大的输入变量;再由多变量互信息即交互增益构建冗余滤波器,滤除冗余的相关变量,获得一个最简约的最优输入变量集.两个滤波器的参数由交叉验证算法来获取最优值.以湖南郴州某风场的实测数据为例进行相关实验,结果表明:本方法在减少输入变量情况下,能获得较好的预测性能.
风功率预测;互信息;冗余性;相关性;神经网络
风能作为一种飞速发展的可再生能源,已得到广泛应用,而风电输出功率的准确预测和实时控制变得相当重要.风电功率预测方法中,人工神经网由于其优越的非线性拟合与容错能力,在风电功率预测中应用广泛[1~6].然而,神经网络模型的预测效果取决于输入变量和训练样本,因此对模型输入变量的选择变得至关重要.
在现有风电功率预测模型输入变量的一些选择方法中,主成分分析法是通过数据压缩和特征提出来将多个相关变量综合成一个变量,保留了原始变量的大部分信息[7],但冗余变量增加模型计算量,破坏模型的性能.聚类分析法将输入变量按照相似度将其分为不同类,以获得不同类的共同特点,在很大程度上压缩了输入变量的数量,去除了变量间的相关性,丰富了输入样本,但缺少各变量间的冗余[8].引入模糊粗糙集对影响预测的多种因素进行简约,在不需要先验知识的情况下去除不必要因素,从而优化模型输入变量.由于需要选择合适的样本和隶属度函数,不可避免带来个人主观因素,影响预测精度[9].因此,如何在减少输入变量个数的情况下,增加神经网络的预测精度变得非常重要.
本文提出一种基于特征输入选择的神经网络风电功率预测模型,首先用互信息计算各个输入变量与目标变量的相关性,筛选出相关性排名靠前的部分输入变量;再基于互信息计算输入变量间的冗余度,滤去冗余度过大的变量,将这些得到的最优输入样本作为训练样本.试验结果表明,该方法能够优化模型的输入,可以提高模型的预测精度.
1 互信息基本理论
1.1 互信息度量变量相关性
互信息(Mutual Information,简称MI)是shannon信息理论中一种有用的信息度量,可用来度量变量间的相关性.互信息越大,变量之间的相关性越强.对于两个随机离散变量X,Y之间的互信息定义如公式(1)所示.
(1)
其中Xi代表变量X中的第i个值;Yj代表变量Y中的第j个值;P(Xi,Yj)表示变量X为第i个值且变量Y为第j个值的联合概率密度,P(Xi)和P(Yj)为独立密度.I(X;Y)越大,变量X包含关于Y的信息就越多,因此可用互信息来度量变量间的相关性[12].
1.2 互信息度量变量冗余性
信息熵与互信息存在的关系如公式(2)所示[12].
I(X;Y)=H(X)+H(Y)-H(X,Y),
(2)
三个变量的互信息与信息熵之间的关系如图1所示,其中1和4部分代表变量X、Y之间的互信息,2和4部分代表变量X、Z之间的互信息,3和4部分代表变量Y、Z之间的互信息.从图1可以看出由变量X和Y提供的关于Z的信息在阴影部分4出现了重复,可用此部分的大小来衡量变量X、Y之间的冗余度.图1中阴影4的计算如下[10]:
图1中阴影4的计算如下[10]:
(3)
如果三个变量的互信息I(X;Y;Z)为负,表示变量X、Y之间冗余,否则不冗余.相对于目标变量Z,两个变量间的冗余度RE(X,Y)为:
2 基于互信息的神经网络风电功率预测
风电功率预测模型的输入变量包含了所有与风电功率相关的变量,如历史风电功率和天气参数,如风速、风向、温度和气压.假如只考虑4 h前的数据,用于t时的功率预测的输入S(t)如公式(4)所示.
(4)
其中W(t),T(t),D(t),P(t)分别表示t时的风速、温度、风向和风电功率.再增加一些相关的天气参数,S(t)的数量将变得更大.为防止丢失任何潜在的输入信息,将所有有效的外部变量作为输入的待定变量.但这些输入变量中包含了没用的重复的输入,会误导和恶化模型的性能.引入特征变量选择,可以在保持样本特性的前提下,减小样本变量的数量,滤去相关性小的变量和冗余度大的变量.
特征变量选择算法的具体步骤如下:
① 所有候选特征值进行线性归一化处理,范围为[0,1].
② 计算待选输入与目标变量相关性.第i个待选输入Xi对于目标变量Y的相关性记为D(Xi),计算公式如(1).
③ 筛选出相关度超过预先设定的阈值T1的m个特征值,并放入相关性选择特征集SRelevance中,用作冗余性分析.
④ 将SRelevance中相关性排名第一的特征值添加到SFinal中,将冗余滤波器计数器i变为2.
⑤ SRelevance中被选中的第i个特征值的冗余度记为R(i),其计算式如下:
R(i)=maxs∈SFinal(RE(Xi,Xs)),
其中SFinal代表从冗余滤波器中得到的特征量的集合,它是由Xi与其前i-1个相关特征量的冗余度比较,通过了冗余性滤波器的特征值.R(i)表示Xi与SFinal中的特征量的最大冗余值.
⑥ 如果R(i)大于提前设定的阈值T2,特征值Xi冗余,将其滤除.否则Xi添加到SFinal.冗余滤波器的计数器加1.
⑦ 如果i达到m+1,结束特征值选择,SFinal即为选择后的结果,可以输入给 NN进行预测训练.特征值选择算法流程见图2.
3 实例分析
3.1 评价标准
以湖南郴州某风场为例,风电场SCADA系统记录了场内各风机风速、风向、温度、风电功率等信息,采样时间间隔为10 min.选取2015年1月到10月的数据进行预测建模,并用11月的数据来进行预测测试.本文将采用标准平均绝对误差、标准均方根误差2项指标衡量模型的预测效果,其表达式如下.
3.2 预测算法的实现与分析
本案例中,为了能客观地的获得反映历史样本的特征输入变量,将对全年的历史数进行特征输入变量选择.考虑的提前15 min的风功率预测,目标变量为15 min的风电功率(即一个数据点),待选输入变量为24 h的历史数据,包括风电功率、风速、风向和温度(共576个数据点).表1为基于互信息相关性滤波器筛选结果,由该表可知,离预测点越近的历史风电功率和风速的数据点与预测点的相关性越大,每一类输入变量随着滞后时间的长短呈现出递减的规律.表2为基于互信息冗余性滤波器筛选结果,表中给出了输入变量的排名和冗余度值.
表1 相关性滤波器计算结果
表2 冗余性滤波器的计算结果
表3 T2值对应的预测标准均方根误差
表4 预测结果对比
表3为不同的阈值T2对应的预测标准均方根误差.由表3可知,不同的T2值会影响预测的误差,故可通过确定一个合适的T2,获得最优的输入变量,使得风功率预测的性能达到最好.对于最优阈值T2的确定,本文采用交叉验证法,用预测模型的均方根误差来计算代价函数.通过交叉验证法以确定本案例的最佳T2值为0.7.
4 结果对比分析
为验证本文提出的方法的正确性,采用直接BP(Back Propagation)神经网络法、互信息和BP神经网络结合方法(MI-BP)以及本文提出的基于互信息的相关性冗余性滤波的神经网络方法(MI-RE-BP)对风电功率进行预测.其中方法一中输入变量为预测点前4 h的风速、功率、温度和风向(共64个输入变量);方法二的输入变量通过MI滤波器的相关性排名前42个的输入变量;方法三则为通过本文中的特征值选择得到的最优输入变量(24个输入变量).预测结果分别如图3、图4和图5所示.通过对比这三幅图可知,本文提出的方法,相对于其他两种方法,能够更加准确地预测风电功率的变化趋势,特别是风电功率在抖动频率比较大的时候.表4中为三种模型的风功率预测结果的误差.从表4中可以看出,采用相关性分析的BP神经网络相比于传统的BP神经网络在输入变量数相同的情况下,功率预测的各项误差有了很大的降低.而对于相关性分析的输入变量过多也会影响神经网络的预测性能.因此可以得出输入变量与目标变量的相关性会影响神经网络的预测精度,采用互信息可以有效地衡量变量间的相关性.而本文提出的方法在各项指标上都要优于前两种方法.从预测的整体效果来看,使用本文方法对输入变量进行优选后,NMAPE降低了27.96%,NRMSE降低了31.81%,而且输入变量的数量也减少了一半.因此,基于互信息的冗余性分析法大幅度提高了神经网络风电功率的预测性能,而且降低了神经网络的计算量,具有很好的工程应用指导价值.
5 总 结
本文提出的基于互信息的相关性滤波器和冗余性滤波器相结合的方法,利用神经网络进行风电功率预测,较好地解决了模型的输入变量的选择问题.相关实验结果表明:①使用互信息对输入变量与目标变量相关性进行分析,提出三维互信息对目标进行冗余性过滤,简化了模型输入,实测证明,筛选出来的较少的输入变量能提高模型的预测精度.②相对于传统的神经网络预测方法,该方法对风功率预测时的标准平均误差降低了27.96%,标准均方根误差降低了31.81%.
[1] 冯双磊,王伟胜,刘纯,等.风电场功率预测物理方法研究[J].中国电机工程学报,2010,30(2):1-6.
[2] 修春波,任晓,李艳晴.基于卡尔曼滤波的风速序列短期预测方法[J].电工技术学报,2014,29(2): 253-259.
[3] 江岳春,张丙江,邢方方,等.基于混沌时间序列GA-VNN模型的超短期风功率多步预测[J].电网技术,2015,39(8):2 160-2 166.
[4] 朱晓荣,刘艳萍.基于稳健估计时间序列法的风功率预测[J].电力系统及其自动化学报,2012,24(3):107-110.
[5] 刘瑞叶,黄磊.基于动态神经网络的风电场输出功率预测[J]. 电力系统自动化,2012,36(11):19-22,37.
[6] 彭景斌,姜小奇.一种基于主成分分析的时间序列趋势预测方法[J].湘潭大学自然科学学报,2010,32(02):123-126.
[7] 周松林,茆美琴.基于主成分分析与人工神经网络的风电功率预测[J].电网技术,2011,35(9):128-132.
[8] 方江晓,周晖,黄梅,等.基于统计聚类分析的短期风电功率预测[J].电力系统保护与控制,2011,39(11):67-73,78.
[9] 刘兴杰,岑添云,郑文书,等. 基于模糊粗糙集与改进聚类的神经网络风速预测[J]. 中国电机工程学报,2014,34(19):3 162-3 169.
[10] AKADI A E. A Powerful feature selection approach based on mutual information[J].International Journal of Science and Network Security,2008,8:116-121.
[11] 师洪涛,杨静玲,丁茂生,等.基于小波BP神经网络的短期风电功率预测方法[J]. 电力系统自动化, 2011,35(16):44-48.
[12] 韩敏,刘晓欣. 基于互信息的分步式输入变量选择多元序列预测研究[J]. 自动化学报,2012,38(6):999-1 006.
责任编辑:龙顺潮
Wind Power Prediction by Neural Network Based on Redundancy Analysis of Mutual Information
YILing-zhi1*,LIUZhi-lei1,LONGXin2
(1.College of Information Engineering, Xiangtan University, Xiangtan 411105; 2.Xiangtan Electric Manufacturing Group Co., Ltd,Xiangtan 411105 China)
According to the characteristic,it has closely relationshipe between the neural network performance with network input variables and training samples.A new approach that based on mutual information redundancy analysis neural network wind power is proposed.The high correlation of input variables is achieved through the mutual information of relevance ranking filter to filter the correlations between the input variables and objective variables.The optimal input variables of a most parsimonious set is obtained,gotten from again by muctivariate mutual information,that is interactive gain construct reduandant filter,filter out redundan variables.Through the cross validation algorithm are the parameters of the two filters obtained.A case analysis of taking the measured data of a wind field in Chenzhou city of Hunan province ,the results show that the method can obtain better prediction performance in the case of reducing input variables.
wind power forecasting; mutual information; redundancy; relevance; neural network
2016-03-11
国家自然科学基金项目(61572416);湖南省教育厅平台项目(14K095);湖南省“十二五”重点学科“信息与通信工程”
易灵芝(1964-),女,湖南 宁乡人,教授. E-mail:ylzwyh@xtu.edu.cn
TM614
A
1000-5900(2016)02-0068-05