基于数据挖掘的光伏发电预测
2018-10-17周慧王进顾翔
周慧 王进 顾翔
摘 要: 外界环境和光照强度的不确定性决定了光伏发电出力的非平稳性和随机性,有效的光伏发电量预测不仅能保护接入电网的稳健运行,还有助于电网的调度安排和光伏电站的运维决策。文章提出以周天气特征因子和气象因子为特征,结合历史发电数据,建立起一个最小二乘支持向量机预测模型,进行光伏发电量的超短期预测。通过实验对训练好的模型进行预测精度的评估,结果表明,与未结合周天气特征的预测模型相比,该模型的平均预测精度提高了30%左右。
关键词: 光伏发电量预测; 最小二乘支持向量机; 周天气特征; 超短期预测
中图分类号:TP39 文献标志码:A 文章编号:1006-8228(2018)08-36-04
Forecast of PV power generation based on data mining
Zhou Hui, Wang Jin, Gu Xiang
(College of computer science and technology, Nantong University, Nantong, Jiangsu 226019, China)
Abstract: The uncertainty of the external environment and sunlight intensity determines the non-stationary and randomness of the photovoltaic power generation, and the effective PV generation prediction can not only protect the stable operation of the access grid, but also help the dispatching of the power grid, and the operation and maintenance of the photovoltaic power station. In this paper, a characteristic factor of the week weather is proposed, and the prediction model of least square support vector machine is established by combining the meteorological factors and historical power generation data. The ultra-short term prediction of photovoltaic power generation is carried out, and the prediction accuracy of the trained model is evaluated through experiment. The results show that the average prediction accuracy of the model is 30 percentages higher than those of without characteristic factor of the week weather.
Key words: PV power generation prediction; least squares support vector machine; week weather characteristics; ultra-short term prediction
0 引言
太陽能发电能够有效缓解全球能源紧缺问题和传统能源发电带来的环境问题[1]。太阳能发电中涉及光伏发电量预测,尤其是短期预测,对光伏电站运维具有重要意义。高精确度的发电量预测,能够有效避开光伏电站发电高峰期,进行电站的运维、清洗、检修等工作,同时还能作为故障诊断的辅助手段。
本文拟建立一套光伏电站发电量预测模型,旨在预测5分钟超短期光伏发电量。预测一个光伏电站的发电量,可以帮助光伏业主避开发电高产时段,选择在发电量较低的时段进行光伏电站维护和清洗,减少发电经济效益的损失。
目前已经运用到光伏发电量预测中的方法有线性回归[2]、神经网络[3]、支持向量机[4]等。闻科伟等[5]利用气象部门提供的预报数据和小型光伏电站的历史数据建立气象相似度与发电量相似度的过渡函数,分别通过分析三状态马尔科夫链和五状态马尔科夫链对预测结果进行修正。利用神经网络方法进行光伏发电预测方法。仿真结果具有较高的预测精度、实用性和良好的预测跟踪性能。卢冬冬等[6]利用光伏发电系统历史发电数据、太阳辐照度数据和气象数据建立了多元多项式回归模型 ,对相同天气类型下的辐照度进行算术平均并代入多元多项式回归模型 ,从而得到各种天气类型下的只以温度为输入变量的预测模型。通过平均绝对百分比误差对模型进行评估,该预测模型的精度较高,具有一定的可靠性。李洪珠等[7]通过历史发电量、太阳能辐射量和温度序列按照时间序列建模方案建立了基于鲁棒学习的最小二乘支持向量机模型。本文基于最小二乘支持向量机建立一套光伏发电量预测模型。通过与其他的算法结果对比,该预测模型能准确地预测出光伏发电阵列的发电功率,有效地解决光伏发电的随机化问题。
1 最小二乘支持向量机
标准的支持向量机(LSSVM)的损失函数为二次规划问题,且约束条件为不等式约束,对于高维大样本训练,计算速度慢。而SuyKens[8-9]提出的最小二乘支持向量机将标准支持向量机的不等式约束的二次规划问题转化为由等式约束的线性方程组求解问题,从而提高了求解的收敛速度,更适合高维度大样本训练。
利用LSSVM对预测函数f(x)要解决的优化问题为:
2 最小二乘支持向量机参数优化
针对最小二乘支持向量机模型中的和优化组合问题,本文在标准量子粒子群(QPSO)优化的基础上,引入高斯-柯西变异数进行优化。综合高斯变异的局部探索能力和柯西变异的全局探索能力,将高斯分布变异数和柯西分布变异数结合,代替标准量子粒子群算法中的随机数操作,同时,增加对全局最优位置和平均最优位置的高斯-柯西变异操作,来避免收敛早熟。
高斯-柯西变异算子计算公式为:
⑻
其中G为满足高斯分布的随机数,C为满足柯西分布的随机数。分别表示为:
基于高斯-柯西变异算子的量子粒子群(GC-QPSO)优化最小二乘支持向量机的具体步骤如下:
⑴ 初始化粒子群,随机产生每个粒子的位置;
⑵ 计算每个粒子的适应度值f(Xi),如果小于个体最优位置的适应度值f(Pi),则更新个体最优位置为Pi=Xi;
⑶ 更新全局最优位置,若个体最优位置适应度值低于全局最优位置,则更新gBeat=pBeat;
⑷ 计算平均最优位置mBest;
⑸ 对gBest和mBest进行高斯-柯西算子变异;
⑹ 更新每个粒子的位置;
⑺ 判断是否满足停止条件。
其中,适应度函数设为均方根误差公式:
⑼
3 实验设计
3.1 数据集获取及特征的选取
本实验的数据集为电站真实数据。样本来源于江苏南通某光伏发电厂2016年7月1日到2017年6月20日的运维数据。每日6:00-19:00之间,以5分钟频度采集的发电量作为因变量。自变量包括辐射、天气、历史数据、时间因素,其中天气由互联网历史天气数据获取。天气分为晴、多云、阴、小雨、大雨、转变类天气6种类型,其中转变类天气代表“阴转多云”、“阴转小雨”、“雷阵雨”等非单一类型天气类型;另外由于多日内若发生过大雨,对光伏面板表面积灰有冲刷,则光伏面板的发电效益应当得到提升。反之,若7日内若大多为大风日或者小雨日,则光伏面板积灰情况会较为严重,光伏面板发电量会相应回落。因此通过统计手段,整合出7日内大风天数、大雨天数、小雨天数、无雨天数,作为自变量。其中大风的界定,根据中国气象局于2001年下发《台风业务和服务规定》规定,风力4级可吹起尘土的标准,将风力≥4级定为本模型的大风日。考虑到季节因素和时间序列对发电量的影响,在自变量引入月份、时间和昼长因素。
3.2 数据清洗
原始数据中的脏数据会严重影响最终的拟合效果,对预测精度的影响更甚。由于本模型的数据采集粒度较小,且数据由光伏发电现场设备采集传输到控制台后统一收集,因此不可避免会出现一些缺失值和错误值等异常值,因此必须进行数据的清洗工作。对于其中的缺失值,使用R语言的多重插补法进行缺失值的补全处理。对于其他的异常值,利用离群点测试后进行删除处理。
数据类型的不一致也会导致回归发生错误,因此需要将天气、风向、时间等哑变量进行赋值。
3.3 评价指标
3.3.1 RMSE(Root-Mean-Square Error)
均方根误差是用来衡量预测值同真实值之间的偏差,又称标准误差,计算公式为:
⑽
其中n为测量次数;Xreal,i为真实测量值,Xpre,i为预测值。
4 光伏发电量建模及预测分析
光伏出力受影响因素较多,最直接的影响是日照辐射度,其他影响因素还有天气特征,如温度、湿度、风力等,光伏表面积灰程度对光伏发电也有较大影响。受以上因素的作用,光伏发电量预测是一个随机的非平稳的过程,因此,这也是光伏发电量准确预测的难处所在。本文在已知天气信息、发电量、辐射度、历史数据的条件下,建立基于高斯-柯西变异算子优化的最小二乘支持向量机模型进行光伏发电量预测。
实验使用的数据达到4万多条,在训练模型过程中,将数据的50%作为训练集,再取余下数据的30%作为测试集,其余的数据作为验证集。为了保证训练模型准确性和泛化能力,对数据进行三折交叉验证实验。由于数据采集粒度为5分钟频次采集,预测也以5分钟为时间单位,实现光伏电站每5分钟的超短期发电量预测。
4.1 光伏发电量预测结果
针对一天内某一时刻预测光伏电站的总发电量。抽取该电厂一年中的上午某一时刻的数据,基于GC-QPSO优化方法训练LSSVM预测模型,并进行发电量预测。以预测的均方根误差值RMSE作为评价指标。RMSE值越小,代表预测的精度越高。预测结果如图1所示。
表1显示了不同预测方法的均方根误差值,LSSVM代表最小二乘支持向量機预测模型,QPSO-LSSVM代表标准量子粒子群优化的最小二乘支持向量机模型,GCQPSO-LSSVM代表基于高斯-柯西变异算子优化的最小二乘支持向量机模型。从表1可以看到,对于非线性预测方法LSSVM,经过优化的LSSVM显然预测结果要优于经典LSSVM,简单的量子粒子优化(QPSO)的预测模型预测效果较差,高斯柯西量子粒子优化(GCQPSO)的预测模型预测结果最优。
4.2 周天气特征对预测模型的影响
基于积灰对光伏发电量的影响,提出利用周天气特征作为光伏发电量预测模型的输入来提高光伏发电量预测效果。因此本实验考察周天气特征对该预测模型影响程度。该实验中,模型A代表引入周天气特征的预测模型,模型B代表未引入周天气特征的预测模型。实验结果显示,模型A的预测精度高于模型B的预测精度。模型A的RMSE值为0.1849,模型B的RMSE值为0.3739。
如图2所示,从预测的趋势和数值来看,两种模型在发电量趋势预测方面都比较好。但是模型A在预测数值上偏差明显小于模型B。因此,在预测模型中引入周天气特征对光伏发电量预测有积极影响,能提高预测的精确度。
表2为两种预测模型的误差值指绝对误差值,很明显可以看出模型A的预测值更贴近实际值,绝对误差值小于模型B。
江苏沿海地区气候变化不明显,历年气候条件较规律,且雨水充足,经过实验论证,针对该地区的光伏发电量预测,考虑到光伏组件积灰对光伏发电量的影响,加入周天气特征,以一周内大雨天数、小雨天数、无雨天数和大风天数来判定光伏组件表面积灰情况,并以该四种情况输入预测模型,结果表明,引入周天气特征确实能够提高光伏预测的精确度,具有一定的参考意义。该预测方法应用于该地区具有较好的天时地利条件,对于配备现场气象数据采集装置的光伏电站有较高的应用参考价值。
5 结束语
本文通过历史发电量数据以及气象信息数据,以日常可获取的信息作为模型输入,建立光伏电站发电量最小二乘支持向量机预测模型,该模型采用 5分钟的采集频次,以较小的粒度水平进行超短时的光伏阵列发电量预测,平均预测精度达到80%以上。
与已有的发电量预测模型相比,本模型的预测精度保持在较好的水平。本模型具有其他模型不具有的优势:所有模型输入值都是日常可获取的,不需要辐射量的预测,也不需要云层、气压、降水量等难以获取的信息,实用性更强;缺点在于输入变量较多。与该发电厂目前使用的平均值预测方法相比,短时预测精度得到很大的提高。对于光伏业而言,具有较高的参考价值。
参考文献(References):
[1] 张伯泉,杨宜民.风力和太阳能光伏发电现状及发展趋势[J].
中国电力,2006.39(6):65-69
[2] 李光明,刘祖明,何京鸿等.基于多元線性回归模型的并网光
伏发电系统发电量预测研究[J].现代电力, 2011.28(2):43-48
[3] 栗然,李广敏.基于支持向量机回归的光伏发电出力预测[J].
中国电力,2008.41(2):74-78
[4] 张立影,孟令甲,王泽忠.基于双层BP神经网络的光伏电站输
出功率预测[J].电测与仪表,2015.52(11):31-35
[5] 海涛,闻科伟,周玲等.基于气象相似度与马尔科夫链的光伏
发电预测方法[J].广西大学学报(自然科学版),2015.40(6):1452-1460
[6] 卢冬冬,郑莆燕,袁言周等.基于天气预报的光伏发电预测研
究[J].硅谷,2014.15:43-44
[7] 李洪珠,贾威,聂苓等.基于鲁棒LS-SVM在光伏发电预测中的
应用[J].计算机测量与控制,2013.21(5):1166-1167
[8] Suykens J A K, Vandew alle J. Least Squares Support
Vector Machines Classifiers[J]. Neural Processing L etters,1999.9(3):293-300
[9] Suykens J A K, Gestel T V, Brabanter J D, et al. Least
Squares Support Vector Machines[J]. International Journal of Circuit Theory & Applications,2002.27(6):605-615
[10] 张继祥,刘克长,魏钦平等.气象要素(气温、太阳辐射、风速
和相对湿度)日变化进程的数理模拟[J].山东农业大学学报(自然科学版),2002.33(2):179-183