不同MCP方法在平原及山地风电项目中的插补应用
2020-10-16杨靖文张静
文 | 杨靖文,张静
测量相关预测(measure-correlatepredict,MCP)方法是一种建立在空间相关性原理基础上,利用目标站点短期测风数据(风速、风向)及长期参考数据预测目标站点长期风况的数学方法。使用该方法可以利用参考数据来修正测风期间,由于仪器受损、太阳能电池供电不足等因素造成的目标站点较长时间的数据丢失,可节省大量用于风电场选址的观测时间和试验费用,提高准确度和效率。
参考数据选择目标站点附近与其地形相似且气候条件相近、风能资源分布相似、长时间(10年以上)实测的气象数据及再分析数据。再分析数据是同化了大量卫星资料及地面和高空等常规观测资料,具有时间序列长、分辨率高等优点。20世纪90年代以后,美国、欧洲、日本等相继推出了再分析产品。目前一般采用美国气象环境预报中心(NCEP)近年来发展的CFSR和CFSv2、美国国家航空航天局(NASA)发布的MERRA及MERRA-2再分析数据;欧洲中期天气预报中心(ECWMF)的第四代再分析数据ERA-Interim及第五代再分析数据ERA-5。
在Windographer中,提供了8种MCP算法—线性回归法、正交回归法、矩阵时间序列法、快速排序法、方差比法、风速比法、垂直分层算法以及威布尔拟合算法。本文旨在讨论这8种算法在不同地形项目中的应用及准确性。以往对于MCP算法的检验,基本侧重于风速的检验,鉴于风能资源的评估最终是转化为产量,故而本文同时从风速及发电量两个方面,各使用3个不同的指标对算法进行检验和对比,所得结论可为风能资源评估提供科学参考。
表1 测风塔基本情况
表2 再分析数据基本情况
数据相关性分析
本文所采用的短期数据,一是来源于河南0001#测风塔的测风数据,测风塔所在地区地势较为平坦开阔;二是来源于广西0002#测风塔的测风数据,测风塔所在地区是地形较为复杂的山地。选取这两座测风塔的原因有:(1)两座测风塔测风时长均达到一个完整年,且观测期间数据质量较好,完整率较高,可用于MCP结果的自检验。(2)两座测风塔分别处于山地和平原两种典型地形地区,可用于探索不同MCP方法对地形的适用性。(3)两座测风塔使用的设备为同一款行业常用型号,且测风高度均与目前主流轮毂高度接近,其观测结果及评估结果具有较强的现实参考意义。测风塔基本情况如表1所示。
本文拟选取从UL AWS Truepower站点下载的该测风坐标附近5个站点自1979年至2019年长达40年的4种再分析数据,其基本情况如表2所示。在比较了CFSR、ERA-Interim、ERA-5、MERRA-2与目标数据的相关性(图1、图2、表3、表4)后,选定参考数据为与目标数据相关性更高的ERA-5数据。
表3 参考数据与0001#目标数据的相关性
数据插补方法
Windographer中提供的8种MCP算法如表5所示。对每种算法进行不同的设置:按不区分扇区以及分16扇区分别计算;除矩阵时间序列法外,对每种算法均按季度进行了年度的划分(年度4分);基于线性回归法和正交回归法的特性,对两种算法分别使用了强制0点(强制零截距,拟合线总是通过0点);矩阵时间序列法则使用了原始时间序列和平滑处理两种设置。
对于各算法所得的模拟数据中的风速和风向,均采用决定系数(通常缩写为R2)来检测其相关性。决定系数是衡量数据点拟合指定曲线程度的指标。在通过简单线性回归(线性回归法)获得该曲线的特殊情况下,R2等于R的平方,R即相关系数(皮尔逊积矩相关系数)。
Windographer根据下面的公式计算决定系数:
其中,
式中,yi是第i个数据点的y值;是所有数据点y值的平均值;fi是根据比较数据曲线所得到的第i个数据点的预测值。
表4 参考数据与0002#目标数据的相关性
检验指标及方法
根据以往的经验,结果的检验往往更多着眼于风速的对比。考虑到风能资源分析最终是为了更好地将风能资源转化为产能,因此,本文的检验包括风速与发电量两个方面。
发电量检验使用的风电机组为GW155/3000,风轮直径为155m,轮毂高度为100m,切入风速2.5m/s,切出风速18m/s,额定功率3000kW,功率曲线如图3所示。
一、检验指标
平均偏差误差(MBE):对一组预测值与实测值匹配程度的度量,描述的是各预测值与实测值偏差的平均值,反映的是数据的离散度。公式如下:注:*数据为插值数据; 红色数据为选定的参考数据
式中,N是集合中值的数量,yi是第i个观察值,是第i个预测值。
平均绝对误差(MAE):对一组预测值与实测值匹配程度的度量,描述的是所有单个预测值与实测值的偏差绝对值的平均。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。公式如下:
式中,N是集合中值的数量,yi是第i个观察值,是第i个预测值。
分布误差(DE):对一组预测值的分布与观察值或真实值的分布匹配程度的度量,描述了实际测量值与拟合曲线的偏离情况。公式如下:
式中,N是频率分布中的区域数,Fi是真实分布的第i分频点的频率,是预测分布的第i分频点的频率。
表5 算法简表
二、检验方法
本文使用同期检验及交叉检验两种方法对MCP结果进行检验。
同期检验的思路是,使用目标数据及参考数据的全部可用数据作为训练数据,用不同方法构建模型,然后基于此模型,利用参考数据对原目标数据进行重新推算,构建一套新的目标数据,并以此作为测试数据,与原目标数据进行上述指标的计算及对比分析。
0001#目标数据与参考数据同期的观测数据分别为52482个,那么,在做同期检验时,计算了52482对数据间的偏差;0002#目标数据与参考数据同期观测数据分别为49612个,故而计算了49612对数据间的偏差。
交叉检验是在目标数据与参考数据的所有同期时间段内,从拟合数据中随机使用一半数据作为训练数据,另一半数据作为测试数据。为了达到更好的收敛效果以求得最优解,对数据进行了200次迭代,并对所有迭代结果按照上文所述的检验指标进行计算。
在对0001#目标数据做算法的交叉检验时,样本容量为52482个。每次迭代,从52482个预测数据中随机抽取一半作为训练数据,另一半作为测试数据;对0002#目标数据做算法的交叉检验时,样本容量为49612个。每次迭代,从49612个预测数据中随机抽取一半作为训练数据,另一半作为测试数据。
训练数据与测试数据合起来所覆盖的时间点与目标数据和参考数据的同期时间点保持一致。
结果分析
每种算法的不同设置虽然对结果存在一定程度的影响,但大部分并不显著,故本文仅列出部分主要计算结果(不区分扇区的原始算法),并进行分析汇总。
表6和表7分别展示了针对风速和发电量检验指标的对比结果。从表中可以看出,对于风速平均偏差的检验结果,各算法结果均在1%以内,有些算法基本没有偏差。发电量的平均偏差范围相对较大,约在-4%~5%之间。如图4所示,将风速平均偏差与发电量平均偏差进行对比发现,部分算法(如线性回归法、正交回归法、方差比法和风速比法)可以得到比较接近的平均风速,但使用拟合数据计算的发电量与原始数据相比,误差较大。原因在于发电量计算不仅与平均风速有关,更与风频分布相关,因此,需要对风速的分布误差进行分析。
表6 风速检验指标对比表
表7 发电量检验指标对比表
在两个项目中,各算法表现出了一致性与差异性。在表1中,0001#目标数据与0002#目标数据的数据完整率不同,但是在检验时,仅使用的是目标数据与参考数据的同期有效数据,故而并不会对检验结果产生影响。由表6与表7的检验结果可以看出,算法的一致性在于,各算法在两个项目上的表现趋势是一致的;差异性在于,各算法在两个项目上的偏差有所不同,如垂直分层法在山地项目上的表现要明显优于其在平原项目上的表现。
由分布误差的检验结果(如图5)可知,垂直分层法及线性回归法的偏差相对较大;矩阵时间序列法分布误差最小,风速为0.21%~3.11%,发电量为0.00%~1.97%;其他算法较为接近。风速的分布误差较大必然会导致发电量分布误差增大,同时可能会导致发电量平均误差增大。由于生产过程中主要关注发电量的平均值,因此,本文重点关注风速的分布误差和发电量的平均误差,以及二者关系。
此处选取发电量平均偏差较大的线性回归法,以及最小的矩阵时间序列法,将其拟合数据的风频分布与原始数据进行对比,结果如图6所示。由图可明显看出,线性回归法得到的风频分布与原始数据存在较大差异,矩阵时间序列法则比较一致。
以上对比了风速及发电量的平均偏差。此外,各样本个体与实测值的偏差可用离散偏差,即平均绝对误差来衡量。由表6可以看出,各算法的平均绝对误差大部分相对较大,约为20%~30%,说明拟合得到的数据序列虽然平均值比较接近,但独立样本个体与实测值之间仍存在一定程度的差异。其中,离散偏差最小的是矩阵时间序列法在同期检验时的表现(风速为0.01%~6.71%,发电量为0.06%~8.99%),说明该方法使用全年数据构建的模型与真实情况离散程度最为接近,且偏差远远低于其他算法。
如图7所示,对于每一种算法,同期检验和交叉检验两种检验方法对于大部分检验指标的结果不会有太大影响。除矩阵时间序列法的平均绝对误差外,两种检验方法得到的其他指标结果非常接近。所以,对于不同算法的横向比较,两种检验方法给出的结论基本一致。
结论
本文通过以位于平原、山地地带的两个测风塔实测数据作为目标数据(本文仅选取两个项目,结果适用范围相对有限,后续拟增加更多实际项目进行对比,以得到更具推广意义的结论),对4种常用再分析数据进行相关性计算,选取相关性最高的ERA-5数据,使用8种不同的MCP算法,对目标数据进行插补修正,并对结果进行检验。通过本文研究可得出如下结论:
(1)经检验,各算法得到的平均风速均较为准确,偏差在1%以内,但发电量偏差达到-4%~5%,个别算法偏差较大,主要原因在于发电量计算与风频分布相关。风能资源评估需要同时关注风速和发电量,因此,对于风频分布的偏差指标进行评估同样重要。
(2)针对本文使用的两个项目,综合风速平均偏差、离散偏差以及发电量的平均偏差各项指标来看,矩阵时间序列法表现最好;常用的线性回归法用于发电量计算偏差较大,针对不同项目需谨慎使用该算法。
(3)对于不同算法的横向比较,同期检验和交叉检验两种检验方法给出的结论基本一致。
(4)各算法对于平原或山地的适用性并没有明显规律,所以,MCP算法适用性与地形关系并不明显。