基于误差修正的混合模型在风速预测中的应用
2019-04-29盛秀梅张仲荣王春媛刘海忠
盛秀梅,张仲荣,王春媛,刘海忠
(1.兰州交通大学数理学院,甘肃兰州 730070;2.兰州石化职业技术学院信息处理与控制工程学院,甘肃兰州 730060)
1 研究背景
近年来,全球环境污染问题变得日趋严重。风能、太阳能、水能、波浪能、生物能、地热能、潮汐能等新能源开始受到广泛关注,这些新能源不会产生温室气体,对气候变化没有明显的影响。在常规能源告急和全球生态环境恶化的双重压力下,风能作为一种无污染和可再生的新能源有着巨大的发展潜力,即使在发达国家,风能作为一种高效清洁的新能源也日益受到重视。比如,单是德克萨斯州和南达科他州的风能密度就足以供应全美国的用电量[1]。然而,风力发电的发电能力受到自然界风源间歇性和随机性的困扰,因此,它仍然是一个不可靠的来源,很难被整合到电网系统中。风力发电厂可以通过精确地预测风速的动态变化来解决这一问题。准确的短期风速预测可以有效地减少风力变化和风速突然中断对常规动力系统的冲击而导致的电压和频率的波动[2-3]。
目前,风速预测建模方法包括时间序列法[4-5]、人工神经网络法[6]以及卡尔曼滤波法[7]等。其中,用时间序列法用于预测时对历史数据有较大的依赖性,只适用于超短期预测;人工神经网络方法曾一度成为预测领域的研究热点,但它至今仍然存在着许多未解决的问题;卡尔曼滤波适用于风速的在线预测,这些方法在用于短期风速预测时的精度较低。为提高风速预测的精度,各种组合预测方法得到了广泛的应用[8],其中应用较为广泛的是与神经网络结合的混合模型。而基于误差修正的神经网络混合模型,更能合理地提高模型的精度[9]。通过对过去几年文献的分析可知,不同方法的混合预测已成为一种趋势。例如,Li H Z等人提出了一种混合负荷预测,该模型结合果蝇优化算法和GRNN算法,证明了该混合模型的有效性[10]。Ghasemi等采用ABC、SVM和ARIMA对电力负荷进行预测,结果证明该混合模型有更高的准确性[11]。Wang等应用GA和BP神经网络对内蒙古的风速数据进行预测,结果证明该模型不仅提高了预测精度,而且减小了时间复杂度[12]。
纵向数据选择方法(LDS)的应用,使得选择的数据类型具有相同属性;利用奇异谱分析(SSA)技术来处理风速数据中的异常值和其趋势、季节成分,使得原始风速数据重构,大大地降低了噪声对序列的影响;最小二乘支持向量机(LSSVM)是把标准支持向量机(SVM)的不等式约束条件改为等式约束条件,在一定程度上,降低了计算复杂度,提高了计算速度,并且较适合于处理大规模的非线性拟合数据问题[13],并且其泛化能力要优于神经网络模型与单一的时间序列模型。在LSSVM的参数选择方面,粒子群优化算法(PSO)的加入减少了LSSVM在参数选择方面的人为影响以及避免陷入局部最优的问题。将PSOLSSVM与时间序列的方法结合起来建立基于误差修正的混合预测模型(PSOLSSVM-ARIMA),可以完整地拟合风速数据中的非线性部分与线性部分,从而提高风速的预测精度。
2 基于ARIMA修正的混合预测模型
2.1 模型的建立
在用风速的历史数据进行预测时,风速的随机性与不稳定性等特征,会使预测模型产生较大的误差。而混合模型则是目前解决这一问题较为重要且前沿的方法,其主要思想就是将不同的模型及其分析理论混合,形成一种新的预测模型。而误差修正模型又可以对当前的混合预测模型进行补充,即克服了单一方法的局限性,又合理地提高了模型的预测精度。
本文建立了一种基于误差修正的混合模型来对风速数据进行预测,具体流程图如图1所示,其中奇异谱分析(SSA)由Colebrook于1978年首先在海洋学研究中提出的,是研究非线性时间序列的一种方法,它结合多元统计与概率论的思想去分析时间序列[14],并且提取出代表原序列不同程度的信号,如长期趋势信号、周期信号、噪声信号等;最小二乘支持向量机(LSSVM)是一种遵循结构风险最小化(Structural Risk Minimization,SRM)原则的核函数学习机器,有很强的非线性拟合能力,并被广泛地用于科学工程;粒子群优化算法PSO(Particle Swarm Optimization)则是由Eberhart和Kennedy博士发明的一种基于全局优化的智能优化算法,它主要源于对鸟类捕食行为的模拟[15]。作为一种重要的优化工具,粒子群优化算法已经被成功地用于神经网络的参数训练[16];而用于误差修正的ARIMA模型又称为求和自回归移动平均(autoregressive integrated moving average)模型,是一种基于时间序列的预测模型,适用于短期和超短期预测,并且预测精度较高[17]。
图1 基于ARIMA修正的混合模型流程图
文中建立混合模型的具体步骤如下:
步骤1 利用纵向数据选择方法(LDS),选择合适的数据类型;
步骤2 利用SSA-PSOLSSVM模型对每个子集序列进行预测,并得到误差序列;
步骤3 利用ARIMA模型进行误差修正;
步骤4 获得最终的风速预测值,并进行结果分析。
2.2 模型的应用与仿真结果
为了验证文中方法的可行性,选择了西班牙Sotavento Galicia风场2016年2月和2017年2月的风速数据进行分析,其中数据间隔为1小时,数据样本总量为1368(图2)。其中,选取1032个数据作为训练集,选取336个数据作为测试集。
图2 历史风速数据图
为了提高模型的性能,采用LDS方法将原始数据集进行划分,即将这两个月的数据按照星期数划分成7个子集(从周一到周日,如图3所示),这确保了数据结构具有相同的属性。利用奇异谱分析(SSA)分别对7个子集(其中周一有216个数据,剩余6个子集有192个数据)的数据进行重构,在这里所选择的窗口长度L=90,获得7组消除噪声影响的风速数据集;再利用LSSVM模型对每个风速数据的子集进行训练预测,并通过粒子群优化算法(PSO)得到最小二乘支持向量机(LSSVM)的调节因子c和核参数σ2。PSOLSSVM模型将每个子集的前144个(周一为168个)数据作为其训练集,后48个数据作为测试集(图4即为7个测试集的预测值与真实值结果对比图)。将7个子集所得到误差项按照时间顺序形成一条新的残差序列。
由图4可以看出,当风速出现波动的时候,其风速的预测值与真实值偏差较大,其拟合效果并不是很好,因此,为了使模型的预测值具有更高精度,可采用ARIMA模型对预测模型的误差进行修正。
图3 LDS方法选择数据的形式
图4 7个测试集的预测风速与真实风速对比
首先,在EVIEWS软件中利用单位根检验(ADF)对所获得的误差数据进行平稳性检验,得到表1所示的结果。由表1可知,ADF检验的t检验值小于各显著性水平的测试临界值,并且其大于t检验值的概率远远小于各显著性水平的值,因此,可以得到序列不存在单位根,即误差序列平稳。
表1 误差序列单位根检验结果
其次,对误差序列进行相关性检查,并得到误差序列的相关性分析图(图5)。而在相关性分析中,当P<0.05时,表示拒绝原假设,即序列相关;相反地,当P>0.05时,接受原假设,序列不相关。图4中所有的P<0.05,因此,误差序列相关。由图4自相关部分可以看到,第4个数已明显收敛到2倍的置信区间内,由偏自相关部分可以看到,第3个数明显收敛到2倍的置信区间内,因此,p,q在[1,4]之间选值,结合最小信息准则(AIC),可确定误差序列采用ARIMA(1,0,1)模型进行修正。
图5 误差序列的相关性分析图
模型的参数确定结果如表2所示。从表2中可以看出参数的P值,即大于t检验值的概率值均小于0.05,因此,模型参数均显著。最后,进行检验发现残差序列为白噪声序列,因此,所选用的误差修正模型是合理的。
表2 模型参数显著性
将混合模型与误差修正模型所得到的预测值结合,得到最终的风速预测结果(图6)。由图6可以清晰地看出,经过误差修正后的风速预测值更接近于其真实值。
图6 经过ARIMA修正后的预测值与真实值
本文采用了平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、标准化的均方误差(NMSE)以及均方根误差(RMSE)四种评价指标评价混合模型在风速预测中的准确性,其具体公式如下:
(1)
(2)
(3)
(4)
(5)
与PSOLSSVM、LSSVM、ARIMA以及GM(1,1)模型预测的风速结果进行对比,由于测试集数据量较大,为了更加显著地显示各模型的预测效果,随机对比了各模型在2017年2月20日的风速预测值(图6)。从图6可以看出,LSSA_PSOLSSVM_ARIMA模型的预测结果更接近当天的风速真实值,而单一的LSSVM模型和GM(1,1)模型的预测效果较差,其中GM(1,1)模型的预测结果是一条直线,而单一的LSSVM模型的预测结果虽然有趋势,但其预测值与真实值之间有较大的偏离,ARIMA模型和PSOLSSVM模型的预测结果接近于真实值,但仍没有LSSA_PSOLSSVM_ARIMA模型预测效果好。
将各模型评价指标(MAE、NMSE、MAPE、RMSE)的对比结果列于表3,由表3数据可知,LSSA_PSOLSSVM_ARIMA模型的4个评价指标值在表3中都是最小值,因此,该模型相对表中其它预测模型有更高的精度。其中,单一的LSSVM模型和GM(1,1)模型的预测精度较低,PSOLSSVM模型和ARIMA模型的预测精度高于单一的LSSVM模型和GM(1,1)模型的预测精度,但低于LSSA_PSOLSSVM_ARIMA模型的预测精度。
图7 2017年2月20日的风速预测结果对比图
模型MAENMSEMAPE/%RMSELSSA_PSOLSSVM_ARIMA0.19950.00463.89840.2577PSOLSSVM0.25290.02167.80090.5590LSSVM7.59345.1859129.74088.6518ARIMA0.93050.099719.27811.1998GM(1,1)4.07171.47784.6185102.3896
3 结论
由于风速数据的季节性和不确定性,使得风速时间序列具有复杂的非线性性和不稳定性。本文首先采用纵向数据选择方法(LDS)选择合适的数据类型;然后利用奇异谱分析(SSA)技术剔除风速时间序列中的噪声与季节性,从而加强最小二乘支持向量机(LSSVM)的预测性能;同时,利用通过粒子群优化算法优化最小二乘支持向量机(LSSVM)的最优调节因子c和核参数σ2,将风速数据输入该模型进行模拟预测,并得到相应的误差序列;最后,利用ARIMA模型对所得到的误差序列进行修正,并结合PSOLSSVM的预测结果,得到最终的风速预测数据。利用西班牙Sotavento Galicia风场的风速数据来验证混合模型的性能,结果发现本文提出的基于误差修正的混合模型相比较于其它单一的预测模型具有更高的精度。除此之外,该方法也可以应用于股票指数、航空运输、意外死亡等方面的预测。