基于EMD的SVM支持向量机模型在朝阳旱灾预测中的应用
2022-10-10于洋
于 洋
(辽阳市水利事务服务中心,辽宁 辽阳,111000)
0 引言
近年来,由于全球性气候变化,自然灾害频繁发生,而旱灾是制约我国农业发展及国民经济稳步增长最为严重的自然灾害之一。旱灾不仅对农业造成危险,严峻的旱灾还会对人民群众的生命和财产安全构成威胁。为降低旱灾的严重影响,研究旱灾预测模型,准确、客观进行旱灾预测显得尤为重要。
目前,由于计算机的普及和资料的丰富,各种数理统计方法在旱灾预测中得到广泛应用。段凯等[1](2021)利用中国十大一级流域50个国家气象站构建了逐月的日降水尺度模型,结果显示,SVM、SDSM与LARSWG分别在中国干旱、半干旱与湿润地区表现出更好的整体适用性。迟道才等[2](2012)将传统的灰色理论预测模型与灰色关联度分析相结合对辽宁省沈阳地区进行预测,组合模型较好的拟合了预测灾变年,预测误差小于普通灰色预测模型。罗党等[3](2019)基于经验模态分解和最小二乘支持向量机的多尺度组合预测模型预测河南省农业旱灾,取得了较好的预测精度。
综上所述,众多专家学者致力于旱灾特征分析及预测模型的应用研究,并不断推进旱灾预测模型的预测精度,由此,本研究尝试着将EMD(经验模态分解法)和SVM(支持向量机模型)结合起来,建立基于EMD的SVM支持向量机旱灾预测模型,并将其应用于朝阳旱灾预测中,该模型的应用提高了预测精度,为朝阳地区旱灾预测提供技术依据,为旱灾预测提供了一种切实可行的新途径。
1 资料与方法
1.1 研究区域概况
朝阳市位于辽宁省西部地区,其降水量少而集中,因其地形相对复杂,受温带亚干旱气候影响,导致朝阳地区降水时空分布不均匀,对该地区的农业影响较为严重。因此,本研究利用朝阳地区1968~2018年共51年的降水资料作为研究对象,基于EMD的SVM旱灾预测模型对朝阳地区旱灾情况进行预测研究,希望能准确预测预报旱灾的发生,降低旱灾给当地农业带来的危害。
1.2 EMD经验模态分解法简介
EMD经验模态分解法可将一个复杂的非线性信号进行平稳性处理,其本质是将信号中不同尺度(频率)的波动或趋势项逐级分解开来,形成一系列具有平稳性且相互影响甚微的数据序列[4]。EMD经验模态分解的信号是由幅度和相位随时间变化的本征模态分量(Intrinsic Modal Functions,IMF)构成。本征模态分量必须满足以下两个假设条件:
(1)本征模态分量(IMF)的极值点和过零点的数目必须相等或最多相差1;
(2)在任意时刻,本征模态分量(IMF)的极大值所形成的上包络线和极小值所形成的下包络线的平均值必须为零。
经验模态分解法(EMD)具体分解步骤如下:
(1)找出数据序列X(t)所有的最大值点和最小值点;
(2)运用三次样条插值的方法拟合出待分解数据序列的上包络曲线、下包络曲线,并计算上、下包络曲线的平均值 M(t):
式中,Emax(t)为上包络曲线值;Emin(t)下包络曲线值。
(3)原始数据序列与上、下包络曲线的平均值的差值为:
式中,X(t)为原始数据序列;M(t)为上、下包络曲线的平均值。
(4)重复(2)、(3)的步骤,H(t)作为待处理信号,直到分量Hi(t)为一个IMF分量为止,并把该分量定义为ci(t);
(5)r(t)为剩余量,是原始数据序列与新获得的IMF分量ci(t)的差值;
式中,X(t)为原始数据序列;ci(t)为新获得的IMF分量。
(6)r(t)作为待处理信号,通过上述(1)到(5)以此类推可以获得n分量;
进行选定分解结束的条件是被Huang等人发明的,他们的方法是先定义SD为分量Hi-1(t)和Hi(t)的标准差,其表达式为:
式中:Hi(t)为IMF第i个分量;Hi-1(t)为IMF第i-1个分量。
那么,终止条件则设定为r(t)的SD值小于0.3或r(t)逐步的接近于一个固定的值可以结束分解。
(7)经过上面提到的这些操作方法可将原始的数据变成很多的ci(t)和r(t),其表达式为:
式中:ci(t)为给定数据的分量;r(t)是通过原来的数据经过处理后剩下的量。
1.3SVM模型简介
SVM模型是Vapnik等人20世纪90年代提出的,它强调经验风险最小值,是依据统计方法进行学习的学习机。在众多的机器学习方法中,SVM支持向量机模型具有强大的泛化能力,能够得到全局最优解,巧妙的解决了维数问题,不用过多的依赖于经验确定隐含节点,因此,本文选择 SVM 模型进行研究[5,6]。
(1)支持向量机模型的原理是利用线性映射,在空间中求得最优结果,支持向量机在小样本、非线性领域获得较好的应用,基本结构如图1所示。
(xi,yi)中xi为输入样本,yi为对应输出样本,i=1,2…L,L被定义为样本的数目。
(2)SVM支持向量机构造学习机的方法是利用映射的方法Φ把数据输入到更高维F中展开学习,其函数表达式为:
式中:w为一个向量用来表示给定数据的权重,利用非线性的变化可以得到ø(x);b为一个阀值;f(x)既是降水量时间系列函数同时又是ø(x)的线性函数。
(3)为避免出现更多的风险来寻找f(x)的结果,使得J的值不那么大。
(4)ε为引入的不敏感损失函数,其定义为:
(5)非负松弛变量ζi和可以解决在ε精度下处理数据,目的是使回归函数的解存在转化为寻求解约束最优化问题,公式为:
(6)采用不同类型的核函数会产生不同的预测结果,而径向基函数具有一定的非线性映射能力,可以有效的反映出不同数据间的非线性关系,将其应用到旱灾预测当中,可以表现出一定的预测能力。因此,本文将构造径向基函数进行学习[7,8]。
(7)由于高维空间的内积运算复杂,为取得更加准确的转换内积结果可以通过引入核函数就可得到回归方程,根据泛函理论,解决了非线性映射ø(x),其回归方程最终表达式为:
式中:ai*为拉格朗日函数的最优解;ai为拉格朗日函数。
2 应用与分析
2.1 模型应用
本文根据EMD分解步骤,利用Matlab工具,对朝阳地区51年来的降水资料进行EMD分解,利用边界延拓法来处理边界问题,可得到IMF分量(c1~c5)跟一个剩余量r,如图2。得到朝阳地区降水量EMD的分解结果可知,朝阳地区五个分量,通过每一个分量都可以看出其振幅大小及波动的频率,这五个分量的振幅及波动情况是逐渐减小的,它表明通过EMD分解后的朝阳地区降水量时间序列降低了原有数据序列的随机性、波动性,为下一步应用支持向量机预测模型提供一个相对较平稳的时间序列。为充分考量基于EMD的SVM支持向量机旱灾预测模型的优越性,将EMD分解结果中前41年(1968~2008年)的年均降水时间序列作为SVM支持向量机学习的输入值,得到基于EMD的SVM支持向量机模型的预测值,2009~2018年共10年的降水时间序列用于精度检验。经EMD分解后的模型明显的降低了SVM支持向量机学习的训练次数,优化了学习效果。
为进一步考量经EMD分解后的SVM支持向量机组合模型优于传统SVM支持向量机模型,同样将朝阳地区51年来的降水资料利用SVM支持向量机模型进行预测对比分析。将EMD分解优化后的SVM支持向量机旱灾预测模型的预测值与传统的SVM支持向量机的预测值及实际值进行对比,结果如图3。
2.2 预测模型结果精度检验分析
为量化不同模型的精确度差异表现,本文选用均方误差(MSE)、决定性系数(R2)对模型进行精度检验,公式如(12)、(13)所示,精度检验结果如表1所示。
表1 精度检验结果
式中:R0为降水量真实值;Rm为降水量预测值;是凌河流域实际值的均值;N为时间序列长度。
根据表1结果,2009~2018年基于EMD的SVM支持向量机预测模型的年均降水量预测值的均方误差(MSE)为0.000 5、决定系数(R2)为0.992;均方误差、决定性系数均满足朝阳地区旱灾预测的误差精度要求,且结果优于传统SVM模型的均方误差值和决定性系数。可见,利用EMD经验模态分解法将年均降水量时间序列进行层次化、平稳化分解后降低了原时间序列的波动性、复杂性,基于EMD的SVM支持向量机旱灾预测模型能显著提高预测的准确度及稳定性,比传统的SVM模型表现出更多优点。所以,基于EMD的SVM模型可以用来预测朝阳地区旱灾情况。
3 结论与讨论
(1)基于EMD的SVM支持向量机模型对朝阳地区51a(1968~2018)降水进行预测分析,经EMD分解后的降水数据更加平稳,使降水数据较少波动,为支持向量机模型的预测工作提供一个相对较平稳的数据,降低了模型在预测中需要的信息量,而且减少了模型在训练过程的迭代数目,使学习任务简化,利用不同模型的独特优势,提高了预测精度,具有一定的可行性。
(2)利用基于EMD的SVM旱灾预测模型预测朝阳地区10a(2019~2028)旱灾情况,结果显示朝阳地区10a(2019~2028)年均降水量未发现极端干旱情况,十年平均降水量为443.04mm,其中,2019年、2021年及2028年年均降水量相对偏少,分别为317mm,325.7mm,358.9mm。基于EMD的SVM旱灾预测模型在朝阳地区的应用可以为当地农业生产及人们的日常生活提供一定的参考依据。
(3)本研究只将影响朝阳地区旱灾的主要因素降水作为考虑因素,范围较单一,在以后研究中应进行不断改进。