基于多种径流预测耦合模型的流域月径流预测优选研究

2022-09-19莫崇勋邓云阮俞理雷兴碧麻荣永孙桂凯

广西大学学报（自然科学版） 2022年4期

莫崇勋, 邓云, 阮俞理, 雷兴碧, 麻荣永, 孙桂凯

(1.广西大学土木建筑工程学院, 广西南宁 530004；2.工程防灾与结构安全教育部重点实验室, 广西南宁 530004；3.广西防灾减灾与工程安全重点实验室, 广西南宁 530004)

0 引言

径流受多种因素如降雨、气温及人类活动的扰动,从而显露出非线性、非平稳性和不确定性等特征。深入挖掘径流数据序列中的存在趋势、周期和噪音规律,有利于捕捉径流特征,提高径流的预测精度。大量学者在信号预处理和模型的组合预测方面开展了许多研究。孙望良等[1]提出了一种基于长短时记忆神经网络DFA-VMD-LSTM的组合日径流预测模型,应用于三峡水库径流预测中,预测精度得到显著提升。张森等[2]将长短时神经网络(LSTM)和多种群遗传算法(MPGA)相耦合,并应用于石砻站,结果显示合格率为85%,达到预报甲等标准。吕晗芳[3]等针对月径流序列包含多种复杂频率信息的特性,提出了VMD-LSSVM模型,结果表明组合模型较单一模型预测效果好,其中以VMD-LSSVM模型的精度最高。梁浩等[4]分别基于EMD、EEMD和小波分解构建了多种混合模型,发现单一模型的预测精度均低于混合预测模型。桑宇婷等[5]采用CEEMD法及BP神经网络,建立了汾河上游月经流量预测的CEEMD-BP模型,并与单一BP模型进行对比,研究发现验证期CEEMD-BP模型径流预测的平均绝对误差、均方根误差与单一BP模型相比分别减少53%～62%、48%～65%。上述预测模型大多研究的是单一预处理耦合单一模型的方式,鲜少涉及到各种预处理方法的对比应用,为了进一步探究预处理方法结合各径流耦合模型的预测效果,本文以西南区澄碧河流域为例,建立EMD-BP、EEMD-BP和EWT-BP等9种径流预测耦合模型,对澄碧河流域径流进行预测及对比分析,以优选出较好的预测耦合模型。

1 研究方法

1.1 经验模态分解(EMD)

经验模态分解方法由Huang等[6]于1998年创建,其使用信号内部的特征尺度变化解析频率和能量,使得非平稳、非线性的信号被分解为有限个具有一定周期和平稳性的本征模态函数(IMF)与一个残余Res分量。提取的IMF分量需要满足2个条件：①在全部数据段内,极大值和极小值点的总数量和过零点的数量必须相等或相差最多不超过一个；②任意时刻内,局部极大值点连接生成的上包络线和局部极小值点连接生成的下包络线总体均值为0,即上、下包络线对于时间轴呈现局部对称分布[7]。主要计算步骤见文献[8]。

1.2 集合经验模态分解(EEMD)

Wu等[9]于 2009 年提出集合经验模态分解法(EEMD),是在 EMD 的基础上发展而来,通过在使用 EMD 进行分解的过程中添加多次高斯白噪声序列,达到使随机集成产生的白噪声序列相互抵消的目的,从而减少模态混叠的概率。该方法的具体计算步骤详见文献[10]。

1.3 经验小波变换(EWT)

经验小波变换[11](EWT)综合了 EMD 的自适应优势,通过在 Fourier 频谱上进行适当分割,并于各个频带上建立一组适宜的正交小波滤波器组,将信号分解成多个具有紧凑支撑特性的频率特征信息相异的分量[12]。主要计算步骤详见文献[13]。

1.4 Elman神经网络

Elman神经网络是一类具有极强计算能力的局部回归网络,连接局部记忆单元与局部反馈[14]。Elman神经网络由4层网络结构组成,分别为输入、隐含、输出和承接层,相比于一般静态神经网络,具有逼近速度快、动态特性好等特点[15]。

1.5 支持向量机(SVM)模型

SVM模型的基础是统计学习理论下的VC维度与结构风险最小化理论,其本质是通过一个非线性映射使得样本的特征向量完成从低维空间至高维空间的映射,以找到将样本分隔开的最大间隔超平面[16]。SVM以结构风险最小化原理作为基础,建立在统计学习理论的基础上,是一种基于数据的挖掘方法,能够很好地处理回归问题(时间序列分析)和模式识别(分类分析),可以推广到预测和综合评价等学科,在线性可分数据方面,可以实现对它的最优分类。SVM模型详细步骤见文献[17]。

1.6 BP神经网络

BP神经网络是目前应用最广泛的神经网络模型之一,在1986年由Rumelhart和McCelland提出,它的学习规则是使用梯度下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小,BP网络有3层或3层以上的结构,它们是输入、单层或多层隐藏、输出层组合而成,BP神经网络模型详细步骤见文献[14]。

结合上述3种预处理方法和3种单一模型方法,本文通过澄碧河流域坝首站优选BP、SVM和Elman模型,对比分析上述结果筛选出最优单一模型,在此基础上,结合EMD、EEMD和EWT 3种预处理方法构建9种耦合模型,对比分析耦合模型的预测结果,最后优选出适合该流域的最优耦合模型。技术路线如图1所示。

图1 技术路线图

1.7 模型评价与优选

为评价预测模型的预测性能,参考国内外较为普遍适用的模型评价标准,论文选取纳什效率系数(NSE)、均方根误差(RMSE)和平均相对误差绝对值(MAPE)共3种评价指标构建评价指标体系用于评价。

(1)

(2)

(3)

2 实例应用

2.1 数据来源

澄碧河流域位于百色市凌云县北部的青龙山,平均海拔为650 m,属西江水系,该流域总面积为2 087 km2,岩溶区面积占总面积为53.7%,干流河长为151 km。该岩溶区是中国南方典型的岩溶区之一,具有高峰丛状洼地和峰丛洼地的特征,属喀斯特地貌,地处亚热带季风气候区。水库坝址以上集雨面积为2 000 km2,年平均降水量为1 560 mm,具有很好的调节性能。其中坝首、平塘、浩坤和下甲为水文站,下塘、百练、林河、凌云、朝里、弄塘、介福和东和为雨量站。澄碧河流域站点分布图如图2所示。

图2 澄碧河流域示意图

因历史原因,结合所拥有的观测资料,论文采用的数据为：坝首水文站站1979-01-01—12-01的逐月径流深资料。其中,以月径流深同时作为输入项和输出项。模型构建中,不同维数月份的输入会影响最后输出结果,即选取最优滞后时。输入数据个数较少时,训练次数较少,预测效果欠佳,输入数据太多时,易出现过拟合现象,对预测效果存在影响。本文通过参考以往文献的输入滞后时间,以及不断的进行各情景下的滞后时间的尝试,比对效果,最后选取11类优选集。各情景输入模型后,得到各情景下的结果,对比选优,得到最后结果。其中11类输入的滞后时间见表1。

表1 输入数据的滞后时间情景类别

2.2 结果与分析

2.2.1 单一模型预测结果

利用澄碧河流域1979-2019年共41 a的492个月径流深序列建立Elman预测模型、SVM预测模型和BP预测模型进行对比,结果分别如图3和表2所示。由图3可知,Elman模型、SVM模型和BP模型的预测值均跟实测值的误差相对较大,拟合效果不甚理想。为了进一步对比3种单一模型的预测效果,采用NSE、RMSE、MAPE进行评价,结果见表2。由表2可知,从NSE指标来看,Elman、SVM和BP模型的NSE值较小,预报等级均未达到丙级,预测效果不甚理想,3种模型中,BP的NSE值最高,为0.49,较Elman的NSE值大0.06,较SVM的NSE值大0.04。这与BP神经网络的非线性映射能力、泛化能力和容错能力有关。

图3 单一模型预测结果图

表2 各单一模型在验证集上的预测结果

2.3 径流的EMD分解

采用EMD方法将原始序列进行分解,重构后进行建模,数据总计492个月,训练集和验证集比例划分为8∶2,也即训练集为前394月,验证集为后98个月。通过穷举对比,3种单一模型的最优输入滞后时间均为11个月。坝首水文站月径流资料的EMD处理结果如图4所示。原序列分解共得到6个IMF分量与一个趋势项RES,它不仅包含了原始序列的全部信息,而且突出了原始序列的不同特征,使对原始序列影响较小的原始序列特征同样出现,反映了原始序列的多尺度性。由图4可知,各IMF分量的频率由高到低依次递减,每种模态都体现了原始序列的特征,使模型能够更准确地学习径流序列的周期性和规律性特征。

(a)IMF1分解结果

2.4 径流的EEMD分解

由图5可知,使用 EEMD 法分解坝首水文站月径流序列后,可以得到 7个波动周期相异的本征模态函数 IMF 分量和 1个RES 趋势项分量,同样能够反映出坝首水文站月径流变化的多时间尺度特征；在分解出的所有子序列中,同 EMD 法作出的分解结果相同,依旧是本征模态函数 IMF1 分量和IMF2分量的振动幅度最大,频率最高,波长最短,而从 IMF3分量到 IMF7分量振动呈现逐渐变小的趋势,频率呈现逐渐降低的趋势,波长呈现逐渐变大的趋势,分解出的 RES趋势项分量显示出月径流序列整体呈现出明显的上升趋势。

(a)IMF1分解结果

2.5 径流的EWT分解

由图6可知,使用 EWT 法分解坝首水文站月径流序列,可以得到 4 个具有一定规律的经验模态分量,IMF1 至 IMF4 具有不同的周期性和振动幅度并分别对应着原始振动信号的不同特征。该方法与 EMD 法和 EEMD 法分解出的 IMF 分量进行比较可以发现,其分解出的 IMF 分量更少,仅有4个IMF 分量,并且没有 RES趋势项分量。EMD 法和 EEMD 法得到的 IMF 分量虽多,但除前几个分量,其余均为难以观测变化且不具备明显振动特征的分量,一般将其视为虚假模态。

(a)IMF1分解结果

2.6 组合模型预测结果

经过上述3种不同的预处理方法后,求得各个方法的不同分量,再用各模型针对各分量进行预测,最后进行加和,得到最后预测结果。

在已知BP神经网络的预测效果较好情况下,进一步利用澄碧河流域1979—2019年共41 a的492个月径流深序列建立EMD-BP模型、EEMD-BP模型和EWT-BP模型进行对比。具体结果如图7和表3所示。①由图7(a)和表3可知,对比NSE和RMSE指标在不同模型中的模拟效果,精度上,EMD-BP模型大于BP模型,纳什效率系数提高65.12%,均方根误差降低29.36%,预测结果更加接近实测值,利用EMD-BP模型,对非平稳径流序列进行分解-预测-重构,进而转化为平稳序列,减少了非平稳性对径流预测误差的影响。②由图7(b)和表3可知,精度上,EEMD-BP大于BP模型,纳什效率系数提高62.79%,均方根误差降低27.84%,月径流预测结果更加接近实测值,较EMD处理数据的效果没有很大明显变化。③由图7(c)和表3可知,精度上,EWT-BP大于BP模型,纳什效率系数提高了0.48,均方根误差降低61.02%,月径流预测结果在3种耦合模型中最接近实测值。由图7(d)和表3可知,精度上,EWT-BP模型的纳什效率系数最大,NSE值为0.91,较EMD-BP模型,NSE值提高了28.17%,RMSE值降低了15.83,较EEMD-BP模型,NSE值提高了30%,RMSE值降低了16.59,表明EWT-BP模型的预测精度较好。

(a)EMD-BP预测结果

表3 各耦合模型在验证集上的预测结果

3 结论

① 本文采用BP、SVM和Elman这3种单一模型对澄碧河流域坝首站月径流深进行预测,结果表明,BP模型的预测效果较好,SVM次之,Elman在3种模型中相对较差,表明BP神经网络能够较好地适应于该流域中非线性的径流关系。

② 在3种预处理方法中,EWT的分解效果较好,优劣先后顺序为EWT、EEMD、EMD。

③ 在构建的9种耦合模型中,EWT-BP耦合模型的表现效果最好,NSE指标为0.91,预测精度达到甲级,好于EMD-BP和EEMD-BP耦合模型。

④ 在对澄碧河流域的径流预测研究中,耦合模型的预测效果较单一模型整体上都要好,提高了径流预测精度。接下来工作还可以在以下2个方向进行更深入研究：该研究只针对月径流进行了模拟,尚未涉及到年径流、日径流不同时间尺度的研究,可以进一步进行这方面的研究；不同预处理方法的不同频率分量可采用不同的预测方法进行预测,筛选出适用于各频率不同分量的最佳预测模型,求和可进一步提高预测精度。