APP下载

基于CEEMDAN-VMD-BP模型的月径流量预测研究

2023-05-05王文川杜玉瑾和吉邱林

关键词:洪家径流量径流

王文川, 杜玉瑾,2, 和吉, 邱林

(1.华北水利水电大学 水资源学院,河南 郑州 450046; 2.黄河水利委员会 西峰水文水资源勘测局,甘肃 庆阳 745099)

准确预测径流对发电、防洪、供水、多能源调度、环境保护、配水系统优化和改善生态环境等各种实际工程问题至关重要[1-2]。众所周知,径流通常受降水、蒸发和太阳辐射等多种因素影响,并表现出强烈的非线性、高不确定性和时空变化的综合特征[3-5]。近年来,严重的气候变化和人类活动已对径流一致性产生了不可忽视的影响,在迅速变化的环境中准确地捕获径流的动态过程变得越来越困难。为提高水文预报精度,不同学者提出了许多预测模型,这些模型大致分为过程驱动和数据驱动两类[6]。过程驱动模型以水文学概念为基础,需要大量水文气象资料,并考虑不同时空条件下水文规律的差异性,因此易存在泛化性差以及参数不确定性等问题。数据驱动模型基本不考虑系统水文过程的物理机制,是以最优数学关系为目标,建立输入和输出之间关系的黑箱子方法,在时间序列分析与预测方面有独特的优势。如陶思铭等[7]根据流域水文资料构建了唐乃亥控制流域逐日径流长短时记忆神经网络(Long Short-term Memory Network,LSTM)预报模型。赵益平等[8]构建了R/S-BP耦合模型,并成功应用于釜溪河流域年径流预报中。本文主要探索BP(Back Propagation)神经网络模型融合数据预处理技术在流域月径流量预报中的适用性。

由于径流过程具有随机性、趋势性等特征,故单一预测模型通常难以有效地拟合整个水文过程,有研究表明,信号分解技术可以将具有高复杂性的序列分解为一系列相对稳定的子序列[9],降低了径流量序列的非平稳性,进而降低了模型预测难度。目前,典型的信号预处理方法有奇异谱分析法(Singular Spectrum Analysis,SSA)、经验模态分解法(Empirical Mode Decomposition,EMD)、集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)、小波分解(Wavelet Decomposition,WD)等。不同学者也做了大量有益的探索,如李福兴等[10]采用EMD提取径流序列中具有物理含义的信号,结合差分整合移动自回归模型(Autoregressive Integrated Moving Average mode,ARIMA)和广义回归神经网络(Generalized Regression Neural Network,GRNN)模型分别对不同时间尺度的分量进行模拟。梁浩等[11]融合大气环流异常因子信息,在优选BP神经网络、多元线性回归(Multiple Linear Regression,MLR)和支持向量机(Support Vector Machine,SVM)的基础上,分别基于EMD、EEMD和WD构建了多种混合模型。EEMD方法虽然解决了EMD所存在的问题,但若添加的白噪声幅值不适合,会造成计算量冗余以及模型搭建时间增加等问题。自适应噪声的完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)很好地克服了上述方法存在的问题。该分解方法已应用到序列分解上,并取得了很好的表现,如韩宏志等[12]结合回声状态网络(Echo State Network,ESN)、CEEMDAN与误差修正,提出了一种基于ESN的混合风速预测方法。基于此,本文将CEEMDAN用于分解月径流时间序列,但CEEMDAN分解得到的高频分量,如IMF1,会增加预测难度。单一分解方法可能难以全面捕捉信号的非线性特征,如何解决IMF1非线性强、复杂性高的问题成为进一步提升水文预报精度的关注焦点。针对以上问题,颉清云等[13]提出了一种基于改进集合经验模态分解(Modified Ensemble Empirical Mode Decomposition,MEEMD)-局部均值分解(Local Mean Decomposition,LMD)-门控循环单元(Gated Recurrent Unit,GRU)的超短期组合风速预测模型。赵征等[14]提出了一种基于完备经验模态分解(Completely Ensemble Empirical Mode Decomposition,CEEMD)、变分模态分解(Variational Mode Decomposition,VMD)和最小二乘支持向量机(Least Square Support Vector Regression,LSSVR)的混合风速预测模型。“二次分解”体现了对原始数据处理的“精细化”思想,降低了一次分解中复杂分量的预测难度。目前衡量数据复杂度的方法有近似熵、样本熵等,与近似熵相比,样本熵改进了近似熵中因对自身数据的比较而产生计算偏差和一致性较差的缺陷[15]。因此,本文采用样本熵方法定量衡量CEEMDAN分解各子序列的复杂性。

基于“分解与集成”的思想[16],本文尝试采用二次分解方法对非线性信号进行预处理,提出将CEEMDAN-VMD二次分解方法与BP神经网络结合的月径流量混合预测模型。首先,利用CEEMDAN分解原始径流量序列,利用样本熵评估各子序列的复杂性;然后采用VMD二次分解复杂度最高的分量,所有子序列作为BP预测模型的输入;最后线性叠加所有分量预测结果,得到最终预测结果。

1 研究方法

1.1 CEEMDAN

CEEMDAN是在EMD和EEMD基础上的改进算法,克服了EMD的模态混淆问题和EEMD的噪声残留问题,分解过程完整,重构误差几乎为零[17]。

原始信号为x(t),假设Ek(·)和IMFk分别为EMD和CEEMDAN产生的第k阶模态分量;Vj(t)为第j次实验加入的白噪声序列。

1)CEEMDAN利用EMD对加入白噪声的原始信号进行n次分解,得到的第1个模态分量为:

(1)

2)由CEEMDAN得到的第1个且唯一的余量序列为r1(t),并向第2个余量中加入噪声分量ε1E1[vm(t)],第2个模态分量为IMF2(t):

r1(t)=x(t)-IMF1(t),

(2)

(3)

3)重复第2步,可得第i个余量及第i+1阶模态分量,直到余量信号无法进行分解时,CEEMDAN终止,分解得出k阶模态分量。其中R(t)为最终的残差:

ri(t)=ri-1(t)-IMFi(t),

(4)

(5)

(6)

1.2 样本熵

样本熵(Sample Entropy,SE)是一种衡量序列复杂度的工具,其计算过程简单,抗干扰能力强,已在多学科中被广泛使用。本文采用样本熵衡量CEEMDAN分解得到的各子序列的复杂度。样本熵的值越大,序列复杂度越高,反之越小。原始信号为X=(x(1),x(2),…,x(n)),计算步骤如下:

1)将时间序列重构到m维:

(7)

2)向量X(i)和X(j)之间的距离记为d[X(i),X(j)]:

d[X(i),X(j)]=max(|X(i+l)-X(j+l)|)。

(8)

式中:l=1、2、…、m-1;1≤i≠j≤n-m+1。

(9)

(10)

5)增加维数到m+1,并重复步骤1—3,得:

(11)

6)序列样的SE为:

(12)

1.3 VMD

VMD作为一种新的自适应数据分解方法,充分利用变分模式和非递归方法生成一定数量的IMF分量和一个残差(Res)。在VMD中,假定每个模型都具有一定中心频率的带宽。通过确定约束变分模型的最佳方案即原先设定合理的收敛个数k,可以获得复杂度较低的分解结果。VMD的总体框架主要包括问题的构造与求解,其分解的模式比常规方法的分解模式更稳定。假设原始信号为f(t),约束变分问题如下:

(13)

式中:mi为分解后的i个模态分量;i为模态分量个数(i=1、2、…、n);pi为模态函数对应中心频率集合;δ为迪克拉函数;⊗为卷积运算;j2=-1。具体计算过程可见文献[18]。

1.4 BP神经网络模型

BP神经网络是一种误差逆向传播的多层前馈神经网络,模拟神经元信号传递过程,输入层用于接收信号模拟感觉神经元,然后传递到隐含层最终从输出层输出,具有结构简单、计算量小、分布式协作、信息共享等特点。BP模型是水文预测领域应用最广泛的人工神经网络模型。本研究采用Levenberg-Marquardt(LM)方法、Sigmoid函数和Purelin公式分别作为BP模型的训练函数、传递函数和输出函数。BP模型的数学公式可以表示为

(14)

f(x)=tansig(x)=(ex-e-x)/(ex+e-x)。

(15)

1.5 CEEMEAN-VMD-BP模型

针对径流时间序列的非平稳性、随机性,本文提出了CEEMDAN-VMD-BP径流预测模型。模型具体流程图如图1所示。

图1 径流预测流程图

首先将原始月径流量序列应用CEEMDAN方法分解得到9个IMF分量和1个Res分量,计算各分量的样本熵;然后采用VMD对具有最大样本熵值的分量进行二次分解进而削弱径流序列的非平稳性;再利用BP神经网络模型对各分量进行预测;最后对各分量的预测值线性叠加得到模型最终预测结果。

2 实例应用

2.1 研究对象

洪家渡水电站位于贵州西北部乌江干流上,是乌江水电基地11个梯级电站中唯一对水量具有多年调节能力的“龙头”电站。坝址以上控制流域面积9 900 km2,多年平均径流量48.9亿m3,在乌江水量基地梯级调度中占据重要战略地位。本文选取洪家渡水电站1951年1月—2005月12月实测月径流量资料为研究对象,数据来源于文献[19],其中1951年1月—2000年12月的数据作为率定数据,以2001年1月—2005年12月的数据作为验证数据,如图2所示。

图2 洪家渡水电站实测月径流时间序列

洛宁县位于河南省洛阳市,洛河是其境内最大的河流,发源于陕西省商洛市洛南县龙潭泉,由河南省巩义市神堤山注入黄河。河道全长447 km,流域面积18 881 km2。长水水文站位于洛宁县中部,始建于1951年,位于洛河干流中上游,年过境水量12.53亿m3。多年平均降水量656.9 mm,降水季节性波动很大,年平均蒸发量1 597.5 mm。本文以长水水文站1956年1月—2016年12月实测月径流量资料为研究对象,其中,1956年1月—2001年12月的数据作为率定数据,2002年1月—2016年12月的数据作为验证数据,如图3所示。

图3 长水站实测月径流时间序列

2.2 径流数据预处理

采用CEEMDAN对实测月径流量数据进行分解,然后计算各分量的样本熵值。设置噪声标准差为0.2,最大迭代次数为5 000,洪家渡水电站和长水站CEEMDAN分解结果见图4和图5。从图4和图5中可看出,从IMF1至Res序列波动性逐渐增强,然后计算各分量样本熵值,条件阈值取序列标准差0.2倍,m为2,计算结果见表1和表2。由表1和表2可知,IMF1样本熵值最大,表明其序列复杂度最高,因此采用VMD二次分解IMF1进而降低其复杂性。经过反复测试,设置分解个数k=8,其余参数为默认值,VMD分解得到的各分量形式与CEEMDAN结果类似。将得到的各分量进行归一化处理,并作为BP神经网络模型的输入进行径流时间序列的预测。

图4 洪家渡水电站CEEMDAN分解结果

图5 长水站CEEMDAN分解结果

表1 洪家渡水电站CEEMDAN各分量的样本熵值

表2 长水站CEEMDAN分解得各分量的样本熵值

2.3 模型参数设置

本文采用标准的三层前馈神经网络对月径流量进行预测,输入和输出层节点的数量分别等于输入变量的数量和1。Levenberg-Marquardt(LM)方法、Sigmoid函数和Purelin函数分别用作训练函数,传递函数和输出函数。通过试错法确定隐藏节点的最佳数量确定为8,训练次数为500。

2.4 评价指标

为了准确衡量各模型的预测能力,本文选取均方根误差(RMSE)、平均绝对百分比误差(MAPE)、纳什系数(NSE)和皮尔逊相关系数(R)来评定各种预报模型的预测精度。RMSE对测量数据中的特大或特小误差反映非常敏感,所以能更好地反映预报数据的精密度。MAPE是用来衡量预测误差的无偏统计量,由于离差被绝对值化,避免了正负相抵消的情况,因此能更好地反映预测误差的实际情况。NSE用来衡量预测值和实际值之间的吻合程度,取值区间为(-∞,1),值越接近于1吻合程度越高。R作为水平预测共线性程度的标准,对高极值敏感程度高。RMSE、MAPE、NSE和R的计算公式如下:

(16)

(17)

(18)

(19)

2.5 模型预测及结果分析

利用CEEMDAN-VMD-BP方法建立了洪家渡水电站和长水水文站的月径流量预报模型,得到两站各60个月径流量预测值。为验证提出模型的有效性,将提出模型的预测结果与BP神经网络模型以及CEEMDAN-BP模型的预测结果进行对比。基于比较的目的,所有模型采用相同的预报输入、率定期和验证期。实测径流量数据作为各模型的输入,表3和表4列出了两站CEEMDAN分解各分量的预测误差,表5和表6为两站模型预测误差,模型验证期预测效果如图6—9所示。

表3 洪家渡水电站各分量预测误差

表4 长水站各分量预测误差

表5 洪家渡水电站模型预测误差

表6 长水站各模型预测误差

图6 洪家渡水电站验证期各模型预测结果对比

图7 长水站验证期各模型预测结果对比

图8 洪家渡水电站验证期各模型预测结果对比箱线图

图9 长水站验证期各模型预测结果对比箱线图

由表3可以看出,对于洪家渡水电站,IMF1分量预测效果最差,率定期和验证期的R分别为0.614和0.534,剩余分量率定期和验证期R的平均值分别为0.991和0.983。表4为长水站CEEMDAN分解各分量预测误差,验证了长水站分量IMF1预测难度最大,率定期和验证期R分别为0.609和0.245,剩余各分量率定期和验证期R平均值达到了0.992和0.977。以上分析可得IMF1至Res拟合效果逐渐提高,即验证了模型拟合效果随着样本熵的增大而降低,故可以尝试通过提高IMF1的预测精度来提高整个模型的预测精度。

由表5和表6可知,一次分解模型预测效果优于单一BP模型,CEEMDAN-VMD-BP模型的指标、评价、取值相比于一次分解CEEMDAN-BP模型均取得了更好的表现。对于洪家渡水电站,CEENDAN-BP相较于BP模型,在率定期,使R和NSE提升了26.03%和60.38%,使RMSE和MAPE降低了43.47%和27.71%;在验证期,CEENDAN-BP相较于后者,使R和NSE提升了19.48%和44.83%,使RMSE和MAPE降低了39.02%和26.88%。CEENDAN-VMD-BP相较于CEEMDAN-BP模型,在率定期,使R和NSE提升了9.78%和16.47%,使RMSE和MAPE降低了71.33%和65.82%;在验证期,CEENDAN-BP相较于后者,使R和NSE提升了9.78%和17.86%,使RMSE和MAPE降低了70.75%和63.31%。对于长水水文站,CEENDAN-BP相较于BP模型,在率定期期,使R和NSE提升了79.22%和656.12%,使RMSE和MAPE降低了46.39%和10.25%;在验证期,CEENDAN-BP相较于后者,使R和NSE提升了133.13%和453.49%,使RMSE和MAPE降低了31.15%和42.05%。CEENDAN-VMD-BP相较于CEEMDAN-BP模型,在率定期,使R和NSE提升了13.55%和28.42%,使RMSE和MAPE降低了70.43%和51.49%;在验证期,CEENDAN-BP相较于后者,使R和NSE提升了28.42%和101.29%,使RMSE和MAPE降低了65.28%和50.66%。以上分析验证了通过分解方法预处理径流量数据可以获得线性更好的数据,进而降低了模型的预测难度;同时验证了CEEMDAN-VMD分解模型的高效性及其与BP模型的协同效应弱化了单个模型的不足。

图6至图9展示了两站验证期3种模型的预测效果。从折线图(图6和7)可以看出:由于两站原始径流量序列复杂性较高,单一BP模型的预测值与实测值的离散程度较高,经过一次分解和二次分解后模型预测值的趋势线与实际值的波动趋势大体一致;BP模型和CEEMDAN-BP模型对极值点的预报值总体小于实测值且存在滞后效应,同时对于本文两个研究对象,单独BP模型的径流量预报数值存在负值;一次分解预报模型在数值及时间定位方面提升了径流量峰值预报能力,但对于径流较小月份的预报精度还有待提高;相较于BP模型和CEEMDAN-BP模型,CEEMDAN-VMD-BP模型能更精准地捕获原始径流量数据的变化特征,大幅度提升了模型预报能力,拟合效果最优。从洪家渡水电站和长水水文站的箱线图(图8和图9)可以看出,相较于BP模型和CEEMDAN-BP模型,CEEMDAN-VMD-BP模型预测的最大值、最小值和中位数与实测值的最大值、最小值和中位数最接近;BP模型和CEEMDAN-BP模型预测的异常值远小于实测数据的异常值,而CEEMDAN-BP-VMD模型预测的异常值均很接近实测数据的异常值。从箱线图中可以看出,CEEMDAN-VMD-BP模型预测汛期峰值流量更具优越性,更全面地捕获了径流量时间序列的变化特征。

从上面的研究结果分析可知:CEEMDAN-BP模型与BP模型相比,在月径流时间序列预报方面能够取得更好的拟合效果;本文提出的基于“二次分解”思路的CEEMDAN-VMD-BP模型的预测精度优于CEEMDAN-BP模型,说明CEEMDAN-VMD组合分解方法更适用于分解月径流量时间序列,二次分解的思路是可行的。本文提出的CEEMDAN-VMD-BP模型在径流预报中产生的协同效应克服了单一预报模型的不足,因此采用二次分解技术预处理月径流数据作为预测模型的输入,可以最大限度降低序列复杂性,有助于提高模型的预测性能。

3 结论

中长期径流预报在水资源的运行和管理中起着至关重要的作用,高精度的预测结果有助于合理规划流域用水需求。为了提升径流预测精度,本文提出了一种用于长期径流预测的混合模型,该模型结合了二次分解技术和BP神经网络模型(CEEMDAN-VMD-BP)。首先,利用自适应噪声的完全集合经验模态分解(CEEMDAN)技术分解实测月径流量时间序列并计算所有子序列的样本熵;其次,将具有最大样本熵的子序列用变分模态分解(VMD)进行二次分解,进而充分削弱子序列的复杂性;然后,使用BP模型训练和预测数据;最后,将提出的模型的预测结果与BP模型、CEEMDAN-BP模型的结果进行了比较。主要结论如下:

1)引入样本熵计算CEEMDAN分解所得子序列的复杂性,利用VMD技术进一步降低径流量序列的复杂度,并使用BP神经网络模型充分挖掘径流量数据中的规律和特征,提高了月径流量预测精度。

2)建立了3个模型对洪家渡水电站和长水水文站月径流量进行了预测。通过对比发现,提出的CEEMDAN-VMD-BP组合模型预测性能显著高于传统单一预测模型和一次分解组合模型,表明数据预处理技术大幅度降低了月径流量序列的复杂度,能有效提高月径流量的预报精度。

3)CEEMFAN和VMD作为两种高效的信号处理方法,可以相互补充。通过样本熵筛选后,将原始信号进行再次分解,可以更准确地捕获径流序列的趋势、周期等本质特征,降低了模型预测难度,弥补了一次分解的局限性。

本研究提出的组合预测方法结合了数据预处理技术、样本熵、预测模型和误差分析,建立了径流预报模型,能取得更准确的预测精度,是一种高效、实用的预测方法,可为流域水资源管理决策提供有价值的支撑。

猜你喜欢

洪家径流量径流
洪家滩游记
水文比拟法在计算河川径流量时的修正
Topmodel在布哈河流域径流模拟中的应用
携手共建美丽乡村——湖南省林勘院洪家关项目规划建设纪实
探秘“大径流”
攻克“大径流”
SCS模型在红壤土坡地降雨径流量估算中的应用
资江流域径流量演变规律研究
江垭水库降雨径流相关图的建立
富有西方建筑魅力的济南洪家楼教堂