基于ARIMA模型的西江梧州下游段通航水位预测研究
2022-10-22陈家辉
陈家辉,李 敏
(广西西江开发投资集团有限公司,广西 南宁 530022)
0 引言
西江发源于云南省曲靖市乌蒙山余脉马雄山东麓,全长2 214 km,集水面积约35万km2,是我国南方最大的河流,列全国七大江河的第四位。西江素有“黄金水道”之称,历史悠久,源远流长,为流域经济发展、社会进步和人类文明作出过重要贡献。西江船闸运行调度中心已经在西江流域联合调度上深耕多年,实现从单级船闸应用到现在的多级多线梯级船闸的调度,后续计划实施的船舶航程精准预调度。要做到精准预调度船舶,需要有水情方面的信息,但是西江梧州下游段枯水期的水情不能得到有效的预测,无法对行业主管和装载货物的船舶形成有效的指导建议。因此,准确预测河流水位水量,对船舶航行的路线以及出港配载具有重要意义。
目前,国内外诸多水文专家关注水位变化趋势的预测方法,提出以下几个主要模型,如基于单变量的ARIMA模型、基于多变量的多元线性回归模型、支持向量回归机模型、人工神经网络模型等。然而影响水位的因素较为复杂,包括地形、降雨、支流汇入、分流、水坝及电站储水等,考虑这些因素对水位趋势进行预测的多变量模型将会十分复杂。时间序列分析方法则是从时间序列数据的分析中寻找其所具有的时序性和规律性,其数据本身已经为建模提供了足够的信息,因而能够进行简单有效的预测[1]。ARIMA模型作为时间序列分析方法的线性预测方法,在水位预测方面取得了进展。Sabzi H Z等人在2017年提出一种用于预测美国新墨西哥州海洛因水库月水流量的改进型ARIMA模型,实现了决定系数R2为0.97的预测效果[2]。余珍在2018年采取ARIMA模型对汉口、监利、安庆历史水位时间序列进行预测分析,实现了逐日平均水位的预测与观测值拟合较高的拟合度,但是汛期水位频繁剧烈的波动在一定程度上会降低预测精度[3]。
ARIMA是用于单变量时间序列数据预测的最广泛使用方法之一,模型结构十分简单,只需要内生变量而不需要借助其他外生变量,特别对取值平稳时间序列的预报精度高,广泛应用于水文预测领域。西江梧州下游段通航水位历史数据特别是枯水期数据较为平稳,适合采用ARIMA模型进行预测。
1 基本原理和方法
1.1 模型基本原理
时间序列分析理论表明,ARIMA模型是将非平稳时间序列转化为平稳时间序列。非白噪声时间序列{xt}通常存在周期性、长期趋势以及随机波动等因素,我们需要对序列进行普通差分以消除长期趋势,以及进行季节差分以消除周期特征,从而将非平稳时间序列转化为平稳时间序列,进而对它的滞后值以及随机误差项的现值和滞后值建立线性回归的模型,即乘积季节模型:ARIMA(p,d,q)×(P,D,Q)S,其结构如下:
(1)
式中:S——周期;
{εt}——白噪声。
Φp(B)=1-φ1B-φ2B2-…-φpBp
Θq(B)=1-θ1B-θ2B2-…θqBq
HP(B)=1-m1BS-m2B2S-…-mPBPS
LQ(B)=1-n1BS-n2B2S-…-nQBQS
上述模型中:d——普通差分的阶数;
p、q——自回归和移动平均阶数;
D——季节差分阶数;
P、Q——季节性自回归和移动平均阶数;
s——{xt}的季节周期[4]。
为掌握西江梧州下游段枯水期的水情,我们对西江梧州下游段梧州水文站从2019-01-01至2021-01-01每天24 h的整点水位数据进行了时间时序特征分析,研究中所有数据由梧州水文站提供。梧州水文站整点水位数据属于季节性时间序列,采用乘积季节模型,即ARIMA(p,d,q)×(P,D,Q)S。
1.2 统计学处理方法
利用SPSS 20统计软件,本文将2019-01-01至2020-12-31每天24 h的整点西江梧州水文站水位时间序列(以下简称为西江水位)作为训练集,建立ARIMA模型,预测2021-01-01 24 h的整点水位值,以计算预测值的相对误差来评价模型预测能力。
1.3 模型实证结果
1.3.1 时间序列的平稳性检验与平稳化
绘制2019-01-01至2020-12-31每天24 h的西江水位时间序列图(见图1)。
图1 西江水位时间序列图
图2 西江水位自相关图
由图1可以看出,西江梧州水文站水位数据为非平稳序列,且有较强的自相关性。通过自相关图(见图2)可以看出,其自相关函数都是拖尾的,也说明序列是非平稳的,季节性不明显,可通过差分处理使序列平稳。从时序图(见图3)可以看出,进行2阶差分后序列变化较为平稳。由自相关图(见图4)看出,自相关函数迅速减少,由于差分序列的ACF和PACF图(见图5)都是拖尾的,因此可以对原始序列构建ARIMA模型。
图3 西江水位2阶差分时间序列图
图4 西江水位2阶差分自相关图
图5 西江水位2阶差分偏自相关图
1.3.2 模型建立与预测
利用SPSS 20软件和EVIEWS 10软件,根据前面2阶差分序列自相关与偏自相关函数特征,西江梧州下游段水位整点数据适合构建ARIMA(p,d,q)×(P,D,Q)S模型,其中d=2,D=0,S=24。由于ARIMA(p,d,q)×(P,D,Q)S模型中的参数不唯一,需要利用SPSS 20软件和EVIEWS 10软件,不断调整自回归和偏自回归的系数p、q,以及季节自回归和季节偏自回归的系数P、Q,找出系数均显著且残差是白噪声的模型,最终得出所有合适的模型及其主要的信息准则值如表1所示。
表1 所有合适的ARIMA模型的信息准则值表
根据优先选取信息准则,从AIC值最小的角度出发对模型进行优化,以及根据模型的简洁性原则,从上面各模型的表现可以看出模型ARIMA(1,2,14)×(1,0,2)24和ARIMA(1,2,14)×(2,0,2)24的AIC值相对比较小且比较接近,然而后者模型的阶数较高,因此确定选取ARIMA(1,2,14)×(1,0,2)24模型进行拟合原始时间序列。拟合结果如表2所示,其中R的平方达到0.988,拟合程度很好。ARIMA模型参数如表3所示,差分后AR(1)系数为0.718,MA(1)、MA(2)、MA(3)、MA(14)系数分别为1.497、-0.690、0.171、0.022,季节性序列的SAR(1)系数为0.997,SMA(1)、SMA(2)的系数分别为0.909、0.072,系数显著性检验的概率P-值都近似为0,全部拒绝系数为零的原假设,因此系数都显著不为0。此外,ARIMA(1,2,14)×(1,0,2)24残差序列的白噪声检验如图6所示。
表2 ARIMA模型拟合结果表
表3 ARIMA(1,2,14)×(1,0,2)24模型参数表
图6 ARIMA(1,2,14)×(1,0,2)24的残差检验结果示例图
综上分析,得原始序列{Xt}的模型结构如下:
(1-0.718B)(1-0.997B24)(1-B)2Xt=(1+1.497B-0.690B2+0.171B3)·(1+0.909B24+0.072B48)εt
(2)
式中:εt——WN(0,σ2),且∀s 1.3.3 模型预测 利用ARIMA(1,2,14)×(1,0,2)24进行拟合预测,对西江梧州段2020年12月每天每小时水位进行样本内预测,可以看到拟合效果很好(见图7)。 图7 西江2020年12月每h水位预测值图 对2021-01-01 24 h整点水位进行样本外预测(见表4),预测值的绝对误差值均较小,平均相对误差为1.48%,拟合效果好。 表4 2021-01-01 24 h整点水位样本外预测值表 本文根据西江梧州水文站水文数据2阶差分序列变化内较为平稳的特征,利用传统的单变量时间序列ARIMA模型进行短期水位预测。该模型从时间序列数值本身的相关性出发,不仅能够充分利用时间序列数值变化信息,而且能够将其他影响因素纳入模型进行考虑,把相关因素的效应关联到时间变量中,克服相关因素的影响。通过对西江水位从2019-01-01至2020-12-31每天24 h的整点水位作为时间序列,进行建模、预测及效果评估,建立了ARIMA(1,2,14)×(1,0,2)24最优模型,平均相对误差为1.48%。本研究表明,ARIMA模型能够在短期内、实际降雨趋势无较大波动时,对西江梧州下游段通航水位进行了较好的拟合预测。梧州市长洲船闸联合调度的瓶颈问题是每年的枯水期,在两广交界的航道处的水深不足,航行条件较差,正值枯水期的西江水位变化趋势较为平稳,适合应用ARIMA模型即达到根据历史水位值较好地预测未来水位,为船闸通航主管部门进行决策提供水情信息方面的数据参考依据,以及为装载货物的船舶确定航行路线、出港配载等提供依据,达到提升西江水运行业运力的目的。 对水位特征进行精准建模,从而精准预测水位的变化趋势和数值,能够充分发挥西江黄金水道的活力,对于释放西江航运运力,落实2030年碳达峰、2060年碳中和具有非常积极的意义。2 结语