基于ARIMAX模型的华南台风直接经济损失的预测模型
2022-05-06倪增华
倪增华
(南宁学院通识教育学院,广西 南宁 530200)
0 引言
台风是一种极端的气象灾害,其登陆时的狂风暴雨往往会给登陆地区造成损失。我国是全球受台风影响比较严重的国家之一,特别是华南的沿海区域,台风登陆频繁,造成的损失也非常严重。例如2015年第22号台风“彩虹”曾先后登陆广东、广西两地,使779.899万人受灾,直接经济损失高达288.088 7亿元。目前,我国已有一些专家和学者针对华南台风造成的灾害开展了分析和研究。例如刘合香等人利用信息扩散技术构建了华南极端台风灾害的风险评估体系。王萌等人根据Copula理论计算了华南台风致灾因子的重现期,从而评估了台风灾害的受灾程度。徐庆娟等人运用二维云信息扩散及三维云信息扩散原理提出了一个估计台风灾害风险的模型。
时间序列分析作为一种动态预测方法被广泛地应用于多个领域。其中,ARIMA模型和ARIMAX模型是学者的研究重点。孙轶轩等人将ARIMA模型与信息粒化的SVR模型综合起来对道路交通事故的受伤人数进行趋势预测。刘珊等人通过建立ARIMA乘积季节模型对台风的生成频次进行预测。吕晓丽等人将气象因素作为输入变量建立ARIMAX模型,并利用该模型预测了流行性感冒的流行趋势。万萌裕等人基于钢材价格和焦炭价格的传导关系构建了ARIMAX模型,以预测焦炭价格的变化趋势,从而探究历史数据对该模型预测精度的影响。结果表明,ARIMA模型和ARIMAX模型在预测方面有较好的应用。但是,目前还没有学者运用ARIMAX模型理论将致灾源和灾情相结合来探究登陆台风导致灾情的案例。而台风灾情的发生常常与登陆台风的风速、降雨以及登陆时长有很大的关系,因此该文尝试将华南登陆台风的登录时长、登录时最大风速及降雨极值作为输入变量来构建ARIMAX模型,从而探究华南地区(该文指广东、广西以及海南)登陆台风灾情的直接损失。
1 ARIMAX模型理论
ARIMA模型为时间序列模型中最常用的预测模型,但该模型只能针对一维时间序列进行预测分析,无法预测研究实际问题中常见的多维时间序列。因此,BOX GEORGE E P等人于1976年提出了带有输入变量的ARIMA模型,也就是动态回归模型ARIMAX模型。其建模过程如下:1) 序列平稳性检验。检验响应序列{y}和输入序列{},{}…{x}(=1,2,…,)(为序列中所含数据的个数;为输入变量的个数)的平稳性,如果序列平稳,就可以开展下一步工作;如果序列非平稳,则需要适当地对相应序列进行差分,直至序列平稳。2) 模型识别。对经过阶差分后的输入序列{x}建立ARMA(,)模型,如公式(1)所示。其中,模型中的、值可根据序列的自相关系数和偏自相关系数的性质来确定。3) 确定回归模型结构。考察阶差分后的响应序列{y}及输入序列{x}(=1,2,…,)的相关系数,确定ARIMAX模型的结构,如公式(2)所示。4)拟合残差序列{ε},如公式(3)所示。5) 模型预测。用构建的模型预测序列未来的趋势。
式中:为第个输入序列的延迟阶数;Φ()为第个输入序列的移动平均系数多项式;Ψ()为第个输入序列的自回归系数多项式;ε为回归残差序列;为延迟算子;Φ()为第个输入序列的移动平均系数多项式;Ψ()为第个输入序列的自回归系数多项式;ε为第个输入序列的回归残差序列;()为残差序列的移动平均系数多项式;()为残差序列的自回归系数多项式;a为零均值的白噪声序列。
2 华南台风直接经济损失预测模型的构建
2.1 数据来源
该文研究的登陆华南台风致灾源数据来源于1984—2014年中国热带气旋年鉴以及2015—2016年中国天气台风网。台风直接经济损失数据来源于1984—1999年中国气象灾害大典、2000—2003年广东省、海南省和广西气候中心以及2004—2016年中国热带气旋年鉴。以{y}、{}、{}以及{}分别表示1984—2015年登陆华南台风的48个样本的直接经济损失(单位为10亿元)、登陆时长(单位为h)、登陆时最大风速(单位为m/s)及降雨极值(单位为cm)序列。
2.2 平稳性检验
1984—2015 年登陆华南三省的台风数据序列如图1(a)所示。根据图1(a)可知,这48个台风样本的直接经济损失、登录时长、登录时最大风速及降雨极值序列均呈现不同程度的上升趋势,因此可以认为这4个原始数据序列可能是非平稳的。对这4个原始数据序列进行ADF检验(表1),结果显示其值均大于0.05的显著水平,因此不能拒绝序列非平稳这一原假设,最终可以判断4个原数据序列是非平稳的。为了去除趋势,对原始数据序列均进行一阶差分,得到新的序列为Δ、Δ、Δ以及Δy,一阶差分后的序列如图1(b)所示。根据图1(b)可知,4个差分后的数据序列较为平缓,经过ADF检验发现,其值均小于0.05。因此,在显著水平为0.05的情况下,可以拒绝ADF检验序列非平稳的原假设,认为序列已经平稳。
图1 数据序列图
表1 ADF检验结果
2.3 输入序列建模
对输入序列Δ、Δ以及Δ建立ARMA模型,根据R软件中的auto.arima命令识别各序列的最优模型,由此确定输入序列Δ、Δ以及Δ的模型均为MA(1)模型,具体模型如公式(4)~公式(6)所示。
2.4 确定ARIMAX模型
为了确定ARIMAX模型,分别画出序列Δy与Δ、Δ以及Δ的互相关系数图(图2)。根据图2可知,Δy与Δ的互相关系数在延迟三阶时超出临界值,显著非零,即这2个序列有三阶滞后效应。Δy与Δ的互相关系数在延迟零阶时互相关系数最大,超过0.7,说明这2个序列无滞后效应。Δy与Δ的互相关系数在延迟三阶时达到最大,不妨认为这2个序列有三阶滞后效应。经过大量计算和分析可知,ARIMAX模型结构如公式(7)所示。
图2 与 Δx1k、Δx2k以及 Δx3k的互相关系数
运用最小二乘估计法对模型进行拟合,拟合的ARIMAX回归模型如公式(8)所示。
对拟合残差序列进行Ljung-Box检验,检验结果显示,当序列延迟6期时,检验结果值为0.628 9,而当序列延迟12期时,检验结果值为0.521,均大于0.05的显著水平,这说明残差序列不能拒绝纯随机的原假设,可以认为残差序列为白噪声序列。同时,还可以说明经ARIMAX回归模型已充分提取信息,拟合效果良好。根据图3可知,一阶差分后的直接经济序列部分阶段的拟合值和实际值虽有一定的差距,但整体拟合值能够描述实际值,且对实际值的波动处反映较好,这说明ARIMAX回归模型能够很好地反映序列的趋势。
图3 一阶差分直接经济损失拟合图
2.5 模型预测及模型对比
根据2016年的2个华南台风的登录时长、登录时最大风速及降雨极值数据,并运用拟合的ARIMAX模型对相应台风的直接经济损失进行预测,预测结果见表2。由预测值与实际值的误差百分比可见,其值均未超过0.3%。由于台风造成的直接经济损失不仅受台风本身的影响,还与人类应对台风的措施有关(其值波动较大),因此该模型的预测值具有一定的参考价值。
表2 直接经济损失预测结果
针对直接经济损失序列构建ARIMA模型,经运算发现其较好的拟合模型为ARIMA(0,1,1)模型,再构建其拟合模型,如公式(9)所示。
模型预测结果见表3。通过比较ARIMA(0,1,1)模型和ARIMAX模型的拟合效果可知,ARIMAX模型的AIC值以及平均相对误差值都比ARIMA(0,1,1)模型小很多,说明采用带有多个输入序列的ARIMAX模型要比单纯考虑序列本身特征的ARIMA模型的预测效果更好。
表3 模型预测效果比较
3 结语
该文根据ARIMAX模型理论,利用1984—2015年登陆华南台风的直接经济损失、登陆时长、登陆时最大风速及降雨极值数据构建了ARIMAX模型对2016年的2次台风的直接经济损失进行预测,并与ARIMA模型进行对比对比,结论如下:1) 利用ARIMAX模型预测华南台风的直接经济损失,2组预测值与实际值的误差百分比均不超过0.3%,由此可知,ARIMAX模型可以有效地对华南台风的直接经济损失进行预测。2) 对比ARIMAX模型和ARIMA(0,1,1)模型的预测效果可知,带有登录时长、登陆时最大风速及降雨极值这3个输入变量的ARIMAX模型要比传统的ARIMA模型的预测结果更精确。3) 通过对华南台风的直接经济损失数据的拟合结果可知,ARIMAX模型能够较好地反映序列的趋势,如果想进一步提高预测精度,可以从序列的非线性方面着手,进一步对序列进行拟合。