APP下载

基于小波分析的手足口病时间序列预测*

2021-10-09余功超冯慧芬

中国卫生统计 2021年4期
关键词:于小波口病小波

余功超 冯慧芬 封 爽 赵 敬 徐 晶

【提 要】 目的 构建基于小波分析的自回归移动平均(ARIMA)模型预测手足口病流行,提高预测精度。方法 使用2010-2015年郑州市疾控中心手足口病监测数据,构建基于小波分析的ARIMA模型进行预测,用2016年数据进行验证,并与单纯的ARIMA模型进行比较。结果 构建的基于小波分解一层的ARIMA模型为ARIMA(0,1,3)(2,1,0)52,矫正后的AIC=2747.82,残差序列的ACF、PACF图示残差序列无自相关,Box-Ljung test统计量为0.9177,P=0.34,认为该残差为白噪声序列,模型拟合良好。预测2016年发病趋势与实际较为相符,均方根误差RMSE(root mean square error)、平均绝对误差MAE(mean absolute error)、平均绝对百分比误差MAPE(mean absolute percentage error ),分别为49.42、26.45、15.75(训练集拟合)和275.84、219.90、72.95(验证集预测),除了验证集MAPE外,均小于单一的ARIMA模型。结论 基于小波分析的ARIMA模型可用于手足口病时间序列预测,拟合和预测性能较单一的ARIMA模型好。

手足口病是一种由多种肠道病毒引起的传染病[1],好发于5岁以下儿童,是儿童主要感染性疾病之一。EV71和CA16是引起手足口病主要的病原,2015年EV71疫苗问世,有报道称近年来EV71和CA16感染病例数有所下降,但其他肠道病毒感染病例数上升[2-3],其发病率仍居高不下[4-5],给社会造成了很大的医疗和经济负担。手足口病无特殊治疗方法,主要是对症治疗和防治并发症[6]。因此,明晰手足口病流行周期及模式,更精准地预测其流行,对卫生行政部门制定预防控制策略、降低其发病率、减轻疾病负担具有重要意义。

自回归移动平均模型(ARIMA模型)是最常用的手足口病时间序列预测模型,适用于稳定性时间序列,但现实世界的时间序列往往是非稳定性的[7],特别是流行病学时间序列[8]。虽然可通过各种变换和差分将之变成稳定性时间序列,进而达到应用ARIMA模型的条件,但这种单一函数变换能力有限,需要技巧,仍然可能损失了一些有用的非线性信息[9]。小波分析是一种有效的适用于非稳定性时间序列的时频分析方法[8]。一些学者将小波分析和ARIMA模型结合起来进行预测,研究结果表明结合了小波分析的ARIMA模型预测精度要比单一的ARIMA模型高。这种方法已经应用到建筑物沉降预报[10],也有应用到传染病时间序列预测[9,11]。

基于此,本研究使用郑州市疾控中心监测数据,构建基于小波分析的ARIMA模型进行预测,以期提高手足口病时间序列预测精度,为手足口病防控提供参考。

资料与方法

1.数据来源

2010年至2016年郑州市手足口病发病例数资料来自郑州市疾控中心。将数据分为两部分,2010年至2015年数据作为训练集,用来建模;2016年数据作为验证集,用来检验模型预测性能。

2.ARIMA模型构建

自回归移动平均模型如果包含季节性则记为SARIMA(p,d,q)(P,D,Q)n,其中p,q为非季节性模型的自回归及移动平均参数,d为普通差分的阶数;P,Q为季节性模型的自回归及移动平均参数,D为季节差分的阶数,n为周期长度。建模步骤:(1)画出时间序列图,观察趋势变化,是否为平稳性序列,是否有季节性周期性趋势;(2)对非平稳性时间序列进行普通差分和季节性差分,将其变为稳定性时间序列,根据自相关系数、偏自相关系数及augmented Dickey-Fuller test结果(检验水准α=0.05)判断差分后的时间序列是否为稳定性序列;(3)主要根据自相关系数和偏自相关系数,结合经验不断尝试确定模型的自回归、移动平均参数。本研究使用R软件“forecast”包中的自动建模功能(“auto.arima”),可自动尝试不同的自回归、移动平均参数值来拟合模型,并选择矫正的AIC(akaike′ information criterion)值最小的模型作为最优模型(更多自动建模规则详见Rob J Hyndman和George Athanasopoulos所著的《Forecasting:Principles and Practice》在线图书,http://otexts.com/fpp2/);(4)作出模型残差的自相关系数ACF图、偏自相关系数PACF图,判断残差是否具有自相关。使用Box-Ljung test 检验残差是否为白噪声序列,检验水准α=0.05。若拟合效果好,模型提取信息充分,则残差应为白噪声序列,无自相关,即该模型可用于预测。建模过程在R 3.6.3软件中完成。

3.基于小波分析的ARIMA模型构建

本研究使用离散小波分解,选择的小波为Daubechies小波。设原始序列为X,利用Daubechies小波经j层离散小波分解将原始序列分解为近似成分(approximation component)和细节成分(detail components),使用小波重构得到近似成分序列cA和细节成分序列cDj。则有

X=cA+cD1+cD2+…+cDj

其中近似成分序列是低频的,与原始序列的轮廓较为一致,但比之平滑,细节成分序列是高频的,通常是含有噪声的细小的波动。我们分别用小波对原始序列进行一层和两层分解,使用MATLAB 软件(Version R2014a)完成。用重构的近似成分序列参照SARIMA模型构建时最优模型参数来构建SARIMA模型。

4.模型评价标准

采用均方根误差RMSE(root mean square error)、平均绝对误差MAE(mean absolute error)、平均绝对百分比误差MAPE(mean absolute percentage error )来评估模型拟合及预测性能。指标的计算公式如下:

结 果

1.手足口病周发病例数时间序列图

从图1中可以看出手足口病周发病例数时间序列不平稳,呈现比较明显的季节性周期性特征,周期为1年(52周),每年5月至7月达到高峰,部分年份还有冬季的小高峰。

图1 2010-2016年郑州市手足口病周发病例数的时间序列图

2.SARIMA模型

对2010-2015年郑州市手足口病发病例数时间序列进行一阶季节性差分(周期长度为52周)和一阶差分后,其ACF图和PACF图示,序列已变为平稳性序列(图2)。ADF单位根检验结果:Dickey-Fuller=-6.9746,P=0.01,认为差分后的序列为稳定性序列。使用自动建模功能,我们得到最优模型为SARIMA(0,1,3)(2,1,0)52,矫正AIC值(AICc)=2967.27。残差序列的ACF、PACF图示残差无自相关(图3),Box-Ljung 检验统计量为0.0025,P=0.96,认为该残差为白噪声序列,该模型拟合良好,可以用于预测。

图2 一阶季节性差分和普通差分后序列的ACF、PACF图

图3 SARIMA模型残差序列ACF、PACF图

3.基于小波分析的SARIMA模型

用小波分析对2010-2015年郑州市手足口病发病例数时间序列进行一层分解后,构建的SARIMA模型为SARIMA(0,1,3)(2,1,0)52,AICc=2747.82,残差序列的ACF、PACF图示残差序列无自相关(图4),Box-Ljung检验统计量为0.9177,P=0.34,认为该残差序列为白噪声序列。用小波分析对原序列进行两层分解后,构建的SARIMA模型为SARIMA(0,1,3)(2,1,0)52,AICc=2726.37,残差序列的ACF、PACF图示残差序列无自相关(图5),Box-Ljung test 统计量为3.5971,P=0.06,认为该残差序列为白噪声序列。两模型均拟合良好,可以用于预测。

图4 基于小波的SARIMA模型(分解一层)残差序列ACF、PACF图

图5 基于小波的SARIMA模型(分解两层)残差序列ACF、PACF图

6.模型比较

SARIMA模型、基于小波分解一层或两层的SARIMA模型的拟合和预测图见图6,各模型拟合和预测与实际都较为相符。三种模型的拟合与预测性能指标见表1,无论是拟合还是预测,基于小波分析的SARIMA模型(分解一层)的各项指标均小于小波分解两层的模型和单一的SARIMA模型(除了验证集预测的MAPE),为最优模型。

图6 三种模型拟合与预测图

表1 三种模型的拟合与预测性能指标

讨 论

本研究引入小波分析,构建基于小波分析的SARIMA模型,利用小波对原始序列进行分解,将可能包含噪声的细节成分去除,只使用近似成分序列进行建模,发现这种基于小波的SARIMA模型的拟合和预测性能不错,指标值总体上比单一的SARIMA模型降低,其性能较单一的SARIMA模型好。由于小波分解层数过多会损失可能有用的信息,所以本研究只进行了一层和两层分解。结果表明,只分解一层效果较好,提示分解一层后产生的细节成分大多包含的是随机噪声项。

以往手足口病时间序列预测研究多采用SARIMA模型[12-13],其简单实用,是一种相对比较成熟的线性时间序列预测模型。但其拟合非稳定性时间序列的能力是有限的[14]。小波分析是一种研究非稳定性时间序列的强有力的工具[15]。小波分解可以将原始序列分解为高频成分和低频成分,不同成分进行不同处理[16]。通过这种方法,简化时间序列,提高预测精度。本研究结果表明基于小波分析的SARIMA模型适合用于手足口病时间序列预测,可提高预测精度,有助于降低发病率、减轻疾病负担。

虽然研究结果表明基于小波分析的SARIMA模型优于单一的SARIMA模型,但手足口病影响因素比较复杂,不同地区不同时间流行模式可能不同,是否这种结合了小波的SARIMA模型能够稳定有效地提高手足口病预测精度尚待后续更多研究。此外,不同小波性质不同,我们仅仅选取了Daubechies小波进行分解,未尝试其他小波;细节成分中或有可能包含有用的信息成分,本研究仅仅将之舍弃不用,未尝试其他处理方法,今后研究可对其他小波和细节成分处理方式进行更多的探索。

猜你喜欢

于小波口病小波
构造Daubechies小波的一些注记
手足口病那些事
警惕手足口病
基于MATLAB的小波降噪研究
基于小波去噪的称重雨量数据分析
一种新的基于小波基的时变信道估计
基于小波和Hu 矩的飑线雷达回波识别
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
肠道病毒71型感染所致危重症手足口病的诊治分析
基于小波变换的图像融合