季节性ARIMA模型在江门市手足口病疫情预测中的应用*
2019-03-18江门市疾病预防控制中心518000
江门市疾病预防控制中心(518000)
黄 国 朱宇平 黄焕莺
手足口病(hand-foot-mouth disease,HFMD)是人肠道病毒引起的一种常见传染病,婴幼儿及学龄前儿童多发,患儿以发热,手、足、口腔等部位皮疹或疱疹为主,传染性强,在人群密集的地方短时间内可引起暴发或流行[1-2]。近年来江门市手足口病呈逐年高发趋势,为有效预防控制手足口病暴发流行,本研究构建自回归积分滑动平均模型(autoregressive integrated moving average model,ARIMA)预测江门市手足口病发病趋势,探讨该模型在预测手足口病发病率中的应用。
资料与方法
1.资料来源 江门市手足口病月报告病例数来自中国疾病预防控制信息系统,人口数来源于江门市统计局。
2.研究方法 利用SPSS统计软件中ARIMA模型分析方法,首先根据江门市2009年1月-2017年6月手足口病月发病率建立时间序列。手足口病月发病率时间序列为季节性时间序列,故采用乘积季节模型,即ARIMA(p,d,q)×(P,D,Q)s。其中d为平稳化过程中差分的阶数,p、q为自回归和移动平均阶数。P、Q为季节性自回归和移动平均阶数,D为季节差分阶数,S为季节周期。通过数据平稳化处理、模型识别、参数估计与检验等步骤,探索建立模型,将2017年7-12月实际发病率与预测发病率相对误差(相对误差=|实际值-预测值|/实际值)进行比较作为外推验证,评价模型预测效果。
(1)序列平稳化 根据2009年1月-2017年6月江门市手足口病发病率序列图、自相关系数(ACF)图和偏相关系数(PACF)图判断序列平稳性。若序列为非平稳序列,对原序列进行非季节差分或季节差分,消除序列长期趋势和周期性变化的影响,使序列平稳[3]。
(2)模型识别 根据差分后序列自相关函数(ACF)图和偏自相关函数(PACF)图,为模型进行初步识别和定阶。
(3)模型参数估计和检验 利用非线性最小二乘法估计模型参数,在参数有统计学意义基础条件上,用拟合优度比较模型优劣。模型的拟合优度采用标准化的贝叶斯准则比较,标准化BIC值最小,Ljung-BoxQ统计量P值>0.05的模型为最优。
(4)评价模型预测效果 比较2017年7-12月的实际发病率与预测发病率相对误差,验证模型预测效果。
结 果
1.绘制序列图 绘制2009年1月-2017年6月江门市手足口病发病率时间序列图(图1)。由图可见江门市手足口病发病有明显的季节性,以12个月为流行周期。每个流行周期出现2个流行高峰,大高峰出现在5-7月,小高峰出现在9-10月,低谷出现在11月份到次年2月份。该序列既有季节周期性波动特点,又有逐年上升趋势,故采用乘积ARIMA模型。
图1 2009年1月-2017年6月江门市HFMD月发病率时间序列图
2.序列平稳化 2009年1月-2017年6月江门市手足口病月发病率时序图呈周期性波动趋势,不能满足平稳化的要求,根据时序图季节性波动特征,对原序列进行自然对数转换和一阶季节差分,差分后的时间序列自相关(ACF)和偏自相关(PACF)函数无明显截尾和拖尾现象(图2、3),也不呈线性衰减趋势,差分后的时间序列图(图4)接近平稳,提示差分后序列适合时间序列模型。
图2 2009年1月~2017年6月江门市HFMD月发病率季节差分ACF函数图
3.模型的参数估计和诊断 确定模型类型后,需要确定p、d、q和P、D、Q的值,对模型定阶。根据序列季节化特征和平稳化处理过程,d=0,D=1。根据自相关函数图和偏自相关函数图,p=1,q=1。季节模型P、Q值较难判断,根据文献[4-5],参数P、Q很少超过2阶,可分别取0~2由低阶到高阶摸索试验,结合模型的拟合优度、残差以及系数间的相关性进行估计。采用Ljung-Box方法检验残差白噪声,非白噪声模型排除。经试验,模型ARIMA(1,0,1)(0,1,1)12标准化BIC值(9.87)最小,平稳R2=0.73,残差序
列的自相关系数及偏相关系数均在95%置信区间内(图5),Ljung-Box=21.76,P=0.11。由此,ARIMA(1,0,1)(0,1,1)12模型被选为最优模型。
图3 2009年1月-2017年6月江门市HFMD月发病率季节差分PACF函数图
图4 2009年1月-2017年6月江门市HFMD月发病率季节差分序列图
图5 模型ARIMA(1,0,1)(0,1,1)12残差序列ACF、PACF函数图
4.模型预测 按照ARIMA建模方法,对2009年1月-2017年6月江门市手足口病月发病率时间序列建模,再以2017年7-12月全市手足口病月发病率为验证数据进行验证,并绘制实际值和预测值序列图,见图6。根据预测值与实际值相对误差来判断模型的预测效果(表1)。
图6 ARIMA(1,0,1)(0,1,1)12模型拟合图
表1 2017年7-12月江门市HFMD月发病率预测值与实际值比较
讨 论
手足口病2008年5月起被纳入丙类传染病[6],其传染性强,病原学复杂,传播途径多,可多次重复感染,手足口病预防控制工作难度大,早防早控工作一直难以落实到位。及时有效地预测预警发病趋势,是该病预防控制工作的重点和难点[7-8]。时间序列模型将复杂因素的综合效应统一蕴含到时间变量中,克服了疾病发病影响因素错综复杂,或有关数据资料无法获得的难题[9-10],在具有典型趋势特征变化的数据预测上适用性好[11-12]。
本研究利用2009年1月-2017年6月江门市手足口病月发病率资料,通过序列平稳化、模型识别、参数估计及诊断、模型预测效果评价等步骤,建立了ARIMA(1,0,1)(0,1,1)12模型。该模型对江门市手足口病发病率进行了较好地拟合,说明在短时间、实际发病趋势无较大波动时,ARIMA模型可以对发病情况进行较好的预测,特别是季节性模型可以对手足口病季节性特征做很好的拟合,提前判断疫情走势,为防控策略的制定提供科学依据[13]。
从区间估计看,本研究预测数据与实际发病情况区间估计一致,实际发病率全部落入预测值95%CI内。在预测的精度上,2017年7-12月手足口病月发病率预测最小相对误差为7.53%,最大相对误差为22.38%,平均相对误差为18.14%,但预测值的95%CI宽度偏大。在手足口病实际防控工作中,受社会因素、气候因素、人群免疫水平等影响[14],手足口病发病情况复杂多变,特别是江门市作为珠三角地区,人口密集且流动性大,需更进一步探索手足口病发病预测模型研究工作,使其更具有实际的指导意义与价值。