应用SARIMA模型预测南通市流行性腮腺炎发病趋势
2016-12-27南通市疾病预防控制中心226007
南通市疾病预防控制中心(226007)
陶长余 张志兰△
应用SARIMA模型预测南通市流行性腮腺炎发病趋势
南通市疾病预防控制中心(226007)
陶长余 张志兰△
季节性自回归移动平均(seasonal autoregressive integrated moving average,SARIMA)模型是重要的时间序列模型之一,适用于有季节变动规律的单因素时间序列[1],应用较为广泛[2-3],亦被用于疾病发病趋势预测[4-5]。流行性腮腺炎是一种由腮腺炎病毒引起的急性呼吸道传染病,患者主要是学龄儿童,冬春季高发[6]。近年来,南通市学校及幼托机构常发生腮腺炎的流行和爆发,给正常教学秩序造成影响。为探索本市流行性腮腺炎疫情变动规律及未来趋势,本研究拟采用SARIMA模型拟合腮腺炎疫情波动,并建立模型,预测未来发病趋势。
材料与方法
1.资料
南通市流行性腮腺炎发病数据(2004-2014年)来源于中国疾病预防控制信息管理系统。
2.方法
季节乘积ARIMA模型是假定季节相关与普通相关交互作用下建立的乘法模型,用符号表示记为:ARIMA(p,d,q)×(P,D,Q)s,模型结构的数学表达为:Φ(B)ΦS(B)▽d▽=Θ(B)ΘS(B)εt。B为后移算子,p、d、q(P、D、Q)分别为(季节)自回归阶数、差分次数和移动平均阶数,S为周期步长[7]。主要步骤包括:①序列平稳化:采用自然对数转换、差分和季节差分等方法,使序列平稳化,对变换序列平稳性进行单位根(ADF)检验。②模型识别:根据变换后序列的自相关(ACF)和偏自相关(PACF)图,确定 p、d、q和P、D、Q,S根据疾病的背景知识获得。③参数估计及检验:使用最小二乘法估计模型参数,并进行检验,检验水准α=0.05。④模型诊断及优化:选用Box-Ljung Q统计量对残差进行检验,检验水准α=0.05。按照施瓦茨准则(SC)优选模型。⑤模型预测:利用所建模型进行预测。本文拟用2004年1月-2014年6月南通市腮腺炎月发病数构建模型,对2014年7月-2014年12月发病数进行前瞻性预测,与实际值比较以检验模型预测效果。
3.统计学处理使用
Eviews 8.0软件进行计算分析。
结 果
对南通市2004-2014年流行性腮腺炎月发病数分析发现,2004、2006、2012-2013年疫情相对严重,月发病数季节波动幅度较大,3-7月为发病高峰季节,少数年度存在双峰现象,分别位于12-1月和4-5月(见图1)。
1.序列平稳化
2004年1月-2014年6月南通市腮腺炎月发病数随时间波动,为降低波动影响,对原始序列进行自然对数转换,经单位根检验,显示转换后序列为平稳序列(t=-4.3660,P=0.0005),故无须再作差分。
图1 南通市2004-2015年腮腺炎发病数预测图
图2 经自然对数转换后序列的ACF和PACF图
2.模型识别
序列未差分,故d=D=0。结合图2,可能的(p,q)组合有:(1,0)、(1,3)、(0,3)。由于滞后期 k=12、24、36时,样本自相关系数显著不为0,故P=0,Q=3。
3.参数估计及检验
对上述组合进行参数估计和检验,部分模型的部分参数不显著(P>0.05),对冗余参数进行剔除,并经反复试验,存在以下待选模型:(1,0,3)×(0,0,3)12、(1,0,1)×(0,0,3)12、(1,0,0)×(0,0,0)12和(0,0,3)×(0,0,3)12。
4.模型诊断及优化
模型 ARIMA(0,0,3)×(0,0,3)12未通过残差序列独立性检验(p<0.001),表明序列信息未被充分提取。根据施瓦茨准准则,比较其他3个模型的SC值,认为选择 ARIMA(1,0,1)×(0,0,3)12较为合适,模型表达式为:ln xt(1-0.9829B)=(1+0.2451B)(1-0.2323B12)(1-0.8655B24)(1-0.3017B36)εt(见表1)。
表1 待选模型检验结果
5.模型预测
利用该模型对2014年7-12月发病数进行前瞻性预测,预测值与实际数相对误差平均值为 -36.83%,预测效果较好(见表2)。
表2 模型预测效果比较
将2014年7-12月实际数据加入原序列,拟合原序列并预测2015年月发病数。图1显示,2004-2014年病例数拟合值与实际值基本相符,模型拟合较好。对2015年发病情况预测结果显示,2015年总体发病水平低于前11年中各年度发病水平,但月发病数波动明显,发病高峰季节为2-5月。
讨 论
腮腺炎具有隐性感染率高、潜伏期长、前驱症状不典型等特点[6],易于在中小学校和幼儿园等集体单位形成爆发。自2004年开展监测报告以来,流行性腮腺炎发病率一直稳居南通市法定传染病发病率的前10位,2012至2014年连续3年位居第4位,2013年腮腺炎爆发疫情占该市突发公共卫生事件总起数的25%,开展对流行性腮腺炎疫情的监测和预测工作尤为必要。
ARIMA模型能够较好地拟合时间序列中的长期趋势、周期因素、随机波动等效应。当这些因素之间有着复杂的交互影响时,简单的ARIMA模型对上述因素的相关关系提取不足[1]。对于季节效应明显的传染病疫情时间序列,运用季节乘积ARIMA模型进行数据拟合和短期预测,效果较好[8-9]。本文构建季节乘积ARIMA模型,拟合效果较好,对于该市流行性腮腺炎疫情的预测预警具有一定的指导意义。ARIMA季节乘积模型预测结果提示,2015年总体发病水平略低于前11年中各年度发病水平,季节波动明显,须加强疫情监测、疫苗接种、健康教育等相关防控措施落实,减少和避免规模性聚集疫情的出现。
[1]王燕主编.应用时间序列分析.第3版.北京:中国人民大学出版社,2012:156-160.
[2]Kao JJ,Huang SS.Forecasts using neural network versus Box-Jenkins methodology for ambient air quality monitoring data.J Air Waste ManagAssoc,2000,50(2):219-226.
[3]罗长寿,周丽英.季节时间序列模型在平菇价格预测中的应用.贵州农业科学,2013,41(11):202-204.
[4]彭志行,陶红,贾成梅,等.时间序列分析在麻疹疫情预测预警中的应用研究.中国卫生统计,2010,27(5):459-463.
[5]胡建利,梁祁,吴莹,等.季节时间序列模型在菌痢发病预测中的应用.中国卫生统计,2012,29(1):34-36.
[6]杨绍基,任红主编.传染病学.第7版.北京:人民卫生出版社,2008:79-82.
[7]易丹辉主编.数据分析与Eviews应用.北京:中国人民大学出版社,2008:122-148.
[8]朱猛,祖荣强,霍翔,等.时间序列分析在流感疫情预测预警中的应用.中华预防医学杂志,2011,45(12):1108-1111.
[9]王超,丁勇,陆群,等.ARIMA乘积季节模型在我国甲肝发病预测中的应用.南京医科大学学报:自然科学版,2014,34(1):75-79.
△通信作者:张志兰
郭海强)