探讨ARIMA模型在细菌性痢疾发病预测中的应用
2011-05-23海南省疾病预防控制中心570203
海南省疾病预防控制中心(570203) 陈 莉
细菌性痢疾是海南省高发传染病之一,其发病率一直居海南省法定甲乙类传染病前6位,是影响我省公众健康的主要传染病。近年来针对传染病流行规律以及预测方法的研究逐渐成为疾病防控工作中的热点〔1〕,本文利用海南省细菌性痢疾发病资料,采用时间序列分析法中自回归滑动平均混合模型法(auto regressive integrated moving average,ARIMA)建立预测模型,探讨细菌性痢疾发病趋势的预测方法,为我省的细菌性痢疾防制工作提供科学依据。
资料与方法
1.资料来源
资料来源于国家法定传染病监测报告系统。医疗机构中首诊医生经过培训,按照传染病报告管理规范,在系统中对病例进行实时报告,可以保证数据的准确性、完整性和可靠性。
2.建立模型基本原理与方法
时间序列分析基本原理是将预测对象随时间推移而形成的数据序列视为一个随机序列,即除去个别偶然的原因引起的观测值外,时间序列是一组依赖于时间t的随机变量,这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来,就可以从时间序列的过去值及现在值预测未来值〔2,3〕。本文使用的自回归滑动平均混合模型法简记为ARIMA(p,d,p)模型。运用SPSS11.5软件进行统计预测分析。
结 果
1.序列平稳化检验
绘制2000年1月~2009年12月海南省细菌性痢疾发病率的时间序列图,时间单位定义为年月型,起始点为2000年1月。时序图显示2000~2009年各月细菌性痢疾发病率始终围绕在1.25/10万附近随机波动,没有明显的趋势和季节性分布特征(图1)。为稳妥起见,我们再利用时间序列自相关图进一步辅助识别,自相关图显示,周期性的余弦衰减,即具有“伪周期”性质,这些都是平稳序列常见的特征〔4,5〕。经分析,原始数据可视为平稳序列,因此无需变换和差分处理(图2)。
图1 海南省2000~2009年细菌性痢疾各月发病率时序图
2.模型识别
自相关图显示超过5%的样本自相关系数落入了2倍标准差范围之外,且序列由显著非零的相关系数衰减为小值波动过程比较慢或者非常连续,可视为不截尾。偏自相关图显示,除了延迟1阶的偏自相关系数大于2倍标准差之外,其他的偏自相关系数都在2倍标准差范围内做小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为1阶截尾〔4,5〕。综合该序列自相关系数和偏自相关系数的性质,初步选定 ARIMA(1,0,0)、ARIMA(0,0,1)、ARIMA(1,0,1)3 个模型进行拟合预测。见图2、图3
图2 海南省2000~2009年细菌性痢疾各月发病率序列自相关图
3.参数估计与检验
根据备选模型进行参数估计与检验,结果显示模型 ARIMA(1,0,0)和 ARIMA(0,0,1)参数均有统计学意义,ARIMA(1,0,1)模型中MA1参数无统计学意义,见表1。
图3 海南省2000~2009年细菌性痢疾各月发病率序列偏自相关图
4.模型检验
经过参数检验,ARIMA(1,0,1)模型被剔除,残差序列白噪声检验显示,模型ARIMA(1,0,0)的LB检验统计量差异无统计学意义(P>0.05),可认为残差序列为白噪声,而ARIMA(0,0,1)模型LB检验统计量差异有统计学意义(P<0.05),表明残差序列为非白噪声。
表1 备选ARIMA模型参数估计结果
5.模型优化
通过对3个模型的AIC和BIC值进行比较,结果显示ARIMA(1,0,0)模型的AIC、BIC 值为最小,表明该模型是最适合本次研究,是该序列的有效最优拟合模型,见表2。
6.预测应用
根据所建模型对2000年1月至2009年12月的细菌性痢疾发病率进行回代预测(组内回代),以及对2010年1~9月发病率进行组外回代预测,结果显示,细菌性痢疾月发病率预测数据与实际数据基本吻合,趋势基本相同,且均落入95%可信区间范围中。见图4
表2 备选ARIMA模型拟合优化结果比较
图4 海南省2000年1月~2010年9月细菌性痢疾各月发病率序列预测图
7.预测结果验证评价
时间序列分析主要目的在于对未来值进行预测以评估其发展趋势,本研究对2010年1~9月细菌性痢疾发病率进行短期预测,预测结果为预测值与实际值之间平均绝对误差为0.07,平均相对误差为9.61%。见表3。
表3 2010年海南省细菌性痢疾发病率预测评价结果
讨 论
1.ARIMA预测模型基于原始时间数据序列,利用任何事物发展均具有一定惯性趋势的原理,建立时间序列模型,达到预测的目的。该方法将各种影响疾病发生发展错综复杂因素的综合效应统一蕴含于时间变量之中,综合考虑了序列的趋势变化、周期变化和随机干扰并借助模型参数进行量化表达,而且可以通过反复识别修改获得满意的模型〔6〕。ARIMA预测模型既吸收了回归分析的优点又发挥了移动平均的长处,具有适用范围广,实用性强、预测误差小的特点,是一种预测精确度较高的短期预测方法。近年来,该方法已广泛应用于医学领域各方面,特别是传染病的发病或死亡的预测预报工作〔6-9,11〕。
2.本文利用2000~2009年海南省细菌性痢疾发病资料,通过识别、估计、诊断等过程拟合建立了ARIMA(1,0,0)预测模型,结果显示,细菌性痢疾各月发病率实际值均落入预测值的可信区间范围,预测值的动态趋势与实际情况基本一致吻合,2010年1~9月验证数据显示,平均绝对误差较小,平均相对误差小于10%〔7〕,表明利用ARIMA模型预测海南省细菌性痢疾发病趋势的可行性。另一方面也显示了预测的实用性和应用价值,根据发病率既往的变化规律(线性趋势、季节性、周期性等),如果实际发病率在预测值95%可信区间范围内波动,表明当月疫情基本正常,如果超出预测值95%可信限范围,应提示并警惕传染病的暴发或流行的可能,可以为传染病预警预报及干预提供依据〔8〕。
3.本研究证实了ARIMA模型法能够较好地用于细菌性痢疾发病的预测,该模型在其他传染病发病预测中的应用也值得进一步探讨。由于不同病种,不同地区、不同时间段传染病发生发展的流行规律不同,构建的模型也不尽相同,单次分析建立的ARIMA模型,不能作为永久不变的预测工具,只能用于短期预测。因为任何一个预测模型都有其使用时限,因此将ARIMA模型法应用到其他地区或病种预测时,应该考虑随着事件不断发展变化,及时利用新的数据对其修订〔9〕,才能适应使用需要,从而达到较好预测效果。
4.使用ARIMA模型法进行预测,应当注意,如果研究对象惯性趋势发生很大改变,如采取了干预措施(预防接种、加强环境治理)以及出现新发传染病等,很大程度上改变了以往的流行规律,此时应当结合实际情况全面考虑谨慎使用预测结果,并且需要累积新的数据对模型进行修正,或重新拟合〔9-11〕,方可达到有效预测。
1.邓甦,李晓毅.马尔科夫链在呼吸道传染病预测中的应用.中国卫生统计,2010,27(6):615-616.
2.孙振球.医学统计学.北京:人民卫生出版社,2002:358-371.
3.Jack P.Interacrive Comparision of Forecasting Method.Time Series A-nalysis,1984:444-459.
4.王燕.应用时间序列分析.北京:中国人民大学出版社,2005:16-90.
5.张文彤.SPSS11统计分析教程(高级篇).北京:北京希望电子出版社,2002:250-285.
6.史继先,张文增,冀国强,等.ARIMA模型在流感样病例预测预警中的应用.首都公共卫生,2010,4(1):15-16.
7.彭志行,鲍昌俊,赵扬,等.ARIMA乘积季节模型及其在传染病发病预测中的应用.数理统计与管理,2008,27(2):365-367.
8.吴家兵,叶临湘,尤尔科.ARIMA模型在传染病发病率预测中的应用.数理医药学杂志,2007,20(1):92.
9.李娜,殷菲,李晓松.时间序列分析在结核病预测应用中的初步探讨.现代预防医学,2010,37(8):1428.
10.赵亮,吴艳乔,彭丹,等.运用ARIMA模型对我国人均卫生费用的预测.现代预防医学,2010,37(3):412.
11.牟瑾,谢旭,李媛,等.将ARIMA模型应用于深圳市1980-2007年重点法定传染病预测分析.预防医学论坛,2009,15(11):1052-1053.