APP下载

ARIMA季节模型在我国丙肝发病预测中的应用*

2014-08-31于林凤周锁兰

郑州大学学报(医学版) 2014年3期
关键词:甲肝丙肝阶数

于林凤,吴 静,周锁兰,丁 勇#

1)南京医科大学生物医学工程系 南京 210029 2)南京医科大学数学与计算机教研室 南京 210029

ARIMA季节模型在我国丙肝发病预测中的应用*

于林凤1),吴 静2),周锁兰1),丁 勇2)#

1)南京医科大学生物医学工程系 南京 210029 2)南京医科大学数学与计算机教研室 南京 210029

#通讯作者,男,1956年8月生,硕士,教授,研究方向:生物统计,E-mail:yding@njmu.edu.cn

ARIMA季节模型;丙肝;发病;预测

目的:应用ARIMA季节模型对我国丙肝发病进行预测。方法利用2004年至2011年我国丙肝的月发病数建立ARIMA季节模型,对2012年丙肝的月发病数进行预测,并用实际数据评估模型的预测效果。同法对同期甲肝发病数据进行建模和预测。对丙肝和甲肝2004年至2011年的月发病数按年归一化处理后计算方差。比较甲肝和丙肝的预测效果。结果成功建立ARIMA(1,1,1)(2,1,0)12季节模型,模型的表达式为:(1+0.222L)(1+0.820L12+0.694L24)(1-L)(1-L12)lnYt=(1+0.648L)εt,参数 AR(1)=-0.222(t=-2.392,P=0.020),SAR(12)=-0.820(t=-8.009,P<0.001),SAR(24)=-0.694(t=-6.124,P<0.001),MA(1)=-0.648(t=-5.889,P<0.001),残差序列是白噪声序列(P>0.05);模型拟合效果的R2为0.824,预测的平均相对误差为0.078。归一化后丙肝和甲肝发病数的平均方差分别为0.030和0.047,提示丙肝原始数据周期性动态变化较甲肝更趋一致。甲肝预测的平均相对误差为0.138,大于丙肝。结论ARIMA(1,1,1)(2,l,0)12季节模型可用于预测我国丙肝的发病规律。样本数据的周期性动态变化趋势越一致,ARIMA季节模型的预测结果也越准确。

丙型病毒性肝炎(简称为丙肝)是一种由丙型肝炎病毒感染引起的病毒性肝炎,是一种对人群健康及生命危害较大的疾病,50%~80%的感染者进展为慢性状态,可导致肝脏慢性炎症坏死及纤维化,其中20%~30%的患者发展为肝硬化甚至肝细胞癌。丙肝是欧美及日本等国家终末期肝病的最主要原因之一。我国卫生部《2011年度全国法定传染病报告发病、死亡统计表》数据显示,2011年我国报告的丙肝发病数量超过17万例,比2010年增长了13.1%,是乙肝的5倍。我国多地已出现丙肝疫情的暴发,丙肝的防控形势相当严峻[1]。

探讨疾病的流行规律、预测发病人数对传染性疾病的防治工作有着重要的指导意义。求和自回归移动平均(autoregressive integrated moving average, ARIMA)模型是一种基于时间序列分析、预测和控制的方法,其基本思想是利用时间序列的观测值所具有的依存关系或自相关性,预测对象发展的未来值。随机季节模型与ARIMA模型的结合即为ARIMA季节模型[2-4],该模型能综合考虑季节、趋势和随机干扰等因素,预测效果较好。作者采用ARIMA季节模型对我国丙肝的发病进行了预测,并探讨了数据的周期性变化趋势与模型预测效果的关系。

1 资料与方法

1.1资料来源丙肝和甲肝数据资料来源于我国卫生部网站(http://www.moh.gov.cn)2004年1月至2012年12月的全国法定报告传染病疫情资料,其中2004年1月至2011年12月的数据用于建立模型,2012年1月至12月的数据用于验证模型的预测效果。

1.2建模方法ARIMA季节模型一般表示为ARIMA(p,d,q)(P,D,Q)s,其中各参数的意义为:非季节差分阶数d和季节差分阶数D,非季节自回归阶数p和季节自回归阶数P,非季节移动平均阶数q和季节移动平均阶数Q,季节的长度s。当P=D=0时,该模型便是一般的ARIMA模型。此次研究采用Eviews 6.0进行建模和数据的处理及分析[5-6]。建模过程如下。

①序列的平稳化:在确定时间序列模型之前需把不平稳的时间序列转化为平稳的序列。为消除异方差,首先对原始数据进行自然对数转换,以平稳序列的方差,然后根据变换后序列的自相关(ACF)和偏自相关(PACF)图,确定d和D,d和D宜取较低阶。s根据疾病的背景知识获得。选择不含常数项和趋势项的增广的迪基福勒检验法(augmented Dickey-Fuller test,ADF)对结果进行分析,检验水准α=0.05。

②模型的识别:对于变换后的平稳时间序列,观察其ACF和PACF图,确定p、q值。参数P、Q超过2阶的情况很少见[3],可以分别取0、1、2并由低阶到高阶逐个试验,根据模型的拟合优度、残差情况以及系数间的相关性进行综合判断,以确定这两个参数。

③参数估计及检验:运用最大似然法或无约束最小二乘法估计模型的系数,并进行参数估计和检验,用拟合优度比较该模型与其他模型的优劣。

④模型的诊断:一个适合的模型的残差序列应是白噪声序列。可应用Box-LjungQ统计量对残差进行检验,检验水准α=0.05。

⑤模型的预测:利用所建模型进行预测,并与实际数据进行比较,评价模型的优劣。

2 结果

2.1序列的平稳化图1是2004年1月至2011年12月我国丙肝月发病数(Yt)的时间序列图。从图1可以看出,该序列按年呈现出明显的非平稳性和季节性,随着时间t的增大,Yt的波动越来越大,即呈现递增型的异方差。丙肝发病数显现总体上升趋势,发病数在每年的3、4月份达到高峰,随后慢慢下降,在次年1月份左右达到低谷。

为消除异方差,对原始数据进行对数变换,变换后丙肝月发病数据(lnYt)的ACF和PACF图见图2。可以看出,lnYt是非平稳的,且存在周期为12个月的季节波动。因此对lnYt进行一阶非季节差分和一阶季节差分,得到新的序列ΔΔ12lnYt(差分算子Δ=1-L,Δ12=1-L12)。从ΔΔ12lnYt的ACF和PACF图(图3)可以看出,该序列近似为一个平稳过程。

2.2模型的识别与定阶由于原始序列对数变换后,经过一阶非季节差分和一阶季节差分达到平稳,因此s=12,d=1,D=1,模型可初步确定为ARIMA(p,1,q)(P,1,Q)12,其中p、q、P和Q待定。观察序列ΔΔ12lnYt的PACF图,其偏相关函数和自相关函数均在滞后1阶以后降为0,因此p=1,q=1。

2.3参数估计及检验通过计算,9个模型中备选模型ARIMA(1,1,1)(1,1,0)12和ARIMA(1,1,1)(2,1,0)12的参数具有统计学意义,结果见表1。其中AR(1)表示阶数为1的非季节自回归过程,SAR(12)表示周期为12、阶数为1的季节自回归过程,SAR(24)表示周期为12、阶数为2的季节自回归过程,MA(1)表示阶数为1的非季节移动平均过程。另外,模型所有根(包括实根和复根)的倒数均小于1,均符合建模要求。

图1 丙肝月发病数(Yt)的时间序列图

图2 lnYt的PACF(上)和ACF(下)图

图3 ΔΔ12lnYt的PACF(上)和ACF(下)图

从表1可以看出,模型ARIMA(1,1,1)(2,1,0)12的R2和调整R2均较ARIMA(1,1,1)(1,1,0)12大,而统计量AIC比ARIMA(1,1,1)(1,1,0)12小,提示模型ARIMA(1,1,1)(2,1,0)12的拟合效果较好。

根据表1估计的参数值得到模型的表达式为[3-4]:(1+0.222L)(1+0.820L12+0.694L24)(1-L)(1-L12)lnYt=(1+0.648L)εt,其中L为后移算子,LkYt=Yt-k,εt为白噪声序列。

2.4模型的诊断在Eviews 6.0中对模型ARIMA(1,1,1)(2,1,0)12的残差进行Q检验, 结果P均>0.05,说明模型ARIMA(1,1,1)(2,1,0)12的残差序列是白噪声序列,提示所选模型恰当,适用于预测。

2.5模型的预测用模型ARIMA(1,1,1)(2,1,0)12对原序列进行拟合,结果见图4。由图4可以看出,预测值与实际值基本吻合,动态趋势基本一致。用模型ARIMA(1,1,1)(2,1,0)12对我国2012年1月至12月丙肝逐月发病人数进行预测,并用实际数据进行预测精度的验证,结果见表2。由表2可以看出,该模型的预测结果相对误差最大为0.176,最小为0.009,平均为0.078,预测效果较好。

2.6发病规律的周期性动态变化趋势与模型预测效果的关系丙肝和甲肝2004年1月至2011年12月发病数归一化后的方差计算结果见表3。丙肝的平均方差为0.030,甲肝的平均方差为0.047,丙肝的方差更小,所以可以认为丙肝原始数据周期性动态变化比甲肝更趋一致。用模型ARIMA(1,1,1)(2,1,0)12对我国2012年1月至12月甲肝逐月发病人数的预测结果相对误差最大为0.266,最小为0.003,平均为0.138,与表2结果比较,可以看出丙肝的预测效果明显优于甲肝,平均相对误差减小了近一半。

图4 实际值与预测值序列比较图

表2 用模型ARIMA(1,1,1)(2,1,0)12对我国2012年1月至12月丙肝逐月发病人数的预测结果

表3 丙肝和甲肝2004年1月至2011年12月发病数归一化后各月的方差

3 讨论

近年来,应用时间序列模型对传染病进行监控、预测得到了较广泛的应用。在传染病的预测研究方面,目前用的较多的模型有微分方程模型、灰色预测模型、Markov模型、通径分析模型等[7-11]。微分方程模型是比较简单和基本的封闭体系模型,它适合描述传染病的自然发展过程,但在现实生活中人们会通过药物、隔离治疗等方式人为地控制传染病的发展,这会在一定程度上影响预测效果。灰色预测模型是在灰色理论的基础上对生成数列建模,只需很少数据量即可完成预测,但当数据波动比较大时,预测精确度就大大下降。Markov模型是利用概率建立一种随机时序模型来进行预测,预测准确度依赖于概率的准确性以及时间序列的独立性。通径分析模型是回归分析的补充和发展,需要结合专业知识建造通径图,当变量较多时,何种通径图较优则很难确定。以上模型都无法对周期性数据进行建模和预测。

ARIMA模型比较灵活,具有不受数据类型束缚和适用性强的特点,既适用于非周期性序列,也适用于周期性序列,且周期可以为年份、季度、月份,故适用范围广泛。ARIMA季节模型整合了趋势因素、周期因素和随机误差等因素的原始时间序列变量,通过差分数据转换等方法将非平稳序列转变为零均值的平稳随机序列,通过反复识别和模型诊断、比较,选择理想的模型进行数据拟合和预测。该方法结合了自回归和移动平均方法的长处,可不受数据类型的束缚,适用性较强,是一种短期预测效果较好的模型,非常适用于与季节周期性相关疾病的研究。传染病的发病往往与季节有关,具有较明显的周期性。作者采用ARIMA季节模型对我国丙肝的疫情动态和发展趋势进行预测,得到了较好的预测效果,这为我国丙肝发病的预测提供了一种可行的方法。

如何更好地应用ARIMA季节模型对传染病发病状况进行预测,作者对发病规律的周期性动态变化趋势对模型预测效果的影响进行了分析。作者对我国2004年1月至2011年12月丙肝和甲肝的发病数据按年归一化处理后计算方差,结果丙肝的方差更小,说明丙肝原始数据周期性动态变化比甲肝更趋一致。用ARIMA季节模型对2012年1月至12月逐月发病人数进行预测,丙肝预测结果的平均相对误差较甲肝减小了近一半,说明丙肝的预测效果明显优于甲肝。该研究结果证实ARIMA季节模型的预测效果与样本数据的周期性动态变化趋势有关,周期性变化趋势越一致,预测结果也越准确。这为今后更好地开展工作、提高预测的精度提供了科学的依据。

[1]中华预防医学会医院感染控制分会.中国丙型病毒性肝炎医院感染防控指南(2012年)[J].中国医学前沿杂志:电子版,2012,4(11):57

[2]Bowerman BL, O'Connell RT.Forecasting and time series:an applied approach[M].3rd ed.北京:机械工业出版社,2003:437

[3]方积乾,陆盈,张晋昕,等.现代医学统计学[M].北京:人民卫生出版社,2002.

[4]Box GEP,Jenkins GM.Time series analysis: forecasting and control[M].Holden-Day,1976.

[5]攸频,张晓峒.Eviews 6实用教程[M].北京:中国财政经济出版社,2008.

[6]易丹辉.数据分析与EViews应用[M].北京:中国人民大学出版社,2008.

[7]张彦琦,唐责立,王文昌,等.ARIMA模型及其在肺结核预测中的应用[J].现代预防医学,2008,35(9):1608

[8]胡建利,祖荣强,彭志行,等.江苏省戊型肝炎发病趋势的时间序列模型应用[J].南京医科大学学报:自然科学版,2011,31(12):1874

[9]胡建利,梁祁,吴莹,等.季节时间序列模型在菌痢发病预测中的应用[J].中国卫生统计,2012,29(1):34

[10]Muhammad HL,Nur Haizum Suhartono AR,Mohd TL,et al.Seasonal ARIMA for forecasting air pollution index:a case study[J].Am J Applied Sci,2012,9(4):570

[11]王丙刚,曲波,郭海强,等.传染病预测的数学模型研究[J].中国卫生统计,2007,24(5):536

(2013-07-23收稿 责任编辑王 曼)

Application of seasonal ARIMA model in forecasting incidence of hepatitis C in China

YULinfeng1),WUJing2),ZHOUSuolan1),DINGYong2)

1)DepartmentofBiomedicalEngineering,NanjingMedicalUniversity,Nanjing210029 2)DepartmentofMathematicsandComputerSciences,NanjingMedicalUniversity,Nanjing210029

seasonal ARIMA model; hepatitis C; incidence; prediction

Aim: To forecast the incidence of hepatitis C in China using seasonal ARIMA model.Methods: Seasonal ARIMA model was established based on the monthly reported cases data of hepatitis C in China from 2004 to 2011,and used to forecast the data of 2012.Actual data of 2012 were used to assess prediction effect. The model establishment and forecasting for hepatitis A were carried out using the same method. The variance of hepatitis A and hepatitis C incidence from 2004 to 2011 normalized according to the years was calculated. The predicted effect of hepatitis A and hepatitis C was compared.Results: The model of ARIMA(1,1,1)(2,1,0)12was established successfully.The expression of the model was (1+0.222L)(1+0.820L12+0.694L24)(1-L)(1-L12)lnYt=(1+0.648L)εt,the parameters were as follows: AR(1)=-0.222(t=-2.392,P=0.020),SAR(12)=-0.820(t=-8.009,P<0.001),SAR(24)=-0.694(t=-6.124,P<0.001),MA(1)= -0.648(t=-5.889,P<0.001),residual error sequence was white noise sequence (P>0.05), theR2of fitting was 0.824 and the averge error of prediction was 0.078. The averge variances of hepatitis C and hepatitis A normalized incidence were 0.030 and 0.047, suggesting that periodic dynamic change of hepatitis C data was more consistent. The averge relative error of prediction of hepatitis A was 0.138,higher than that of hepatitis C.Conclusion: ARIMA(1,1,1)(2,1,0)12season model can be used to predict incidence of hepatitis C in China. Periodic dynamic change trend of sample data is more consistent, the ARIMA seasonal model predicted result is more accurate.

10.13705/j.issn.1671-6825.2014.03.014

*江苏省大学生实践创新训练计划项目 2012JSSPITP1033;南京医科大学基础医学院优势学科教师培养基金项目 JX10131801099

R512.6

猜你喜欢

甲肝丙肝阶数
灌云县2001—2018 年出生儿童甲肝疫苗预防接种效果评价
关于无穷小阶数的几点注记
确定有限级数解的阶数上界的一种n阶展开方法
人-人嵌合抗丙肝抗体检测阳性对照品的研制及应用
吃错海鲜,小心得肝炎
春季甲肝高发需谨慎
miRNA-122与丙肝病毒感染及肝癌关系的研究进展
固有免疫和适应性免疫与慢性丙肝的研究进展
一种新的多址信道有效阶数估计算法*
关于动态电路阶数的讨论