基于ARMA模型对我国病毒性肝炎流行特征分析
2018-01-22罗玲黎明
罗玲 黎明
【摘要】 目的:分析我国病毒性肝炎的年发病率动态变化及发展趋势,为卫生安全部门制定病毒性肝炎的预防监测措施提供决策依据。方法:采用自回归积分滑动平均模型(ARMA)对我国政府部门1975-2013年公布的法定传染病报告数据进行拟合。结果:基于AIC及SC最小原则选择ARMA(3,2)
模型进行精度评价及外推预测,模型残差检验为白噪声序列,预测结果能够准确反映了中国病毒性肝炎发病率动态变化,平均相对误差仅为4.29%。结论:研究利用ARMA实现了全国病毒性肝炎发病趋势评价与预测,全国2014-2018年病毒性肝炎发病率呈现小幅下降趋势,未来一段时间内,病毒性肝炎的发病率(VPM)仍将处于较高水平。
【关键词】 ARMA模型; 病毒性肝炎; 发病率; 预测
【Abstract】 Objective:To analyze the dynamics of the morbidity of viral hepatitis in China and offer decision-making foundation to prevention and surveillance of viral hepatitis in China.Method:Autoregressive integrated moving average(ARMA) models were developed using reported data of viral hepatitis in China from 1975 to 2013 and evaluated on forecasting new data for the following five years.Univariate Box-Jenkins time-series analysis had been used for modeling and forecasting yearly notifiable infectious diseases from 1975 to 2013.
Result:The optimum model of ARMA(3,2) derived according to the Akaike Information Criterion(AIC) and Schwarz Criterion(SC) and testified by the residual analysis.ARMA model hold the high capacity to forecasts yearly data for the evaluation year with an average percentage error of 4.29%.Conclusion:In this study,ARMA model simulated and predicted the tendency of the viral hepatitis morbidity in China.The forecasting results also showed the slight reduction of the morbidity in the following years from 2014 to 2018 and that the morbidity of viral hepatitis will still stay the high level in the future.
【Key words】 ARMA model; Viral hepatitis; Morbidity; Prediction
First-authors address:Hubei University of Technology Hospital,Wuhan 430068,China
doi:10.3969/j.issn.1674-4985.2018.33.001
病毒性肝炎是危害人類健康的重要疾病之一,全球每年约有100万人感染病毒性肝炎病毒及相关后遗症、肝脏疾病和原发性肝癌[1-2]。以乙型肝炎和丙型肝炎为例,全球约有2.48亿人长期感染乙型肝炎[3],丙型肝炎约为2亿和1.85亿[4],而且病毒性肝炎所致的并发症及死亡率呈逐年上升趋势[5]。中国是病毒性肝炎的高发病国家,其发病机制、传染途径及流行动态特征一直是我国医疗卫生管理部门及医疗专家重点研究对象[6-8]。针对传染病时间序列进行动态预测,有助于公共卫生部门掌握其流行特点,从而为其预防与监测工作提供一定的科学依据[9]。国内外学者已经采用时序方法对病毒性肝炎发病率进行了大量的研究,线性回归模型、灰色关联系统[10]、移动自回归模型及人工神经网络[11]等各具特点的统计方法被用于病毒性肝炎的动态预测研究。相较而言,自回归积分滑动平均模型(ARMA)善于捕捉数据中的线性特征,综合考虑了序列的趋势变化、周期变化及随机干扰,具有预测精度较高,适用于短期预测等特点,在传染病预测中具有广泛的适用性[12-13]。本文以我国1975-2013年
病毒性肝炎发病率为数据基础,研究ARMA时间序列建模与预测方法的应用可行性,并对我国病毒性肝炎发病率水平进行短期预测,从而为卫生管理部门的流行病防控提供决策参考。现报道如下。
1 材料与方法
1.1 数据来源 文中病毒性肝炎发病率(VPM)的数据全部取自卫生部网站公布的甲乙类传染病发病率法定报告数据。运用Eviews软件生成1975-2013年我国病毒性肝炎发病率的时间序列图(图1)。我国病毒性肝炎发病率经历了三次较大的波动,其峰值分别为1980年的111.47/100 000,1988年的132.47/100 000和2007年的108.44/100 000,之后基本稳定在高位(92.45/100 000~107.30/100 000),发病比率未来上升幅度逐步减小。观察曲线变动情况,初步判断为非平稳时间序列。根据Box-Jenkins相关方法,只有平稳的时间序列才能够直接建立ARMA 模型,否则必须经过适当处理使序列满足平稳性要求。
1.2 研究方法
1.2.1 ARMA表达形式 ARMA模型(Box-Jenkins)是一种以随机理论为基础的时间序列分析方法。ARMA模型使用包括AR项和MA项两种形式对扰动项进行建模分析,使模型综合考虑过去值,现在值和误差值,从而提高模型的预测精度。ARMA模型将时间序列视为随机过程,采用数学模型来描述或模拟,模型确立后,则通过时间序列的过去值和现值来预测未来值[14]。
若序列{Y}为平稳序列{Z},则可建立ARMA(p,q)模型:zt=c+φ1zt-1+…+φzt-p+εt+φ1εt-1+…+φqεt-q。其中p为AR的阶数,q为MA的阶数,为一个白噪声序列。ARMA模型建模需要经过4个步骤,即序列平稳性检验,模型初步识别,模型参数估计和模型诊断分析。
1.2.2 ARMA模型的定阶 ARMA模型主要通过观察描述序列特征的一些统计量 (如自相关系数和偏相关系数)的性质来确定ARMA(p,q)模型的阶数p和q[15],具体描述见表1。
2 结果
2.1 我国病毒性肝炎发病率时间序列平稳性检验 时间序列的平稳性检验是应用ARMA模型的首要问题,检验方法主要有图检法(含时序图检验法自相关图检验法)、单位根检验法(包括ADF检验法、DFGLS检验法、KPSS检验法等),为保证客观性,本研究采用单位根检验统计量(ADF)来检验序列是否平稳[16]。观察VPM时间序列动态特征,数据分布无明显趋势特征,因此采用(c,0,9)
进行检验。检验结果表明,原始数据ADF的值为-3.250 945,小于5%显著水平的t值,表明该序列平稳,见表2。
2.2 ARMA模型初步识别 通过分析1975-2013年我国病毒性肝炎发病率量时间序列自相关图和偏自相关图(图2)。自相关系数延迟2阶拖尾,偏自相关系数延迟3阶拖尾,故选取ARMA(p,q)模型,由于原始时间序列为平衡序列,所以初步确定模型为ARMA(3,2)。
2.3 ARMA模型参数估计 考虑到自相关函数和偏自相关函数确定的ARMA模型阶次具有一定的主观性,经Eviews 7.2测算,模型ARMA(3,2)、(3,2)、
(1,0)、(2,2)和ARMA(0,2)均通过了检测,所有系数均为显著。在此基础上,对模型的R2、RSS、AIC及SC值进行比较,根据AIC及SC准则,以AIC及SC值最小时为相对最优模型。对比结果显示,ARMA(3,2)相关系数R2为0.785 013,RSS、AIC及SC为所有模型中最小值,因此根据AIC信息准则,选择ARMA(3,2)对VPM动态进行预测(表3)。
2.4 ARMA模型构建及诊断分析
2.4.1 模型构建 由ARMA(3,2)模型可得VPM最小二乘估计:VPMt=89.426 38-0.411 235 VPMt-3+εt+1.006 117 VPMεt-1+0.958 098 VPMεt-2,模型各解释变量参数均为显著,模型通过F检验,R2值达到0.785 013,P<0.01,表明该模型具有较好拟合优度(表4)。
2.4.2 诊断分析 由模型残差序列的自相关分析图可知,其自相关系数和偏自相关系数均落入置信水平为95%的置信区间(图3)。根据ACF、PACF及Q-Stat显示,残差序列纯随机序列,为白噪声,因此模型拟合达到标准。针对该模型为时间连续变量模型的特点,采用Lagrange Multiplier检验法,对模型的残差序列进行自相关检验[17]。由表5可知,得到的F-statistic和Obs*R-squared两个值对应的概率值(Probability)分别是0.991 6、0.997 8,均大于5%的显著性水平,表明残差不存在序列相关性。
2.5 ARMA模型预测结果 图4描述了根据模型ARMA(3,2)对病毒性肝炎发病率(VPM)进行模拟所得的残差、实际值和拟合值。图中实际值与拟合值的变化趋势大体一致,并且模型的残差值较小,这表明拟合效果较好。通过分析预测值与真实值差异,发现相对误差在1.38%~6.18%,預测效果较好(表6)。同时也可以看出,我国病毒性肝炎发病率在未来五年内持续保持高位,未来病毒性肝炎防治工作依然严峻。
3 讨论
根据世界卫生组织数据,中国是病毒性肝炎感染的高发国家之一[18]。预测病毒性肝炎发病率对其预防和控制具有重要意义,有助于研究人员及卫生人员完善应对策略,进而帮助卫生部门执行科学的健康战略规划[19]。本研究基于真实数据集,采用了时间序列预测方法来提供病毒性肝炎数据中心结构及趋势信息。时间序列预测是当前的研究热点,采用的方法多种多样,移动自回归模型是其中的典型代表,善于捕捉数据中的线性特征[13]。本文以1975-2013年的中国病毒性肝炎发病率数据为基础,利用Eviews建立ARMA模型,基于AIC最小准则选择模型ARMA(3,2),经检验,模型通过F检验,残差序列为随机序列,该模型能够较好地反映病毒性肝炎流行动态。对2014-2018年我国病毒性肝炎发病率总量进行模拟预测,模型的预测结果与实际误差较小(R2=0.78,P<0.01),平均误差仅为4.29%,对我国病毒性肝炎发病率水平进行短期预测并针对性地制定相关措施具有一定的参考价值。未来,研究将侧重于使用更为复杂的预测技术,如遗传算法,概率规则,模糊神经系统或其他一些先进的数据挖掘技术来预测病毒性肝炎的流行趋势。同时,我们也需看到,真实时间序列数据包含了大量的非线性的成分,我国病毒性肝炎发病率受区域医疗发展水平、地区环境质量、经济发展水平及人群结构与素质多等多方面因素的影响[20-21],采用单一模型进行数据处理时存在较大的局限性,若要对进行较长期的预测,应结合外部影响因素对相关模型进一步改进完善。
参考文献
[1] Schweitzer A,Horn J,Mikolajczyk R T,et al.Estimations of worldwide prevalence of chronic hepatitis B virus infection:a systematic review of data published between 1965 and 2013[J].Lancet,2015,386(10003):1546-1555.
[2] Venkatesh A G,Brickner H,Looney D,et al.Clinical detection of Hepatitis C viral infection by yeast-secreted HCVcore:Gold-binding-peptide[J].Biosensors and Bioelectronics,2018,119:230-236.
[3] Sharma S,Carballo M,Feld J J,et al.Immigration and viral hepatitis[J].Journal of Hepatology,2015,63(2):515-522.
[4] Mohd Hanafiah K,Groeger J,Flaxman A D,et al.Global epidemiology of hepatitis C virus infection:new estimates of age-specific antibody to HCV seroprevalence[J].Hepatology,2013,57(4):1333-1342.
[5] Wiktor S Z,Hutin Y J.The global burden of viral hepatitis: better estimates to guide hepatitis elimination efforts[J].Lancet,2016,388(10049):1030-1031.
[6]李扬,耿爱生,汪心海,等.中国病毒性肝炎流行状况GIS空间分析[J].中国卫生统计,2016,33(2):235-238.
[7]陈国翠,谢旭,陈伟红,等.2010-2014年深圳市乙型和丙型病毒性肝炎流行特征分析[J].实用预防医学,2017,24(7):810-813.
[8]朱小康,王建辉,王克强,等.2011-2015年抚州市丙型病毒性肝炎流行病学特征分析[J].現代预防医学,2017,44(5):788-792.
[9] Goyal A,Chauhan R.The dynamics of integration, viral suppression and cell-cell transmission in the development of occult Hepatitis B virus infection[J].Journal of Theoretical Biology,2018,455:269-280.
[10]陈银苹,吴爱萍,范红敏,等.灰色系统对乙型病毒性肝炎发病率的预测研究[J].中国现代医学杂志,2014,24(24):77-81.
[11]曾海燕,解合川,任钦,等.径向基函数神经网络在甲型病毒性肝炎发病率预测中的应用初探[J].现代预防医学,2013,40(24):4489-4492.
[12]严婧,杨北方.指数平滑法与ARIMA模型在湖北省丙型病毒性肝炎发病预测中的应用[J].中国疫苗和免疫,2017,23(3):292-297.
[13] Ture M,Kurt I.Comparison of four different time series methods to forecast hepatitis A virus infection[J].Expert Systems with Applications,2006,31(1):41-46.
[14] Mills,Terence C.Time Series Techniques for Economists[M].Cambridge University,1990.
[15] Wold H.A Study in the Analysis of Stationary Time Series[M].Uppsala,Sweden:Almqvist & Wiksell,1938.
[16] Elliott G,Rothenberg T J,Stock J H.Efficient Tests for an Autoregressive Unit Root[J].Econometrica,1996,64(4):813-836.
[17] Godfrey L G.Misspecification Tests and Their Uses in Econometrics[J].Journal of Statistical Planning and Inference,1996,49(2):241-260.
[18] WHO.Combating hepatitis B and C to reach elimination by 2030[S].WHO,2016.
[19] Ahn H R,Cho S B,Chung I J,et al.Socioeconomic differences in self- and family awareness of viral hepatitis status among carriers of hepatitis B or C in rural Korea[J].American Journal of Infection Control,2018,46(3):328-332.
[20]朱小康,王建辉,王克强,等.2011-2015年抚州市丙型病毒性肝炎流行病学特征分析[J].现代预防医学,2017,44(5):788-792.
[21]郑翠玲,邢丽,高风至,等.重症病毒性肝炎患者医院感染的影响因素分析[J].中华医院感染学杂志,2016,26(4):752-754.
(收稿日期:2018-08-30) (本文编辑:程旭然)