ARIMA模型在宜春市肾综合征出血热发病率预测中的应用*
2018-11-05杨其松朱蒙曼张天琛胡国良刘晓青
杨其松 朱蒙曼 张天琛 谢 昀 胡国良 刘晓青
【提 要】 目的 对宜春市肾综合征出血热(HFRS)的发病趋势进行时间序列分析和预测,为制定HFRS防治策略提供科学依据。方法 收集宜春市2005-2016年HFRS月发病率资料,通过统计软件拟合ARIMA模型。结果 最终拟合为ARIMA(0,1,2)(0,1,1)12模型,残差为白噪声序列,预测值与实际值的平均相对误差为15.64%,实际值均落在95%可信区间内,模型回归系数有统计学意义,预测2017年7~12月累计发病率为1.794/10万。结论 ARIMA模型可用于宜春市肾综合症出血热发病率的短期预测研究。
肾综合症出血热(hemorrhagic fever with renal syndrome,简称为HFRS)是由汉坦病毒(hantaviruses,HV)引起的一种自然疫源性疾病,鼠类为自然宿主和主要传染源,临床表现以高热、腰痛、眼眶痛及肾功能损害为特征[1-3]。江西省自1961年在彭泽县发现首例HFRS病例以来[4],迄今为止,疫区不断扩大,给人民群众的生命财产带来了巨大的损失。宜春市作为江西省的疫情重灾区,报告发病数和年发病率始终位于全省前列[5]。近5年来,宜春市肾综合征出血热发病数占全省病例数的49.71%(1607/3233)。为了解宜春市HFRS流行特点及未来的流行趋势,本研究通过自回归移动平均(ARIMA)模型对宜春市HFRS流行趋势进行预测,探讨ARIMA模型在HFRS中的预测效果,为宜春市HFRS防控提供科学依据。
资料与方法
1.资料
宜春市2005-2016年月发病率资料源自“中国疾病预防控制信息系统”,2005年1月至2016年12月HFRS月发病率作为拟合集建立模型,2017年1~6月HFRS月发病率为预测集检验模型的预测效果,最后对2017年7~12月的月发病率进行预测。
2.方法
采用excel工作表录入资料,应用SPSS 19.0对资料进行统计分析。由于HFRS月发病率存在明显的季节性,故模型为ARIMA(p,d,q)(P,D,Q)s,其中p是自回归的阶,P是季节模型的自回归阶数,d是差分次数,D是季节模型的差分阶数,q是移动平均的阶,Q是季节模型的移动平均的阶,s为周期长度。
结 果
1.宜春市2005-2016年HFRS流行趋势分析
将宜春市2005-2016年HFRS月发病率绘制序列图,见图1。由图1可见,宜春市2005-2016年HFRS每月均有发病,每年均有两个发病高峰,一个出现在每年的4-7月,另一个出现在每年的12月~次年1月,以冬春季发病为主,存在明显的季节性。
图1 2005-2016年宜春市HFRS逐月发病率时间序列图
2.时间序列平稳化处理
通过观察月发病率序列图,存在趋势性、异方差性和季节性,为非平稳序列。进行自然对数转换以去除异方差性,并在一阶普通差分的基础上进行一阶季节差分以去除趋势性和季节性。原始序列经以上处理,序列平稳,其时序图、ACF图和PACF图的平稳效果较好,故d和D的值为1,见图2~4。
3.模型的识别
在ARIMA(p,1,q)(P,1,Q)12模型中,根据ACF图和PACF图的平稳效果,备选模型中p、q、P、Q拟在0、1、2中取值组合,进行模型构造,其结果见表1。由表1可知,当p、q、P、Q分别取0、2、0、1时,ARIMA模型的标准化BIC值最小,其残差Ljung-BoxQ=13.245,自由度为15,P>0.05,无统计学意义,可认为该残差为白噪声序列。故本研究中宜春市肾综合征出血热月发病率的最优模型为ARIMA(0,1,2)(0,1,1)12。
图2 2005-2016年宜春市HFRS月发病率经自然对数转换、普通差分和季节性差分后时间序列图
图3 2005-2016年宜春市HFRS经自然对数转换、差分和季节性差分后的自相关函数
图4 2005-2016年宜春市HFRS经自然对数转换、差分和季节性差分后的偏相关函数
4.参数估计和模型检验
ARIMA(0,1,2)(0,1,1)12模型的参数估计结果显示,MA(1),MA(2)及SMA(1)中估计值均有统计学意义(P<0.05)(表2);模型残差ACF和PACF均落入零相关的置信限内,见图5,表明用该模型拟合原始时间序列是成功的。
5.预测值与实际值间的比较
运用ARIMA(0,1,2)(0,1,1)12模型对2017年1~6月宜春市肾综合征出血热月发病率进行预测,得到预测数据,比较预测值与实际值,相对误差为0.1564,实际值均在可信区间内,ARIMA(0,1,2)(0,1,1)12模型预测效果良好,见表3。
表1 不同自回归阶数和移动平均阶数ARIMA模型的拟合参数
*:R2(决定系数),RMSE(均方误差平方根),MAE(平均绝对误差),MaxAPE(最大绝对误差),MAPE(平均绝对误差百分比)
表2 HFRS发病率ARIMA模型参数估计
6.预测2017年7~12月发病率
根据建立的ARIMA(0,1,2)(0,1,1)12模型对2017年7~12月发病率进行预测,见图6。预测结果月发病率范围为0.055/10万~0.874/10万,2017年7~12月累计发病率为1.794/10万。
图5 ARIMA(0,1,2)(0,1,1)12模型残差序列的自相关和偏相关图
月份实际值(1/10万)预测值(1/10万)相对误差95%可信区间10.74380.86500.1629(0.6060,1.2102)20.36280.34060.0612(0.3058,0.9100)30.14510.15500.0682(0.0002,0.6811)40.25400.28290.1138(-01966,0.5066)50.47170.52750.1183(-0.0796,0.6453)60.70750.41360.4154(0.1545,0.9005)
*:相对误差=|预测值-实际值|/实际值
图6 2005-2017年宜春市HFRS实际发病率、拟合发病率及预测发病率时间序列
讨 论
宜春市作为江西省肾综合征出血热疫情最严重的地区,其发病数和发病率在一定程度上影响着整个江西省,防控形势严峻,因此有必要对宜春市HFRS流行趋势进行预测,以便提出具有针对性的防控策略。ARIMA模型作为较为常用的时间序列预测模型,于1976年由美国学者Box和英国统计学者Jenkins提出,其优点是只需发病率资料即可进行预测,可行性较高,是当前传染病预测研究的重要方法[6]。ARIMA模型对每一个季节周期中同时间点的序列值进行分析,对季节趋势进行差分,并针对每个季节周期内部序列值的变化提取非季节性成分,是一种精确度较高的预测模型,因此,该模型对于具有季节性趋势的HFRS预测具有较好的适用性。目前,已有学者运用ARIMA模型对HFRS的发病与流行趋势进行研究,且取得较为满意的预测效果[7-8],这些预测均为HFRS的防控提供了依据。
相关研究显示,只有基于足够多的时间序列数据,ARIMA预测模型才能得到较满意的预测效果,一般认为至少需要50个以上的序列数据来构建ARIMA模型[9]。本次研究通过2005-2016年月发病率长度为144的数据,建立ARIMA(0,1,2)(0,1,1)12模型来拟合与预测宜春市HFRS流行趋势,模型预测效果良好。模型预测结果中显示,每年的8~12月份宜春市HFRS发病率呈上升趋势,且幅度较大,提示相关部门需在秋冬季来临前在HFRS高发地区开展和加强防鼠灭鼠和鼠间疫情监测工作,控制宿主动物数量。江西省自2009年开始实施扩大免疫计划以来,疫苗接种很好地遏制了宜春市HFRS发病率在“16~60岁”年龄组上升[10],所以仍要加强对重点人群的免疫接种工作,有针对性地采取防控措施;同时,相关医疗机构应提高对HFRS诊断及治疗水平,切实降低宜春市HFRS的发病率和死亡率。本次预测结果显示,实际值与预测值并不完全相同,其原因除了模型本身的原因外,还可能是大规模的灭鼠、疫苗的广泛接种、诊断和检测水平以及人居环境改善等原因导致实际值与预测值的差异[11]。
HFRS发生和流行受到气候环境等自然因素及人居环境改善、城市建设等社会因素的多重影响,ARIMA模型在预测中往往只考虑了序列本身的特性,而未将这些错综复杂的影响因素纳入模型中,因此无法揭示这些因素对模型的影响,导致模型预测精度下降;此外,随着预测时间的延长,预测误差也会随之增大,所以ARIMA模型更适用于疾病的短期预测[12]。在运用ARIMA模型在进行实际预测时,为提高模型的预测精确度,需要不断更新监测数据,对模型进行不断修正;同时,在以后的研究中,可探讨建立其他预测模型与ARIMA模型相结合的组合模型来对数据进行预测,以此提高模型的预测精准度。