基于2008至2017年郑州市二七区手足口病监测数据的时间序列建模分析
2019-01-31冯慧芬秦新华赵保玲易佳音
赵 敬,冯慧芬,王 芳,秦新华,赵保玲,易佳音,王 斌,黄 平
1) 郑州大学第五附属医院消化内科 郑州450052 2) 郑州大学第五附属医院感染科 郑州450052 3) 郑州大学附属儿童医院感染科 郑州450051
手足口病(hand-foot-mouth disease,HFMD)是一种因肠道病毒感染而导致的儿童常见的急性传染病。在国内,其主要致病种类为柯萨奇病毒A16型和肠道病毒71型[1]。HFMD具有传染性强和播散速度快等特点,容易造成大范围的暴发和流行[2]。HFMD重症病例可以伴随脑炎、心肌炎等严重并发症,甚至发生死亡。根据国家疾病控制中心的监测数据,自2008年以来HFMD发病人数呈整体上升趋势,其发病和病死率居丙类传染病之首,虽然近年来疫情管控和疫苗方面的新进展一定程度上降低了病死率,但其对社会和家庭造成的医疗负担却相当沉重。本研究利用2008至2017年郑州市二七区HFMD疫情监测资料,采用季节性求和自回归滑动平均(seasonal auto regressive integrated moving average,SARIMA)模型建立HFMD发病预测模型,从而为HFMD方面的疫情监测和管理提供决策依据。
1 资料与方法
1.1资料来源数据采集自郑州市二七区疾病预防控制中心,收集2008年至2017年间HFMD疫情资料用于分析。
1.2SARIMA模型构建采用了加入了季节变化因素后的SARIMA模型,其结构为(p,d,q)×(P,D,Q)s,其中s为季节周期,p、q分别对应自回归和移动平均阶数,d、D分别为平稳差分次数和季节性差分次数,P、Q分别为季节性自回归和移动阶数[3-4]。结合Ljung-Box方法检验残差白噪声,选取BIC最小的模型作为最佳模型。
1.3统计方法选用R 3.4.4软件绘制热图,描述年和周对应的HFMD发病例数情况。应用SPSS 23.0建模,其中时间序列分析时选用SARIMA模型,对所有病例个案数据汇总,统计月发病例数。该地区在2008年前2个月无发病患儿,因此选用2008年3月至2016年12月的发病数进行建模,而使用2017年1月至12月的数据对模型进行验证。
2 结果
2.1 2008至2017年郑州市二七区发病概况根据国家疾病预防控制局的全国法定传染病疫情概况报告(http://www.ntfpc.gov.cn/jkj/pqt/newlist.shtml),绘制2008至2017年全国HFMD发病例数和病死率图,结果见图1。同时绘制郑州市二七区的HFMD周发病例数热图,结果见图2。图2显示,2014年全国的HFMD发病例数超过了以往,其原因是在全国范围内的大流行引起所致。而在热图中可以看到二七区在2014至2016年,其高发时间段内发病例数热度最高,大致与同年期间全国总发病趋势相符合。
图1 全国2008至2017年月HFMD发病例数和病死率
图2 郑州市二七区2008至2017年月发病例数热图
2.2HFMD患者发病时间序列平稳化处理结果见图3。2008年3月至2016年12月HFMD时间序列存在明显的周期性,每12个月出现1次明显的发病高峰,序列方差前后波动较大。对其进行对数转换、二阶差分、二阶季节差分,转换后的时间序列趋势和周期性不明显,符合SARIMA模型的平稳性要求(图4)。
图4 平稳化处理后的HFMD发病时间序列图
2.3模型识别和定阶根据HFMD的流行特点建立模型SARIMA(p,d,p)× (P,D,Q)12,绘制差分后季节性序列的自相关函数图(ACF)及部分自相关函数(PACF),结果见图5。可确定非季节性模型是一个自回归过程,因此p和q分别取1和0。根据差分结果可确定d、D分别取2和2。据有关文献[5]叙述P和Q的取值很少有超过2的情况,故P和Q分别取0、1、2,并逐个代入模型。经逐个试验符合条件的SARIMA模型有9个,最终确定最佳模型为SARIMA(2,2,1)×(2,2,1)12。
2.4模型的参数检验该模型经Ljung-Box 检验得到的统计量为4.553,P值为0. 951,BIC值为14.251,R2为0.624。残差的ACF和PACF图见图6,残差为白噪声,且模型各参数均具有统计学意义(P<0.001)。
图5 进行自然对数转换、一阶差分、一阶季节差分后ACF和PACF图
图6 残差的ACF和PACF图
2.5模型的预测效果评价利用SARIMA(2,2,1)× (2,2,1)12模型,对2017年1月至12月郑州市HFMD发病例数进行验证,结果见图7,可见拟合值与实测值较为接近,说明该模型拟合较好。3月和4月误差较大,其他月份拟合值与实测值较为接近,说明该模型拟合较好。
图7 应用SARIMA模型对2017年HFMD发病情况的验证结果
3 讨论
由于HFMD的发病和传播特点,临床尚无特效治疗药物,而目前的疫苗仍然处在研发结果,因此对该病的防治主要采取早期预防策略。但过度预防会导致相应卫生资源的分配不合理,甚至浪费,因此需要一定的指导依据。HFMD发病的模型预测有助于了解HFMD的发病趋势,从而提早采取措施,有针对性地做好疫点、疫区的卫生处理和传染源管理工作,遏制疫情蔓延[6]。本研究采集了郑州市疾控中心传染病资料,数据资料可信度高,且收集了10 a的所有发病资料,样本量较大,对其进行特征分析和预测研究具有较强的可操作性和现实意义。在所有时间序列模型中,由于SARIMA模型综合考虑了时间序列中的周期和趋势以及随机干扰等因素,相较于其他模型较为符合流行病特征。作者利用2008年3月至2016年12月郑州市HFMD发病数据构建了SARIMA定量预测模型,并回代拟合了2017年1月至12月郑州市HFMD发病例数情况,可见该模型预测效果较好,通过该模型的预测方法,可用于郑州市手足口病发病的短期预测,在发病高峰期提醒疾病预防控制部门加强防控[7]。本研究应用SARIMA模型对郑州市HFMD发病例数进行分析和预测,显示模型和参数都具有统计学意义,且预测的精度较高。预测结果显示,2017年4至7月为郑州市HFMD发病高峰,与既往发病高峰期一致,提示在该段时间内应加强郑州市HFMD的防治工作。
SARIMA模型是目前应用较多的时间序列预测方法之一,它综合考虑到了疾病的季节性、周期性、随机性等可能影响序列平稳性的因素,提高了模型的拟合和预测效果,同时借助模型的参数进行量化表达,在传染病预测中具有广泛的适用性[8]。HFMD的发病原因较复杂,发病具有明显的季节性、周期性特点,适合用SARIMA模型进行拟合[9-10]。但是SARIMA模型不足之处在于只能用于短期预测,对长期预测效果不佳。因此,在以后的预测中,需要实时加入最新的发病例数资料,不断调整模型参数,获得更精准的预测效果。本研究应用SARIMA模型仅分析了时间因素,没有考虑其他影响因素,如气候和地区等因素,若能结合HFMD防治过程中可能收集到的疾病影响因素资料[4],利用多元统计方法或更好的统计算法,建立综合性强的预测模型,可能会使预测结果更加接近疾病实际情况。
综上所述,SARIMA模型在预测和评估HFMD流行趋势和发病情况方面具有较大应用价值。本研究建立的SARIMA模型可以较好地预测郑州市二七区2017年HFMD月发病率的时间分布特征和发展趋势,从而用于辅助该地区进行相应疫情布控方面的决策。后续研究可根据新的数据资料不断动态调整模型参数,来实现更高的预测效果。