ARIMA模型在水痘发病趋势预测中的应用
2023-05-20朱蕴卿刘春语閤爽博武轶群
朱蕴卿,刘春语,閤爽博,武轶群
水痘是由水痘-带状疱疹病毒感染引发的一种急性呼吸道传染病,传染性极强,约80%~90%的易感者暴露后可被感染,冬、春季高发[1-2]。在托幼机构、学校等场所容易出现聚集性发病,严重影响儿童的身体健康和学校的教学秩序[3]。20 世纪中期,Box 和Jenkins 对时间序列分析、预测、管理提出了一整套的建模办法,当中ARIMA 模型是当前最常见的基本模型之一[4]。本研究运用ARIMA 模型对嘉定区水痘月报告发病率进行预测,分析流行态势,为制定嘉定区水痘的预防措施提供参考性依据。
1 资料与方法
1.1 数据资料
查询《中国疾病预防控制信息系统》嘉定区2012—2022 年水痘病例信息,统计月报告发病率。
1.2 统计方法
将水痘的月报告发病率数据录入SPSS 21.0中,对水痘病例月报告发病率进行ARIMA 模型建立分析。检验水平为α=0.05。
1.3 模型基本原理
1.3.1 ARIMA 乘积季节性模型
对于具有季节波动性的时间序列数据,考虑其季节性因素,可采用ARIMA 乘积季节性模型进行建模分析。模型通用表达式为:ARIMA(p,d,q)(P,D,Q)s。一旦模型被辨别,便能够根据过去及现在的数据对未来发展态势进行预测。
1.3.2 专家建模器和模型诊断
SPSS 21.0 统计分析数据的时间序列建模器中包含的专家建模器可选择所有模型、仅限指数平滑法模型、仅限ARIMA 模型(R)。与重复测试和经验性判断的建模方法相比,专家建模器方便快捷高效率,可以依据赤池信息准则(Akaike Information Criterion ,AIC)、贝叶斯信息准则(Bayesian information criterion,BIC)和平稳的R2来辨别模型,一般AIC 和BIC 越小、平稳的R2越大越好,选择拟合优度最佳的模型不停的调试比较,选取最优模型。其基本理论是:将预处理平稳序列、定阶识别模型、模型参数拟合与校验、模型残差检验整合在软件统计运行中,最终直接的计算出最佳模型,随后采用Box-Ljung 方法对拟合的残差序列做白噪声检验,最终完成专家建模器模型拟合,将构建的最优模型进行外推预测[5-6]。
1.3.3 预测阶段
选用专家建模器对2022 年上海市嘉定区水痘月报告发病率做短期预测,并与实际值进行比较评价预测效果,进一步分析2023 年水痘月报告发病状况。
2 结果
2.1 基本发病情况
嘉定区2012—2022 年共报告水痘13 013 例。年报告发病率见表1。
表1 2012—2021年嘉定区水痘年报告发病率
2.2 时间序列分析
2022 年水痘月报告发病数受新冠疫情影响很大,所以未纳入时间序列分析。嘉定区2012—2021 年水痘月报告发病率呈显著的非平稳性序列。2012—2019 年每年4—6 月份和11—12 月份为发病率高峰期,2—3 月份、8—9 月份为低谷期;2020-2021 年每年11—12 月份为发病率高峰期,2—3 月份为低谷期。对月报告发病率进行季节性分解,可发现月报告发病率有明显的季节性,季节周期为12 个月。
因为原序列是非平稳序列,因而需要进行差分平稳序列。由原始数据序列可判定d=1、D=1,并且进行自然对数转换。经过预处理后已达到平稳序列的要求,可以进行建模预测。
平稳后的序列其自相关、偏相关系数大多落入置信区间内,并逐步趋向于0。则平稳后的序列适于应用时间序列模型。根据模型参数估计、拟合效果以及残差序列相关系数和检验情况进行综合判断,筛选最优模型。最终经过比较,在参数检验符合条件的模型中,ARIMA(0,1,1)(0,1,1)12模型拟合平稳R2=0.374 为最大值,正态化的BIC=1.126 为最小值,判定为最优模型。见表2。
表2 各模型预测平稳的R2与正态化BIC结果
2.3 运用专家建模器构建ARIMA 乘积季节模型
本研究序列应用SPSS 21.0 时间序列建模器中的专家建模器,并指定仅限ARIMA 模型构建模型,同时考虑季节性因素,选择ARIMA(p,d,q)(P,D,Q)s作为拟合与预测模型[7]。经专家建模器自动拟合,得到ARIMA(0,1,1)(0,1,1)12为最佳模型,与表2 模型测试得出的最优模型一致。见表3。由表3 可知,残差序列统计结果为Ljung-Box Q=11.184、DF=16,无统计学意义(P=0.798),该残差是白噪声序列,说明残差是随机分布的,可认为该模型是适宜的,可以进行相关预测。
表3 ARIMA(0,1,1)(0,1,1)12模型统计量值
2.4 专家建模器预测
使用模型对2022 年嘉定区水痘月发病率进行短期预测,将专家建模器构建的ARIMA(0,1,1)(0,1,1)12模型对2012 年1 月—2021 年12 月嘉定区手水痘月报告发病率进行拟合。提示2013—2021年模型拟合的动态变化趋势与实际水痘月报告发病率情况变化趋势基本一致,模型拟合效果佳。模型外推预测2022 年1—12 月的预测值及实际值比较结果见表4。由表4 可知,除了1 月与2 月相对误差在10%以内,其余月份误差均较大。主要原因是2022 年3 月上海市因新冠疫情开始封控直至6 月各区逐渐解封,6 月以后新冠感染时有高发,除了新冠感染其他疾病就诊率明显降低[8]。因此,2022 年水痘发病率数据与既往差异较大,不纳入模型序列,仍使用2012 年1 月—2021 年12 月时间序列数据预测2023 年报告水痘发病率,为56.68/105。见表5。
表4 2022年水痘发病率的ARIMA模型预测值与实际值比较结果
表5 2023年1—12月水痘月报告发病率预测(1/105)
3 讨论
水痘是传播性很强的呼吸道传染病,特别是在托幼机构及学校等人群聚集地,易感人群居多,更易传播造成水痘的暴发与流行。水痘是疫苗可预防疾病,但其关注度和重视程度一直低于麻疹等疾病。由于对水痘的重视度较低、相关防控措施较少,现在水痘已成为较严重的公共卫生问题,引发了较大的社会经济问题[9]。
在疫苗可预防传染病中水痘发病率较高[10],应加大对水痘管理强度,尤其是针对幼托及学校等人群聚集性易爆发场所,应加强水痘疫苗接种力度,增大对水痘宣教范围。预测模型的建立可较详细判断出流行高峰时间及强度,对针对性地制定水痘疫情防控预警措施及后期评价水痘疫苗免疫策略具有积极意义。ARIMA 模型是时间序列分析经典模型之一,经常应用在传染病预测及预警中。国内外相关研究证明ARIMA 模型在疾病发病或死亡的预测预报领域效果较好[11-12],并且季节性ARIMA 模型又考虑了传染病可能存在的季节性、周期性,使模型拟合更加准确。时间序列预测在识别季节模型时,需要较长的序列来建立,若序列太短,其可靠性值得怀疑[13]。本研究数据跨度为2012—2021 年,序列长度满足了时间序列模型拟合的数据条件。
由表1 可知,2019—2021 年嘉定区水痘年报告发病率与ARIMA 模型预测2022 年水痘年报告发病率明显低于2012—2018 年,这与上海市将水痘疫苗纳入地方儿童免疫规划项目免费接种有关。自2018 年8 月1 日 起,2014 年8 月1 日 及 以 后 出生的儿童可享受免费接种和补种。由时间序列分析可知自2018 年8 月政策实施以后水痘月报告发病率有明显下降趋势,对水痘疫情控制带来较大影响[14]。
2020—2022 年新冠疫情期间,我国出版了《新型冠状病毒肺炎防控方案》,各版方案中皆对风险人员进行隔离管理,统一封管控区和中高风险地区,高风险区实行“足不出户、上门服务”,中风险区实行“足不出区、错峰取物”。各种新冠防控措施导致居民居家隔离人数较多,人群聚集性活动减少、流动性降低、居民防控意识较强,外出皆要求佩戴口罩,一定程度上降低了新冠以外其他呼吸道相关传染性疾病如麻疹、水痘等的传播。
2012—2019 年每年4—6 月和11—12 月为发病率高峰期,月报告发病率高;2—3 月、8—9 月为低谷期,月报告发病率低,与既往文献报道的冬春季季节性高峰描述大致相同[15]。2020—2021 年及ARIMA 模型预测中2022—2023 年嘉定区水痘月报告发病率皆与往年发病率季节性略不相符,11—12 月为发病率高峰期,4—6 月发病高峰缺失,年报告发病率降低,这可能与2020 年开始上海市新冠流行季节性发病、居民居家隔离、医院就诊率低、报告水痘发病人数减少有关。
本研究将时间序列分析应用于水痘的发病率预测,为嘉定区水痘疫情的防控工作提供有力的理论依据。在新冠疫情防控下,因时因地制宜,可一定程度上降低嘉定区水痘发病率,降低居民疾病负担。