基于SIRIMA模型的新冠肺炎疫情对猩红热流行影响的分析
——以上海市松江区为例
2022-02-11高桂玲吕锡宏孙中兴
高桂玲,吕锡宏,孙中兴
上海市松江区疾病预防控制中心,上海 201620
新型冠状病毒肺炎(简称新冠肺炎)为新发急性呼吸道传染病,是全球性的重大公共卫生事件,新型冠状病毒传播速度快,致病力强[1]。为做好新冠肺炎疫情防控工作,上海市于2020年1月24日启动重大突发公共卫生事件一级响应。疫情防控期间,全社会动员共参与,广大居民养成了外出佩戴口罩,居家勤通风、勤洗手等良好个人卫生习惯。全民健康素养的提高不仅有效减少了新冠病毒在国内的传播和流行,也对猩红热等其他呼吸道传染病的发生与流行产生重大影响。有研究发现新冠肺炎疫情期间法定传染病的报告发病率显著下降[2-3]。本研究收集了2011—2020年上海市松江区猩红热月报告病例数据,使用2011—2019年猩红热月发病数据,构建季节性自回归移动平均(seasonal autoregressive integrated moving average,SARIMA)模型,采用最佳模型预测2020年松江区猩红热疫情发生情况,与新冠肺炎疫情期间猩红热的实际发病情况进行比较分析,了解新冠肺炎疫情对松江区猩红热的流行所产生的影响,为探索猩红热防控政策提供依据。
1 材料与方法
1.1 资料来源 在中国疾病预防控制信息系统的“传染病监测”模块中,收集发病日期为2011年1月1日—2020年12月31日,且现住址为上海市松江区的猩红热病例数据。以月报告病例数为基本单位构建猩红热SARIMA乘积季节预测模型。
1.2 方法
1.2.1 SARIMA模型 SARIMA模型主要用于拟合具有平稳性或可以被转换为平稳序列的时间序列[4]。SARIMA模型能综合考虑数据序列的趋势变化、周期变化及随机干扰,其公式为SARIMA(p,d,q)(P,D,Q)s,其中p、d、q分别表示时间序列的自回归阶数、差分阶数和移动平均阶数,P、D、Q分别表示季节自回归阶数、季节差分阶数、季节移动平均阶数,s表示季节步长(周期)。
1.2.2 构建SARIMA模型步骤 ①时间数据序列平稳性检验:采用单位根检验方法(augmented dickey fuller,ADF)对原始数据序列做平稳性检验,若检验结果P<0.05,则序列平稳,若序列不平稳,可采用对数转换、差分、季节性差分实现时间序列的平稳性。②参数选择:根据原始数据序列或差分后序列的自相关系数图(ACF)和偏相关系数图(PACF)初步识别模型参数。R语言程序包计算赤池信息量准则(Akaike information criterion,AIC)、贝叶斯信息准则(Bayesian information criterion,BIC),选择AIC、BIC值最小的模型作为最优模型,用平均绝对百分比误差(mean absolute percentage error,MAPE)评价预测精度,同时用最大似然法估计模型参数,并对参数进行统计学检验[4]。③模型检验与诊断:采用R语言程序包中Ljung-Box对模型拟合后的残差序列进行白噪声检验。检验结果P>0.05,残差为白噪声序列,表示信息提取充分,模型建立有效。④预测与评价:使用R语言拟合松江区2011年1月—2019年6月的猩红热月报告病例数,构建最佳SARIMA模型,预测2019年7—12月猩红热月病例数,并与实际月报告病例数比较,利用相对误差对预测效果进行评价。
1.2.3 影响评估 利用最佳SARIMA模型预测2020年1—12月猩红热发病数据,与2020年实际发生情况比较,评估新冠肺炎疫情对松江区猩红热流行的影响。
1.3 统计学分析 使用Excel 2010整理猩红热疫情数据和制图,利用R语言4.0.4软件中的stata、forecast、tseries等程序包进行SARIMA模型构建和统计学分析。检验水准α=0.05。
2 结果
2.1 猩红热流行概况 2011—2020年上海市松江区累计报告猩红热4 438例,年均报告444例,年均报告发病率23.27/10万。其中2015年报告病例最多,为674例,年报告发病率35.64/10万,分别是2020年报告病例数(94例)和年发病率(4.32/10万)的7.17倍和8.25倍。2011—2020年月平均报告猩红热37例,其中2017年5月报告病例最多(140例,占当年报告病例的22.73%),报告病例最少的是2020年3月、4月和8月,均为零报告。2011—2019年松江区猩红热流行呈明显季节性分布,每年有两个发病高峰,4—6月为春季高峰,11月—次年1月为冬季高峰,两个高峰累计报告病例数3 519例,占2011—2019年累计报告病例的79.29%。见图1。
2.2 构建SARIMA模型
2.2.1 数据平稳化处理 2011年1月—2019年6月松江区猩红热每年发病数基本持平,月报告病例数有明显的季节性和周期性,见图1。对原始数据进行ADF检验发现,原始时间序列数据不平稳,需要对数据进行平稳化处理。考虑将原始数据进行自然对数变换,同时结合原始序列趋势性和季节性,见图2。在对数转换的基础上进行一阶差分和一阶12步季节差分,对差分处理后的数据序列进行影响因素分解,显示松江区猩红热月报告病例数变化具有明确的趋势性和季节性,见图3。处理后的数据序列经ADF检验(t=-8.96,P=0.01),具有统计学意义,可以认为差分后的数据序列平稳。
图1 2011—2020年上海市松江区猩红热月份报告病例情况
图2 上海市松江区猩红热月报告病例对数时间序列图
图3 上海市松江区猩红热月报告病例数时间序列因素分解
2.2.2 模型识别与检验 通过对猩红热原始序列数据平稳化过程得出,s、d、D值分别为12、1、1,建立初步模型SARIMA(p,1,q)(P,1,Q)12。绘制平稳化后数据的自相关图和偏相关图,见图4。观察ACF图和PACF图,移动平均数参数q取值0、1、2,自回归参数p取值1或2,由此建立待选模型。利用AIC、BIC、MAPE原则,结合模型参数的假设检验结果,综合判定选出最优模型SARIMA(1,1,0)(2,1,1)12,参数见表1。模型残差的白噪声Ljung-Box检验统计量的P值为0.96(P>0.05),提示残差序列为白噪声,表明数据序列信息提示充分,模型建立有效。SARIMA(1,1,0)(2,1,1)12模型的残差自相关和偏自相关图,可见其值均在可信区间内,也提示该拟合模型的残差为白噪声,见图5。
图4 上海市松江区猩红热平稳化序列的自相关图和偏自相关图
图5 SARIMA(1,1,0)(2,1,1)12模型的残差自相关图和偏自相关图
表1 SARIMA(1,1,0)(2,1,1)12模型参数
2.2.3 模型拟合和预测 利用SARIMA(1,1,0)(2,1,1)12模型预测2019年7—12月松江区猩红热报告病例数。2019年猩红热实际发生值与预测值吻合度高,发病趋势基本一致,8月、9月逐渐降低,11月、12月达到高峰。7—12月模型预测整体相对误差为6%,其中8月预测偏差相对偏高,其他月份预测值均比较接近真实值,实际发生值均在95%可信区间,能够真实地反映2019年7—12月松江区猩红热趋势变化,见表2、图6。
图6 SARIMA(1,1,0)(2,1,1)12模型拟合与预测
表2 2019年7—12月上海市松江区猩红热月报告病例实际值与预测值比较
2.3 影响评估
2.3.1 2020年猩红热流行特征 2020年松江区累计报告病例94例,较2019年(515例)同期下降81.75%;年报告发病率4.56/10万,较2019年(25.80/10万)同期下降82.33%。月分布中2020年1月报告病例57例,占全年报告病例的60.64%;12月报告21例,占22.34%;3月、4月、8月均零报告。
2.3.2 疫情影响 依据最佳模型SARIMA(1,1,0)(2,1,1)12预测2020年1—12月猩红热发生情况,预测年报告病例591例。2020年猩红热病例实际发生情况较模型预期发病数下降84.09%,除1月猩红热实际发生值与最佳模型预测值接近,其他月份实际发生值远低于预测值,也不在预测值的95%可信区间。见表3、图6。
表3 2020年上海市松江区猩红热发生与预测情况比较
3 讨论
传染病的预测对传染病的早期识别、早期预警起重要作用,有利于相关部门及时实施有针对性的健康宣教和行政干预措施。目前用于传染病预测研究的数理模型有微分方程模型、时间序列模型和多因素模型等[5-6]。SARIMA模型因充分考虑时间序列的趋势变化、周期以及季节变化,通过反复识别修正,获取最佳模拟模型,操作相对简单,实用性强、精度高,已广泛应用于肺结核、猩红热、手足口病等传染病短期预测[6-11],并获得了良好的早期控制效果。模型构建要求时间序列长度在30个数据以上[4],本研究以2011年1月—2019年6月的猩红热月报告病例数据,累计102期数据拟合SARIMA模型,序列相对较长,可以拟合构建模型。因数据序列不平稳对原始数据进行平稳化处理,最后拟合出最佳模型SARIMA(1,1,0)(2,1,1)12,对模型残差检验,验证残差为白噪声序列,表示本次拟合模型成功。利用最佳模型预测2019年7—12月猩红热发生情况,预测值和实际值曲线走势基本一致,与预测值相比,实际发生病例数均在预测值的95%可信区间内波动,表明本次所构建的模型预测效果良好,所以可将该模型外推2020年1—12月猩红热发病数据。
2011—2019年上海市松江区猩红热年均发病率为23.27/10万,高于苏州、广州、济宁和南京等地近年来年均发病水平[12-15],也高于上海市猩红热平均发病水平[16]。这可能是因为松江区经济快速发展,人口导入速度快,学校等集体单位数量多,学生基数大,传染病传播概率高,容易造成人群间局部流行与暴发。松江区猩红热发病曲线呈现2个高峰,分别为4—6月和11月—次年1月,低谷为每年的2月、8月、9月。猩红热发病季节双峰特征与南京、苏州等附近城市的研究结果一致[10,13]。2月、8月发病较少可能因为猩红热易感人群为幼托儿童和小学生,而2月与8月正值寒暑假期,学校放假,学生聚集机会减少,猩红热的暴露风险低。
受新冠肺炎疫情影响,全国传染病发生情况较往年同期均有变化。浙江省新冠肺炎疫情应急响应期间,省内其他法定传染病同期下降50%左右[2]。本研究利用SARIMA模型对2020年猩红热发生情况进行预测,结果显示2020年松江区猩红热实际发生水平远低于模型预测值。分析2020年猩红热月报告病例数据发现,1月猩红热病例实际报告57例,接近预测值68例,与往年同期流行水平也接近。分析原因可能是1月份松江区学校、幼儿园等集体单位尚未进入寒假,学生、幼托儿童等易感人群仍在校就读,集体活动多,猩红热的暴露风险高,与往年猩红热流行水平基本持平。1月24日上海市启动重大突发公共卫生事件一级响应,在2—4月新冠肺炎防控期间,上海市取消聚集活动,居民外出减少,学校开学延迟,降低了猩红热等其他呼吸道传染病在学生和幼儿间的传播,极大地降低了猩红热的发病水平。秋季开学后,学校等集体单位继续落实日常消毒、勤通风等防控措施,9—11月猩红热持续呈低水平流行,11月、12月猩红热发病数逐渐增加,但仍远低于去年同期水平。
科学掌握传染病的发生规律,不仅有利于传染病的早期防控,更便于及时调整制定适宜的防疫措施。本研究通过分析新冠肺炎疫情对松江区猩红热发病的影响,为评估新冠肺炎疫情对猩红热发生与流行提供了科学依据,今后可继续采用构建数理模型的方法开展新冠肺炎疫情对其他传染病影响的相关研究。