基于ARIMA模型的广西新型冠状病毒肺炎疫情发展趋势预测
2022-01-24刘忠典黎燕宁
刘忠典,黎燕宁
(广西医科大学公共卫生学院统计学教研室,南宁 530021)
2019年12月,湖北省武汉市出现了新型冠状病毒肺炎(COVID-19)疫情,疫情蔓延至今。COVID-19已纳入乙类传染病,并采用甲类传染病的管理方法[1]。COVID-19 大流行是二战以后最为严重的全球危机,影响了地球上所有国家[2]。研究COVID-19疫情的发展趋势,并构建合理的预测模型,对科学有效防控COVID-19 的疫情具有重要意义。目前,国内外专家学者已对COVID-19建立相关的预测模型[3-6],如平滑指数模型、GM(1,1)模型、SEIR流行病动力学模型和改进的SEIR 与AI 相结合等。然而,流行病学模型需要确定参数,并依赖许多假设;人工智能算法需要大量数据,且具有高复杂性和不确定性[7]。为了克服这些局限性,本文尝试使用ARIMA模型,该模型具有结构简单、适用性强和数据解释能力强等优点[8],被广泛应用于传染病的短期预测[8-10]。现有的研究大多针对全球和湖北省疫情发展状况,而基层公共卫生建设和医疗救治能力薄弱的西部地区研究较少。一旦类似疫情暴发,将面临巨大挑战。故本文选择西部具有代表性的广西壮族自治区,分析其COVID-19 确诊病例时空分布特征,构建ARIMA模型预测广西疫情的发展趋势,深入了解其流行病学特征,为今后类似的新发传染病疫情暴发时,对其流行病学分布、发展趋势及预警防控提供科学依据和借鉴意义。
1 资料与方法
1.1 数据来源
数据来源广西壮族自治区卫生健康委员会官网(http://wsjkw.gxzf.gov.cn/)公布数据,以2020-1-22广西出现第一例COVID-19确诊病例开始,收集1、2月份广西COVID-19 确诊病例,以1-22 至2-11 确诊病例数据为样本,样本数的70%(即1-22 至2-4)为训练数据,30%(即2-5至2-11)为验证数据。地图数据来源于全国地理信息资源目录服务系统(https://www.webmap.cn/main.do?method=index)。
1.2 方法
1.2.1 时空特征分析 本文运用ArcGIS 10.5 软件绘制广西各市疫情地区分布图,根据《广西新冠肺炎疫情分区分级精准防控方案》将各市划分为高(累计确诊病例数超过50例)、中(有新增确诊病例,但累计确诊病例数未超50 例)、低(无确诊病例,或者连续14 d内无新增确诊病例)风险地区,R语言绘制1、2 月时间趋势图,从时间和空间属性分析广西COVID-19疫情的流行特征。
1.2.2 自回归求和移动平均模型(ARIMA)ARIMA模型是一种分析随机时间序列并进行预测的方法。构建步骤包括:平稳性检验,检验时间序列是否平稳,如不平稳,则可通过差分操作[11-12]将其转变为平稳时序,消除序列的趋势性,并确定参数d的值;参数估计,使用自相关性(ACF)图和偏自相关性(PACF)图确定参数q和p值;拟合和评估模型,使用ACF、PACF 图及博克斯—皮尔斯(Box-Pierce)检验来判断模型残差序列是否为白噪声,若结果中P>0.05,则为白噪声,即模型可以更好地拟合数据,运用构建的模型进行预测。以绝对平均百分误差(MAPE)为标准,值越小,模型精度越高[13]。用数学公式表示为:
再结合平均百分误差(MAPE)、均方标准误差(MASE)、赤池信息量准则(AIC)等拟合指标来选择最优模型。
1.2.3 统计学方法 运用ArcGIS 10.5 绘制广西各市疫情地区分布图,R语言(R-Studio 1.4.1103环境,R版本4.0.3)base包plot()和diff()函数分别绘制广西各市1、2 月的时间趋势图和进行差分操作,stats包acf()和pacf()函数分别进行自相关性和偏自相关性检验,以及arima()和Box.test()函数分别构建ARIMA 模型和进行Box-Pierce 检验,forecast 包forecast()函数进行了预测,以广西2020-1-22 至2020-2-11 新冠肺炎确诊病例数据为样本,以样本的70%(即1-22至2-4)为训练数据,30%(2-5至2-11)为验证数据。以P<0.05为差异有统计学意义。
2 结果
2.1 空间分布
广西1 月份疫情(图1)分为二个层次,南宁市、桂林市和北海市等处于中风险地区;钦州市、崇左市和贵港市等处于低风险地区。广西2 月份疫情(图2)分为三个层次,南宁市属于高风险地区;北海市、柳州市和桂林市等属于中风险地区;钦州市、梧州市和贺州市等属于低风险地区。
图1 2020年1月广西COVID-19地区分布图
图2 2020年2月广西COVID-19地区分布图
2.2 时间趋势 自2020-1-22 第一例COVID-19 确诊后,各市都一直处于增长趋势,其中北海市、桂林市和南宁市增长较快;其它地级市增长相对较为平缓,见图3。2020-2 月前半月确诊病例增长较为明显,特别是南宁市和北海市;后半月增长明显减弱;从图中可判断2-17为广西COVID-19确诊人数增长拐点,见图4。
图3 2020年1月广西COVID-19增长趋势图
图4 2020年2月广西COVID-19增长趋势图
2.3 ARIMA模型预测分析
2.3.1 平稳性检验 图5 显示了1-22 至2-4 新冠肺炎确诊病例的时序图,可看出数据具有上升趋势,表明其不稳定。对其进行一阶差分操作,如图6 所示,可以看出数据序列基本趋于平稳,符合ARIMA建模要求。
图5 COVID-19确诊人数趋势图
图6 COVID-19确诊人数一阶差分后的趋势图
2.3.2 参数估计 数据一阶差分后,序列基本趋于平稳,确定模型中参数d=1。对一阶差分后的序列进行ACF、PACF分析(图7、图8),ACF图显示第一个时滞后,逐渐趋向于0,即第一时滞截断,q=0或1;PACF图显示相关值未超过有效边界(0.5),p=0。根据AIC 最小信息准则及相关模型拟合指数(表1),选择模型为ARIMA(0,1,0)。
表1 不同ARIMA模型的评价指标
图7 COVID-19确诊人数一阶差分后自相关性图
图8 COVID-19确诊人数一阶差分后偏自相关性图
2.3.3 模型拟合和评估 模型残差进行自相关性、偏自相关性分析(图9、图10),ACF图显示滞自相关值基本没有超过边界值(0.5),PACF 图显示相关值未超过有效边界(0.5);进行Box-Pierce 检验,P>0.05,见表2。结果显示,模型残差序列为白噪声,其模型拟合指数值也较小,故ARIMA(0,1,0)模型拟合效果良好,可用于进一步预测。
图9 残差自相关性图
图10 残差偏自相关性图
表2 ARIMA模型的预测指标
2.3.4 模型预测 利用ARIMA(0,1,0)模型,进行步长为7 的预测,即预测2-5 至2-11 的累计COVID-19确诊人数,见表3和图11;可以看出预测值和真实值基本吻合,相对误差相对较小,真实值位于预测区间内。
表3 广西新冠肺炎确诊人数预测对比表
图11 广西预测人数和置信区间
3 讨论
自湖北省武汉市暴发COVID-19 疫情以来,疫情蔓延至中国每一个省份,广西作为中国西南部的一个自治区,自2020-1-22 出现首例确诊病例,疫情影响到全区各市。分析其COVID-19疫情的流行特征,结果表明:(1)全区中疫情最为严重的地级市有南宁市、桂林市和北海市。南宁市是首府城市,桂林市和北海市是旅游城市,交通便利,流动人口较多,疫情较为严重。这和其他省份的研究结果相似[14-15];(2)广西COVID-19疫情严重程度呈现“低—高—低”的曲线变化,初期感染程度较轻,可能是与武汉市较远有关,疫情爆发的初始阶段为一月底和二月初,可能与春节期间人口流动大有关[14],从二月中旬开始,广西区内COVID-19疫情得到有效控制,确诊病例增速大大放缓,表明政府等有关部门防控新冠疫情的相应措施可能发挥了有效作用。
本文构建了ARIMA模型,预测COVID-19确诊病例的动态变化趋势,以MAPE 为评价标准,再结合MPE、MASE、AIC 等拟合指标,选择最优模型为ARIMA(0,1,0),MAPE为5.46。本次研究结果与其他研究结果类似,认为使用ARIMA 模型适宜预测COVID-19 在不同国家的趋势[10,16]。在伊朗,Moftakhar等[17]研究表明ARIMA模型比人工神经网络更准确。Ceylan 等[16]构建ARIMA 模型预测意大利、西班牙和法国COVID-19 流行病学趋势,MPAE分别为4.752、5.849 和5.634。因此ARIMA(0,1,0)模型被认为是合理的高精度预测模型,可应用于COVID-19 的预测。这将有助于有效配置医疗资源,对COVID-19的科学防治具有指导意义。
本研究也存在着不足之处:由于COVID-19 存在潜伏期,前期COVID-19检测技术不完善,有部分疑似COVID-19 感染者未能及时诊断为确诊病例,各地区报告确诊病例时间不一,可能存在迟报和误报的情况,导致每日公布的确诊病例数与真实值不符;以及一些防控措施的实施,从而影响到ARIMA模型的预测效果。