新型冠状病毒肺炎(COVID-19)疫情预测
——基于残差自回归模型
2021-06-03玉林师范学院数学与统计学院钟德炎陈丽华吴荣火
◇玉林师范学院数学与统计学院 钟德炎 陈丽华 吴荣火
目的:基于我国公开数据中有关新型冠状病毒肺炎(COVID-19)的死亡病例时机数据,预测以后的死亡病例。方法:结合时间序列理论,建立尚有确诊的时间序列的残差自回归模型。结果:残差自回归模型预测效果较好,有一定的参考价值。
1 前言
2019年12月以来[1],湖北省武汉市因不明原因出现了多例新型冠状病毒肺炎的患者。与此同时,全世界多个国家也受到了新型冠状病毒肺炎的影响,全球受新冠肺炎疫情影响的国家和地区数量已达101个[2]。这是一种急性感染性肺炎,具有人传染人的能力,感染初期病人有发热、乏力、干咳的征状,严重者可出现呼吸困难、呼吸窘迫综合征或浓毒症休克,可增加进入重症监护室(ICU)的概率和病死率[3]。疫情期间,引起了很多人的恐慌,担心疫情得不到控制,担心死亡的病例越来越多。因此,对因新冠状病毒肺炎而死亡的病例进行研究具有重要意义,本文将通过我国每日的数据进行时间序列分析。
2 残差自回归模型简介
残差自回归模型常用于有确定性趋势的时间序列数据,基本思想是先利用确定性因素分解法提取时间序列中的主要确定性信息,如果信息提取充分,则残差序列的自相关性不显著,可以利用确定性回归模型进行拟合;但如果残差序列的自相关性显著,则需要进一步对残差序列拟合自回归模型提取随机因素信息[4]。
残差自回归是一种分析非平稳时间序列的研究方法[5]。残差自回归模型表达式有两种情况:以时间为自变量的情况下,表达式为:
以历史观察值为自变量的情况下,表达式为:
3 实证研究
3.1 数据来源
本研究数据来源于中国人民共和国国家卫生健康委员会官网(http://www.nhc.gov.cn/),选取2020年1月20日到2020年3月10日新型冠状病毒肺炎(COVID-19)相关数据。
3.2 模型建立
模型的建立基于R软件。首先判断原序列的平稳性,根据死亡病例据绘制时序图(见图1)。
图1 2020年1月20日到2020年3月10日死亡病例时序图
通过时序图,可以看出死亡病例在2020年1月20日到3月10日有明显的趋势,初步判断该时间序列为非平稳的时间序列。且根据ADF检验结果显示:Dickey-Fuller=-2.7077,p-value=0.2899>0.05,即存在单位根,明确时间序列为非平稳的时间序列。死亡人数的时间序列具有明显的确定性趋势,且没有季节效应,所以选择以残差自回归模型对数据进行拟合。首先分别对以时间t为自变量和以历史观察值为自变量的两个确定性趋势模型进行构建,通过R软件进行分析,得出两个确定性趋势模型的结果。
模型一:t为自变量的确定性趋势模型
模型二:历史观察值为自变量的模型
首先通过残差序列的自相关图和偏自相关图来确定自回归模型的阶数。
由图2可知,自相关系数拖尾,偏自相关系数1阶截尾。因此,对模型一的残差序列拟合AR(1)模型。由图3可知,自相关系数拖尾,偏自相关系数2阶截尾,即对模型二的残差序列拟合AR(2)模型。由拟合结果得:
图2 模型一残差自相关和偏自相关图
图3 模型二残差自相关和偏自相关图
拟合模型一的残差序列自回归模型为:
拟合模型二的残差序列自回归模型为:
综合上面的分析,对2020年1月20日到2020年3月10日因新型冠状病毒肺炎确死亡病例的时间序数据,我们可以通过以下残差自回归模型进行拟合。
4 预测
建立模型的重要意义就是通过模型来进行预测,所以在这里通过自回归残差模型对2020年3月11日到2020年3月15日因新型冠状病毒肺炎的死亡病例进行预测,并将预测结果和实际结果进行比较。模型预测效果的指标体系很多,一般使用平均相对误差这一相对指标,其定义条件一般认为MAPE值小于10%,则是预测精度较高的预测结果。预测结果见表1。计算方法为:
由表1可知,用残差自相关模型预测2020年3月11日到2020年3月15日的死亡病例的相对误差可知在8.06%以内,且平均相对误差是4.812%<10%,即该模型的预测效果较好。
表1 2020年3月11日-3月15日的死亡人数比较表