预测COVID-19变化趋势的改进模型SEIR-RD
2023-09-20阿布都克力木阿布力孜李文卓郭文强
阿布都克力木·阿布力孜,林 璞,李文卓,郭文强
(新疆财经大学信息管理学院,新疆 乌鲁木齐830012;)
1 引言
2019年12月,武汉市爆发新型冠状病毒肺炎(COVID-19)[1]。世界卫生组织在2020年3月宣布COVID-19为全球性流行病(1)https:∥www.who.int/。目前为止COVID-19全球范围内已对社会和经济结构造成严重的影响。我国政府为遏制疫情发展,实施前所未有的干预策略。全国各大城市作出限制出行和公共集会的严格措施,并实施严格的体温检测。
如何通过疫情预测分析进而采取有效的干预策略降低疫情对社会、经济、生命安全带来的重大危害是目前人类面临的重要课题之一[2]。遏制这种损害的关键是迅速反应和有效决策,而且,即使疫苗接种数量不断增加,随着未来大流行的可能性迫在眉睫,发展这种预测能力也显得尤为重要。因此,深入开展COVID-19发展趋势研究具有重要意义。
对于疫情预测分析的方法主要分为两类:一类是以易感-暴露-感染-移除(Susceptible-Exposed-Infectious-Recovered,SEIR)[3]为代表的方法,而另一类是基于深度学习的方法。Tang B等[4]根据疾病的临床进展、个体的流行病学状况和干预措施,考虑隔离和治疗等因素,设计出SEIR-Type流行病学模型。通过对病毒再生基数的计算从而确定爆发的可能性和严重性,并为确定疾病干预的类型和强度提供关键信息。Yang Z等[5]使用改进的易感-暴露-感染-移除(SEIR)流行病学模型,该模型结合1月23日前后的国内人口迁移数据以及最新的新冠肺炎流行病学数据来预测疫情的发展。此外还基于2003年非典冠状病毒爆发数据的机器学习方法来验证模型预测结果的准确性。结果表明改进的SEIR模型在预测COVID-19峰值和规模效果明显,新增确诊病例数量与LSTM预测曲线显著吻合。Arunkumar K E等[6]利用RNN-LSTM和RNN-GRU模型对美国等10个国家的COVID-19大流行进行60天的预测。实验结果表明,在不同的研究任务上,两种模型分别表现出良好的性能。Zisad S N等[7]提出SEIR和循环神经网络(Recurrent Neural Network,RNN)的联合模型来预测孟加拉国确诊病例。RNN模型预测某一天内被隔离的人数。SEIR和RNN联合模型能够以90%到99%的准确率预测确诊病例。Wu等[8]采用Transformers模型从时间序列数据中学习复杂的模式和动态,但是没有达到预期效果。
基于上述相关研究可以看出,以SEIR模型为代表的方法优点在于描绘流行病传播过程中的变化趋势,但无法将外界带来的干扰纳入到模型当中,因此无法对流行病学参数做出较为准确的调整;而基于深度学习为代表的方法能够通过时间序列提取特征,缺点是需要大量的训练数据。
文章利用国家卫健委的公开数据,首先基于传统的SEIR模型对COVID-19传播规律及特点进行研究[2];其次,由于传统的传染病模型SEIR能够很好地拟合与预测病毒在没有外界干预情况下的发展趋势,但是在疫情实际传播过程中,必须考虑各种因素干扰造成的数据波动,因此本文提出SEIR-RD(Susceptible-Exposed-Infectious-Removed-Risk-D-ynamic)模型,该模型在SEIR基础上增加基于时间的阈值函数使其能对疫情发展过程中的参数特性变化进行学习,该变化能够提高模型整体的准确性和可靠性。并将该模型与SEIR-RS(Susceptible-Exposed-Infectious-Removed-Risk-Static), Bi-LSTM(Bi-directional Long Short-Term Memory)和SEIR-RS+Bi-LSTM联合模型等预测模型进行对比研究,实验结果表明,SEIR-RD模型在疫情预测任务上取得更为准确的预测结果。最后,利用印度自2021年4月份以来出现的第二轮疫情数据探究模型的可行性,模型表现出了较好的性能与可适用性。
2 模型构建
2.1 SEIR模型
传染病模型旨在了解一种病毒如何在人群中传播。它将人群划分为不同隔间,并定义人们如何在隔间中变化[10]。在大多数情况下,这些模型可以通过常微分方程来描述,并依赖于对隔间之间相互作用的各种流行病学参数计算,如接触和恢复率。
传统的SEIR模型计算公式如下:
(1)
其中β表示易感者被感染者感染的概率,σ表示潜伏者转化为感染者的概率(潜伏期的倒数),γ表示康复概率。
模型介绍见表1。
表1 传统SEIR模型符号的定义
表2 SEIR-RD和SEIR-RS模型参数的描述
2.2 Bi-LSTM模型
LSTM模型,是一种用于处理和预测各种时间序列问题的循环神经网络,广泛应用于处理时间序列相关的任务,如自然语言处理、机器翻译、对话形成、时序预测等。最近一些研究将LSTM运用到COVID-19的预测任务中,而在实验中则采用Bi-LSTM,它在LSTM的基础上,结合输入序列在前向和后向两个方向上的数据特征,并使用相加、平均值等方式进行处理,预测结果更加准确,模型性能更优[11]。
2.3 SEIR-RD和SEIR-RS模型
传统的SEIR模型只是为研究不同类型的流行病提供一个基本的研究方法,而不能针对实际情况进行具体研究[12]。同时该模型也存在很多明显的不足,如:它基于简单的微分方程定义,没有较好的机制处理复杂数据;外界各种人为或非人为等干扰因素无法纳入模型之中;由于新冠疫情通过人群传播,所以相邻区域或人口流动性大的区域之间会存在某种偶联关系,而该模型作为时域模型,无法将地区之间的关联关系考虑进来。因此文章在传统的SEIR模型的基础上提出新的预测模型:SEIR-RD动态传染病风险预测模型和SEIR-RS静态传染病风险预测模型。
如图1所示,表示为两种不同方式。SEIR-RD模型针对疫情发展不同阶段,考虑到国家应急响应措施的出台,医疗手段完善等因素,结合时间阈值函数对流行病学参数进行动态计算(包括治愈率,死亡率,病毒再生因数等),能够处理更为复杂多变的疫情数据,使模型能够灵活捕捉到疫情在发展过程中的参数变化,并及时对模型自身作出校准;而SEIR-RS模型的参数估计采用退火算法[17]在参数设置的区间内进行多轮迭代取得参数在全局范围内的最优解。
图1 SEIR-RS和SEIR_RD模型
同时作出以下假设用以简化研究,但同时又保留实验的一般性原则[12]:
1)病毒传播发生在封闭的环境中,与自然出生率和自然死亡率无关。
2)确诊、治愈、死亡病例数据基本准确。
3)潜伏期患者无症状但具有传染性,且无超级传播者。
SEIR-RD模型计算方法如下所示
(2)
SEIR-RS模型计算方法如下所示
(3)
3 实验
3.1 数据来源
实验所采用的疫情数据来源于中国卫生健康委员会官方网站(https:∥wjw.hubei.gov.cn/)所公布的武汉市疫情数据。2020 年 1 月 23 日,面对疫情防控压力,湖北省武汉市宣布“封城”,人员间的接触率相对稳定,故取 2020 年 1 月 23 日至 2 月 24 日的疫情数据进行研究[11]。
3.2 模型构建与参数设置
3.2.1 SEIR-RS与SEIR-RD
根据文献[15]中采用指数增长的方法对COVID-19再生因数进行预测。实验中设置湖北省在全面封城之后的病毒再生因数R0为2.53,若不采取封城措施则病毒再生因数R0将达到3.09。根据文献[5]COVID-19潜伏期多为1-14天之间,因此实验中σ∈(0.07,1),将死亡率设置为γ∈(0.04,0.07)患者恢复时间设置为λ∈(0.067,0.292)[14]。SEIR-RS实验中,将对σ,γ,λ在区间内进行模拟退火[17]。SEIR-RD实验中由于γ和λ会随着疫情发展时间和防控力度而进行变化,因此该实验中γ和λ为动态参数,其变化规律在疫情发展的前7天、7-30天和30天及以后满足不同分段函数,将根据该时间节点对参数进行相应调整。
3.2.2 Bi-LSTM
Bi-LSTM模型对输入数据进行标准化处理。模型包含2个隐藏层每个隐藏层包含16个隐藏单元,对于深度学习而言,训练数据量少且波动较大,所以实验中滑动窗口数设置为3,学习率设置为0.005,既利用前三天的数据作为基础预测第四天的数据。实验中使用随机梯度下降(SGD)和Adam优化器对参数进行优化。
3.2.3 SEIR-RS+Bi-LSTM联合模型
SEIR-RS+Bi-LSTM联合模型将在SEIR-RS模型的基础上利用Bi-LSTM对测试结果进行微调,旨在改善静态模型中无法根据时间对参数进行调整的缺陷。该联合模型又将结合两种统计学方法,其一对SEIR-RS与Bi-LSTM进行线性回归,将SEIR-RS和Bi-LSTM的预测结果作为输入特征,预测真实确诊人数。其二对SEIR-RS和Bi-LSTM预测结果进行加权平均,将两个模型预测结果进行加权平均求解,将结果作为新模型的预测数据。
3.3 R0与SEIR-RD模型
参照武汉市流行病传播进程得到R0随时间变化的曲线,如图2所示。
图2 病毒再生因数曲线
在2020-01-29日,R0达到最大值2.51,即从2020-01-23日起武汉实施“封城”和推行居家自我隔离措施的一个传染周期之内,R0达到峰值,随后在2020-01-30日至2020-02-03日之间出现波动,最终从2020-02-04日开始R0呈逐渐递减的趋势。
3.4 实验结果
SEIR-RS模型的预测结果如图3所示,由于流行病学参数在进行梯度下降时只取得全局范围内的最优解,模型未能随疫情发展进行进行校正,与真实数据相比,SEIR-RS模型在疫情后半段趋势中现存确诊人数的预测值偏高,因此导致对疫情规模预测误差较大。
图3 SEIR-RS预测结果
Bi-LSTM模型的预测结果如图4所示,可见Bi-LSTM相对于真实数据结果偏高,一方面由于深度学习所学数据量大而实际数据量较小,另一方面由于政府对疫情的管控干预措施导致的数据波动。因此在使用Bi-LSTM预测时出现误差。
图4 Bi-LSTM预测结果
SEIR-RS+Bi-LSTM联合模型在测试集上的加权平均预测结果和线性回归预测结果如图5所示。加权平均的趋势接近真实的确诊人数。该曲线更符合真实的趋势及走向。而从线性回归的预测趋势可以看出进行二者结合后的模型相较于单独的SEIR-RS和Bi-LSTM有着更接近真实值的预测结果,但是相较于真实值仍然偏高。
图5 联合模型加权平均和线性回归预测结果
SEIR-RD模型在测试集上的预测结果如图6,可以看出该模型的预测结果更符合真实数据,在测试集上拟合结果与真实数据一致,取得更好的预测结果。
图6 SEIR-RD预测结果
SEIR-RD和SEIR-RS模型的对比预测结果如图7,在训练集上SEIR-RD比SEIR-RS更接近真实的确诊人数,在测试集上SEIR-RS模型与真实值相比出现明显的偏离;而SEIR-RD模型则在测试集上也表现出更拟合真实确诊人数变化趋势,因此在疫情规模的预测任务上,SEIR-RD模型的结果更为准确。
图7 SEIR-RS与SEIR-RD预测模型对比
3.5 模型综合评估分析
如图8为上述实验模型预测结果的对比。可见在现存确诊病例的预测上,由于强干预措施的出现,疫情发展受到控制,SEIR-RS模型在预测任务上由于参数受限,不能做出及时的调整,导致在测试集的预测结果与真实值相比出现较高偏差;Bi-LSTM模型在单独使用时由于数据量较小和数据的复杂性,并不能完全发挥其时序预测的性能,因此将SEIR-RS与Bi-LSTM模型进行结合,目的是通过Bi-LSTM的时序预测能力解决SEIR-RS模型中流行病学参数无法根据时间阈值及时调整的问题,并将最终结果进行线性回归和加权平均。结果表明在短期预测任务中,线性回归取得更好的效果;SEIR-RD模型由于根据疫情发展变化对相应参数进行实时调整,在测试数据集上达到最优效果,超越SEIR-RS与SEIR-RS+Bi-LSTM联合模型。SEIR-RD模型在预测确诊人数方面表现出较高的可信度,因而在疫情规模的预测上,SEIR-RD模型表现出更符合疫情发展规律的趋势。另外,通过图8文中预测模型的对比可以看到此次疫情发展大约在第 76 天,即二月中下旬出现拐点,即对疫情控制效果开始显现,这与疫情在武汉的实际发展情况基本吻合,因此SEIR-RD模型对疫情防控具有一定的应用价值和社会价值。
3.6 SEIR-RD模型可行性研究
文章利用霍普金斯大学(Johns Hopkins University,简称:Hopkins或JHU)统计的疫情数据2,对印度自2021年4月份以来第二阶段疫情的发展做出预测分析。由于4月初期印度疫情开始呈现急剧性增长的态势,故文章采取4月5日以来的新冠肺炎统计数据用作处理[16]。
SEIR-RD模型预测结果如图9所示,结果表明此轮疫情将在35天左右时间达到峰值,即5月10日左右与5月中旬达到峰值基本吻合。到达峰值时的单日新增病例预测将达到50万以上。
图9 印度疫情预测结果
其实,印度疫情的疫情情况远非如此。这反应了印度对新冠肺炎的检测能力正在下降,长时间受疫情影响,各种物资的短缺,没办法保证更多地民众接受检测[17]。因此印度真实情况比官方统计数据更为严重。而造成此轮疫情反弹的原因可以概括为以下三点[18]:
1)印度在疫情得到稳定后立即无秩序地放开公共活动空间,且在社交活动中缺少必要的防护措施;
2)病毒变异是造成反弹的可能原因;
3)印度疫苗的接种率较低。由于印度人口基数大,接种率仅为10%,离群体免疫所需的70%还有相当的距离,印度目前的接种率也不足以防控疫情的整体传播[19]。
3.7 讨论
实验部分,文章利用SEIR-RD模型与SEIR-RS模型,Bi-LSTM模型,SEIR-RS+Bi-LSTM联合模型针对武汉市疫情数据集进行对比研究。最终实验结果表明,SEIR-RD模型在确诊病例的预测任务上取得最好的效果,因而在疫情规模的预测上,SEIR-RD模型变现出趋更符合疫情发展规律的趋势,将提供更有价值的参考;而采用Bi-LSTM神经网络模型或是SEIR-RS+Bi-LSTM联合模型对疫情发展进行预测,但由于受到数据量过小和参数敏感及不准确等原因的影响,这些模型未能取得理想的预测效果。最后利用SEIR-RD模型针对印度第二阶段疫情发展进行模型的可行性研究,SEIR-RD模型能够很好地预测出印度第二阶段疫情到达峰值的时间,以及此轮疫情感染人数的规模。实验结果验证该模型可以较好地适用于当下疫情预测任务,并能够取得良好的预测分析效果[20]。
4 总结
研究基于国家卫生健康委员会疫情通报数据计算模型参数,利用SEIR-RD动态传染病风险预测模型、Bi-LSTM神经网络模型、SEIR-RS+Bi-LSTM联合模型对武汉市COVID-19的趋势进行研究分析,并进一步依据其传播规律证明了现有防控措施的有效性。
1)为进一步探究SEIR-RD动态传染病风险预测模型在疫情预测任务当中的泛化能力,又将SEIR-RD模型运用在印度新冠肺炎第二阶段的预测任务中,实验结果验证该模型具有较强的适应性,能够适用于现实中的一般场合。
2)数学模型是建立在多种假设情况下,因此会不可避免地会与现实情况存在一定差异,导致分析结果出现偏差。此外,由于预测本身是一个动态任务,其预测结果对模型各个模块参数选择非常敏感,对训练数据的添加和修改都可能影响最终预测结果。因此采用更加科学的方法对流行病学参数进行精准的计算,这对预测COVID-19发展变化趋势起着至关重要的作用。
3)在未来的工作中,考虑接触率、预防措施、防疫力度、城市内人口密度、流动人口迁移率等因素;以及疫情预测模型在不同国家和地区的泛化能力以及实时性,并将其扩展当前的SEIR-RD模型,并进一步研究COVID-19和更多流行病毒的动态传播规律仍是本文今后研究的主要方向。