APP下载

COVID-19疫情预测模型的研究进展

2022-03-24邓远嘉董明华杨白彬

赣南医学院学报 2022年1期
关键词:传染病病例预测

邓远嘉,董明华,杨白彬

(1. 赣南医学院2019级硕士研究生;2. 赣南医学院预防医学系流行病学教研室;3. 赣南医学院2018级本科预防医学专业,江西 赣州 341000)

2020 年1 月,新型冠状病毒肺炎(Corona virus disease 2019,COVID-19)疫情在武汉暴发,1月30日,世界卫生组织将COVID-19 疫情列为“国际关注的突发公共卫生事件”,3 月11 日晚间,世界卫生组织宣布,COVID-19疫情已经构成全球性大流行(Pandemic)。据约翰霍普金斯大学网站数据统计,截至2021 年8月16 日19 时,国内累计确诊病例106 529 例,死亡病例4 848例,美国累计确诊病例36 680 287例,死亡病例621 636 例,全球累计确诊病例207 278 035 例,死亡病例4 364 473 例[1]。COVID-19 疫情传播速度极快、感染范围极广、防控难度极大,是第二次世界大战结束以来最严重的全球危机和全球公共卫生突发事件。

在公共卫生领域,通过建立数学模型研究传染病的发展趋势是较为重要的研究方法。疫情初期,传染病模型可以预测疫情的发生、发展和传播规律,预测疫情拐点和顶峰;疫情中期,可以评价防疫控制措施的效果;疫情后期,可以开展预警、监控疫情发展[2]。本文主要阐述5 种不同类型的疫情预测模型,并归纳总结近期COVID-19 疫情预测模型的研究进展。

1 COVID-19基本概况

COVID-19 是由严重急性呼吸综合征冠状病毒2型(SARS-CoV-2)感染引起的急性呼吸道疾病,属于乙类传染病,按甲类传染病管理。SARS-CoV-2 可通过包括飞沫、气凝胶、皮肤接触或直接接触带病毒的分泌物进行传播[3],几乎人人易感[4]。研究发现基本再生数为1.4~6.49[5],潜伏期平均为5.5天[6],病死率约为5%[7],截止至2021 年8 月16 日全球累积治愈率74.6%[1],免疫时间约5个月[8]。

但目前文献研究的COVID-19 相关指标仅供参考,SARS-CoV-2为RNA 病毒,随着疫情的发展,病毒仍在变异中,疫情的传染病相关指标在后续疫情中是否适用仍然未知,因此后期仍要重视基本再生数、潜伏期等传染病基本参数的研究。

2 疫情预测模型概述

疫情预测模型也称传染病预测模型,是通过数学模型的方法来模拟疾病的流行过程,用以探讨疾病流行的动力学,从而为疾病预防和控制、卫生策略地制定提供服务,属于理论流行病学研究范畴[9]。其基本原理是流行病学结合数学、统计学、运筹学、系统科学以及计算机科学等学科理论,根据疾病特点、研究需求和疫情数据类型选用常微分方程、离散概率分布、决策树、复杂网络以及元启发算法等合适工具建立模型,用以分析研究时滞效应、空间异质性、人口流动等因素对疫情的影响,进而达到有效准确预测疫情发展趋势、评价防疫干预效果、评估地区风险等目的。目前常见的有时间序列模型、传染病动力学模型、复杂网络模型、机器学习模型以及多学科交叉的混合模型等五类模型。

2.1 时间序列模型 COVID-19疫情的确诊病例、康复病例以及死亡病例等历史数据均属时间序列,适用于时间序列模型,此模型可以研究疫情数据和时间的关系,常用的有自回归模型(Autoregressive model,AR)、移动平均模型(Moving average model,MA)、自回归移动平均模型(Autoregressive moving av‐erage model,ARMA)。

本次COVID-19 疫情数据的时间序列存在上升和下降趋势,且属于齐次非平稳时间序列,因此适用差分整合移动平均自回归模型(Autoregressive inte‐grated moving average mode,ARIMA),也有研究者为考虑疫情变化趋势的影响,对疫情数据进行加权线性变换采用特殊加权移动平均模型即指数平滑模型开展研究[10],而实际研究中大部分采用ARIMA 模型预测COVID-19 疫情[11],只是不同的研究在自回归阶数p、差分次数d、移动平均阶数q 等参数设定上略有差异。

但由于时间序列模型本身的限制,模型依赖于内生变量即数据本身,未考虑与因变量相关的其他变量,传统的时间序列分析方法不能捕捉非线性关系,只适合进行中短期预测,难以评价干预措施效果,因此适用范围较小。

2.2 传染病动力学模型 传染病动力学模型是COVID-19 疫情预测应用较多的一类模型,能够考虑传播速度、传播模式及各种防控措施等因素对疫情的影响,一般而言会将受新型冠状病毒肺炎疫情影响的总人群分为易感人群(Susceptible,S)、暴露人群(Ex‐posed,E)、感染人群(Infectious,I)和康复人群(Recov‐ered,R)4 类,此外病死人群(Deceased,D)在模型中会被归入康复人群一同移出总人群。基于COVID-19有潜伏期、可治愈的特点,SEIR 模型较为符合疫情实际也较为常用,如有研究者引入死亡病例等人群因素[12]、交通路线等空间因素[13]、时间滞后效应等时间因素[14]开展研究和讨论。但也有研究者采用SIR、SISR、SEIRD 等模型,甚至更为复杂的SEIQHRS、SEIHCRD模型。

由于传染病动力学模型考虑的参数难以全面估计,且参数可能在疫情不同阶段发生动态变化,因此预测效果往往不佳,但对早期预警、防控决策支持及防控效果评价具有重要的应用价值[15]。不同国家和地区对隔离和检疫人群的划分标准不尽相同,人为划分人群类型的单一传染病动力学模型与真实情况存在差异,模型的适用性有限,难以保证预测效果。同时考虑复阳患者的存在、新冠病毒变异、免疫力有限以及二次感染等情况,康复人群有可能转变为易感人群,因此SEIRS 模型可能比SEIR 模型更加贴近真实情况,但目前SEIRS 模型的研究较少,SEIRS 模型的深入研究值得重视,如多种群SEIRS模型的全局稳定性等问题[16]。

2.3 复杂网络模型 复杂网络根据其拓扑结构可以分为完全随机网络、完全规则网络、小世界网络和无标度网络4 类[2],而新型冠状病毒肺炎疫情全球大流行的背景是社会和经济高速发展的21 世纪,拥有发达的互联网和交通网络的现实环境,具有复杂网络的小世界效应、无标度特性等特点。通过复杂网络模型,可以更加深入地研究隔离、人员流动等空间因素对COVID-19 疫情的影响。裴韬等研究表明,COVID-19疫情中复杂人流网络的时空传播呈现典型的网络特征[17],而HURD T R 也将现实社会视为一个非齐次随机社会网络进而研究极端异质性人群的新型冠状病毒肺炎疫情传播情况[18]。

2.3.1 无标度网络模型 BLASIUS B发现COVID-19疫情确诊病例在全球呈现幂律分布,即少数国家流行率较高,而许多国家的流行率较低,国家之间的流行率过度呈现无标度网络的特点[19],而基因组学的研究也显示疫情传播网络是无标度的,少数基因组变异导致了大多数可能的传播[20]。在无标度网络的背景框架下,SONG W Y 等评价了大规模迁徙对COVID-19 疫情影响[21]。此外,无标度网络模型还可以用于描述超级传播者事件,但目前COVID-19 疫情研究中此类研究较少,值得关注。

2.3.2 小世界网络模型 受疫情影响下的城市和社区适用小世界网络模型描述其相对封闭、内部人员联系紧密的空间特点,BRETHOUWER J T 在小世界网络的空间背景下建立了SEIR 模型,研究发现减少远距离传输对于遏制COVID-19 疫情扩散非常有效[22]。

复杂网络模型适用于描述疫情的空间背景,但其本身并不能预测疫情的发展趋势,需要结合时间序列模型和传染病动力学模型等方法开展预测,但复杂网络模型更加贴近真实世界的空间特点,具有较好的预测潜力。

2.4 机器学习模型 机器学习具有自主学习、适用范围广、泛化能力强等特点,适用于COVID-19 疫情复杂多变、数据样本量大、高维度的数据,因此人工神经网络[23]、支持向量机(Support vector machine,SVM)[23]、随机化过程[24]和贝叶斯学习[25]等机器学习相关理论和技术越来越多地被运用到COVID-19 疫情预测研究中。

2.4.1 人工神经网络模型 人工神经网络具有较强的自主学习和自适应能力,黄丽红等认为人工神经网络模型可以综合考虑不同防控措施以及多种因素的影响,如果考虑得当,预测效果将会有所提高[15]。HAO Y 对比Elman 神经网络、SVM 和长短期记忆人工神经网络(Long short-term memory,LSTM)的预测效果,发现Elman 神经网络和SVM 都可以预测新增的确诊病例、死亡病例和康复病例,而LSTM更适合预测累计确诊病例[23],三种模型在适用范围上略有差异。但人工神经网络模型类似黑箱,缺少透明度,推理功能有所欠缺,面对复杂多变的疫情形势其预测效果有限,因此也有研究者采用自适应神经模糊推理系统(Adaptive network-based fuzzy infer‐ence system,ANFIS)预测COVID-19 疫情[12],以弥补人工神经网络在推理功能、知识和经验上的不足。

2.4.2 随机化过程 疫情受多方面随机因素影响,一般用马尔可夫模型可以较好刻画这些随机因素的作用。有研究者运用马尔可夫模型模拟个人在S、E、I、R不同状态的随机转换,进而探究COVID-19疫情对无家可归者的影响[24]。

2.4.3 贝叶斯学习 贝叶斯预测模型可以充分利用经验和判断等先验信息,将主观因素和客观因素结合起来预测,相对灵活,如JHA P K 采用贝叶斯学习方法对混合理论连续模型进行校准、验证和预测[25]。与普通回归预测模型相比较,贝叶斯预测模型在先验经验上具有一定的优越性。

2.5 多学科交叉模型 COVID-19 疫情的空间和时间跨度大,疫情传播过程复杂涉及数学、医学、统计学、动力学、地理科学、运筹学、公共管理学等诸多领域,疫情预测模型的研究也呈现多学科交叉特点。多学科交叉的预测模型在疫情的空间传播速度、不同场景的疫情预测、复工复产评估、疫情风险地区预测以及确诊人数估计等方面发挥较大优势,为不同环节和场景疫情干预措施制定提供了有力的理论指导。

2.5.1 地理模型 王聪等结合百度迁徙规模指数运用时域差分模型,推导疫情首次达到特定行政区域的可能时间[26],应申等通过GIS空间分析技术中的五元组模型(主体、活动、对象、时间和位置等五个元素)实现了病例数据的计算机自动化处理,快速获取疫情发展状况,推演疫情传播过程[27]。

2.5.2 大数据模型 周松等采用疫情专题、行政区划、基础底图、人口迁徙以及常住人口等时空大数据,运用Logistic 模型拟合江苏省确诊人数变化趋势并开展疫情高危地区预测[28],孟杰等基于手机定位大数据构建了捕获再捕获模型,估计COVID-19 高危人群总量,并可以用于识别与监测复产复工中的高风险人群[29]。PASARIBU U S 采用广义时空自回归(Generalized space time autoregressive,GSTAR)模型研究爪哇岛COVID-19疫情传播的空间依赖性[30]。

2.5.3 运筹学模型 石耀霖等采用排队论的Erlang概率分布对每日确诊病人数据进行处理,估计每日新发病和未来10 日的确诊人数,可以较快获得比较可靠的近期确诊人数数据[31]。BIRD J J 将决策论中的决策树算法与梯度提升法结合用于预测不同国家的疫情传播风险[32],SAHIN U 等使用灰色预测模型预测累积病例数[33]。此外,COVID-19 疫情的长期抗争其实质是人与SARS-CoV-2 的长期博弈,疫情早期的医疗资源挤兑与方舱医院的建立,疫情后期SARS-CoV-2变异与人免疫力的提高等现象都是博弈的过程,博弈论也为COVID-19 疫情预测模型研究提供了新的视角。

2.5.4 其他模型 此外,还有研究者将元胞自动机与传染病动力学模型联合使用建模,模拟复杂系统下COVID-19 疫情的传播情况[34];使用灰狼算法等元启发算法优化COVID-19 疫情预测模型[35];引入动态面板数据模型反映COVID-19 疫情的动态滞后效应[36];使用非参数方法如核密度估计模型预测武汉封城与不封城的发病风险[37];使用基于常微分方程的人口区划模型研究空间异质性对COVID-19 疫情的影响[38]。

同时在疫情预测研究中,单纯的数学模型理论和方法存在一些自身理论无法解决的问题,如不同数据库的数据颗粒度不一致、不同空间和时间的疫情传播速度不一致。个体生理变化、交通情况等现实数据的获取,接触者的实施监测和追踪等需要多学科共同合作,多学科合作是COVID-19 疫情预测模型研究的趋势。

综上所述,COVID-19疫情预测模型的种类较多,不同模型在适用范围和参数设置等方面存在差异(表1)。时间序列模型适用于探究COVID-19 疫情数据和时间因素的关系;传染病动力学模型可以纳入不同的参数研究实际传播情况和防控措施等因素,但目前COVID-19 疫情的传染率、病死率和治愈率等参数仍在动态变化,预测效果难以保证;复杂网络模型则是适用于疫情空间网络特征对疫情的影响;机器学习模型适用范围广,但对数据的要求较高;同时多个模型联合使用、取长补短的混合模型也是COVID-19 疫情预测的研究趋势;此外,多学科交叉模型的预测效果也不错,提供了数理统计、地理交通、公共管理和运筹学等多领域的研究视角,进一步推进对COVID-19 疫情的三间分布和发生发展的了解和认识。

表1 COVID-19疫情预测模型

续表1 COVID-19疫情预测模型

3 展 望

目前,针对COVID-19 疫情各地研究人员开展了诸多研究,在疫情传播规律研究、防控效果评估和预警监测等方面取得了较好的效果。但目前的研究依然面临一些难点和问题,部分研究直接采用网络大数据,未对数据进行处理,与真实数据存在一定的差异;疫情数据颗粒度较大,具体到患者个体的详细数据难以统计和获得;各类模型对应用环境较为敏感,适用场景不同的模型应用存在一定的局限性,缺少普适性的模型;数学建模可采用Matlab、SPSS、SAS、R、Python 等多种工具,不同软件的算法不同,输出的结果和形式也不同,应用范围不一,不同的研究和模型之间难以统一量化评价;研究主要聚焦在建立模型方面,根据后续疫情数据对模型开展验证和评价的研究较少;部分研究只考虑部分防控措施的影响,未全面考虑各防控措施的综合影响,与真实世界割裂,准确性有待提高;COVID-19病毒处于变异过程中,变异后的病毒在传播路径、传染力和病人病毒载量等都与之前存在较大差异,先前的预测模型可能不适用于变异之后的疫情场景。因此总体而言,疫情数据处理、模型适用场景、模型检验和评价以及模型准确性等方面值得关注,有待进一步深入研究。

猜你喜欢

传染病病例预测
无可预测
《传染病信息》简介
传染病的预防
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
3种传染病出没 春天要格外提防
“病例”和“病历”
本土现有确诊病例降至10例以下
妊娠期甲亢合并胎儿甲状腺肿大一例报告