常见新型冠状病毒肺炎疫情预测方法及其评价*
2020-06-28黄丽红魏永越沈思鹏朱畴文
黄丽红 魏永越 沈思鹏 朱畴文 陈 峰△
【提 要】 自新型冠状病毒肺炎疫情发生以来,一些学者利用疫情公开数据建立预测模型。所用预测方式包括曲线拟合、传染病动力学模型及人工智能算法三大类。传统的曲线拟合预测方式无法考虑传染病特征,预测结果并不可靠。传染病动力学模型是本次疫情预测应用最多的一类,能够考虑传染病的传播速度、传播模式及各种防控措施等因素,但由于考虑的参数不可能全面,且参数可能在疫情不同阶段发生动态变化,因此预测效果往往不佳,但对早期预警、防控决策支持及防控效果评价具有重要应用价值。人工智能方法可以综合考虑不同防控措施以及多种因素的影响,如果考虑得当,预测效果将会有所提高。在综合利用动力学模型优势的基础上,尽可能多地考虑不同影响因素,利用人工智能构建仿真模型,将是一个新的发展趋势。
自新型冠状病毒肺炎疫情发生以来,由于人们对新发疾病的认识不足,新型冠状病毒(国际病毒分类委员会将其命名为SARS-CoV-2)的传染性被低估,由此疫情初期病毒肆虐,被感染人数不断攀升,华夏儿女经历了一场新中国成立以来前所未有的战役。我国政府统一部署,统筹推进,多措并举,经过举国上下的共同努力,综合防控已取得显著成效,疫情得到了有效控制。而目前疫情正在全球蔓延,已成为全球共同面对的最重大的生物、医学和社会挑战。中国最先以一个国家形式整体积极应对,也在抗击新冠病毒感染的全部进程中提供了诸多科学研究数据和成果。
在这场惊心动魄的战争中,医务人员首当其冲救治病患,疾控中心工作人员排查疑似病人,寻找密切接触者,为防止疫情扩散日夜探案。流行病学家对新型冠状病毒肺炎的流行病学特征已经有了最新认识[1],为疫情防控献计献策;临床专家不断总结临床经验,逐步明确了新型冠状病毒肺炎的临床特征,并在努力寻找新的救治手段。
此次防疫战,疫情数据透明公开,全世界学者根据每日疫情公开数据,展开各种数据分析,而这其中的焦点,就是对疫情未来趋势的预测,预测方式多样,所建预测模型亦多样。此次疫情中,最常见的预测方法有三大类:传统的曲线拟合(curve fitting)、传染病动力学模型(epidemic dynamics model),以及人工智能(artificial intelligence,AI)方法。本文针对上述三类疫情预测方法进行述评,在介绍各种建模方法的基础上,结合其预测效果,进行全面分析和对比。
曲线拟合
曲线拟合,又称非线性回归(nonlinear regression),是根据原始资料的性质和实际数据所呈现的趋势,按适当的曲线类型推算出最可能的曲线回归,使估计误差为最小或接近于最小[2]。本次疫情早期,Zhao等基于指数增长趋势进行曲线拟合[3],对疫情初期发病病例数进行预测,指出2020年1月1日至15日间武汉公布病例数存在漏报可能。Zhao等基于2020年1月10日至1月24日的公开数据进行指数增长趋势曲线拟合,由此判断新型冠状病毒早期传播能力接近或略高于SARS[4]。
利用网络公开数据,笔者分别利用全国累计确诊病例数前20天和前30天数据进行曲线拟合:
Y=b1/(1+exp(-b2×(X-b3)))
拟合效果如图1所示。根据拟合曲线(A)和(B),全国累计确诊病例数均呈指数上升,用前20天数据(图1(A))预测峰值在2万以下,而用前30天数据(图1(B))预测峰值为5万。事实上,截至2月14日24时,全国已有累计报告确诊病例66492例。(http://www.nhc.gov.cn/xcs/yqtb/202002/50994e4df10c49c199ce6db07e196b61.shtml)。可见,本方法对于已经发生的数据进行拟合,效果非常好,决定系数R2均大于90%。但其预测效果严重偏低。
图1 新型冠状病毒肺炎疫情曲线拟合
传染病动力学模型
动力学模型是传染病的基本数学模型,研究传染病的传播速度、空间范围、传播途径、动力学机理等问题。早在1760年,数据家D.Bernoulli就曾用数学模型研究天花的传播[5]。首次用传染病动力学模型研究传染病始于20世纪,1906年Hamer用离散模型研究了麻疹的反复流行[6]。1911年,Ross利用微分方程(ordinary differential equations)研究了疟疾在蚊子和人群间的传播,并获得诺贝尔医学奖[7]。1926年Kermack与McKendrick提出仓室模型(compartment model)[8],为后续传染病动力学研究开辟了新的工具,而仓室模型也是本次疫情预测中应用最多的模型。
最基本的仓室模型为易感-发病-移出(susceptible-infective-recovered)模型,简称SIR模型,是将某一固定区域内的人群分为三类:易感人群(S),发病人群(I)和移出人群(R)。该模型不考虑人群的变化,包括出生、死亡、流动,即此地区是一个封闭的环境,总人群是一个常数,不发生变化,任何时刻的三类人群总数不变。本次疫情中,部分学者利用SIR模型预测本次疫情的局部流行趋势,并据此提出防控建议[9]。
从应用角度出发,在SIR模型基础上考虑潜伏期,则为拓展的SEIR模型(susceptible-exposed-infective-recovered)。SEIR模型在本次疫情预测中的应用最为广泛。例如:周涛等国内学者利用SEIR模型对本次疫情的基本再生数R0(basic reproduction number)进行初步预测[10],其中S代表易感人群,E代表被感染后处于潜伏期的人群,I代表潜伏期之后已具有感染能力的人群,R表示已经因为治愈并获得免疫、被有效隔离、因病死亡等原因已经不对流行病传播动力学产生影响的人群。假设一个I态与S态接触,S态被感染进入潜伏期的概率(感染率)为β,一个处于E态个体单位时间内将以概率γ1转变为I态;一个I态个体单位时间内将以概率γ2转变为R态。SEIR传播过程可用以下4个微分方程进行描述:
其中,S(t)、E(t)、I(t)和R(t)分别表示t时刻处于S、E、I、R的人数。N表示总人数,且N=S(t)+E(t)+I(t)+R(t)。潜伏期和感染期可分别表示为TE=1/γ1和TI=1/γ2,生成时间(generation time)可近似为病例发生序列间隔,即Tg=TE+TI。基于上述模型,基于不同的网络数据来源,该研究预测新型冠状病毒肺炎属于传染能力中等略偏高的传染病,在无干预自由传播的条件下,R0在3左右。
本次疫情中的绝大部分动力学模型都是以SEIR模型为基础,考虑疾病的流行特征、易感人群人口学特征、防控措施等因素。例如,Wu等学者在SEIR模型的基础上,考虑了传染源、春节期间人群迁移进出武汉的情况,对武汉进行疫情趋势的预测[11],构建动力学模型:
其中S(t),E(t),I(t)和R(t)意义同上,LW,I为国际流出乘客日平均人数,LI,W为国际流入乘客日平均人数,LW,C为国内流出乘客日平均人数,LC,W为国内流入乘客日平均人数,DE和DI分别为潜伏期和感染期参数,R0为基本再生数,z(t)为动物传染能力(假设市场关闭前为86例/天,关闭后为0)。该模型预测,如果不采取措施,截至2020年1月25日,武汉市可能有多达75800人感染,提前为疫情防控拉响警铃。
由于新型冠状病毒的特性,使得本次疫情具有一定的特殊性,例如,存在无症状感染者(asymptomatic infected),潜伏期人群亦具有一定的传染性等[12],魏永越等考虑了新型冠状病毒肺炎的传播机理、感染谱、隔离措施等,建立SEIR+CAQ传播动力学模型,并预测2月底全国(除湖北省)确诊病例数为1.82(1.74~1.88)万,湖北省(除武汉市外)确诊病例数为2.16(2.13~2.21)万,武汉市为4.26(4.19~4.34)万[13],该模型考虑参数较为全面,预测结果与实际确诊病例数较为接近。哈佛大学公共卫生学院学者基于SEIRS(susceptible-exposed-infectious- recovered- susceptible)模型,在假设各国能够成功控制本次疫情大流行的前提下,预测在未来更长一段时间的疫情爆发情况,模拟结果显示在短暂压制病毒后,如果感染者痊愈后无法获得长久的免疫力,新冠疫情将卷土重来,在未来的5年内每年如约而至[14]。
另外,随着疫情防控措施的全面实施,疫情后期通过比较理论预测数与实际发病数,SEIR模型也被用于各项防控措施效果的评价,Wang等估计武汉市自1月23日起严格的交通管制使得病例数减少了94.5%[15],魏永越等通过SEIR+Q模型科学评估防控效果,指出2月12日之后临床诊断标准的实施及全城拉网式排查等综合防控措施,使得武汉疫情提前74天结束[16]。
构建传染病动力学模型时,如能根据疫情实际情况考虑更多参数,模型将更加完善,但考虑的情况越多,模型愈复杂,参数的求解亦愈加困难,马尔科夫链蒙特卡洛(MCMC)等计算机模拟算法成为了常用的求解工具。
人工智能
近年来,得益于人工智能技术的突破性进展以及数据来源的不断丰富和积累,人工智能不断运用在新的产业中,其中在医疗领域的应用尤其受到重视和关注。2008年,Google公司开发了“谷歌流感趋势”(google flu trends,GFT)软件,利用Google巨大的用户搜索数据,提前1~2周准确预测了美国流感样病例比例的变化趋势[17]。2011年Signorini等以美国境内发表的含有流感相关关键词的美国Twitter量的占比作为预测因子,采用支持向量机回归(support vector regression,SVR)算法建立了全美及某一地区的流感样病例比例的实时跟踪预测模型[18]。我国科学家应用自适应AI模型和多源数据预测重庆市流感活动水平,未来一周流感活动水平预测准确率保持在90%以上,是我国第一个基于人工智能和大数据的流感活动水平实时预测模型[19]。
本次疫情发生以来,大数据、AI等技术的价值在这场全民抗击疫情的战役中同样得到充分展现。其优势在于可根据疫情发展不同阶段、不同地区政府管控力度差异等对基础模型进行细化和改良,然后代入历史数据利用机器学习等AI算法对各项参数进行学习训练,最终得出疫情发展的智能预测模型,并可以根据最新数据不断演化、优化,提供实时预测。Yang等[20]报道了基于长短期记忆(long-short-term-memory,LSTM)的时间递归神经网络预测模型,模型利用2003年SARS数据进行了AI算法训练,该模型预测本次疫情将在2月底达到高峰,并通过机器学习算法展示如取消湖北省的交通封闭措施,将导致湖北省在3月中旬出现第二次高峰。Hu等采用改进的自编码(modified autoencoders,MAE)人工智能方法实时预测100多个国家的新增确诊病例数及累计病例数,为防治过程提供决策支持[21]。
总结与讨论
新型冠状病毒肺炎疫情发生以来,疫情未来趋势的预测一直是学术界和民间关注的热点。一个好的预测模型,能够模拟传染病流行趋势,量化传染病的传播速度,预测时间、空间范围,评价各种隔离预防措施对控制疾病流行的作用,无疑将为决策部门权衡利弊提供宝贵信息。
传染病资料不同于一般的医学资料,患者间是相互传染的,即个体之间存在高度的相依性,即非独立的(non-independent),因而,大部分基于独立性假设的传统统计学方法不再适用。例如:曲线回归,线性回归等,其基本假设均为个体间是独立的,若用于传染病发病数的预测,方差的估计显然是偏低的。此外,传统的曲线拟合是完全基于数据趋势进行预测,无法考虑传染病的传播速度、传播模式及各种防控措施的实施等动态信息,预测效果并不可靠。传染病资料的分析及预测需要特殊的方法,是方法学研究的一个重要领域[22-25]。
仓室模型分为确定性模型和随机模型,前者模型中参数假设为固定的;后者模型中部分参数是随机的,而部分参数是固定的[26]。事实上,很多参数应该设定为随机的,例如:每个人随机接触的人数、潜伏期、康复时间等,这些参数显然不固定,具有一定的分布规律。有些参数随着时间的推移在发生变化,例如,不同流行期干预措施的不同,随着对疾病认识的提高和对疾病的治疗不断完善,出现治愈率提高死亡率下降。在现实防控工作中,首先要根据实际情况,尽可能将参数设定考虑全面,并且需要根据疫情发展和防控策略的改变,动态调整参数,不断更新动力学模型,也可能获得短期的、良好的预测效果。
基于AI的预测模型,大都在经典动力学模型的基础上,利用AI算法对模型的参数进行学习训练,从而得到根据最新实时发布数据不断演化的智能预测模型,但AI预测模型的效果同样取决于设定参数是否合理,也可能受制于AI算法的训练效果,其预测效果(尤其是远期预测效果)还有待进一步的考验。
笔者对本次疫情发生以来所发表的预测模型进行了简单汇总,详见表1。正式发表或在公共学术平台预发表(包括bioRxiv,medRxiv)的模型绝大多数为传染病动力学模型,尤其是SEIR模型及其扩展,但建模参数、建模数据各不相同,针对的疫情阶段也不同,因而对于拐点、累计感染人数及R0等的预测结果相差甚远。总体看来,本次疫情的预测模型十分丰富,但预测效果却不尽人意,其主要原因在于:(1)疫情初期对新发传染病的认识有限,例如未明确潜伏期传染性的问题,无法纳入防控参数;(2)实际防控措施十分复杂,难以量化,例如:对密切接触者的隔离方式由家庭式隔离转为集中式隔离将降低传染风险,但防控物资不足、自我隔离不完全时传染风险则会增加;(3)诊疗方案的不断变化,随着对新发传染病认识的不断提高,国家卫生健康委员会、国家中医药管理局联合发布7个版本“新型冠状病毒感染的肺炎诊疗方案”,对疾病的诊断标准不断变化和完善,使得确诊病人定义发生变化,住院收治人数越来越多,治愈率不断升高;(4)病毒的变异,病毒的基因组在繁殖过程中不断突变,毒性可能发生变化,传播能力也将随之改变。
表1 新型冠状病毒肺炎疫情预测模型汇总
虽然本次疫情中传染病动力学的预测表现差强人意,但其重要价值在于疾病的早期预警、决策过程的理论支持,以及后续的阶段性防控效果和最终防控效果的评估,定量评估防控措施对阻断病毒传播、保障人类健康所带来的效果[27-28]。
由于对新发传染病了解有限,加上社会环境迅速变化以及各种干预措施影响的不确定性等,及时、准确、可靠地预测正在发生的传染病流行趋势是一项巨大挑战。预测模型不仅需要优质数据,更需要不断地根据各种环境变化、干预措施的变化,适时调正模型参数,才能准确预测。笔者认为,在综合利用动力学模型优势的基础上,尽可能多地考虑不同影响因素,利用仿真模型构建相应的动态、实时模拟系统,将是一个新的发展趋势,不仅能在疫情发生时为决策部门提供科学信息,而且有助于日常传染病防控演练乃至疾病控制体系建设,为国家新型传染病防控工作保驾护航,意义深远!