APP下载

新冠肺炎疫情极限IR 实时预测模型

2020-06-17梅文娟朱静怡

电子科技大学学报 2020年3期
关键词:学习机人群预测

梅文娟,刘 震*,朱静怡,杜 立

(1. 电子科技大学自动化工程学院 成都 611731;2. 电子科技大学生命科学与技术学院 成都 611731)

自2020 年1 月以来,新型冠状病毒疫情迅速蔓延,各地确诊病例增加。疫情受到各地政府高度关注,相继启动重大突发卫生事件I 级响应并采取不同程度的隔离措施。2020 年1 月30 日,国际卫生组织将此次疫情列为“国际公众卫生紧急事件”。在加强医疗援助及实施隔离措施的同时,全球科研人员针对新冠病毒从流行病学[1]、病理学[2]和药理学[3]3 个领域进行了分析,为抗击疫情提供了有力的学术支持。其中,从流行病学角度分析疫情的发展规律并预测疫情发展趋势对制定和实施合理的干预防控措施具有重要意义。

为评估疫情发展,现有的方法可分为统计学方法与动力学方法两种。统计学模型在信息不全的情况下通过某一小样本的情况对总体进行预测。文献[4]根据武汉国际机场每日人流量、该样本下的确诊人数以及机场往日的流量数据对武汉潜在感染人数进行估计。然而,由于小样本与总体样本具有传播特性差异,该方法的估计结果可能存在较大的偏差。同时,统计学模型无法反映疫情传播的变化趋势。考虑人口迁徙因素的影响,文献[5]根据武汉迁徙数据,分析了全国50 个城市感染新型冠状病毒的确诊比率,并利用Bootstrap 方法对确诊人数进行了稳健性估计。实验分析证明了病毒的二代传播在不同区域存在一定的差异性,社会活动对疫情发展存在一定的影响。

与统计学模型不同,动力学模型[6]基于病毒寄生宿主后各个状态间的因果关系,利用对该病毒已知的信息与各个状态下人群的历史数据构建用于描述传播机理的微分方程,从而得出对有效再生数、确诊人数等指标的预测评估值。根据对疫情发展中不同群体的划分情况不同,用于描述传染病传播的经典数学模型有SIR 模型和SEIR 模型两种形式。

SIR 模型[7]假设易感人群(susceptible)、感染人群(infectious)和康复人群(recovered)3 部分人群在病毒发展规律下以一定概率向其他状态转移形成“易感态−感染态−康复态”的动力学模型,可实现对病毒的传染趋势在一定精度内的评估和预测。文献[8]利用机器学习方法估计SIR 模型,其估计结果基本与实际数据吻合。

进一步,SEIR 模型[9]在SIR 模型的基础上考虑到潜伏期导致感染过程存在迟滞性。因此,SEIR 模型对动力学系统进行细化,串联了潜伏期人群(exposed)。基于该模型,文献[10]对病毒基本再生数进行了初步预测。预测过程证明在SEIR模型下基本再生数的时间敏感性。此外,文献[11]基于该疾病的临床特征、传染性特征以及政府有关的干预措施在SEIR 模型中增加无症状感染人群(pre-symptomatic)和住院人群(hospitalized)两种状态,达到细化传播过程描述的效果,借助蒙特卡洛模拟,认为在当时控制下的基本再生数高达6.47。文献[12]就潜伏期长度对疫情的影响做了深入分析,得到在不同的潜伏期假设下,预测趋势的增长速度,拐点和峰值都存在差别,潜伏期的不同会影响疫情趋势变化。而从实际的效果来看,潜伏期受到人类宿主生理系统的影响存在个体差异,潜伏期存在的影响呈现出一定的不确定性。

尽管SIR 模型与SEIR 模型对基本再生数和疫情早期趋势有较好的估计,然而基于动力学的预测模型在实际应用中仍存在局限性[13]。首先,仓室模型无法对开放式流动环境下的病毒传播做出准确估计;第二,该类模型对相关参数的评估缺乏外界环境应力影响的引入;第三,对于疾病传播能力及治愈概率的常数假设与实际状况不符。因此,该类模型无法对疫情趋势做长期准确的分析。

考虑到人为及环境影响因素,一些学者基于环境容纳量的概念,引入针对疾病传播的Logistic 增长模型[14]和指数增长模型[15]。该类模型反映了医疗和防控对于疫情发展存在一定时滞性影响[16],并且结合此类因素给出更符合实际的估计。

综上,本文结合动力学模型对传播机理描述的准确性和Logistic 增长模型对外界因素估计的有效性,将基于机理描述的微分方程与基于数据驱动的极限学习机[17]融合,构建用于实时预测的极限IR 模型。在该模型中,对动力学方程进行改进,突破仓室模型下仅考虑密闭环境的局限性。同时将传播最终状态进一步分化为治愈态和死亡态,并预测从感染态到这两种状态概率的时变规律,用于进行更加精确的预测。最后,借助极限学习机,生成对确诊人数动态变化的预测模型,用于疫情趋势的实时预测和分析。实验证明,极限IR 算法可实现准确的实时预测。

1 总体框架

由实际的防控情况,新型冠状肺炎的防控过程如图1 所示。不考虑二次感染,每个感染新型冠状病毒的个体需要经历易感态、潜伏态、感染态和移除态4 种状态才能排除其对仓室模型中各个人群的变化影响。从实际的防控过程和病毒的病理特征中可以看出,潜伏态具有以下特点:1) 在实际的防控过程中,潜伏态群体因为无明显发病症状难以进行准确的统计;2) 从病理学角度,病毒在感染宿主后已经具备传染力[18],且潜伏期的个体差异性较大(中位值为4 天,最长可达14 天[19]),在估计上的不确定度较大;3) 尽管潜伏期传染能力远弱于发病后的传染能力,然而由于早期潜伏期人群基数很大,小概率的传染仍然会对新增患者群体造成较大的影响。综上,在病毒传染机制、环境中人群个体机制等信息尚不明确的情况下,对于潜伏态的判定及潜伏态与感染态的转换关系存在分析上的不确定性,不利于定量方法的研究。因此,本文采用SIR 模型作为基础,简化了从“易感态−潜伏态−感染态”这一步骤,直接考虑易感态与感染态之间的传递关系。

利用SIR 模型可以有效地描述病毒的传播过程。根据SIR 模型的特性,病毒传播过程的动力学方程如下:

式中,S 表示为易感态人群规模;I 表示为感染态人群规模;R 为恢复态人群规模;β 指感染人群将易感人群转换为新增病例的概率;r 表示为现有感染人群转换为死亡人群或治愈人群的概率。3 种状 态的变化特征如图1 所示。

图1 新冠肺炎的防控过程

如图2 所示,鉴于新冠病毒暂时未发现有明显变异,康复人群不会发生第二次感染,因此在SIR模型中认为康复人群不会再次转变为易感人群,即ξ=0。

图2 SIR 模型状态转移图

由于实际的防疫工作中,对于疫情的通报要求以及对于疫情的预测需求均具有一定的时间间隔,因此对动力学方程进行离散化,得到:

式中, ∆S(t)、 ∆I(t)和 ∆R(t)分别为S、I、R 的数据差值。根据实际情况,对于数据更新的时间间隔需求为1 天,因此t 取正整数表示更新的天数。定义2020 年1 月23 日为第一个时间点,此时t=1。

由于病毒的传播能力和对于疾病的治疗能力受到外界应力的影响,相关指标会随着疫情发展变化,本文假设传播能力β 与概率r 均为关于时间的函数。由式(5)和式(6),时变函数β(t)和r(t)的表达式如下:

根据官方数据,疫情发生早期14 天时间间隔下β(t)和r(t)的变化趋势如图3 与图4 所示。在疫情发生早期,由于疾病的传播不受人为干预,传播能力产生波动且由于死亡率偏高引起r(t)较高。随着防疫力度加大,疾病的传播能力逐步受到限制。同时,随着医学对疾病防治的效果逐渐显现,死亡率降低,治愈率升高,r(t)呈现出下凹的变化趋势。

图3 病毒传播能力变化趋势

图4 概率r(t)变化趋势

综上,疫情的变化不仅与病毒的固有特性相关,同时受到外界因素对疫情变化存在一定的时滞性影响。为了更好地分析疫情的变化趋势,需要构建更为合适的预测模型。在SIR 的基础上,将恢复态分化为死亡态(R1)和痊愈态(R2)两组状态,并假设I 态分别以r1(t)和r2(t)的概率向R1态和R2态转移。本文借助极限学习机构建关于感染态的自循环函数并对由I 状态到R1状态及R2状态的转移概率进行预测,提出可用于疫情趋势实时预测的极限IR 模型,其中各状态的传递关系如图5 所示。

图5 极限IR 模型总体框架

考虑到外界因素的时滞性影响和一定程度的不确定性,采用3 组极限学习机分别对随时间变化净新增感染人数、死亡率和治愈率进行实时预测评估。由图5 给出的传递关系,各个状态的动力学方程如下所示:

式中, r1(t)和 r2(t)分别为t 时刻下的治愈率和死亡率;F(I(t−1))为根据极限学习机构建的自相关函数;N(t)为受到突发事件影响造成的感染人数变化,具有不可预测性,因此在构建预测模型的过程中不予考虑。综上,预测模型的构建转换为对r1(t)、 r2(t)和F(I(t−1))的预测模型构建问题。

2 无风险人群转移预测模型

根据上一节的分析,本文方法通过极限学习机对疾病的治愈率和死亡率进行预测,其模型结构如图6 所示。

图6 极限学习机预测模型框图

该预测模型为单隐藏层网络结构。为得到时刻t 较准确的预测估计,利用历史有效数据对极限学习机进行训练。考虑到数据的可靠性,假设有效数据起始时间为t0,则训练数据的输入为:

为确保模型的准确性,采用单步预测的方式,其对应的期望输出为:

考虑r1(t)受到外界因素的时滞性影响,采用Sigmoid 函数作为隐藏层的核函数,其表达式如下所示:

同时,考虑到多因素影响,假设概率的变化趋势为多组logistic 回归的加权和。由极限学习机的性质,其回归方程如下:

根据上式,得到对于历史数据的模型输出为:

由最小均方准则,计算的到模型的输出层权重Λ={λ1,λ2,···,λN}如下所示:

在实际的疫情趋势预测中,疫情的相关数据以一天为间隔进行更新。故t+1 输出层可由上一时刻数据更新得出:

式 中, K(t)=(HT(t −1)H(t −1))−1; h(r1(t −1))为t时刻的隐藏层输入;r ˆ1(t)为预测模型的输出。

根据预测模型得到治愈率的预测值,进而根据t−1 时刻的感染人数给出此时的治愈人数预测值:

同理,对死亡率时间序列建立预测模型,进而得到死亡人数的预测值:

3 感染人群预测模型

忽略突发性因素对模型的影响,本文对净感染增长人数定义如下:

由图5,可以看出 ∆I˜(t)是仅与I(t)有关的时间函数。从流行病传播的角度,∆ I˜(t)的变化趋势与病毒固有的传播特性与人为干预有关,因此本文提出的模型构建出第三组极限学习机用于预测∆ I˜(t)的变化趋势,预测模型对应的方程如下:

与治愈率和死亡率的变化趋势不同,病毒的传播与人类采取的防疫措施强度高度相关,因此对于传播趋势的分析具有一定的时效性,一部分历史数据并不能反映当前的传播能力。因此,在预测模型训练过程中,利用时间窗对训练数据的规模限制,确保预测模型的准确性。

4 模型实证

利用本文提出的极限IR 预测模型,采用自2020 年1 月23 以来国家卫生健康委员会公布的全国累积确诊人数、累积死亡人数和累积治愈人数对模型的实际预测效果进行验证。同时,通过与基于蒙特卡洛方法的SEIR 模型(SEIR-MC)和基于蒙特卡洛马尔科夫方法的SIR 模型(SIR-MCMC)的预测结果进行比较,验证算法的实时预测效果。

4.1 治愈人群与死亡人群预测

利用极限学习机,对治愈人群的变化趋势和死亡人群的变化趋势的预测结果如图7 所示。由图7a和图7c 可以看出治愈率总体随时间提升,而死亡率随时间下降,受到实际的临床经验进展影响变化趋势发生波动。通过预测曲线,极限IR 模型能够有效地对两组概率的变化趋势进行有效地预测,产生的预测时间曲线与实际的概率变化大致相同。因此,图7b 和图7d 中模型提供了治愈人数和死亡人数准确的估计,预测趋势与实际的变化趋势基本一致。

图7 无风险人群预测效果比较

4.2 确诊人群预测

为说明极限IR 预测模型对现有确诊人数的预测效果,图8 展示了通过极限IR 模型进行的单步和多步预测结果。

图8 极限IR 模型单步及多步预测结果

尽管在前10 天时预测结果发生了较大波动,单步预报值总体上能够很好地描述疫情发展趋势,且在第10 天后预测结果基本不受早期疫情传染能力大幅波动的影响。尤其在疫情发展第10 天至第20 天,模型对现有确诊人数的预测值与实际的确诊人数基本吻合。此外,利用该模型得到的3 步预测值与5 步预测值也较好地预测了感染人数的变化趋势。

为进一步说明极限IR 算法的效果,表1 比较了SEIR-MC 模型、SIR-MCMC 模型以及极限IR模型在2020 年2 月7 日至2 月16 日间的预测效果。由图1 所示,SEIR-MC 模型在2020 年2 月7 日至2 月9 日的预测误差较小,而在2020 年2 月10 日后疾病防控活动对疫情发展影响变强,利用该方法的预测误差逐渐加大。另一方面,采用蒙特卡洛马尔科夫方法在一定程度上可以实现对参数的动态评估,然而伴随2020 年2 月12 日临床诊断结果加入医学诊断中的举措,该方法对于参数的评估产生误差。与SEIR-MC 和SIR-MCMC 不同,极限IR 模型利用神经网络实现动力学模型中时变参数的精确估计,因此从10 天数据的总体效果看,该模型能实现精度更高的实时预测,其误差可以控制在10%以内。

表1 2020 年2 月7 日至2 月16 日各模型的预测效果比较

5 结 束 语

本文针对冠状病毒已知的传播规律,提出用于疫情趋势实时预测的极限IR 模型。通过建立时变假设下的传染趋势,死亡率和治愈率预测模型,实现动力学模型的及时更新,提供确诊人数、新增死亡人数和新增治愈人数等指标预测值。通过实验验证,本文提出方法能够达到较高的实时预测精度,为疫情趋势分析提供有效的数据分析支持。

尽管模型在实时预测上存在很好的效果,但针对传统的动力学模型做出了如下简化:

1)考虑到潜伏期估计上的不确定性,在模型不将潜伏状态作为独立分析的状态进行考虑。

2)对传染病模型中的传染态界定做出了调整,理由如下:第一,从疾病发生机理角度,将SIR 传播模型中的感染态替换为传染态,可以避免因流感产生相似症状对模型中人群估计产生的干扰;第二,从防控过程角度,因确诊人数在疫情防控工程中具有观测精确的特征,通过确诊人数可以为传染态基数估计提供有力的数据依据。

3)机器学习方法的引入在增加了短期预测精度的同时增加了模型的复杂性并使拟合参数的价值降低。本文提出的方法通过引入极限学习机对IR 模型中的相关时变参数做定量趋势预测。从模型的复杂性来看,尽管模型引入了相较于SIR 模型,SEIR 模型更加复杂的机器学习融合模型,但极限学习机作为单隐层少节点的神经网络模型,其空间复杂性能够满足实时预测的应用需求,且因训练无迭代过程,模型预测的快速性得到保证。从拟合参数价值角度,机器学习融合的算法在治愈率、死亡率和病毒传播能力的定性分析上能提供准确的动态变化信息,存在一定的分析价值,然而对于基本再生数这一类病毒机理性参数,受到机器学习对对象机理简化的影响,其分析需要进行进一步的研究。

综上,尽管方法在传染病机理传递的细节量化上不是至善之策,但对于疫情趋势的及时把控、传染态群体的统计特征变化及疫情发展的实施预测是现有较好的可取之举。

猜你喜欢

学习机人群预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
警惕平板学习机骗局
“机”关
糖尿病早预防、早控制
我走进人群
基于通勤目标人群需求的慢行交通系统构建
基于通勤目标人群需求的慢行交通系统构建