APP下载

基于马氏决策过程的突发传染病防控决策模型

2016-10-11于振宇韩传峰孟令鹏

系统工程学报 2016年3期
关键词:传染病动态决策

于振宇,韩传峰,孟令鹏

(同济大学经济与管理学院,上海200092)



基于马氏决策过程的突发传染病防控决策模型

于振宇,韩传峰,孟令鹏

(同济大学经济与管理学院,上海200092)

研究防控突发传染病在人群接触网络上传播的动态决策问题,在时间维度扩展传染病接触网络模型,真实描述疾病的时空传播规律.综合考虑免疫与隔离措施,基于马尔可夫决策过程构建突发传染病防控动态决策模型,动态生成防控方案,最优化决策周期内的整体决策效果.以典型情景为例建模并仿真求解,验证了模型的可行性和有效性;求解模型得到的动态决策方案可有效抑制疫情规模,为突发传染病防控提供决策支持.

突发传染病;接触网络;马尔可夫决策过程;动态决策;免疫;隔离

1 引 言

突发传染病是指在无明显征兆或季节,地区规律的情况下,由病原体引发且在人群中快速传播的疾病,其极易大规模爆发,对经济社会造成严重危害.根据突发传染病发展过程而进行动态决策,有利于及时采取相应的防控措施,有效抑制疫情蔓延,减少感染人数,降低社会危害,因此成为应急管理的重要研究问题.

突发传染病防控的前提是描述疾病传播规律.人际接触是突发传染病的主要传播途径[1],因此接触网络对疾病传播具有重要影响[2].接触网络模型[3,4]显式建模个体及其接触关系,表征了疾病传播过程中个体的差异性,比经典的仓室模型(假设人群均匀混合)能够更精确地描述疾病传播规律,是目前研究疾病传播动力学的主要方法[57].

基于接触网络的突发传染病防控决策体现为限制疾病在网络上的传播以最小化感染个体的数量,可分为静态防控和动态防控两类,常用措施可以概括为预防性措施(免疫)和控制性措施(隔离).静态防控基于静态的网络结构,运用网络分析方法识别部分高危险性节点并对其免疫,保护其免于疾病过程中的感染,从而阻断疾病传播路径[810].该方法多考虑预防性措施,可给出网络的整体免疫策略,但只能在疾病爆发前针对预测的疾病最终状态制定决策方案[11],无法在疾病传播过程中对方案进行实时调整[12],这显然不符合疾病发展及防控的现实.因此动态防控的研究日益受到重视.

国家自然科学基金委管理学部于2009年启动了“非常规突发事件应急管理研究”重大研究计划,将面向非常规突发事件应急管理的动态模拟仿真系统与计算实验方法研究作为关键目标之一[13],凸显“情景-应对”型应急管理模式对动态决策的需求.在突发传染病防控领域,已有学者采用元胞自动机[14]、演化博弈[15]等方法进行研究,但均未考虑人群的接触网络结构,不适用于接触网络上的防控策略生成.

基于接触网络的突发传染病动态防控,考虑了接触网络结构在疾病过程中随时间变化的事实[16],将接触网络模型与控制论相结合[17,18],根据疾病的发展状态,采用消除感染者与易感者接触关系的控制措施,最终通过改变人群的接触网络结构实现阻断疾病传播的控制目的[19].但是,一方面该方法对系统的控制策略反映在控制变量上[18],其理论指导性较强而在实践中却不易解释,可操作性不强;另一方面该方法也忽视了对接触网络上的个体采取预防性措施[20],采用单一控制措施难以保证决策效果在人群上的整体最优.

本文基于接触网络模型构建突发传染病防控动态决策模型.与目前采用控制论的动态防控模型不同,本文采用马尔可夫决策过程(Markov decision processes,MDP),从微观个体角度建模疾病在时间进程上的动态演化特征,求解模型实时动态地生成针对个体的防控策略,实现最大限度降低感染人数的应急管理目标,弥补了目前动态防控模型可操作性方面的不足.同时,将静态防控中常用的预防性措施纳入防控措施集合,统筹考虑预防性与控制性两类措施,从全局最优的角度出发求解防控决策方案,有利于提高决策效果.

2 突发传染病防控动态决策模型

突发传染病通常具有一段不表现症状的潜伏期,而患者痊愈后往往能够获得持久的免疫力,因此可以采用传染病领域的SEIR模型[21]将个体的状态描述为易感者S,潜伏者E,感染者I和治愈者R.疾病是否爆发则由基本再生数(R0)决定[22],若R0<1,疾病逐渐消亡,若R0≥1,疾病则可能爆发.

构建突发传染病防控动态决策模型的基础,是对传染病在时间和空间上的传播规律进行精确的描述.接触网络传染病模型可以较好地从空间维度对疾病的传播进行描述,却忽略了其在时间进程上的演化.因此,需要对该模型在时间维度上进行恰当的扩展,以实现对传染病传播随时间变化而呈现出动态发展特征的描述.

2.1接触网络模型时间维度扩展

2002年,Newman[3]基于渗透过程分析了传染病在人群接触网络上的传播过程,提出传染病接触网络模型.突发传染病经人际接触传播,个体及其接触关系可以抽象为一个接触网络,将其记为G={V,B},其中V={1,2,...,N}为节点集合,表示人群中的个体,B={bij|i,j∈V,i/=j}为边集,表示个体的接触关系,bij=1表示节点i和j之间存在连接.基于 SEIR模型对个体状态的描述,可知节点状态的取值范围为{S,E,I,R}.I节点具有传染能力,能够感染邻接的S节点.记个体的平均传染能力为T,表示感染期内传染相邻个体的概率,那么T与R0的对应关系为

其中〈k〉,〈k2〉分别表示网络的平均度与均方度.T决定了疾病在网络上大规模爆发的概率,将其记为ρ,有

其中pk表示网络上度为k的节点密度,u表示与感染节点相邻的易感节点未感染的概率.u可通过求解式(3)得到[3].

上述接触网络模型能够精确预测疾病在网络上的最终状态,但忽略了疾病传播的时间进程.针对这一问题,本文对接触网络模型在时间维度上进行扩展.将个体j在整个发病期间的平均传染能力T按照感染期长度进行分解,记为传染向量,其中L表示感染期的长度,由突发传染病的流行病学特征决定(例如,H1N1流感的感染期平均长度为6d[23])表示个体j在发病期第l时刻的传染能力.Vj与T的对应关系为

通常情况下,个体所接触的发病人数越多,其染病概率越大.因此,可以假设t时刻节点j感染的概率是相邻节点的传染能力之和,

2.2动态决策模型构建

MDP是不确定性系统动态控制的主要方法,广泛应用于随机优化控制、智能决策等领域[24],可以为传染病防控动态决策提供量化模型.采用MDP建模突发传染病在人群接触网络上的演化过程及防控措施,通过合理设定收益函数,可以实现突发传染病防控全过程最小化感染人数的决策目标.鉴于突发传染病的防控决策通常在有限时间内完成,可以采用有限周期MDP进行建模,其定义为六元组〈S,A,T,R,h,γ〉[24].其中S表示状态集合,抽象描述现实世界状态;A表示行动集合,行动可以被决策主体执行以改变系统状态;T表示状态转移函数,是系统在执行任意a∈A的行动后转移到其它状态s∈S的特定概率分布;R表示收益函数,反映决策目标;h表示决策周期长度;γ表示折现因子.

以基于MDP的动态决策模型框架为指导,本文通过从个体角度描述系统状态,行动及状态转移,建模整个突发传染病防控动态决策系统,从而使动态决策模型既能够与上述从时间维度进行扩展的接触网络模型相匹配,又能够压缩问题的描述空间以适用于较大规模现实问题的描述.具体步骤如下:

步骤1抽象系统状态.标识个体为{P1,P2,...,PN},个体存在的接触关系为B(Pi,Pj)=1.个体Pi的状态记为s(Pi),取值为{S,E1,E2,...,ELE,I1,I2,...,ILI,R},其中LE,LI分别表示潜伏期和感染期长度;

步骤2定义行动集合,并界定其前提条件与执行效果.行动集合由免疫与隔离两类防控措施构成,分别作用于易感者和感染者(潜伏者虽已感染却无表现症状,而治愈者已具备持久免疫能力,因此不考虑对这两者采取措施).对易感者进行免疫,可以降低易感者受感染的威胁,执行效果体现为易感者状态由S变为R.然而免疫措施并非100%有效,某些突发传染病可能缺乏有效性较高的免疫措施,因此需要在决策中考虑免疫效果的不确定性.记免疫措施为Imm(Pi),其前提条件为s(Pi)=S,执行Imm(Pi)的效果为s(Pi)将以p概率由S→R,以1-p概率保持S.通过隔离感染者,可以消除传染源,降低传染率,执行效果体现为感染者状态处于I,被隔离直至其痊愈变为R.通常,隔离比免疫具有更高的有效性,但隔离影响正常生产生活秩序,需要考虑到其成本较高的现实状况.记隔离措施为Qua(Pi),其前提条件为(s(Pi)∈{I1,I2,...ILI}),即只有当个体发病表现症状后才能采取隔离措施,故个体发病与采取隔离措施之间至少存在1个决策时刻的延迟,在此期间可能造成传染.执行Qua(Pi)的效果为s(Pi)以1概率由It→R,t=1,2,...,LI;

步骤3描述系统的状态转移规律.系统状态转移包括传染病自发演化与防控措施干预两种情况下引起的系统状态改变.在传染病自发演化情况下,个体未感染时状态保持S不变,个体感染概率由式(6)确定,一旦感染,个体将会按照E1→E2→···→ELE→I1→I2→···→ILI→R的顺序发生状态转移.在防控措施干预情况下,系统状态转移概率参见步骤2中定义的行动执行效果.

其中RImm,CImm,RQua,CQua分别表示免疫收益,免疫成本,隔离收益,以及隔离成本,1(·)为示性函数,即

步骤5确定决策周期长度.考虑到 SEIR型传染病会因为易感者耗尽或全部感染者消除而结束,因此可根据传染病在人群中持续时间来确定决策周期长度;

步骤6设定折现因子.折现因子的取值范围为0<γ≤1.γ<1保证累积期望收益是有界的;当决策周期有限,如果假设个体在人群中地位相等,且任意时刻对其采取行动所得收益无差别,则可以取γ=1.

2.3动态决策模型求解

MDP问题的解称为策略,是状态到行动的映射,记为π(s)→a.求解动态决策模型的目标就是得到防控策略,以指导在每一时刻的状态下行动(防控措施)的选择.价值迭代是求解最优策略的经典方法,其基本思想是动态规划.

其中R(s,a)表示状态s下执行a的即刻收益,T(s,a,s′)表示状态s下执行a后状态转移到s′的概率.

为方便迭代表示,还可以将上式拆分为

其中关于〈s,a〉的Q函数,表示在状态s下采取行动a所能获得的最大收益.

UCT算法属于在线式算法,能够在任意时刻输出解,解的质量由求解时长决定,当给定足够时间,算法可以逼近最优解[25].因此本文采用基于UCT算法的PROST[26]求解器求解模型.

在此以一个简单示例说明动态决策及其求解过程.假设人群接触网络共3个节点,P1与P2接触,P2与P3接触,但P1不直接与P3接触,即呈现P1-P2-P3的链式结构.其中P1处于感染期的第一时刻,传染概率为0.1,P2和P3处于易感状态.假设免疫与隔离的有效性均为100%,传染概率可由式(6)计算得到.当收益函数仅考虑Cunit=1,CQua=1,CImm=1时,那么该突发传染病防控动态决策及求解过程可见表1.

表1 动态决策及求解示例Table 1 Illustration of dynamic decision and solution

其中Noop指不采取措施,任由系统状态自发演化.当t=3时,人群中已不存在传染者,决策至此结束.

3 算例分析

3.1情景描述

流感是具备典型突发传染病特征的一类传染病,对人类健康威胁非常严重.以流感为例研究其防控动态决策模型,既能够验证上文所构建模型的有效性,又能够为该类疾病的防控提供可操作的决策支持.因此,下文以一场假设的流感疫情作为决策的典型情景进行算例分析.

为凸显突发传染病特征,对算例情景做如下假设:

1)突发传染病情景,假设流感病毒的潜伏期为2 d,在此期间不具有传染性;感染期为5 d,具有传染性,每天的传染能力无差异;个体痊愈后具有免疫力并不再感染.基于流感疫情的R0多介于1.2~1.6之间[27,28],因此不妨假设该疫情的R0=1.5;

2)人群接触网络情景,假设受影响人群共50人,其接触网络以ER随机网络[29]表示,以平均度分布为6随机生成.初始感染者为一输入性病例(2号节点),其余为易感者;

3)防控措施情景,假设免疫措施具有95%有效性,隔离措施100%有效.免疫与隔离的成本之比为1∶5,不考虑防控措施收益;

4)决策目标为疾病防控全过程成本最优的情况下感染人数最少,假设病人感染后单位时刻患病成本为1,免疫成本相当于其2倍.则该典型情景可以表示为图1.

图1 典型情景的接触网络Fig.1 Contact network of an assumed emerging epidemic

3.2情景建模

按照上一节中的建模步骤,构建突发传染病防控动态决策模型.

状态集合个体集合为{P1,P2,...,P50},个体的接触关系如图1所示,以B(Pi,Pj)形式枚举,不再赘述.初始时刻系统状态为{s(P2)=E1,s(Pi)=S,i/=2}.

行动集合行动集合由满足行动前提条件的节点所能采取的行动构成,在不同时刻会随疫情动态演化而不尽相同.初始时刻行动集合为{Imm(P1),Qua(P2),Imm(P3),...,Imm(P50)}.

状态转移函数基于算例情景假设R0=1.5,个体的平均传染能力可由式(1)得出T=0.226.由于每天传染能力相同,可基于式(4)得到传染向量v=(0.06,0.06,0.06,0.06,0.06).传染概率可由式(6)计算得到.若对个体i采取免疫行动Imm(Pi),则对应节点状态s(Pi)以0.95的概率变为R,以0.05的概率保持S.若对i采取隔离行动Qua(Pi),则以1的概率转移到s(Pi)=R.

收益函数根据算例情景假设,有Cunit=1,CImm=2,CQua=10,RImm=0,RQua=0,收益函数为

决策周期经测试,绝大多数仿真疫情均在100时刻内结束,因此令h=100.

折现因子由于决策周期有限,可令γ=1.

3.3情景仿真

由于突发传染病传播具有不确定性,所以本文依据疾病传染概率对其传播过程进行仿真,并依据防控措施的有效性对防控行动效果进行仿真.仿真分析具体设置为针对同一初始状态以不同随机数进行共计100次的实验,仿真时长为100,对仿真结果取均值,并将最终感染人数作为决策效果的评价标准.

为验证模型的决策效果,将动态防控策略分别与无措施策略和不计代价策略进行对比.动态防控策略按照式(9)定义的收益函数,采用求解动态决策模型所得到的防控策略来控制疫情;无措施策略全程不采取措施,相当于单纯的疾病仿真,提供了感染人数的上界;不计代价策略,基于动态决策模型得到的策略进行防控,但不考虑行动成本,得到感染人数下界.定义20人以上感染(超过总人数的40%)为疾病爆发,仿真结果见表2.

表2 3种防控策略仿真结果Table 2 Simulation results of three control policies

可以发现,无措施策略下疾病爆发率(61/100=0.61)符合接触网络模型的预测结果(根据式(2)得ρ= 0.62),说明本文提出的在时间维度上进行了扩展的接触网络模型能够较好地模拟突发传染病在网络上的传播.动态防控策略下疾病爆发率(12/100=0.12),根据式(2)相当于将个体的平均传染能力从0.06降至0.04(R0从1.5降至1.05),感染人数减少了59%,说明动态决策模型可根据收益函数的定义而相应地实现良好的防控效果.不计代价策略几乎完全阻止了疾病的爆发,理论上说明动态决策模型具有近乎完善的防控效果.

3.4模型敏感性分析

在突发传染病流行病学特征(疾病参数)不变的前提下,影响模型决策效果的参数包括接触网络结构,收益函数及行动的有效性.由于决策过程的动态性和复杂性,难以采用分析的方式讨论模型的敏感性,因此下文将以算例中所假设的典型情景下动态决策模型为例,以仿真的方式分析这些参数变化对决策效果的影响.

3.4.1接触网络结构

根据式(1)和式(4)可知,接触网络结构影响着单一个体造成的感染人数和疾病的爆发概率.为了探究网络结构对决策的影响,选择典型的小世界网络[30](WS网络)和无标度网络[31](BA网络),与ER网络进行对比研究.其中WS网络的生成规则为每个节点具有6个相邻节点,随机重连的概率为0.2.BA网络的生成规则为从初始节点开始,每次加入一个节点,新节点连接现有节点的概率为,其中α=1,c=5,控制每次新加节点的连接数,以1为初始节点,令加入的前2~16号节点连接数为2,17~32号节点连接数为3,33~50号节点连接数为4.基于上述规则随机生成的WS,BA网络度分布可见图2.

初始发病节点均选择最接近网络平均度的节点,除接触网络结构不同外其余模型参数与典型情景尽可能相等或保持不变,见表3.

基于此对WS,BA网络各仿真100轮,每轮仿真时长t为100,通过图3展示出在不同接触网络上无措施策略和动态防控策略下的感染人数.

图2 随机生成的WS,BA网络度分布Fig.2 Degree distribution of WS,BA contact networks

表3 ER,WS,BA接触网络参数Table 3 Parameters of ER,WS,BA contact networks

图3中浅色线表示每轮仿真的日患病人数的变化,黑色粗线表示100次仿真的均值.在无措施策略下ER,WS,BA网络的平均感染人数分别为20.38,19.25,19.85,疾病爆发次数分别为61,54,56;在动态防控策略下,平均感染人数分别为8.35,8.09,8.62,疾病爆发次数分别为12,5,9.可见网络结构虽然影响发病人数高峰的到来和疾病持续的时间,但并未显著影响感染人数和决策效果.

图3 ER,WS,BA接触网络的感染人数Fig.3 Number of infected individuals on ER,WS,BA contact networks

由于接触网络上决定疾病传播的参数〈k2〉,〈k〉和T非常接近,导致不采取防控措施情况下疾病最终状态非常接近,而基于动态防控策略对疾病进行防控的效果也较为接近.深入分析3个网络上所采取行动次数的分布,发现ER,WS,BA网络平均免疫次数分别为14.7,15.53,14.88,隔离次数分别为0.39,0.31,0.56,隔离行动占比分别为2.6%,2%,3.8%.可见WS网络上更倾向采取免疫措施,隔离措施占比低,主要因为该网络上节点度的分布更均匀(见图2),不存在传染力极强的节点,在图3中表现为该网络上疫情发展稍慢,发病人数峰值更低,疾病持续时间更长;BA网络隔离行动占比最高,主要因为该网络上某些节点度较大,容易感染且威胁与其相邻的节点,致使在决策中优先隔离该类节点.

3.4.2收益函数

在3.3节情景仿真中,不计代价策略与动态防控策略感染人数体现出极大差别,可见决策效果受到收益函数构成要素的影响.若将个体单位时刻患病成本作为单位1,防控措施的成本与收益总能够以此为单位相应表示.为与算例情景一致,暂不考虑防控措施收益,只研究成本变化对决策效果的影响.因此收益函数由3部分构成:患病成本Cunit,免疫成本CImm和隔离成本CQua.根据三者的大小关系可分为六种组合:

这些组合代表了不同的决策情景.组合1)与4)类似,代表某类措施相对于个体患病及另一类措施成本优势较为明显的情景;组合2),3)代表患病成本较低的传染病情景(如季节性流感);组合5),6)代表防控措施成本低于患病成本,对应严重传染病情景(如SARS或埃博拉).

如果固定隔离成本CQua=10且其它参数保持不变,而令免疫成本从4逐渐增至12,每组成本仿真100轮,其决策效果仿真结果见图4.

图4 隔离成本固定,免疫成本变化的仿真结果Fig.4 Simulation results with fixed Qua cost and varied Imm cost

可以看出,随着免疫成本的上升免疫措施在决策中所采用的次数逐渐减少,而隔离则相应增多.同时免疫成本与感染人数之间也存在一定的关联.当免疫成本低于患病成本时(即组合1))感染人数基本稳定.当免疫成本高于患病成本但低于隔离成本时(即组合2))感染人数增多.这是由于当免疫成本过高时在某些状态下会选择放弃对患者采取任何措施.当免疫成本超过隔离成本时(即组合3)),免疫次数低于隔离次数且染病人数有了明显的下降,甚至出现优于组合1)的决策效果.这是因为收益函数反映的目标是全过程成本最优下减少感染人数.而免疫只能保护单一易感个体,当不能阻止相邻节点从其它路径感染时期望收益并不显著;隔离则是将发病者从人群中移除,在消除疾病方面远优于免疫.所以突发传染病早期及时采取隔离措施可减小疾病规模,但也会导致疾病防控总成本增大.

如果固定免疫成本CImm=4且其它参数保持不变,而令隔离成本从2逐渐增至10,每组成本仿真100轮,其决策效果仿真结果见图5.

可以发现图5中存在一个明显转折,即当成本高于4时隔离在决策中所采用次数随着成本的上升逐渐减少,而染病人数基本保持稳定.其中当隔离成本介于4~7时(即对应组合6)),即使两类措施的成本均小于患病成本,动态决策策略依然偏好免疫.当隔离成本低于免疫成本时(即组合5))感染人数大量减少,这是因为低隔离成本鼓励早期更多地采取隔离措施,从而阻止了疾病爆发.

图5 免疫成本固定,隔离成本变化的仿真结果Fig.5 Simulation results with fixed Imm cost and varied Qua cost

对各种防控措施成本组合的分析可以为突发传染病防控提供有益的启示:当决策者更多地采取免疫时早期可以在一定程度上阻止疾病传播,但一旦疫情失控则会迅速蔓延爆发;当决策者更多地采取隔离措施,在疫情初期迅速处置消除传染源,可以极大地减小疫情爆发的概率,减少感染人数.

3.4.3行动有效性

通常,隔离行动具有极高有效性,而免疫行动有效性可能因疾病不同而呈现变化,因此只研究免疫有效性变化对决策效果的影响.假设其余参数不变而令免疫有效性从10%以每10%的幅度提升至100%,每组有效性仿真100轮,仿真结果见图6.

图6 免疫行动有效性不确定的仿真结果Fig.6 Simulation results of various successful rates of Imm actions

可以看出随着免疫有效性的提高,隔离次数总体呈下降趋势,感染人数亦呈下降趋势.当免疫有效性在60%~80%区间内时感染人数出现略微上升,这是因为随着免疫有效性的提高,免疫度较大节点的期望收益高于隔离当前发病节点,从而倾向采取预防而非控制策略,这就可能导致疾病的扩散.总体而言提高免疫有效性可以改善决策效果,而当有效性在一定区间内时可适当增加隔离措施的采用以降低染病人数.基于该判断,决策者可以通过政策措施降低隔离行动成本,以较小的额外投入实现更优的决策效果.

4 结束语

本文将传染病领域描述疾病传播规律最主流的接触网络模型与运筹学中解决随机动态优化问题的马尔可夫决策过程相结合,构建了突发传染病防控动态决策模型.该模型可以针对传染病在人群中随时间不断演化的过程动态决策,在不同时刻生成相应的作用于微观个体的防控方案,为突发传染病动态防控提供了理论依据.模型还具有较强的可扩展性,应用前景广泛:通过添加行动集合元素可以对新的防控措施予以采用;通过调整收益函数可以实现不同的决策目标,适应各类决策情景.此外,模型基于情景仿真并求解的方法,可以为“情景-应对”型应急管理模式及“基于平行应急管理的非常规突发事件动态仿真与计算实验集成升华平台”等相关集成升华平台提供决策方法支持.

本研究还存在一定的局限性,针对突发传染病中典型的SEIR类型传染病动态决策问题的研究中未关注其它少见类型的突发传染病;构建模型需要真实的突发传染病参数,但由于目前获取完整疾病案例记录较为困难,导致推断得到的疾病参数不够精确,一定程度上影响了模型的决策效果;求解模型对计算能力要求较高,在普通计算机上只能对1 000以内规模人群的防控策略进行求解.

[1]卢洪洲,翁心华.从H7N9禽流行性感冒谈新发传染病防控的重要性.中华传染病杂志,2013,31(4):193-196. Lu H Z,Wen X H.The importance of prevention and control of influenza by H7N9 avian influenza.Chinese Journal of Infectious Diseases,2013,31(4):193-196.(in Chinese)

[2]周涛,汪秉宏,韩筱璞,等.社会网络分析及其在舆情和疫情防控中的应用.系统工程学报,2010,25(6):742-754. Zhou T,Wang B H,Han X P,et al.Social network analysis and its application in the prevention and control of propagation for public opinion and the epidemic.Journal of Systems Engineering,2010,25(6):742-754.(in Chinese)

[3]Newman M E J.Spread of epidemic disease on networks.Physical Review E,2002,66(1):16128.

[4]Meyers L A.Contact network epidemiology:Bond percolation applied to infectious disease prediction and control.Bulletin of the American Mathematical Society,2007,44(1):63-86.

[5]Keeling M J,Eames K T D.Networks and epidemic models.Journal of the Royal Society Interface,2005,2(4):295-307.

[6]Bansal S,Grenfell B T,Meyers L A.When individual behaviour matters:Homogeneous and network models in epidemiology. Journal of the Royal Society Interface,2007,4(16):879-891.

[7]House T,Keeling M J.Insights from unifying modern approximations to infections on networks.Journal of the Royal Society Interface,2010,8(54):1-7.

[8]Cohen R,Havlin S,Ben-Avraham D.Efficient immunization strategies for computer networks and populations.Physical Review Letters,2003,91(24):247901.

[9]Liljeros F,Argyrakis P,Bunde A,et al.Improving immunization strategies.Physical Review E,2007,75(4):45104.

[10]Rushmore J,Caillaud D,Hall R J,et al.Network-based vaccination improves prospects for disease control in wild chimpanzees. Journal of the Royal Society Interface,2014,11(97):1-9.

[11]Pastor-Satorras R,Vespignani A.Immunization of complex networks.Physical Review E,2002,65(3):36104.

[12]Meyers L A,Babak P,Newman M E J,et al.Networktheory and SARS:Predicting outbreak diversity.Journal of Theoretical Biology,2005,232:71-81.

[13]邱晓刚,张鹏,陈彬,等.面向非常规突发事件应急管理的人工社会计算实验平台研究.中国应急管理,2014(2):7-14. Qiu X G,Zhang P,Chen B,et al.Research on the platform of artificial society computing toward unconventional emergency events management.China Emergency Management,2014(2):7-14.(in Chinese)

[14]杨青,杨帆.基于元胞自动机的突发传染病事件演化模型.系统工程学报,2012,27(6):727-738. YangQ,YangF.Emergencyepidemicsspreadmodelusingcellularautomata.JournalofSystemsEngineering,2012,27(6):727-738. (in Chinese)

[15]刘德海,王维国,孙康.基于演化博弈的重大突发公共卫生事件情景预测模型与防控措施.系统工程理论与实践,2012,32(5):937-946. Liu D H,Wang W G,Sun K.Scenario forecasting model and prevention-control measurements of important public health event based evolutionary game.Systems Engineering:Theory&Practice,2012,32(5):937-946.(in Chinese)

[16]Starnini M,Machens A,Cattuto C,et al.Immunization strategies for epidemic processes in time-varying contact networks.Journal of Theoretical Biology,2013,337:89-100.

[17]SélleyF,Besenyeiá,KissI,etal.Dynamiccontrolofmodern,network-basedepidemicmodels.SIAMJournalonAppliedDynamical Systems,2015,14(1):168-187.

[18]Kandhway K,Kuri J.How to run a campaign:Optimal control of SIS and SIR information epidemics.Applied Mathematics and Computation,2014,231:79-92.

[19]Enns E A,Brandeau M L.Link removal for the control of stochastically evolving epidemics over networks:A comparison of approaches.Journal of Theoretical Biology,2015,371:154-165.

[20]Hadjichrysanthou C,Sharkey K J.Epidemic control analysis:Designing targeted intervention strategies against epidemics propagated on contact networks.Journal of Theoretical Biology,2015,365:84-95.

[21]Longini I M,Halloran M E,Nizam A,et al.Containing pandemic influenza with antiviral agents.American Journal of Epidemiology,2004,159(7):623-633.

[22]Hethcote H.The mathematics of infectious diseases.SIAM Review,2000,42(4):599-653.

[23]Cao B,Li X,Mao Y,et al.Clinical features of the initial cases of 2009 pandemic influenza A(H1N1)virus infection in China.New England Journal of Medicine,2009,361(26):2507-2517.

[24]Puterman M L.Markov Decision Processes:Discrete Stochastic Dynamic Programming.New York:Wiley,1994.

[25]Kocsis L,Szepesvári C.Bandit based Monte-Carlo planning//The 17th European Conference on Machine Learning.Berlin:Springer-Verlag,2006:282-293.

[26]Keller T,Eyerich P.PROST:Probabilistic planning based on UCT//Proceedings of the Twenty-Second International Conference on Automated Planning and Scheduling.Sao Paulo:AAAI,2012:119-127.

[27]Tuite A R,Greer A L,Whelan M,et al.Estimated epidemiologic parameters and morbidity associated with pandemic H1N1 influenza.Canadian Medical Association Journal,2010,182(2):131-136.

[28]Pourbohloul B,Ahued A,Davoudi B,et al.Initial human transmission dynamics of the pandemic(H1N1)2009 virus in North America.Influenza and Other Respiratory Viruses,2009,3(5):215-222.

[29]Erdos P,Renyi A.On random graphs.Publicationes Mathematicae,1959,6(1):290-297.

[30]Watts D J,Strogatz S H.Collective dynamics of‘small-world’networks.Nature,1998,393(6684):440-442.

[31]Barabási A,Albert R.Emergence of scaling in random networks.Science,1999,286(5439):509-512.

Decision making model of emerging epidemics control based on Markov decision processes

Yu Zhenyu,Han Chuanfeng,Meng Lingpeng
(School of Economics and Management,Tongji University,Shanghai 200092,China)

Making dynamic decisions according to the spread of emerging epidemics on the contact network is an effective way of epidemics confinement.A contact network model of epidemics is expanded with time dimension,and considers the spread law of epidemics both in time and space in reality.Considering the immunity and quarantine measures,the dynamic decision making model of epidemics is formulated based on Markov decision processes.The model generates control policies dynamically and optimizes total utility over the decision horizon.The feasibility and effectiveness of the model are verified through a typical scenario modeling and simulation,and the results show that the dynamic control policies generated by the model have good performance in containing epidemics spread and can be used as decision support tools for responding emerging epidemics.

emerging epidemics;contact network;Markov decision processes;dynamic decision making;immunity;quarantine

TP273

A

1000-5781(2016)03-0338-12

10.13383/j.cnki.jse.2016.03.006

于振宇(1986-),男,山东济南人,博士生,研究方向:应急管理,决策理论,Email:freshyu2002@163.com;

韩传峰(1962-),男,山东寿光人,博士,教授,博士生导师,研究方向:管理系统工程,区域发展与社会治理,应急管理,Email:juanfeng12@163.com;

孟令鹏(1984-),男,山东昌乐人,博士后,研究方向:应急管理,社会治理,Email:lmeng@tongji.edu.cn.

2014-11-26;

2015-12-03.

国家自然科学基金资助项目(91024023;91224003);中国博士后科学基金资助项目(2014M551459).

猜你喜欢

传染病动态决策
国内动态
《传染病信息》简介
传染病的预防
国内动态
国内动态
为可持续决策提供依据
3种传染病出没 春天要格外提防
呼吸道传染病为何冬春多发
动态
决策为什么失误了