基于前瞻性时空重排扫描的蚌埠市新冠肺炎疫情预警模型
2022-04-15张晓瑞朱明豪
闫 旭, 张晓瑞,b*, 朱明豪
(合肥工业大学 a.建筑与艺术学院b.数字人居环境研究实验室;合肥 230000)
0 引言
新冠肺炎疫情发生疫情初期,安徽省提出以县域为划分单元将全省划为极高、高、中、较低、低风险五类区域风险等级,根据风险等级的不同差异化疫情防控措施布控。目前国内大规模疫情已有效阻断,需要关注的是,作为安徽省一级梯队的蚌埠市在疫情初期曾一度成为省内疫情最严重的地级市,2020年2月9日蚌埠超过武汉成为全国疫情增长率最快的城市,日新增确诊病例达37.5%(同日武汉市为12.9%)[1]。
疫情预警,是指在缺乏确定的反应关系的前提下,通过收集、整理分析传染病资料,综合研判疫情信息,充分论证后调整行动预案,在下一次疫情暴发前或早期发出警报,促使相关部门及时做出反应,从而最大程度降低对高危地区人群的危害。目前国际与国内普遍建立了完备的疫情实时监测报告系统,使政府能够及时预警可能存在的聚集性疫情暴发[2]。以往常用的几种时间、空间扫描模型一定程度上解释了一些流行病在某段时间上的聚集性,单纯以时间分析模型探测传染病的聚集仅能预警一个地区某段时间内疫情的暴发可能,并不能从时间空间的多维角度解释疫情的传播特征,存在一定的局限[3-5]。Kulldorff等提出的前瞻性时空重排扫描统计量及其模型(Prospective Space-Time Permutation Scan Statistic)[6],对疫情会在何时、何地暴发以及暴发的强度等做出预警模拟,该模型的用途已不仅限于对急性流行病的传播模式研究,在生物入侵预警、犯罪行为调查、舆情检测等领域亦有广泛运用实例研究[7]。
地理信息技术及流行病动力学模型在分析新冠疫情分布和传播特征方面都起到了显著作用,众多的地理分析方法及早期预警模型已经广泛应用于公共卫生及传染病防治相关事业[8],约翰霍普金斯大学所做的全球疫情实时大数据地图以及国内丁香园疫情地图等众多平台推出的软件,再次体现了强大信息技术支撑下的疫情防控体系的力量[9]。疫情传播数理模型是区别于社会流调的一种纯理性的传染病传播模拟法,利用疫情发生点的时空信息对新冠肺炎疫情的暴发特征和传播规律进行探究,若前瞻性时空重排扫描统计量法对于蚌埠市疫情预警具有较强可行性,则推广至其他地市进行早期的新冠疫情预警就具备一定的应用价值。
1 研究资料
1.1 疫情病例数据
本次研究以安徽省蚌埠市2020年初暴发的新冠肺炎疫情逐日数据为基础,数据来源于蚌埠市卫生健康委员会及蚌埠市疾控中心信息公开发布的疫情信息。信息包括患者的性别、确诊时间、症状、长期住址、就诊医院及行动轨迹等信息[10]。信息显示,截至2020年3月1日,蚌埠全市共160例新冠肺炎疫情病例数据,对数据进行清洗,剔除无法确定详细信息的1例病例数据后,将剩余159例经过脱敏脱密处理后的有效病例数据导入GIS软件,经纬度信息精确到小数点后6位,进行矢量化及符号化初步处理得到蚌埠市域及市区疫情分布分级图,可知城市地区聚集程度显著高于农村,部分地段出现聚集性疫情,聚集性地区出现的时间及聚集区需要进行进一步探测。
1.2 地理信息数据
以民政部官方网站政务公开版块提供的即蚌埠市域与市区所在范围的栅格数据为基准,在ArcGIS 10.8软件中进行矢量化图斑的校准与重绘处理得到蚌埠市最新矢量地图;市域卫星影像图底采用LSV谷歌地图影像TIF文件;研究地理位置精确到乡镇/街道级别,即国家疾控中心系统最高精度,研究按蚌埠全域疫情涉及的81个乡镇街道及开发区进行统计分析。
2 研究方法
众多学者对于传染病预警模型做过大量研究,建立了ARIMA模型、指数加权移动平均模型、控制图法等[11-14],和用于传染病时空分析的常用时空扫描统计量、贝叶斯网络、PANDA、WSARE等模型[15],新冠肺炎患者在蚌埠市四区三县范围内均有分布,但整体离散程度较高,采用传统GIS数图分析手段对疫情的数量、空间及时间分布特征进行可视化呈现为目前较为普遍的方式,此形式呈现疫情数据是一个地理层面的多系统聚合过程,所采用的各种聚类方法(如多元聚类等)及图像展现形式(如核密度图像元大小等)、读者的主观解读都会使图像具有许多感受上的偏差,需要引入新的时空分析模型。
传统的空间自相关分析只在空间层面分析,因为不能考虑时间这一变量而有一定的局限性,本研究采用Kulldorff提出的前瞻性时空重排扫描统计量法,属于聚类研究中的热点探测类方法,可用于疾病暴发的早期预测,只利用病例数及时间位置信息,而无需地区高危人群数据。这是一种基于动态大小的圆形(若为投影坐标系也可能是椭圆形)移动窗口时空扫描统计的经典方法(图1),扫描每个空间单元,每次对周围扫描时都使用不同半径的圆,圆的半径从0到设定的最大风险人口值之间,一般不超过地区总人口数的50%,以扫描窗口为底叠加形成圆柱体,计算全过程窗口内覆盖的统计量,直到统计量停止改变。扫描统计量的定义为扫描窗口的广义似然比(Generalized likelihood ratio, GLR),GLR值越大,差异越具有统计学意义,则表示越具有聚集倾向。在所有窗口中选择统计量最大的窗口定义为疫情聚集度最高的窗口,以此来判别窗口内的发病数是否存在异常情况,使用蒙特卡罗假设性检验法(Monte Carlo hypothesis testing)检验集群内部分布的非随机性置信度分析,在所扫描到的最大及最小的聚集群中进行该假设性检验,从而锚定最高聚集区的空间,为最高可能聚类(Most Likely Cluster, MLC),第二则是第二级聚类,以此类推。由于基于无效性假设,计算随机数据集和真实数据集似然数之比获取P值,则无需考虑极其复杂的概率分布问题。
图1 时-空重排扫描预警模型简图
设某区域范围p在d天中的病例总数为Cp,d,在区域内所有时间内的总病例数C为
每个单位区域预期发生的病例数为μp,d
设在A扫描窗口范围内的实际发病数为CA,不考虑时间变化和空间的交互,CA符合超几何分布概型
其中C是数据中病例总数,c是在窗口内实际观察到的病例数,E[c]是零假设下,在窗口内协变量调整后的预期病例数。GLR反映了窗口聚集的可能性,所以最大的窗口一定不是随机发生的,其非随机性是能够置信的。为了验证其非随机性,还是需要进行置信度分析,其扫描窗口的无效假设为:事件在时空发生的概率完全随机。但获得窗口的扫描统计量概率分布十分困难,可使用蒙特卡罗假设检验法计算P值,对可能异常的聚集区进行随机化检测。根据总数生成N个随机分布的数据集,将这些数据集的GLR和真实数据集窗口的GLR比对,将随机生成的N个数据集的GLR值升序排列,真实的GLR排在S位,则P值为S/(N+1),排名越靠前,P值越小,该窗口随机化的程度(可能性)越小。SaTScan 9.6软件中设置蒙特卡罗法生成999个随机的数据集,则P值精确到小数点后三位,若GLR排在第5位,则P值为0.005,窗口为随机化的可能性为0.5%,其置信度为99.5%。若排在第50位,则P值为0.05,随机化的可能性为5%,置信度95%,依此类推。
扫描高频率集簇属于较为常见的扫描统计类法,时间趋势扫描统计的空间变化不是寻找高或低比率的聚类,相反它寻找的是趋势高于或低于集簇外趋势的“集群”。与其他类型扫描一样,可以只查找具有高趋势的簇,也可以只查找具有低趋势的簇,或者同时查找这两种类型的簇。集簇的高趋势可能是增长率大于簇外,或是下降率小于簇外。同样地,一个集簇的低趋势,要么因为它的增长率小于集簇外部,要么因为它的下降率大于集簇外部[16]。
3 结果
研究区为蚌埠全市全域,包括禹会区、蚌山区、淮上区、龙子湖区、五河县、固镇县、怀远县范围(北纬32°43'至 33°30',东经116°45'至118°04'),研究区面积5951平方公里,常住人口约为329.64万人;市域疫情整体发病率为0.05‰。
关键参数选择:最大扫描半径的选择,可按照风险人口的比率或者地理空间半径来选择,本研究按照软件默认的推荐设置,以多数传染病研究中通行参数选择风险人口群体的50%人口为窗口最大半径,最大聚集时间簇集为15 d(50%总研究时间),最小研究窗口时长为5 d,时间步长为1 d,聚集窗口最低病例数为2例,蒙特卡罗法检验次数设置为999次。从2020年1月23日至2月23日进行逐日时-空重排扫描的前瞻性分析预警,研究全域出现的聚集区,得出如表1的探测结果。由于研究区域范围为地级市市域,病例样本总量较小,一般单因素方差分析、简单线性相关回归及大样本研究中等约定俗成的设定否定原随机性假设条件α=0.05,但在小样本多元线性相关、回归、多元Logistic回归时可以设定α=0.10为可否定原假设条件。设定P≤0.1置信度达到标准,根据表1得出的4个聚集区P值去除后两项高随机性数据,对前两项聚集区结果进行后续分析。
表1 2020年1月23日至2月23日蚌埠市市域前瞻性时空重排扫描模型检测聚
将SaTScan 9.6软件输出的Shapefile文件导入至ArcGIS 10.8软件中,结合软件生成的KML文件,可得出前瞻性时空重拍扫描的高/低聚类可视化图片,经过处理得到蚌埠市域高/低聚类分布街道图(按乡镇街道覆盖面积的50%为临界值区分),在738次重复计算后,蒙特卡罗序列停止。其中扫描统计量值为6.01的预警强度最高的聚集区为低聚集区,半径400 m,预期病例数为6例,但实际无病例发生,预警再次出现的时间为15天,主要涉及龙子湖区治淮街道,图中标注为蓝色;第二聚集区为高聚集区,扫描统计量值为5.90,半径48公里,预期病例数10例但实际病例数达22例,涉及34个街道及乡镇开发区,主要涉及怀远县片区,复现间隔11天。
4 讨论
时空扫描统计量是一种比较常见的空间研究方法[17],其作为一种热点探测与数据挖掘方法,有多种概率模型可以使用,该模型对于短期集中暴发的疫情传播趋势预警具有一定优势[18]。在研究基数特别小的情况下(如本例),选取泊松近似的超几何分布概型来进行计算较为简单直接[19]。感染新冠病毒或病毒携带者出现阳性反应具有滞性,有一定时长的潜伏期,前沿医学研究显示新冠病毒平均潜伏期为5.2 d[20],而我国普遍采取疑似病例隔离14天内检查有无阳性症状作为判断确诊与否的依据[21],故本研究设置最小探测窗口时长为5 d,最大集簇时长设置为15 d以预警潜伏期尚未暴发的新冠疫情,具有一定的预防医学依据。
时空重排扫描方法也存在一定局限性,在样本总量较小时,若能够取得完整的、可信度高的病例数据,则误差较小。当病例数据缺失或数据不完整时,如确诊病例的位置是位于家中还是工作单位或是对于就诊的选择是去医院或是自行居家隔离这些差异都会对研究预期产生影响,该法对数据源的要求较高,且需对样本数据清洗,在小尺度地理范围内预警时探测到的窗口P值往往比经验值大,若按经验值则不能完全否定原随机性假设。时空重排扫描采用的是圆形或椭圆形的窗口,则扫描到的疫情潜在的暴发窗口边界也并非和真实的地理边界重合,例如暴发于一些宽度窄而狭长的街道,或是辖区行政边界范围附近的区域。
了解新冠肺炎疫情在时-空双维度的分布和扩散传播的特征具有十分重要的测绘地理学及预防医学双重意义[22],研究为探测蚌埠市可能的新冠疫情聚集性暴发点,为市卫健委提供可行的差异化疫情防控建议,辅助城市防疫决策并提供科学合理的依据。由于新冠疫情在蚌埠市爆发集中于2020年1至2月,尚未有实际验证预警的方法,但使用地理信息可视化技术结合预警模型可对将来一段时间有效防控地方疫情,在预警显示的高危探测区内继续网格化细分,对医院、商场、酒吧、网吧、KTV等人流量大、成员复杂的场所进行摸排,结合访查法、抽样法对市县具体乡镇(街道)进行防控。随着疫情的消散,国内疫情基本阻断,各地社会生产生活已经恢复常态,但疫情防控仍然不能放松警惕。