APP下载

前瞻性时空重排扫描统计量在新冠肺炎疫情预警中的应用

2022-01-19张晓瑞朱明豪

北京建筑大学学报 2021年4期
关键词:聚集区前瞻性时空

闫 旭, 张晓瑞,2, 朱明豪

(1.合肥工业大学 建筑与艺术学院, 安徽 230009; 2.合肥工业大学 数字人居环境研究实验室, 安徽 230009)

疫情预警的定义,是指在缺乏确定的反应关系前提下,通过收集、整理分析传染病资料,综合研判疫情信息,充分论证后调整行动预案,在下一次疫情爆发前或早期发出警报,促使相关部门及时做出反应,从而最大程度降低对高危地区群体的危害[1-3]。目前国际与国内普遍建立了完备的疫情实时监测报告系统,使政府及卫健部门能够及时预警可能存在的聚集性疫情爆发[4],以往常用的几种时间、空间扫描模型一定程度上解释了一些流行病在某些时段上的聚集性,但单纯以时间或空间维度分析探测传染病的聚集仅能模拟单一维度内疫情爆发的可能,并不能从时空多维角度解释某种疫情的传播特征,存在一定的局限[5]。有学者提出的前瞻性时空重排扫描统计量法及其模型[6-7],对疫情会在何时、何地爆发以及爆发的强度等做出类似多次成功的预警模拟,该模型的用途已不仅限于对急性流行病的传播模式研究,在生物入侵预警[8]、犯罪行为调查[9-10]、舆情检测[11]等领域亦有广泛运用的实例研究。

地理信息技术及流行病动力学模型在分析疫情分布和传播特征方面都起到了显著作用,众多的地理分析方法及早期预警模型已经广泛应用于公共卫生及传染病防治相关事业[12],约翰斯·霍普金斯大学所做的全球疫情实时大数据地图以及国内丁香园疫情地图等众多平台推出的软件,再次体现了强大信息技术支撑下的疫情防控体系的力量[13-14]。疫情传播数理模型是区别于社会流调的一种纯理性的传染病传播模拟法,利用疫情发生的时间及轨迹等大数据信息对疫情的爆发特征和传播规律进行探究。目前尚无学者利用前瞻性时空重排扫描统计量法探测新冠肺炎疫情聚集性爆发预警的相关案例,若此法具有较强可操作性,则推广应用至其他区域进行早期的疫情预警就具备一定应用价值。

1 研究资料

1.1 疫情病例数据

德国新冠肺炎疫情爆发和传播特征在国际社会特别是欧洲地区疫情形势中具有普遍代表性,具备一定研究价值。本次研究以德国2020年初爆发的新冠肺炎疫情逐日数据为基础,数据来源于德国联邦卫生部及各州政府卫生和护理部网站公开的经主管当局确认属实的疫情和病例信息。包括确诊时间、确诊县区以及经纬度信息。在研究时段范围内,德国全国累计报告1 616例新冠肺炎疫情病例,经过对数据清洗,剔除无法确定详细信息的2例病例数据后,将剩余1 614例脱敏后的有效病例数据导入ArcGIS 10.8,经纬度信息精确到小数点后6位。相关数据经过矢量化及可视化处理后如图1所示,聚集区出现的时间及传播特征有待进一步探测。

1.2 地理信息数据

根据DIVA-GIS提供的德国电子行政地图,即最新Shapefile数据为基准,在ArcGIS 10.8软件中进行矢量化图斑的校准与重绘处理得到研究区最新矢量地图;市域卫星影像图底采用Arc GIS在线地图图层以及谷歌影像TIFF文件;研究地理位置精确到区县级别,对疫情涉及的德国16个联邦州,40个行政专区及225个县区的地理分布情况进行逐日模拟及统计分析。为把控疫情宏观形势变化,结论在州及行政区级的尺度上进行趋势研判。研究区范围为47.269 859 N~55.056 526 N,5.871 619 E~15.038 113 E,面积357 545.22 km2,常住人口约为8 253万人,疫情整体发病率约为0.20。

2 研究方法

众多学者对于传染病预警模型做过大量研究[15],例如ARIMA模型、指数加权移动平均模型、控制图法等[16-17],以及用于传染病时空分析常用的时空扫描统计量、贝叶斯网络、PANDA、WSARE等模型[18],新冠肺炎患者在德国全域范围内均有分布,但整体离散程度较高,采用传统GIS数图分析手段对病例的数量、空间及时间分布特征进行可视化呈现为目前较为普遍的方式,但此类形式呈现疫情数据是一个地理层面的多系统聚合过程,所采用的各种聚类方法(如热点分析、异常值分析及多元聚类等)、图像展现形式(如核密度图、方格渔网图等)及读者的主观解读都会使图像具有许多感受上的偏差,需要引入新的时空分析模型。

传统的空间自相关分析只在空间层面分析,因不能考虑时间这一变量而有一定的局限性。本研究采用CDSTA等提出的前瞻性时空重排扫描统计量法,属于聚类研究中的热点探测类方法,可用于疾病爆发的早期预测。其优点是只利用病例数及时间位置信息,而无须地区高危人群数据,该模型是一种基于动态大小的圆形(若为投影坐标系也可能是椭圆形)移动窗口的时空扫描统计法(图1)。扫描基于每个空间单元,每次对周围扫描时都使用不同半径的圆,以扫描窗口为底随着单位时间的推移叠加高度形成圆柱体,计算全过程扫描窗口内覆盖的统计量,直到统计量停止发生改变。扫描统计量的定义为扫描窗口的广义似然函数比(Generalized Likelihood Ratio, GLR),GLR值越大,差异越具有统计学意义,则表示该窗口越具有异常的聚集倾向。在所有窗口中选择统计量最大的窗口定义为疫情聚集度最高的窗口,以此来判别窗口内的发病数是否存在异常情况。使用蒙特卡罗假设性检验法(Monte Carlo Hypothesis Testing)检验聚集区内部要素分布的非随机性置信度,在所扫描到的最大及最小聚集区中进行该假设性检验,从而锚定最高聚集性区域的空间为最高可能聚集区(Most Likely Cluster, MLC),聚集性排名第二则是第二可能的聚集区,依此类推。由于研究基于无效假设,即计算随机数据集和真实数据集似然数之比获取P值,无须考虑极其复杂的概率分布问题。

图1 时空扫描模型简图Fig.1 The diagrams of space-time scan model

设某单位区域范围p在d天中的病例总数为Cp,d,则所有区域及所有时间范围内的总病例数C为:

(1)

单位区域范围内每天预期发生的病例数μp,d为:

(2)

则每个柱形扫描窗口A(下文简称“窗口A”)的预期发病数μA为:

(3)

式中:μp,d为区域p中的整个研究时间范围内的发病数。

设在窗口A范围内实际观测到的发病数为CA,不考虑时间变化和空间的交互,则CA符合超几何分布模型:

(4)

(5)

式中:μA为无效假设下在窗口A内协变量调整后的预期病例数。C-μA为窗口A外的预期病例数。

GLR反映了窗口聚集的可能性,所以GLR值最大的窗口一定不是随机出现的,其非随机性是能够置信的,但为了验证其非随机性,还需要进行置信度分析,其无效假设为:事件在时空发生的概率完全随机。获得窗口A的扫描统计量概率分布十分困难,可使用蒙特卡罗假设性检验法计算P值,对可能异常的聚集区进行随机化检测,根据总数生成N个随机分布的数据集,将这些数据集的GLR和真实数据集窗口的GLR比对,将随机生成的N个数据集的GLR升序排列,真实的GLR排在S位,则P值为S/(N+1),排名越前,P值越小,该窗口随机性程度越小。例如SaTScan 9.7软件中设置蒙特卡罗假设性检验法生成1 999个随机的数据集,则P值精确到小数点后三位,若GLR排在第5位,则P值为0.003,窗口为随机的可能性为0.25%,其置信度为99.75%,若GLR排在第50位,则P值位0.025,窗口为随机的可能性为2.50%,置信度97.50%,依此类推。

扫描高频率聚集区属于较为常见的扫描统计类法,时间趋势扫描统计的空间变化不是寻找高低趋势的聚集区,而是寻找趋势高于或低于聚集区外趋势的“集群”。与其他类型扫描一样,可以只查找具有高趋势的聚集区,也可以只查找具有低趋势的聚集区,或者同时查找这2种类型的聚集区。聚集区的高趋势可能表现为增长率大于簇外,或是下降率小于簇外。同样地,一个聚集区的低趋势,可能因为它的增长率小于聚集区外部,或下降率大于聚集区外部[19]。

3 结果分析

3.1 时空聚集性分析结果

研究采用前瞻性时空重排扫描统计量法,每次扫描当日前(含当日)的数据,对于最大扫描半径参数,可按照风险人口的比例或者地理空间半径来设置。本研究按多数传染病研究进行相关参数的设置,即设置风险人口群体的50%为窗口最大半径,最大窗口时长为14 d,最小窗口时长为1 d,时间步长为1 d,聚集窗口最低病例数为2例,蒙特卡罗假设性检验法的检验次数设置为1 999次。从2020-03-08至2020-03-11进行逐日时空重排扫描的前瞻性分析预警,研究德国全域出现的聚集区,得出探测结果(表1)。

研究区域范围为国家级,地理范围及病例样本总量都较大,则设定P≤0.001代表置信度达到标准。将SaTScan 9.7软件输出的Shapefile文件导入至ArcGIS 10.8软件中,软件计算时间为1 s,调用16个处理器核心参与运算。结合软件生成的可视化Html文件,可得出前瞻性时空重排扫描的高趋势以及低趋势可视化图片,经过处理后得到研究区全域的高低趋势分布图(按覆盖面积的50%为临界值区分),在1 999次重复计算后,蒙特卡罗序列停止。

表1 研究区全域前瞻性时空重排扫描检测聚集区Tab.1 Detection results of epidemic clusters in study area

结果显示,预警强度最高的第1聚集区主要覆盖德国东部与波兰、捷克接壤的萨克森州与部分图林根州范围,扫描统计量为40.80,半径约100 km涵盖33个区县,预期病例数小于1例,但实际产生了14例病例,预警时间为1 d,研究结果表示下一阶段德国疫情可能有向萨克森州及西部与图林根州两地交界处发展。第2聚集区为低聚集区,主要覆盖威斯特法伦州的科隆市,扫描统计量为35.38,半径31.77 km,预期病例约为190例,但实际仅有91例,预警时间为4 d,按照预警信息显示此区域本应出现疫情聚集爆发事件,但实际病例数却少于预期,窗口病例下降趋势快于窗口外或增长率小于窗口外。第3聚集区覆盖面积最大,涵盖研究区北部13个州的83个县区,预警时间为2 d。结合第1聚集区预警时间及范围推断,近期时段内研究区整体的疫情态势可能为自东部边境向西北部地区发展。根据德国卫生部网站公布的新冠肺炎疫情预警信息与本次研究预警最强的2处区域结果叠合对比,萨克森州和图林根州均为研究时段及当前德国疫情排名最严重的区域,均符合预警强度最高的预期。

3.2 时空重排扫描统计量法的优劣势

前瞻性时空重排扫描统计量法是一种较常见的空间研究方法,其作为一种热点探测与数据挖掘方法,有多种概率模型可以参与计算,对于预测短期集中爆发的疫情具有一定优势[20]。基于超几何分布的前瞻性时空重排扫描统计量法对于人口密度高、地域广泛的案例预警效果较一般方法好,在研究基数中等、区域较大的情况下(如本例),亦可以采用本方法。本法分析之初并不对疫情爆发聚集区的窗口大小、规模、位置做出定义,避免了主观臆断的影响,可以最大程度拟真,挖掘潜在数据信息。将研究范围扩大至国家的全境,避免了以区划单元为界限进行模拟而导致边界附近的聚集无法被准确探测的劣势,有效规避行政边界的阻隔对于探测的干扰。感染新冠肺炎病毒携带者出现阳性反应具有滞后性,有一定时长的潜伏期,而国际普遍采取以疑似病例隔离14 d内检查有无阳性症状作为判断确诊与否的依据[21],故研究设置最大探测时长为14 d的窗口,具有一定的预防医学依据。

了解新冠肺炎疫情在国家区域尺度内的时空维度分布和扩散传播特征具有重要的测绘地理学及预防医学双重意义[22],但前瞻性时空重排扫描统计量法也存在一定局限性:在样本总量较小时,若能够取得完整的、可信度高的病例数据,则误差较小。若这些病例数据部分信息缺失或数据不完整、不确切时,例如病人是在家中还是在工作单位感染疾病,以及病人就诊后是选择去医院就医还是自行居家隔离等差异,都会对研究预期产生影响。该法对数据源的要求较高,且需对样本数据清洗,在小尺度地理范围内预警时探测到的窗口P值往往比经验值大,若按经验值则不能完全否定原随机性假设。时空重排扫描采用的是圆形或近似圆形的窗口,扫描到的疫情潜在的爆发窗口边界也并非和真实的地理边界重合,例如爆发于一些宽度窄而狭长的街道或河流沿线,或是辖区行政边界范围附近的区域。但其他形状的扫描窗口算法复杂程度远高于圆形窗口,近年来也有学者采用基于不规则扫描窗口的可变形空间扫描统计量法(Flexible spatial scan statistic,FleXScan)与本研究所采用的SaTScan软件提供的前瞻性时空重排扫描统计量法进行对比研究的案例,结合研究结果来判断模型差异性及适应情景,结果表明圆形窗口会将部分低风险地区纳入进计算区域从而得出错误预警,说明了以动态圆形作为扫描窗口的局限性,而FleXScan对于边缘非规则区域的检验则具有更好的效能。

4 结论

目前学界将前瞻性时空重排扫描统计量法运用于新冠肺炎疫情的相关研究和可行性分析较少,为探索前瞻性时空重排扫描统计量对于新冠肺炎疫情预警的可行性,本文选用该方法对德国全境新冠肺炎疫情潜在的爆发区进行探测,综合考虑了新冠肺炎疫情发病和传播特点,使用符合疫情特征的窗口最大探测时长参数进行研究,探测可能出现的聚集性爆发区并及时预警,在2020-03-08至2020-03-11共探测出6个非随机性显著的聚集区,成功预警了萨克森州和图林根州部分交界区域以及研究区西北部的下一阶段疫情爆发趋势,从地理学及预防医学角度对该方法运用于国家级区域的新冠肺炎疫情早期预警进行了可行性分析。由于研究时段与国内疫情的集中爆发时段相近,可作为国内在宏观区域视角下实施可行的差异化疫情防控措施提供案例参考,为国内防疫决策提供科学合理的依据,有助于合理调配资源,及时采取积极有效的防疫措施。国内外相关文献证明了前瞻性时空重排扫描统计量法的可行性及易操作性,许多团队已研究多年,各类数理模型相对成熟,在我国的疫情防控指挥中可以引入该方法进行辅助决策,促进我国疫情预警通报系统的建设和完善。

猜你喜欢

聚集区前瞻性时空
成都市科技服务业发展现状分析
跨越时空的相遇
前瞻性护理对老年高血压患者认知能力及生活质量的影响
玩一次时空大“穿越”
现代物流产业聚集区发展研究
时空守护者之宇宙空间站
时空之门
锦州店铺以及街(路)命名的文化内涵与功能分析
沈阳铁西区装备制造产业聚集实证分析
工业产业聚集与劳动生产率相关性探讨