APP下载

基于信令数据的新冠肺炎传播模型构建

2020-08-26

广东通信技术 2020年8期
关键词:信令传染感染者

1 引言

自2019年12月以来,湖北省武汉市集中发生了多起病毒性肺炎,2020年1月8日查明病原为一种新型冠状病毒,经过基因测序被确定为新型冠状病毒肺炎(简称“新冠肺炎”)[1]。流行病学调查简称流调,是通过询问、信访、问卷填写、现场查看、测量和检测等多种手段,全面系统地收集和疾病事件有关的各种资料和数据,并进行综合分析,得出合乎逻辑的病因结论或病因假设的线索,提出疾病防控策略和措施建议的行为。流调的主要内容包括病例基本信息、发病诊疗和报告情况、相关活动情况、可疑暴露史情况、实验室检测情况等。由于新冠肺炎的潜伏期一般为14天,所以流调主要调查确诊或疑似病例在生病前14天至就医期间的流动轨迹,例如接触过什么人,去过什么地方,主要调查对象是感染源和感染途径尚不明确的病例,相比确诊病例的数量,感染源和感染途径不明确病例数量的增加更令人警惕。2020年2月6日下午,广东省新冠肺炎疫情防控工作视频会议在广州召开,会议强调做好流行病学调查,落实重点人群筛查,以应对返粤复工开学人潮高峰,防止疫情的扩散和蔓延。省卫健委党组书记、主任段宇飞表示,广东各大医疗机构将相继开诊,医院内感染风险加大,为此,广东省疫情防控指挥部明确要求省内各级医疗机构做好院内患者相关流行病学调查工作,调查对象不仅为门诊、急诊患者,还包括住院的患者,一线医务人员,凡是14天内有湖北旅行或居住史的患者必查。

随着大数据分析技术的日益成熟,流行病学调查除了依靠患者或疑似患者的口述,很多时候还要依托大数据分析技术的协助。疫情发生后,国内外科研人员就基于大数据分析技术,对新型冠状病毒的扩散趋势[1]、传播模型[2,3]和流行病学特点[4]等做了大量研究和报道。同时也产生了一系列为流行病学调查服务的定制化产品[5],腾讯、百度等互联网巨头基于GPS数据公开确诊患者(匿名)的轨迹并发现轨迹重合的人群,加强对感染的评估。三大运营商授权基于信令数据通过用户手机号分析判断是否有与疫情确认人员接触,或者通过短信查询近期出行轨迹。中国电子科技集团授权通过接入铁路、飞机及客运大巴的乘客身份证数据查询最近14天内是否与新冠肺炎确诊或疑似病例同乘火车、飞机位于其前后三排以及同乘大巴。相比互联网定位数据和铁路公路数据,信令数据的覆盖人群最广,但受基站范围影响定位误差也比较大。

赵序茅等从数据上论证了新冠肺炎的源头在武汉地区,全国各地城市(除武汉外)71%的感染病例和从武汉输出的人口相关[1],所以追溯省内感染病例与疫区输入型病例的关联关系对于流行病学调查尤为重要。本文利用脱敏信令数据进行轨迹碰撞,描绘省内感染病例与疫区输入型病例的传播关系、未感染者与确诊病例之间的接触情况,以达到追溯传染源、发现高危人群的目的。

2 新冠肺炎传播模型

2.1 数据概述

本文使用的数据来源于某省运营商提供脱敏后的信令轨迹数据,该数据承载了用户流动时产生的位置信息,实际为用户在该时刻附着的基站位置,每一条记录可以形式化为ci=,其中ui为加密后的用户唯一标识,xi为基站经度,yi为基站纬度,ti为时间戳。

另一数据源为该省疾控中心提供的确诊病例名单,内容包括加密后的用户唯一标识,是否有疫区旅居史,确诊日期,其中用户唯一标识与信令轨迹数据一一对应。该名单819个确诊病例中,248名为输入型病例,571名为本省感染病例,共涉及620 176个病例轨迹碰撞点,基于这些碰撞点在某市发现了310 713名高危用户。

2.2 传染源追溯

本文通过提取1月1日至各病例确诊日期前2天的所有轨迹,研究输入型病例与省内感染病例之间的关系,绘制传播关系图。整个分析过程如下:

(1)按照基站的覆盖范围,将该省划分成150米*150米网格,如果确诊病例在100秒内,与另一确诊病例处于同一网格(这个时间过程中内处于同一基站下,有可能会发生一次密切接触事件),我们认为发生一次碰撞事件,即这两个病例产生过传染事件,将产生传染事件的用户聚合为多元组,其中ti为传染事件发生时间,gi为传染事件发生网格,si为用户集合。

(2)接触时长也是影响传染事件的重要因素,所以我们对传染事件多元组中的时间进行累加,但是考虑到用户位于基站交界处可能会产生乒乓数据,即位置信息在多个基站间来回切换的情况,我们针对离开某一网格并在20分钟内再次返回该网格的用户继续累加接触时长,最终输出接触时长超过一定阈值的传染事件多元组。

(3)传染源追溯算法伪代码如算法1所示,该算法以过滤接触时长后的传染事件多元组作为输入,输出与输入型病例直接或间接接触的所有传播网络结点集合。

(4)遍历上述结点集合生成传播森林,其中传染时间遵循最早接触原则,例如当传播序列为时,应满足ti>ti-1且ti为ni与ni+1的最早接触时间,其中ni为确诊病例唯一标识,ti为传染时间。

2.3 高危人群发现

由于新冠肺炎的潜伏期一般为14天,所以本文提取某市确诊日期在2月25日之后的病例及用户2月11日至2月25日的所有轨迹,研究确诊病例与未感染者之间的关系,从未感染者中寻找高危用户。

算法1:传染源追溯算法输入:传染事件多元组集合U输出:传播网络结点集合T 1 T← ;2 P←输入型病例唯一标识集合;3 U’←U按时间从小到大排序;4 foreach u’in U’do 5 family← ;6 roots←u’中输入型病例集合7 if roots is not null then 8 foreach r in roots do 9 if r not in family then 10 father← ;11 children ← ;12 family[r]← ;13 T[r]←;14 end 15 foreach n in u’and not in roots and not in family[r] do 16 father←(r) ;17 children← ;18 family[r]←family[r]∪(n);19 T[r].children←T[r].children∪(n);20 T[n]← ;21 end 22 end 23 end 24 foreach n1,n2 in u’and not in roots and n1≠n2 do 25 foreach r’in family and not in roots do 26 if n1 in family[r’] then 27 father←(n1);28 children← ;29 family[r’]← family[r’]∪(n2);30 T[n1].children←T[n1].children∪(n2);31 T[n2]← ;32 end 33 end 34 end 35 end 36 return T;

分析方法:通过将地图划分成150米*150米网格,如果某一时空网格(时间为100秒)至少出现两名确诊病例,我们认为该网格为高危区域,未感染者所附着基站处于高危区域即发生了一次高危碰撞,未感染者很可能被确诊病例传染。

考虑到居家隔离的情况较多,与确诊病例处于同一住宅楼的未感染者都可能被纳入高危用户,为减少上述情况带来的干扰,我们会对未感染者的高危碰撞进一步过滤,只保留不同地理位置的高危碰撞,即未感染者经过不同地理位置的高危区域越多被传染的危险性就越大。

形式化表述为:

3 实验结果与分析

确诊病例关系图如图1所示,红色点表示输入型病例,黄色点表示省内感染病例,即每个发生传染事件的输入型病例对应一个关系图,每个结点的时间(地点)为该结点与其子结点的首次接触时间(地点)。在不考虑接触时间的情况下,省内感染病例与输入型病例的关联率为72.85%,略高于已公开文献的71%[1],究其原因,一方面信令数据的覆盖人群相比航空数据更广,另一方面本文使用的轨迹数据晚于该文献,疫情已发生了进一步的扩散。在248名输入型病例中,没有感染其他人的有30名,即没有发生碰撞事件。另外218名输入型病例一共传染给了416名省内被感染者,155名省内被感染者并未找到感染源头,说明还存在中间的传染源没有被发现。

图1 确诊病例关系图

进一步引入接触时长因素,关联情况随接触时长变化曲线如图2所示,其中横坐标为接触时长阈值,0s表示不考虑接触时长因素。可以明显看出随接触时长阈值的升高,传染他人的输入型病例数量和被感染的本省病例数量均呈下降趋势,关联率也从最高的72.85%下降到51.49%,说明接触时长对传染源追溯模型影响较大,在模型应用中可以根据实际需要选择合适的接触时长阈值。建议接触时长阈值小于30 s,关联率能够达到68%以上。

图2 关联情况随接触时长变化曲线

高危人群发现模块通过确诊病例14天轨迹碰撞获得310 713名高危用户,其中经过1至2个高危区域的人数最多,达到303 614人,占比97.7%,剩余高危人数与高危区域数的分布如图3所示,可以看出,高危区域数与未感染者人数呈反比,只有2人经过了最多29个高危区域,尽管经过10个以上高危区域的人数较少,但更有利于相关人员进行分析研判,相反实现预警则需要推送全部高危用户。在资源有限但对碰撞精确度有一定要求的条件下,高危区域数建议取3个以上,一般选取10个比较合适。

图3 高危人数与高危区域数分布

4 结论与展望

基于运营商提供的脱敏信令轨迹数据,本文构建了一种新冠肺炎的传播模型,通过追溯传染源、发现高危人群辅助流行病学调查。该模型追溯到相关部门提供病例名单中72.85%省内感染病例的源头,略高于已公开文献的71%[1]。本文验证了接触时间和高危区域数量两个阈值对模型的影响,为实际应用中的参数选择提供依据。

定位精度、空气流通程度和人流密集程度是影响新冠肺炎传播的主要因素,信令轨迹数据所携带的位置信息受基站范围影响存在较大误差,特别是偏远地区的基站覆盖范围更广。在后续工作中,可以考虑结合三角定位法、GPS数据等手段进一步提高模型的定位精度,并针对室分、微站等不同基站类型优化传播模拟效果。

猜你喜欢

信令传染感染者
Our Mood Can Affect Others
艾滋病感染者就医和就业歧视状况调查
听说,笑容是会“传染”的
SLS字段在七号信令中的运用
移动信令在交通大数据分析中的应用探索
基于信令分析的TD-LTE无线网络应用研究
传染
一类具有非线性传染率的SVEIR模型的定性分析
LTE网络信令采集数据的分析及探讨
HIV感染者48例内镜检查特征分析