APP下载

新冠肺炎疫情下接触者追踪的隐私风险及保护

2021-10-26徐正全

吉林大学学报(信息科学版) 2021年5期
关键词:令牌全球定位系统集中式

王 冬, 徐正全

(1. 杭州电子科技大学 网络空间安全学院, 杭州 310018; 2. 武汉大学 测绘遥感信息工程国家重点实验室, 武汉 430079)

0 引 言

世界卫生组织在2020年1月30日宣布冠状病毒COVID-19已经爆发为国际关注的公共卫生紧急疫情[1]。自2019年11月17日第1例COVID-19病例以来[2], 全球累计病例数近1亿人, 截至2021年2月, 已有260万人死于新冠肺炎[3]。

在病毒大流行期间, 大量的与病毒传播有关的数据正在被收集和分析, 例如, 患病者的年龄, 疾病史, 地点, 肺部CT等数据。通过这些数据, 并利用先进的计算和分析技术, 在控制COVID-19传播中发挥了强大的作用。同时由于所收集的数据, 包括健康数据和病史、 大规模监控、 联系人追踪和社会关系, 通常包含个人身份信息, 从而使个人隐私存在泄露的风险。欧盟议会在一份新闻稿中指出: “这些工具的使用可能会严重干扰人们私生活的基本权利和个人数据的保护, 相当于对个人的监控状态”[4]。如何平衡隐私保护与个人数据收集和发布, 用以监测大流行和改善公共卫生已经引起了许多学者的研究兴趣, 并且随着社会的发展, 在面向类似的大规模的疫情爆发时也将是一个持续探讨的主题。各国政府、 学术界和工业界已经合作寻找解决这个问题的有效方法[5-10]。目前, 各国为遏制疫情做出了各种努力, 而疫苗和药物的开发至关重要, 目前我国已经自主研发出了新冠病毒疫苗, 政府目标是预计到今年年底前, 完成至少70%的目标人群接种, 这在不久的将来很快实现[11]。

新冠肺炎大流行期间收集的各种类型的信息可能会导致隐私问题。根据数据类型的不同, 缓解隐私问题的方法和措施可能会有所不同。笔者重点关注由位置和接触人跟踪数据收集和共享引起的隐私问题。

1 新冠肺炎大流行中的接触者追踪

追踪接触者是遏制大流行的一个相当重要的概念。其目的是识别并随后隔离可能是病毒携带者的人。由于感染者感染病毒的潜伏期约为3 d, 而初始症状最早也要在5 d后才会出现, 甚至更晚才会被诊断, 因此在这段时间内, 病毒携带者会继续传播。为此, 了解已被确定为病毒携带者的接触者, 是有效抑制潜在携带者传播的重要方法。通常无症状是感染扩散的第2个关键原因。在这种情况下, 接触者追踪可通过与有症状的患者接触识别无症状的携带者, 接触者追踪和随后的隔离消除了病毒传播的源头, 并且不依赖于传染源。立即检测和确定接触者可在检测结果呈阳性时识别进一步接触者。如果结果为阴性, 则在潜伏期后重复检测, 如果出现第2次结果为阴性, 则解除隔离。

虽然接触追踪已被证明有助于追踪和减缓COVID-19的传播, 并在抗击这种流行病方面发挥重要作用, 但华盛顿邮报、 福布斯和路透社等主要报纸以及有些国家政府机构对接触追踪相关的高隐私风险提出了警告。在接触追踪期间收集的信息通常包括非常详细和频繁的位置数据, 这导致推断个人的私人生活和健康状况变成可能。众所周知, 位置是人们身份的高度暴露数据, 比如De等[12]在2013年对150万人进行了为期15个月的研究发现, 4个时空移动性数据点足以识别95%的人。

当前世界各国已经开发和部署了联系追踪软件或移动应用程序, 对隐私问题产生了不同程度的警觉。表1给出了有些国家政府的联系追踪应用程序和软件的例子, 按照所使用的技术和政府在数据收集和信息共享过程中的参与程度进行了分类: 包括使用全球定位系统(GPS)数据的联系人跟踪应用程序和一些软件收集用户的位置数据, 而基于蓝牙的技术大多只需要用户之间的相对速度-空间接近度。从这个意义上说, 基于蓝牙的方法比基于全球定位系统的方法收集的私人信息少。在全球定位系统或基于蓝牙的方法中, 可以部署集中式或去中心化模型收集和存储数据, 共享信息, 并提醒用户潜在的新冠肺炎的暴露。然而, 这两种模型在匿名程度和为数据贡献者实现隐私保护的方法上有所不同。

表1 COVID-19接触者追踪应用程序和软件示例

对集中式模型, 联系追踪数据由某些机构(如卫生当局或地方政府)收集、 整合并与目标人群共享。从这个意义上讲, 集中模式的运作就像一个大规模的监控系统, 从收集每个人数据, 无论是健康的还是患病的, 政府分发给所有的个人唯一的标识符, 并知道向哪些目标用户提供某些信息。但就隐私而言, 集中式模型在与政府共享信息方面, 用户并没有隐私可言, 他们只需相信政府会保护他们的数据安全和隐私。相比之下, 对去中心化模式, 没有必要通过中央服务器收集或存储每个人的信息。那些未检测或检测结果为阴性的人的位置和联系信息被存储并在他们各自的设备上进行本地处理, 他们可以选择通过公共平台(如包含权威机构建立的新冠肺炎热点信息的网站)检查他们是否与感染者有过交集。通常情况下, 该网站上共享的信息已经经历了一些类型的数据匿名化、 模糊化、 或整合正式隐私概念的处理。总之, 与集中式模型相比, 去中心化模型为个人提供了更高级别的隐私保护。

2 基于全球定位系统GPS的接触跟踪方案

基于全球定位系统的应用程序是全天候地从收集个人带有时间戳的全球定位系统数据。如果收集的GPS数据表明两个人在某个时间非常接近, 并且如果其中某人被检测为新冠肺炎阳性, 则另一个人将收到政府关于接触事件的通知, 或通过在本地检查授权人自己公开发布的联系追踪信息发现本人跟阳性患者有过接触, 并将接受自我隔离。即政府收集和共享信息的方式分化出了集中化和去中心化模式。

中国的支付宝健康码就是一个集中模式的例子。支付宝健康码为个人分配一个彩色二维码(绿色、 黄色、 红色), 代表个人的健康状况。绿色代码表示最高级别的健康, 个人可以不受限制地去任何地方; 红色代表高风险, 需要2周隔离, 黄色代表1周隔离。色码的确定通常基于个人的运动轨迹历史, 如果该人去过新冠肺炎的某个热点地区, 则该人就有很大的感染概率, 并有可能收到红色或黄色代码。每次扫描个人二维码时, 关于当前位置的信息都会被发送到属于某些机构的一些服务器上, 从而使这些机构能跟踪人们随时间的移动。此外, 该应用程序通常要求用户使用他们唯一的身份信息进行注册, 如身份证号码、 姓名和电话号码。同中国类似, 韩国开发了Corona 100m (Co100) app作为集中式模型。该应用程序使用政府收集的位置数据, 当用户接近到一名新冠肺炎患者最近访问的位置100 m范围内时, 向用户发出警告。

Safepaths是麻省理工学院团队开发的的隐私保护平台, 是去中心化模式的一个典型例子。它包括一个智能手机应用程序PrivateKit和一个网络应用程序SafePlaces。安全地点共享受感染人员的匿名和模糊的位置历史记录, 位置工具包允许用户将他们的个人位置历史记录与安全地点上的共享信息进行匹配。换句话说, 健康的人不用与政府分享或报告就能在本地保存自己的运动轨迹日志。然而, 一旦某人的新冠肺炎检测呈阳性, 她的位置历史信息将被报告给政府。因为位置历史包含私人信息, 其中一些甚至与新冠肺炎追踪无关(例如: 个人大部分时间呆在家中的位置, 暴露了家的位置), 这些信息在被放入安全地点前通常会被编辑或模糊, 用户可以将他们的运动轨迹日志与那些被感染的人进行比较, 以查看他们是否曾经遇到过或去过感染者所去的地方。以色列开发了HaMage应用程序(HaMage是希伯来语中盾牌的意思), 其想法与Safepaths平台相似, 它允许用户的全球定位系统数据与政府统计的新冠肺炎热点地区流行病学位置数据库进行本地比较, 从而让居民自行比对去过的轨迹。

基于全球定位系统的接触追踪方案中的集中式和去中心化模型如图1所示。集中式模型使用患者和健康用户的唯一标识符跟踪位置和联系信息以及健康状态。该方案潜在的隐私风险是显而易见的。首先, 在某些情况下, 当在诊断前几周内广播她的位置历史时, 就很难对感染者的身份进行保密, 尤其是当感染者最近与健康人近距离互动的次数比较多时。其次, 它使警报和通知系统更加依赖于个人的位置数据, 这种精确度是以个人隐私受损为代价的。在集中式模型中必须要保证政府是完全可信的情况下, 才能使收集到的位置数据保持其数据的私密性和安全性。而去中心化模式仅收集位置信息, 并从报告的新冠肺炎患者共享该信息的匿名版本。因此, 对患者的隐私保护水平更高。此外, 去中心化模式不收集健康人的位置轨迹信息, 只会在公共论坛上分享关于新冠肺炎热点的信息, 没有针对特定个人的具体目标。换句话说, 每个人都可以去网站或平台上察看热点在哪里, 而不必注册自己的个人信息。因此, 在健康人的去中心化模式中, 隐私问题相对较少。另一方面, 在没有个性化警报的情况下, 去中心化模式将根据用户的自我发起和主动回复到公共信息共享论坛, 以检查他们最近是否到过任何感染热点, 如果是, 则进行自我隔离。

a 基于全球定位系统的集中模式的例子 b 基于全球定位系统的分散模式的例子图1 基于GPS的联系人追踪方案Fig.1 GPS-based contact-tracing schemes

在开发基于全球定位系统的联系人跟踪应用程序和软件时, 隐私保护的标识符可以包含在集中式和去中心化模型中。例如, Sweeney[22]在2002年引入的k-匿名模型, 通过在这些属性的每个交叉列表中产生k≥1的“同质”个体用于隐藏详细的位置信息或伪标识符。地理不可区分性(Geo-indistinguishability)是Andrés等[23]在2013年提出的一个正式的位置隐私概念, 是由Dwork等[24]在2006年提出的差分隐私概念的在位置数据方面的扩展, 并可用于生成扰动后的位置信息。无论在向公众或目标人群发布和共享信息之前使用哪种正式的隐私符号编辑数据, 联系人跟踪的准确性都会受到影响。

3 基于蓝牙的合同追踪方案

与基于全球定位系统的隐私保护方案不同, 基于蓝牙的联系人跟踪应用程序不会从用户收集准确的位置信息。从这个意义上说, 用户的隐私能得到保护, 不用担心他们的行踪被全天候监控。此外, 蓝牙比基于GPS的应用程序具有更高的联系人跟踪精度。蓝牙信号不会反弹, 也不会穿过大多数软墙, 这有助于避免误认为近距离的两个人会发生“接触”事件, 例如当实际上两个联系人分别在被墙隔开的两个不同房间时, 但基于GPS的追踪将被隔开两人误认为有接触, 从而造成误判。

在基于蓝牙的联系人追踪方案中, 利用蓝牙技术收集两个人是否同时出现在6英尺内的同一位置的信息。每个应用程序用户都会生成随时间t变化的随机令牌序列(token), 这些令牌存储在其设备上。2个令牌之间的时间间隔不能太频繁, 以免给用户造成计算或存储困难, 也不能不频繁, 以免跟踪无效或引发隐私问题。如果两个用户同时出现在彼此6英尺以内, 他们会在此时交换令牌, 令牌存储在其联系人令牌集中。如果一个用户被诊断为新冠肺炎, 比如在接触事件发生后的2周内, 则其将与卫生局共享其过去2周的接触令牌集合, 卫生局随后将开发一些警报和通知系统通知可能与受感染者共享接触事件的人。卫生局收集和共享信息的方式分别分化成了集中化和去中心化模式。

新加坡开发的基于蓝牙的手机应用TraceTogether就是这种集中式方法的一个例子。在这个模型中(见图2), 不论用户的健康状况如何, 所有应用程序用户都需要向政府报告他们的令牌(用{a0,a1,…},{b0,b1,…}表示)以及他们的电话号码。如果某人被诊断出患有新冠肺炎病, 则其会向政府报告他的健康状况, 并共享他的联系令牌(用{bc,0,bc,1,…,bc,t,…}表示)。然后, 管理机构将联系令牌集中的每个令牌与他们的令牌数据库进行匹配, 并通过他们的电话联系人向用户发出匹配警报。

在集中式模型中, 受感染个体的健康状态的隐私风险类似于基于全球定位系统的方案中的集中式模型。此外, 由于政府有每个用户的电话号码, 这是一个唯一的标识符, 可用于链接到其他数据库, 这些数据库可能包含用户的敏感信息。同样类似于基于全球定位系统的系统中的集中式模型, 用户只能信任政府或卫生局授权的安全和隐私。

图2 基于蓝牙的集中化联系人追踪模型Fig.2 Example of bluetooth-based centralized model

Covid Watch、 PACT(Private Automated Contact Tracing)、 COVID safe应用程序和PEPP-PT(Pan-European Privacy-Preserving Proximity Tracing)软件是利用蓝牙技术的去中心化方法的例子。Covid Watch应用程序代表了来自各国(美国、 加拿大、 澳大利亚等)400多名志愿者的努力, 并通过私人和本地蓝牙信号发送匿名隐私保护新冠肺炎暴露警报。PACT是由麻省理工学院与各国的研究人员合作开发的, 不仅收集关于二元接触事件的信息, 而且收集关于接触事件的距离和持续时间的信息。COVID safe是澳大利亚政府用于联系追踪的应用程序。PEPP-PT是一个更大的软件系统, 有许多独立的组件, 并对可能的暴露发出警报。在去中心化模型中(见图3), 政府只收集新冠肺炎患者的口令, 如果某人被诊断出患有新冠肺炎, 则该人就会从当局那里获得一个许可号码, 然后与公共数据库共享该号码以及其历史联系事件号码, 然后公共数据库验证这个许可号, 并发布事件号码。其他用户可以将他们的联系事件号码与公开发布的联系事件号码进行比较, 如果有匹配, 则他们可能已经暴露在病毒中, 需要自我隔离。

对基于蓝牙的隐私保护合同跟踪, 匿名者可以通过在用户之间随机交换生成的随机令牌进行增强, 以更好地防止链接隐私攻击。也有针对隐私保护的加密解决方案, 如苹果和谷歌开发的技术, 不依赖于可信的服务器,使用安全的多方计算等方法[25], 或发送匿名加密或随机消息[26]。

4 结 语

除了联系追踪中基于技术的隐私保护方法外, 数据隐私保护的一些一般原则也适用于新冠肺炎大流行数据收集和信息共享。例如, 关于新冠肺炎的数据收集和发布应遵循必要性、 相称性和透明度。通常允许共享与低个人重新识别风险相关的匿名数据或汇总统计数据, 如果存在不可忽视的重新识别风险, 或在发布信息时需要披露个人身份, 则政府必须给出这样做的正当理由, 从而最大限度地减少数据收集、 限制访问和仅在必要的最短时间内保留数据, 也有助于减少新冠肺炎数据处理对隐私的损害。鉴于新冠肺炎前所未有的情况, 当涉及数据共享时, 同意可能必须采取不同于常规同意的形式, 特别是当一个人觉得一旦检测呈阳性就必须共享她的联系和位置历史时。

各国政府和研究人员应该在新冠肺炎的合同追踪中致力于隐私保护, 各方(公众、 学术界和工业界)应共同努力, 制定有效的政策和技术, 在收集COVID-19数据时保护人民的隐私, 以帮助遏制全球流行病。

猜你喜欢

令牌全球定位系统集中式
全球定位系统助力黑鹳保护
称金块
格拉迪丝·韦斯特:协助开发全球定位系统的隐藏人物
全球定位系统
蘑菇点点
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
国有企业的集中式财务管理模式分析
集中互动式多媒体术前宣教在门诊手术患者中的应用
《道教法印令牌探奥》出版发行