疫情防控背景下的大数据隐私保护
2020-12-09林丛辰方炜
林丛辰 方炜
【摘 要】2020年,新冠肺炎疫情的爆发迫使中国打响了阻击疫情的全民战争。大数据技术在中国疫情防控中发挥了重要作用,但因为在使用的过程中涉及大量的个人数据隐私,从而引发了公众对隐私泄露和被非法利用的担忧。在此背景下,文章从信息收集、信息存储、信息使用、信息发布的角度分析了疫情防控背景下数据隐私的挑战,并对技术性、现实性、个体性等方面的问题根源进行了剖析,最后提出通过加强技术支持及应用、设置信息收集边界、加强法律体系等方式实现疫情防控背景下的隐私保护。
【关键词】大数据;疫情防控;隐私保护
【中图分类号】TP309 【文献标识码】A 【文章编号】1674-0688(2020)10-0107-04
自新冠肺炎疫情暴发以来,中国采取了多样化的措施进行疫情防控,其中大数据技术是重要抗疫手段之一。习总书记强调,要鼓励运用大数据、人工智能、云计算等数字技术,在疫情监测分析、病毒溯源、防控救治、资源调配等方面更好地发挥支撑作用[1]。抗疫期间,国家利用数据挖掘技术发现潜在感染源、用大数据分析精准摸排涉鄂人员的行踪;公众也可以利用大数据平台,查看自己是否与患者接触、获取疫情科普知识。这些应用提高了抗疫的精准度和效率,减少了不必要的人员接触和开销,为公众做好自身防护起到了积极的作用。
与此同时,在疫情白热化阶段,普通民众对于政府紧急权力使用的片面解读导致了民众普遍的恐慌心理,这一心理在媒体不实报道的催化下持续发酵,导致网上隐私泄露事件频发,例如小区住户(医护人员和患者)的个人信息被深度挖掘、公开,武汉的返乡人员信息泄露等。隐私若被不法之人窃取利用,一方面可能造成普通群众的经济损失或者权利受到侵害[2],例如诈骗分子对患者售卖假药、个人在工作和生活中遭受歧视;另一方面抗疫医护人员隐私的泄露,不仅影响医护人员的个人生活,而且可能造成社会舆论的混乱。因此,公众产生了对数据隐私泄露的担忧。
疫情防控背景为大数据隐私保护带来了挑战,主要体现在以下几个方面:{1}个体信息授权、信息使用授权等级、隐私侵权行为难界定;{2}技术保护不全面;{3}公众知情权和隐私权冲突。本研究以疫情防控背景为依托,分析大数据隐私保护的挑战及深层原因,并结合中国国情提出具体保护方案,为隐私保护技术应用、公众隐私保护、相关法律体系完善提供新的思路。
1 疫情防控背景下大数据隐私保护的挑战
随着大数据技术应用越来越多,隐私保护也变得更加困难,隐私管理的每个阶段都会面临更大的泄露风险。刘雅辉教授将个人隐私信息管理过程分为个人隐私信息的收集、存储、使用及发布[3]。面向阶段的全过程分析更具有逻辑性,能够更全面地分析问题。因此,本文按阶段顺序分析疫情带来的隐私保护挑战:①在收集阶段,如何收集信息才能保护隐私;如何界定侵权行为。②在存储阶段,如何选择技术保证信息不被非法访问、窃取。③在使用阶段,如何保证用户的授权,如何确定授权等级。④在发布阶段,如何平衡公众知情权和个人隐私权。
1.1 收集阶段的挑战
大数据的常见特征包括大规模和多样性,意味着需要收集大量不同类型的个人信息,那么应该如何收集信息?政府收集的信息是否构成侵权行为?
如何收集信息,分为谁能收集信息和应该收集什么信息。现阶段存在规定不明确、执行不彻底的问题。《关于做好个人信息保护利用大数据支撑联防联控工作的通知》(简称《通知》)要求:除授权的机构外,其他任何单位和个人不得以疫情防控、疾病防治为由,未经被收集者同意收集使用个人信息;收集联防联控所必需的个人信息应参照国家标准《个人信息安全规范》,坚持最小范围原则[4]。一方面,《通知》中只指出法律依据,并没有指明哪些组织可以收集信息,查询具体授权机构也费时费力,具有模糊性。另一方面,最小范围原则限定了收集信息的方向,但并没有建立一个可执行的标准。事实上,许多小区、个体商户在疫情防控期间收集了进出人员的个人信息,包括姓名、手机号、身份证等,公众对此产生了担忧。如果公众因担心自身隐私安全而拒绝提供信息,将不利于后续信息采集和相关措施推进,人员的定位也将产生困难。
政府收集个人信息的行为存在伦理问题。疫情暴发以来,各省先后启动重大突发公共卫生事件一级响应,为政府行使特殊权力打下了合法性基础,政府在信息收集时拥有更大的主动权,根据《传染病防治法》第一章第十二条规定,在中华人民共和国领域内的一切单位和个人,必须接受相关部门的调查并如实提供有关情况。与之相对应的公众作为信息载体,对隐私的支配能力就受到了限制[5]。例如,国家收集了公众交通出行、移动通信、在线支付等领域中涉及个人隐私的海量数据,为疑似病例的搜索提供技术支持[6],但是国家没有告知信息拥有者。在这种情况下,存在公共利益与个人利益的矛盾,目前的法律难以准确界定是否侵权。
1.2 存储阶段的挑战
随着时代发展及技术进步,信息数据越来越重要,其潜在价值让许多不法分子通过贩卖个人隐私数据牟取暴利,数据库被攻击的次数陡增。同时,在疫情防控背景下数据存储量成倍增长,不同层面都面临着信息存储挑战。
政府层面,疫情防控期间信息量大、工作紧迫,政府从企业招募了大量的技术团队进行大数据技术开发与运维,但存在培训不完善、人员素质参差不齐的情况。在政府内部进行数据存储的过程中,政府缺少专业团队管理、安全维护意识差、管理经验薄弱、隐私保护技术难以与时俱进。企业层面,虽然企业的隐私保护意识更高,也會主动选择更好的隐私保护技术,但是企业中会有人为了个人利益,选择了监守自盗。社会上关于“信息罪犯”的新闻很多,比如2016年“京东”内部员工私自登录后台数据库,窃取数据库存储的大量客户信息[7];2017年国泰君安某经纪人盗取存储在银行信息系统的百万客户信息。个人层面,信息的非法收集导致信息存储渠道不合规。商家、小区物业收集的信息缺少合适的渠道存储,信息收集后由各个门店负责保管,对于信息的处理,目前有关部门没有明确的规定。同时,由于个人隐私保护意识薄弱,容易将数据泄露或售卖,所以具有极大的安全隐患。
以上分析中的漏洞,容易给黑客可乘之机,以各种攻击手段非法入侵数据库,从而获得包括医疗数据、家庭住址、联系方式等个人隐私信息,造成严重后果,例如患病记录、过往病史等信息的泄露可能造成个人在工作和生活中受歧视、对身心健康产生影响。家庭住址、姓名、联系方式等信息的泄露可能导致网络诈骗、恶意要挟等非法行为,侵害公民的财产安全和生命安全。
1.3 使用阶段的挑战
在信息使用的阶段,存在信息共享未征得个人同意、数据授权难界定的挑战。
政府使用信息时,一般会将信息共享给技术团队,但信息共享本质上也是一种个人信息的收集行为。在信息共享的过程中,政府难以获得所有用户的授权并让用户知情信息的具体使用场景,若实施全授权也会浪费大量的时间和精力,数据共享给企业后,难以追溯数据的具体使用场景。
隐私信息的界定困难,导致数据授权陷入困境。涉及标识性较强的信息例如身份证号、姓名等需要进行更高级别的数据脱敏。若只需要使用标识性较弱的信息,则进行低级别的脱敏。然而数据类型复杂多样,隐私信息的范围难以确定。例如:为结构性数据定义隐私范围,需考虑个人性格、特点、背景等因素。对于非结构性数据,若隐私范围定义不当,个体会被黑客通过数据挖掘定位,侵犯隐私。
个人授权困难、数据追溯不便、隐私难以界定等挑战让信息隐私层级和脱敏程度难以界定,信息使用阶段的统一标准就很难建立。此时进行数据共享,会带来隐私泄露的风险。
1.4 发布阶段的挑战
信息发布阶段,政府保护个人隐私的义务和公众知晓疫情信息的权力发生了冲突。
若注重保护隐私权,则侵犯了公民知情权,导致社会混乱。政府作为实现知情权的重要渠道,应担当起信息透明的职责,向社会公布所掌握的信息,尤其是在疫情期间。一味地隐藏个人信息侵犯了公民知情权,政府需要承担相应责任。同时对信息了解越多可以带来更多安全感,若公民无法准确得知居住半径内是否有疑似病患,将导致公民对信息的主动探寻,引发隐私泄露。
若注重保护知情权,则侵犯个人隐私权。政府迫于舆论,为了防止公众不必要的恐慌,部分政府报告和公布疫情信息时同时发布了多类指向性的信息。这些信息很容易被关联到患者本人,易被用于锁定患者个体,侵犯隐私权。
冲突导致各省发布标准难以统一,出现乱象。例如,天津发布了88.4%确诊病例居住区域信息,而上海、广东等地不发布。青海发布了70.6%病例的重点地区接触史信息,而湖北、西藏等地不发布;吉林发布了59.3%确诊病例的交通工具概述,而北京、湖北等地不发布。
对于将要发布的数据,为了保护隐私就隐藏所有的数据是不明智的,数据价值则无法体现。如何兼顾数据效用和保护个人隐私的问题亟待解决。
2 疫情防控背景下大数据隐私泄露根源探究
以上提出大数据隐私新问题可能带来信任、民生危机等严重后果,所以寻找问题的根源并对症下药尤为重要。本文从技术性、现实性、个体性等方面对问题根源进行剖析。
2.1 技术性原因:数据化与数据共享泛滥
事实上,数据化为公众带来生活便利的同时,人们也在各个数据平台产生了更多数据,例如支付信息、购物信息、健康信息等,一方面,数据化带来数据量的指数爆炸,越来越多的组织开始使用数据库,但配套技术、维护团队参差不齐,导致数据存储阶段存在漏洞,给不法之徒可乘之机,留下隐私泄露的隐患。另一方面,这为政府收集数据提供了更多渠道,降低了数据收集的难度。例如,政府会收集离鄂人员的通话记录、交通工具乘坐记录等,确定密切接触者时,更隐私的信息有被调用的风险,如通话记录、家庭地址、身份证号。
大数据本身意味着共享,数据时代的重要特征包括领域之间的数据共享,数据使用阶段的隐私失控也从此开始。疫情防控期间政府与电信公司、阿里巴巴等数据平台共享数据,定位确诊患者及疑似病患。数据共享泛滥,放大了隐私界定、授权等问题,也放大了信息保护程度不一带来的后果,即个人隐私数据也可能被共享,从而被利用。
2.2 现实性原因:数据具有潜在价值
大数据时代下的数据化与数据共享是隐私问题最直接的原因。但数据共享、隐私侵犯的行为需要社会中的主体完成,数据窃取利益链条上的各个主体是隐私泄露根源所在,也是数据存储及数据使用过程中隐私被窃取利用的另一诱因。具有潜在价值是大数据的特征之一,为了追求更大的数据价值,有些人损害他人利益牟利,而他人的利益中可能涉及个人隐私。
进一步分析,用户与组织的主体利益是矛盾的。用户以享受个人权利为优先级,同时要求保留个人的隐私,不被他人利用。组织更加关注搜集数据产生的利益,以利益为优先级,因此往往忽略道德诉求,在数据挖掘技术、大数据产品的设计阶段即留下了隐私泄露的隐患[8]。
2.3 个体性原因:隐私意识的淡薄
个体隐私观的改变,是带来隐私泄露的又一原因。在大数据时代,线上社交、线上娱乐让人们更愿意分享自己的信息,主观认为自己的信息没有利用价值,公众对于个人隐私的界定越来越开放。信息收集阶段,每个人都需要填写个人详细信息,例如工作单位、学校、医院会收集个人信息;信息发布阶段,政府公告中常出现涉及隐私的信息。但是,人们对数据共享越认同,隐私意识就越淡、意识到隐私风险的公民就越少,个人隐私信息的泄露更加容易。
3 疫情防控背景下加強大数据隐私保护的实施途径
既然数据的挖掘与共享不可避免,那么大数据广泛应用的同时也应该深思:如何通过技术、制度等手段制约疫情防控期间的隐私泄露?
3.1 加强对隐私保护技术的支持及应用
解决数据共享泛滥及数据化带来的隐私问题,可用更完备的技术保护体系支撑,体系的形成有利于社会隐私标准的统一,从根本上解决问题。疫情防控期间使用数据最多的组织是医院和政府,从这两者的角度分析能最大限度地改善技术环境。
医院可以利用k-匿名模型提升隐私保护能力。k-匿名模型中的泛化、抑制方法可以有效地将直接标识符匿名化。患者档案通常包括直接标识符,直接标识符属性中的每一个数据都可以精准指向个体[9]。泛化将数据模糊化,例如将生日中的月、日消除。抑制是在发布数据时隐藏数据的属性[10]。k-匿名模型处理后的每一个元组的主体信息和其他k-1个元组具有相同的准标识符属性,无法区分,通过调节k参数控制隐私程度,达到保护隐私的目的。若对每一个属性匿名程度要求较高,还可以采用l多样化规则、k-map规则及(k,1)-anonymity模型[11]进行身份信息的精细保护[12]。
政府可以借助区块链技术提升隐私保护能力。区块链本质是一种块链数据结构,具有可溯源、去中心化、不可伪造篡改等特点,为数据共享提供有效的保护机制。利用区块链技术完善信息系统,推动政府各部门及合作企业的统筹兼顾,消除信息不对等的现状[13]。同时,区块链技术对数据访问进行权限限制,只有有公钥和私钥才能进行数据库访问,公钥是政府高层的访问权,私钥是政府工作人员或企业的访问权,防止工作人员隐私保护意识不足导致信息泄漏。
3.2 设置信息收集与发布边界
大数据时代带给人们更多生活便利的同时,也记录了每个人的生活轨迹,这是我们无法避免的。政府在数据处理的过程中可以进行加密,个人也可以在源头上减少敏感信息的收集。例如,取消收集个人身份证号,降低收集定位、地址等数据的精度。政府在公布患者信息的同时也需限制边界,可以选择只公布返乡人员流动数据,确诊患者可选择只公开确诊日期、大致区域、发病症状等敏感属性较弱的信息,而不应公开姓名、年龄、身份证号码、电话号码、家庭住址等。对于确诊或疑似病例所在地区的公众,可公开确诊或疑似病例的大致居住区域,满足此类公众对防控需求的知情权,不必公开其具体的个人信息。边界的设定不仅让公众具体了解了自己身边的患病情况,也保护了个人隐私。
3.3 加强法律体系的建设
疫情防控期间国家对个人数据的收集增加,可能加重群众的隐私担忧,这个阶段也是完善数据隐私相关法律的契机。法律的完善和普及将加强个人的隐私保护意识,法律条例的明晰能让不法之徒认识到隐私窃取的严重后果。
国家可以在隐私保护法律的基础上,构建出可以解决大数据技术发展挑战的法律体系。例如,在信息存储阶段,加强信息盗窃的法律建设和监管力度,保证数据库中的用户信息安全。着重防止数据被商业利用[14],并保证任何工作场所都必须遵守这些数字隐私条款[15]。在发布阶段,患者的个人信息会被收集为医疗大数据、被新闻报道,需要考虑到患病历史可能影响患者的生活和就业等。“被遗忘权”的立法可以解决患者的后顾之忧[16],即用户有权要求删除关于自己的数据。相关法律的完善能阻止不法之人钻法律漏洞,是防止隐私泄露最坚实的屏障。
参 考 文 献
[1]肖擎.更好发挥数字化抗疫作用[N].人民日报,2020-03-19(5).
[2]尹裴.大数据云计算背景下保护个人隐私信息的重要性及安全协同保护机制的研究[J].中国集体经济,2019(21):159-160.
[3]刘雅辉,张铁赢,靳小龙,等.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247.
[4]夏金彪.用大数据防疫要做好个人隱私保护[N].中国经济时报,2020-02-13(2).
[5]宋艺秋.论突发事件中的个人信息保护[J].河南师范大学学报(哲学社会科学版),2010,37(5):131-133.
[6]陈鹏.大数据对打赢抗疫攻坚战至关重要[N].学习时报,2020-03-18(6).
[7]王敏康.从京东与腾讯联手破获信息泄漏事件谈大数据时代计算机科学在电子信息保护上的应用[J].中国战略新兴产业,2017(12):5-6.
[8]薛孚,陈红兵.大数据隐私伦理问题探究[J].自然辩证法研究,2015,31(2):44-48.
[9]侯梦薇,兰欣,邢磊,等.隐私保护技术在健康医疗大数据发布中的应用研究[J].中国数字医学,2020,15(2):92-94.
[10]史婷瑶,马金刚,曹慧,等.医疗大数据隐私保护技术的研究进展[J].中国医疗设备,2019,34(5):163-166.
[11]Machanavajjhala A,Kifer D,Gehrke J,et al.L-diversity:Privacy beyond kanonymity[J].ACM Transactions on Knowledge Discovery from Data,2006,1(1):3.
[12]Herber R H,Tonguc K,Jr J W I.Proceedings of the 2009 IEEE International Conference on Data Engineering[A].IEEE International Conference on Data Engineering[C].IEEE Computer Society,2009.
[13]牛宗岭.利用大数据及区块链技术构建“政府智慧大脑”[J].人民论坛,2019(33):74-75.
[14]Kerber,Wolfgang.Digital Markets,Data and Privacy:Competition Law,Consumer Law and Data Protection[J/OL].SSRN Electronic Journal,10.2139/ssrn.2770479,2016.
[15]Belanger F,Crossler R E.Privacy in the Digital Age:A Review of Information Privacy Research in Information Systems[J].Mis Quarterly,2011,35:1017-1041.
[16]杨立新,韩煦.被遗忘权的中国本土化及法律适用[J].法律适用,2015(2):24-34.