基于通用数据保护条例的数据隐私安全综述
2022-10-14赵景欣岳星辉冯崇朋任家东张昊星伍高飞朱笑岩张玉清
赵景欣 岳星辉 冯崇朋 张 静 李 印 王 娜 任家东 张昊星 伍高飞 朱笑岩 张玉清,2,3,
1(燕山大学信息科学与工程学院 河北秦皇岛 066004) 2(西安邮电大学网络空间安全学院 西安 710121) 3(海南大学网络空间与安全学院(密码学院) 海口 570228) 4(西安电子科技大学广州研究院 广州 510555) 5(国家计算机网络入侵防范中心(中国科学院大学) 北京 101408) 6中国信息通信研究院安全研究所 北京 100191) 7(西安电子科技大学通信工程学院 西安 710071)
随着大数据时代的飞速发展,数据成为了当今世界最宝贵的资源之一.企业也纷纷进行数字化转型,在数字经济时代下,数据的社会价值和经济价值不断凸显.然而数据的共享、加工、使用的过程又给数据的隐私安全带来了极大的风险,数据可以产生无数的副本,且形态多样化,如何实现数据的隐私保护成为了现今亟待解决的难题.
由于欠缺有力的监管机制,个人数据隐私遭到侵犯的事件屡屡发生,个人数据隐私时刻面临被泄露的风险.诸如,Uber公司为掩盖2016年60万司机和5 700万用户信息失窃事件,私下向作恶者支付封口费,这项隐瞒行为也为公司带来了巨额的罚款[1].美国互联网公司雅虎在2017年承认公司曾在2013年受黑客袭击并泄露了所有用户信息(约30亿用户)[2].安全研究人员阿隆·加尔在2021年1月发现由于入侵者利用了Facebook在2019年8月修复的漏洞,来自106个国家的超过5.33亿Facebook用户的个人信息已被免费在线泄露,涉及了不少知名人士和公众人物,还包括67万的国内用户[3].v.pnMentor的研究团队在2021年8月份发现,B2B营销公司OneMoreLead将至少6 300万美国人的私人数据存储在一个不安全数据库中,该公司任由此数据库完全敞开[4].2021年8月,美国电信巨头T-Mobile官方确认服务器被黑客入侵,本次入侵大规模影响了大约780万T-Mobile后付费用户、850 000名T-Mobile预付费用户以及大约4 000万以前或潜在用户,导致T-Mobile支付了3.5亿美元的索赔[5].
为了更好地保障个人权利,堪称史上最严格的数据隐私保护法案——《通用数据保护条例》(General Data Protection Regulation, GDPR),于2016年4月由欧盟议会通过,并于2018年5月25日起生效.GDPR的出台使欧盟对个人信息的保护及监管达到了前所未有的高度,并统一了欧盟成员国有关数据保护的法律法规.虽然GDPR的保护范围只限于欧洲生活的民众,但由于互联网的全球性和开放性,几乎所有的服务都会受到隐私政策的限制,所以GDPR也通过各种机制对欧盟以外的国家产生了广泛的影响.
本文主要侧重于基于GDPR的数据隐私安全工作研究,为此对自2016年到2022年6月期间的网络与信息安全领域的四大顶级会议USENIX Security(USENIX Security Symposium),NDSS(Network and Distributed System Security Symposium),CCS(ACM Conference on Computer and Communications Security),IEEE S&P(IEEE Symposium on Security and Privacy)的论文,及来自Web of Science核心数据库、EI数据库、arXiv、中国知网(CNKI)等国内外数据库收录的相关论文进行了深入调研分析,如图1所示,相关的文献数量正在逐年增加.同时对基于GDPR的数据隐私安全领域的现有研究成果进行了总结归纳,指出了现有研究工作不足和基于GDPR的数据隐私安全面临的挑战和机遇,为未来的安全研究工作指出了方向,并探讨了GDPR为中国的数据隐私安全工作带来的启示.
Fig.1 Literature number of data privacy security based on GDPR
自GDPR出台以来,国内外已围绕GDPR展开了许多相关的研究工作,其中不乏针对GDPR的隐私保护综述研究,但主要都是针对某一特定领域,如区块链[6]、物联网[7-9]等领域,或针对条例中的某部分规定[10]展开讨论.本文在关注GDPR在特定领域应用的同时,还聚焦于GDPR政策本身的可读性与完整性,不仅分析了更正权与被遗忘权的争议,还对知情权、访问权、数据保护影响评估等规定的合规方法进行了探讨.同时从国情出发分析了GDPR对中国产生的启示,为中国的数据隐私安全工作提出建议.
本文的主要贡献包括5个方面:
1)分析了数据隐私安全的发展历程与现状,介绍了欧盟出台的影响广泛的数据保护法案《通用数据保护条例》(GDPR),分析了GDPR的应用领域及其带来的影响.
2)深入调研了近几年国内外GDPR合规性相关的研究文献,从GDPR合规检测、隐私政策分析、GDPR模型框架3个方面总结了GDPR合规性研究现状.
3)总结分析了基于GDPR的数据技术,包括数据保护影响评估和数据跨境流动2个方面,并分别探讨了GDPR在区块链、物联网等具体领域的应用.
4)通过分析GDPR合规的潜在安全问题以及现有研究工作的不足,指出了基于GDPR的数据隐私安全研究中面临的挑战与机遇,为相关的隐私安全研究指出了未来的研究方向.
5)结合GDPR出台后的实施情况,从6个方面探讨了GDPR给中国的数据保护工作带来的启示.
1 相关背景介绍
1.1 数据隐私安全发展历程
为了保护个人数据隐私,需要有一定的法律制度为处理个人信息时提供保障.早在1970年德国联邦黑森州就通过数据保护法来保护数据隐私,瑞典在1973年通过了数据保护法,美国政府也在1973年制定了的公平信息惯例(FIPs).经合组织《1980年9月隐私保护准则》列出了8项数据处理原则:收集限制原则、数据质量原则、目的规范原则、使用限制原则、安全保障原则、开放性原则、个人参与原则和问责原则,为各国制定个人数据处理法律提供了依据[11].随着数字经济社会的兴起,个人数据隐私问题也越来越多,于是越来越多的数据保护法条例在世界各国涌现.据美国法学教授Bertil Cottier统计,截至2020年共有142个国家发布了数据隐私立法,例如《1998英国数据保护法案》《2008年阿尔巴尼亚数据保护法》《2012年加纳数据保护法》《2012美国消费者隐私权利法案》、欧盟《通用数据保护条例》(GDPR)、《加州消费者隐私法案》(CCPA)、《巴西通用数据保护法》(LGPD)、《2019年肯尼亚数据保护法》、《新加坡个人信息保护法例》(PDPA)、《中国个人信息保护法》等[12].其中欧盟出台的GDPR影响力最大,我们在这篇论文中主要对GDPR的相关研究进行了讨论.也有研究者对各国的数据保护法进行了对比和评估,文献[11]根据经合组织指南对欧盟GDPR、《2012年加纳数据保护法》和《2019年肯尼亚数据保护法》进行了比较,三者在一些原则的应用方面略有不同,加纳保护法缺乏数据可移植性的权利和记录个人数据泄露的义务,肯尼亚保护法包含了所有与个人和数据主体的权利和义务有关的经合组织修订原则,在很大程度上复制了GDPR.本文从适用范围、数据主体权利、数据处理者责任等要点出发,对各国出台的数据保护法进行了对比,具体内容如表1所示.
GDPR的出台推动了许多国家对于数据保护方面的立法进程,但由于国情与隐私文化的差异,各国相应的应对措施不尽相同.如欧洲强调个人权利,以保护人权为出发点,因此GDPR法规要求严格,内容全面;印度、澳大利亚纷纷依照GDPR对自己的隐私法规进行了审查和修改,增强了监管机构的权利并加大了处罚力度;巴西借鉴了GDPR的主要结构出台了第一部综合性的数据保护法,但在处罚方面较GDPR宽松很多;美国注重企业发展,强调数据利用,更偏向从消费者的角度对数据进行监管;我国在数据立法方面也并没有照抄照搬欧洲立法,而是兼顾个人权利与经济发展,探索出一条适合自己的发展道路.在数据的跨境流动中,面对更多的网络安全威胁和不同国家数据保护法的不同要求,特别是面对非常严格的GDPR,世界各国也在不断地修改并完善数据保护法.2021年1月,韩国个人信息保护委员会向社会公布了《个人信息保护法(修正案草案)》(PIPA),并在一年内修订了3次.2021年5月12日,日本国会通过了包括《为形成数字化社会完善相关法律的法案》在内的6部数字化改革法律案,《个人信息保护法》(APPI)修正案也作为完善法案的一部分同时生效.2021年6月,中国通过了《中华人民共和国数据安全法》.2021年8月20日,《中华人民共和国个人信息保护法》历经三审正式通过.图2展示了全球一些具有代表性的数据保护法案[14].
Table 1 Comparison of Data Protection Laws in Different Countries[13]
Fig.2 Global data security protection legislation(partial)
1.2 GDPR介绍
欧盟通用数据保护条例(GDPR)是关于欧盟(EU)和欧洲经济区(EEA)数据保护和数据隐私的法律条例,是欧盟隐私法和人权法的重要组成部分.
GDPR规定了与个人数据处理以及个人数据自由流动相关的自然人保护法规,旨在尊重自然人的基本权利和自由,并重点强调其保护个人数据的权利.GDPR被誉为是最严格的个人数据保护和数据监管条例,适用于欧洲经济区内数据主体产生的所有数据,无论收集相关数据的企业是否位于欧盟境内都要遵守GDPR.GDPR于2016年4月14日获欧洲议会和欧盟理事会通过,并于2018年5月25日开始强制实施.该法规取代了1995年的《数据保护指令》(95/46/EC)(简称95/46/EC指令),解决了95/46/EC指令成员国在处理个人数据时对保护自然人权利和自由水平之间的差异,具有直接的约束力和适用性[15].同时,《电子隐私指令》(2002/58/EC)旨在补充GDPR并完成协调过程,目前该法案正在通过欧盟的立法程序[16].图3展示了GDPR从立项到实施过程中的关键日期和事件.继GDPR之后,欧盟《数据法案》《数据治理法案》《数据市场法案》等一系列数据治理法规的出台也展现了构建未来数字驱动创新生态的欧洲方案.
Fig.3 Key time points for GDPR legislation
Fig.4 The framework of GDPR
本节主要从GDPR框架、处理个人数据相关原则、数据主体的基本权利以及违规行为的补救措施、责任和处罚4个方面来具体介绍GDPR.
1.2.1 GDPR框架
GDPR框架如图4所示.通用数据保护条例共包含十一章内容,涉及一般规定、原则、数据主体权利、数据控制者和处理者义务、向第三国或国际组织传输个人数据、独立监管机构、成员国之间的合作与一致性、补救措施,责任和处罚、有关特定处理情况的规定、授权和实施法案以及最终条款[15].其中定义了与个人数据相关的3种不同实体:1)数据主体,即个人数据所有者;2)数据控制者,即收集和使用个人数据的个人或组织;3)数据处理者,即为控制者处理个人数据的个人或组织.同时,任命具有数据保护法和实践专业知识数据保护官(DPO),以协助数据控制者和处理者监控其法规的遵守情况.
1.2.2 处理个人数据相关原则
GDPR规定了7项处理个人数据相关原则(第5条)包括“合法性、公平性和透明度”“目的限制”“数据最小化”“准确性”“存储限制”“完整性和保密性”的数据处理原则以及控制者责任与义务的“问责制”,具体原则内容如表2所示.并对处理的合法性进行说明(第6条),且只有满足至少一项原则才认为该处理是合法的:1)数据主体已经同意处理其个人数据;2)履行与数据主体的合同义务,或在签订合同时采取相应措施满足数据主体要求;3)遵守数据控制者的法律义务;4)保护数据主体或其他个人的利益;5)为公共利益或数据控制者官方权力执行任务;6)在利益与被保护数据主体的利益、基本权利和自由不相冲突的情况下,保护数据控制者或第三方的合法利益.
Table 2 Principles Related to the Processing of Personal Data
1.2.3 数据主体的基本权利
GDPR详细阐明了数据主体的基本权利,共涉及8项权利:1)知情权(第12,13,14条).数据控制者以简洁、透明、可理解和易于访问的形式向数据主体提供信息;2)访问权(第15条).数据主体有权要求数据控制者告知其个人数据是否正在被处理.数据控制者必须根据要求提供正在处理的数据的目的(用途)、数据类别、存储期限或标准并为数据主体提供一份实际数据的副本;3)更正权(第16条).数据主体有权更正错误的个人数据;4)删除权(第17条).数据主体有权要求控制者及时删除有关的个人数据;5)限制处理权(第18条).在特定场景下,数据主体有权要求数据控制者限制对他的个人数据的使用;6)可携带权(第20条).数据主体有权要求将自己的数据转移到另一家数据控制者,数据控制者应当配合;7)反对权(第21条).允许个人反对出于营销或非服务相关目的处理个人信息;8)不受制于自动化决策(第22条).数据主体有权不受基于自动化决策所做决定的影响.
1.2.4 违规行为的补救措施、责任和处罚
针对违规行为的补救措施、责任和处罚,GDPR也做出了相应的限定,要求数据控制者必须在违规行为发生后72 h内通知监管机构,依据违规的严重程度、违规的持续时间、受违规影响的数据主体数量以及违规造成的损害程度来处罚违规行为责任方.GDPR的出台对其他国家及地区的个人数据相关法律产生较大的影响,成为全球个人数据保护法的典范.
1.3 GDPR的应用和影响
GDPR的实施影响了各行各业,对数据隐私的立法极大提高了公民的隐私权,在不同的领域内产生了积极影响,本节以医疗健康和物联网为例阐述了GDPR产生的积极影响,同时也讨论了GDPR的潜在风险.
现阶段的医疗正在经历数字化转型,向个性化、预防性和精准医疗进行转变,由于个人的健康状态、条件和背景都是高度动态的,导致了分布式、高复杂度的业务流程,因此不可能以静态的方式进行全局管理.随着个人可穿戴设备数量的指数级增长,利用个人健康数据进行分析有很多的益处,比如识别医疗服务中的风险和成本、提高服务效率、疾病预防等,但同样也带来了更多的用户隐私泄露风险.
GDPR扩展了个人数据的定义范围,包括自然人身体、生理、遗传、经济、文化或社会身份的特定因素;进一步的,GDPR定义了对个人数据进行处理的要求,以确保在处理用户数据过程中的合理合规,此外,由于系统环境的变化,GDPR要求处理用户数据时进行动态的管理.在GDPR的规范下,数据的保护者变成了风险的管理者,必须积极主动地动态管理系统,这对于医疗健康类个人敏感信息的处理具有指导意义.在GDPR的驱动下,未来医疗系统对个人数据的处理应该是一个政策驱动的多领域自动化业务系统,将政策和业务流程中的数据对象进行绑定,在这个过程中保证数据处理的高透明度以保证用户的知情权,GDPR很好地适应了医疗的数字化转型,保护了个人健康敏感数据的隐私.
近年来物联网设备数量呈现井喷式增长,同时也意味着设备厂商针对个人数据进行大量的存储、分发和利用,从厂商的角度来看,分析这些数据可以更好地理解用户的行为,及时发现消费者的行为模式和使用某类设备的关系,能够帮助厂商对产品进行进一步的改进以提高用户体验,但是也存在厂商在用户不知情的情况下将这些数据出售给第三方,或者从同一用户的不同设备同时收集数据建立用户画像的情况,这进一步增加了用户的隐私风险.
在此情况下,GDPR的实施使得信息的控制权大大地转向了个人.首先,这些收集的用户数据在GDPR的扩展定义中都属于个人隐私数据,其次,GDPR要求对个人数据的收集和处理必须基于明确的用户同意,并且用户有权在任何时候撤销自己的同意,否则将面临严重的罚款.根据GDPR官方的处罚规定[17],在处罚方面将有一个两级的制裁制度,若是情节较轻的违规行为,可导致1 000万或公司全球营业额的2%的罚款(以较高者为准),最严重的违规行为可能导致2 000万或公司全球营业额的4%的罚款(以较高者为准).因此GDPR的实施是对物联网设备厂商极大的警告,迫使他们按照GDPR的要求重新设计隐私政策和收集用户数据的范围,以及必须取得用户的知情同意.
总体来看,GDPR改善了网络安全,网络、服务器和其他基础设施的安全升级是网络安全的保障,GDPR直接影响了数据隐私的安全,鼓励企业制定政策和升级设备来预防潜在的安全风险;其次,GDPR将数据保护进行标准化,在欧盟国家直接实施,建立了区域统一数据保护标准,而无需建立每个国家的个人数据保护法.
GDPR也带来了一些负面的影响,比如极其严厉的两级处罚措施,一旦企业因为各种原因未能保护好用户数据导致泄露将会付出巨大代价,而中小型企业对数据的保护能力和抗风险能力本身就较弱,一旦遭遇此类事件将对企业造成很大的打击,中小型企业的隐私保护意识也相对薄弱,根据网站superoffice[18]的统计,截止2021年5月,超过四分之一的企业尚未根据GDPR进行整改,由此可见部分企业并未意识到GDPR的重要性.严格的GDPR给新兴的物联网企业带来了繁重的负担,合规工作消耗了大量的资源,使得企业的业务运营变得更加艰难.此外,企业必须进行合规性的审计,需要招聘更多专业的隐私保护方面的人才,因此,带来了更多成本的负担,相对应的也给执法机构带来了新的挑战.而对于需要留存大量患者信息的医疗企业来说,如何实现高度敏感数据的安全存储仍是一个十分严峻的挑战.随着全球数据隐私安全意识的增强,医学实验的开展也受到重重阻隔,影响了医学科技的高效发展.
2 GDPR合规性研究现状
通过对现有的基于GDPR的数据隐私安全研究工作进行梳理和分析,发现目前相关研究方向主要集中在GDPR合规检测、隐私政策分析、GDPR模型框架3个方面.图5中给出了现有研究工作文献数量的占比情况,以便读者有一个直观的认识.本节将通过这3个研究方向分类阐述现有具有代表性的GDPR相关的研究工作,同时在现有研究工作基础上,本文将对每个研究方向的具体工作进行对比分析和讨论,并给出观点,供感兴趣的研究人员对该领域进行进一步研究.
Fig.5 Proportion of GDPR compliance related studies
2.1 GDPR合规检测
自2018年5月25日起,欧盟开始实施《通用数据保护条例》(GDPR),条例涉及个人数据处理和数据隐私保护,直接适用于所有成员国.GDPR旨在保护欧盟成员国内所有公民的个人数据隐私,并对违规行为实施严厉制裁.数据隐私保护网站DataPrivacyManager披露了2020—2022年欧盟国家根据GDPR对企业的数笔大额罚款[19],如图6所示,罚款金额从数百万欧元到数亿欧元不等,拥有越多用户数据的企业遭受处罚的风险也更大.
Fig.6 Large GDPR fines from 2020 to 2022
2.1.1 违规案例分析
根据文献[20]分析的277项制裁案例,违规行为主要分为4种类型:非法处理个人信息、披露个人信息、未保护个人信息和与监管机构合作不足.这些处罚主要针对违反5项主要与用户隐私保护相关的特定条款.由此可见,违规的主要原因是企业未能充分向用户披露他们的个人信息是如何被收集的,以及没有明确告知用户收集这些信息的用途,并且在利用这些数据时未适当征得用户的同意,具体表现形式分为违规采集和传输、隐私政策不规范、数据滥用、网站cookie跟踪4个方面.
1)违规采集和传输
文献[21]对一些流行的健康软件进行安全审计,结果表明被分析的应用程序大多数都没有遵守GDPR要求的法律限制,在没有征求用户同意的情况下,通过不同的方式违规收集用户的个人敏感信息,从而威胁了数百万用户的隐私.根据GDPR的要求,在线服务必须获得用户的同意才能与第三方共享用户数据,文献[22]通过检测Android应用程序中事先未经用户同意发送到互联网的数据表明30%应用程序在未经用户事先明确同意的情况下将个人数据发送给第三方,由此可见对于用户数据的滥用目前在业内非常普遍.
2)隐私政策不规范
近年来随着物联网设备(IoT)的兴起,因其涉及大量的个人隐私数据,应该具有相应的数据收集规范.文献[23]通过捕获物联网设备与云之间、物联网设备与其对应的在智能手机上的应用程序之间的数据流量,对11家物联网制造商进行分析测试,结果显示其中一半的物联网制造商没有专门针对其物联网设备制定对应的隐私政策,对于目前大量不同类型的物联网设备,只有大致的隐私政策框架是不够的,需要按照不同的应用场景对隐私政策进行细分.
3)数据滥用
文献[24]披露了在GDPR实施之前,科技企业Facebook为73%的欧盟用户贴上了潜在敏感兴趣的标签,从而针对性地推送个性化广告,并且恶意第三方可以以极低的成本获取已被分配潜在敏感兴趣的Facebook用户的身份.进一步的,文献[25]通过检测第三方广告和跟踪服务发现,广告商会在未经用户同意的情况下,与第三方关联公司共享收集到的数据,并且揭示了这类做法在业界已成为常态化,此类违规行为利用用户个人数据达到其商业目的,并未征求用户的同意.
4)网站cookie跟踪
由于GDPR的实施,欧洲用户几乎在每个网站上都会遇到cookie同意选择框.通过cookie,网站可以经用户同意收集数据并将其传播给第三方.文献[26]的研究表明,即使用户没有做出选择,部分网站也会默认用户已经同意cookie跟踪,或者用户已明确选择退出,部分网站也会存储用户同意.在测试中一半以上的网站至少存在一项可疑违规收集行为.并且,cookie跟踪的范围非常广泛,文献[27]对欧盟境内2 000多个高流量网站通过cookie实现的跟踪进行评估,发现cookie可以在访问数据集中90%以上的网站识别用户,因此用户很难避免被跟踪.此外,根据文献[28]对在线广告业务的研究,出于研究用户行为的目的,即使用户已经选择退出广告,网站也会继续追踪用户的浏览器.因此在现有的框架下,用户缺乏可行的机制来同意或者拒绝其在互联网上的行为被跟踪分析.
2.1.2违规检测方法
若应用程序或者网站需要处理用户的个人数据,就要符合GDPR的要求,然而GDPR的隐私处理条款针对软件的开发过程只给出了一般性原则,而非详细的操作指南,因此现有软件和网站中可能存在大量违反GDPR法规的情况.但是先分析隐私泄露事件,而后确定后果和罚款需要执法机构付出大量的时间和精力来评估数据收集和处理机制是否符合GDPR条款,因此使用技术手段对违规行为进行规模性的检测和评估是十分有必要的.
移动应用程序经常访问用户的个人信息以满足业务需求,由于此类信息通常很敏感,因此监管机构要求移动应用程序开发人员发布详细的隐私政策,文献[29]提出了一个半自动框架,建立隐私政策术语到API方法的映射集合,用于检测隐私政策和应用程序代码不一致的违规行为.文献[30]在文献[29]的基础上,将GDPR要求的隐私政策规范进行量化分析,通过自然语言处理(natural language processing, NLP)与机器学习算法,生成6个通知分类器来检测应用程序的隐私政策是否完整,并通过实验证明了自动化分析隐私政策的有效性.同样基于文本分析,文献[31]使用语义相似性来识别不同文章对应的和特定违规类型相关的主题,用识别的特征来训练一个长短期记忆(long short term memory, LSTM)深度学习器,可以有效识别给定文本描述的潜在违规行为.
进一步的,隐私政策的合规只是基本要求,在实际的应用场景中,还需要知道应用程序是否会收集隐私政策之外、没有取得用户同意的数据.文献[22]基于字符串匹配,利用半自动化工具来检测未经事先同意而发送到互联网上的数据流量,并检测了86 163个应用程序,发现有三分之一应用程序在未经用户事先明确同意的情况下向第三方发送个人数据.
此外,许多移动应用开发者为了各种目的在他们的应用中整合第三方服务,包括应用维护分析服务、用户参与、社交网络整合和广告.第三方服务访问大量有价值的用户数据,这些数据往往超出了它们向应用开发者或用户提供服务的需要,并且在用户不知情的情况下进行跟踪.文献[32]根据应用程序无限制收集个人信息的情况,提出了一种基于关联挖掘的个人身份信息泄漏检测方法,设计并实现了一个自动化系统,用于检测APP发送的流量数据是否暴露了用户的个人身份信息,有助于在流量数据中发现隐藏的隐私泄露.文献[25]使用URL分类器来自动检测流量级别的第三方广告和跟踪服务,使用这种技术识别出2 121项此类第三方服务,其中233项不为其他流行的广告和跟踪黑名单所知.第三方跟踪服务的隐秘性和高权限使得该类行为具有较大的违规风险,一种解决隐秘性的可行方案是利用区块链技术增强数据使用的透明度,文献[33]提出了一种利用区块链和智能合约技术开发符合GDPR的个人数据管理平台的方案,该方案为服务提供商和数据所有者提供去中心化机制用于处理个人数据,确保只有指定方可以处理个人数据,并使用智能合约和加密技术将所有数据活动记录在不可变的分布式账本中,任何违规行为都会被永久记录下来并自动报告,该方法也能有效地解决数据所有者无法感知服务提供商是否遵守GDPR并且有效保护了其个人数据的问题.表3整理了这5种典型的违规检测手段,分别从违规检测方法、分析对象以及违规行为3方面进行展示.
Table 3 Analysis and Comparison of Violation Detection Methods Based on GDPR
2.1.3 规避违规
企业使用包括企业网站、社交媒体资料、在线商店等媒介和用户进行交互,特别是当前社交媒体已成为重要的企业平台.由于这些媒介处理着大量用户数据,因此企业必须考虑出台新的数据保护和隐私保护政策以适应GDPR条例,履行GDPR所规定的义务,确保其软件系统达到GDPR的要求.本节总结了增加隐私政策可读性、增加数据访问透明度及同意管理3种规避违规的手段.
1)增加隐私政策可读性
隐私政策是用户了解哪些个人信息被收集和使用的重要媒介,但是隐私政策的可读性普遍较差,结合其他复杂性使其无法达到预期目的.文献[34]引入了一种基于自然语言处理技术的隐私政策摘要工具,该方案能够以高准确度将隐私政策进行分类以及阐明相关的风险级别.进一步的,文献[35]提出的方法可以将相当长的隐私政策总结为简短而浓缩的注释,从而让用户更准确的辨别数据收集的范围.
2)增加数据访问透明度
增加数据收集中的透明度有利于数据收集安全.文献[36]调研了谷歌工具“我的活动”,尽管大多数参与者并不关心数据收集,但是可以随时查看数据收集情况使得大部分用户增加了对产品的信任度.同样的,文献[37]介绍了一种用Web界面从不同在线服务导出数据收集和处理情况进行可视化展示,有效提高了用户对在线服务收集数据的行为认识.
在某些情况下,服务提供商并非真正需要采集到个人敏感数据,采集的目的可能只是为了收集丰富的某项数据以满足其分析的需求,文献[38]提出的区块链系统采用类似零知识证明的机制,允许用户在不透露其身份的情况下证明拥有某些属性,最大限度地在满足服务提供商需求的情况下使得用户提供的信息最少,因此GDPR所强调的数据最小化原则在一定程度上可以增加数据采集的安全性.
3)同意管理
由于同意通知的复杂性和动态性,必须执行合规性验证或审计来保证数据采集的合规.采用工具进行验证是一种有效的手段.文献[39]提出了隐私政策和同意管理需要的机器策略语言,使用推理器进行语义合规性检查.基于此项研究,文献[40]提出了一种数据保护设计工具,将GDPR法规转换为软件代码,从而实现自动化合规性验证.文献[41]认为通过确保数据处理中使用的数据集从一开始就符合同意,使用给定同意的结构化表示来“实时”生成数据集,可以增加透明度,方便用户给予、撤回他们对系统数据处理的同意许可,减少了事后进行遵守情况分析的需要.
根据GDPR的要求,服务提供商需要告知用户他们的数据收集情况,经过用户允许才能收集特定的数据.文献[42]通过对数千名参与者的调研得出,用户普遍在服务提供商数据收集和数据使用的解释上没有仔细地阅读,削弱了同意通知的作用,这表明了用户体验需要进一步改进.此外,对于应用程序和网站的开发人员,根据文献[43]的研究,只有不到四分之一的专业人员能够接触到安全专家,而且很少有技术人员因为欧洲GDPR立法而对其软件进行针对性的优化,因此规避违规行为还需要很长一段路由走,用户既要提高隐私保护意识,明确GDPR赋予的权利,企业也要采取积极手段响应政策,避免受到处罚.
2.1.4 小结
2.1节主要从典型的GDPR违规案例出发,对基于GDPR的合规检测研究工作进行了分析和讨论,并给出了GDPR合规检测研究领域的一些观点.
讨论1.本节从不同角度分析和归纳了几种违规检测方法,对应着不同的违规行为.从分析对象来看,违规检测方法针对的是不同场景、不同阶段下的特定行为,基本覆盖了数据收集、处理的各个阶段;从分析方法来看,目前大多数文献主要集中于使用自动化工具进行违规识别,此类问题的解决方法大都是以机器学习技术为基础构建的自动化工具进行分析,在各自的实验场景中表现出了出色的检测效果,此外,使用区块链技术进行违规检测的研究目前较少,且都是以理论框架构建为主,如何将区块链和智能合约技术进行有效地应用仍然需要研究人员进一步探索.
观点1.目前的自动化检测的手段大都围绕机器学习算法,实验对象也是特定场景下的应用程序或网站,有一定的局限性.并且由于分析的对象并不相同,数据集的训练性能有一定的针对性,能否在跨平台跨类别的应用程序上达到相近的性能值得进一步的探讨.进一步的,违规行为分布在数据收集、处理、共享、流动的各个阶段,每个阶段所涉及到的场景都是非常多样的,这给违规行为检测带来了很大的挑战,如何找到违规检测在不同阶段的普适性方法以及如何针对不同场景进行优化是未来的一大难点.
2.2 隐私政策分析
隐私政策是一份声明或法律文件,它向用户披露数据收集、使用、存储和共享的部分或全部方式,使用户能够在注册任何服务或决定是否继续使用服务时做出明智的决定,是数据控制者和用户之间信息传播的主要媒介.随着数据隐私保护成为一个重要的社会问题,不同国家和地区都制定了相应的法律法规来保证用户数据的安全性和隐私性,其中最具有代表性的就是GDPR.但是检测收集、处理或存储用户个人数据服务商的合规性是法律执行的一大困难挑战.这个困难主要来自于2个方面:1)GDPR等法律法规是用自然语言编写的,包含了大量的法律术语,没有法律知识的用户很难读懂.2)隐私政策通常用冗长而复杂的文档展示,用户阅读起来非常耗时.文献[44]在2008年就指出,如果一个用户要阅读在互联网上访问的每一项服务的隐私政策,平均每年需要244 h.因此当前研究的主要方向是自动地发现法规与隐私政策之间的合规性问题,并为数据主体(即用户)、数据收集方(即服务提供商)和监管当局提供直观的结果[45].
在GDPR出现之前,已有很多对隐私政策的分类研究,大多数方法都是利用自然语言处理技术对隐私政策进行分析[46-48],但使用的方法欠缺迁移性,在GDPR相关的隐私分析中并不适用.新兴的机器学习技术越来越多地被用于辅助隐私保护,通过对隐私政策的评估与分析,使政策更具可读性,并检测隐私政策中的模糊内容.文献[30]提出了一个自动系统HPDROID,通过识别应用隐私政策中声明的数据实践和应用代码中的数据相关行为来弥合GDPR的一般规则和应用实现之间的语义鸿沟.该系统根据GDPR第5条相应的3个基本要求,即透明度、数据最小化、保密性,将自然语言处理技术与机器学习相结合,对796个移动健康应用程序隐私政策进行了检测,发现其中189个没有提供完整的隐私政策,HPDROID提高了应用程序用户和开发者的隐私保护意识.
文献[35]在2018年受到GDPR和机器学习技术的影响,根据GDPR第12,13条的规定提出了风险指标,并使用了朴素贝叶斯、支持向量机(support vector machine, SVM)、决策树和随机森林4种有监督的机器学习技术.基于风险指标对冗长的隐私政策进行了分类,简化了隐私政策的解释,并提醒用户注意建议的风险指标.文献[49]在文献[35]的基础上,增加了数据集的范围,从网上爬取了1200个隐私政策,按照5项GDPR隐私政策核心要求进行标记,并增加了单词嵌入技术与监督学习相结合,对隐私政策进行了分类,发现超过76%的隐私政策不满足5项基本要求,因此可能不完全符合GDPR.文献[35,49]提出的各种基于机器学习的方法在一定程度上解决了隐私政策总结问题,但是他们使用的都是美国或者欧盟网站的数据集,对其他国家的网站效率并不高.文献[50]从GDPR和《巴基斯坦数保护法》中提取了10个隐私惯例,定义了27个类别标签,从5个部门的巴基斯坦网站编译了120条隐私政策的标记数据集,使用了SVM、Logistic回归、KNN和朴素贝叶斯4个机器学习分类器对数据集进行了训练和测试,实现了对巴基斯坦网站隐私政策的合规性检查.
对隐私政策的大量研究都依赖于有监督的机器学习方法,这些方法需要标注隐私政策的数据集,但是这种公开的数据集很少,因此隐私政策语料库的建立极其重要.文献[51]基于众包创建了一个名为OPP-115的网站隐私政策语料库,其中包含23 000细粒度的数据实践.文献[52]扩展了OPP-115语料库,增加了标记“退出选择”的细粒度信息,该文献专注于自动识别隐私政策文本中的用户选择的任务.文献[53]引入了从GDPR条款到OPP-115注释方案的映射,证明了OPP-115的广泛适用性.文献[54]建立了一个包含350条移动应用隐私政策的语料库,并提供了一个可扩展的管道来分析带有隐私政策的APP可执行文件的潜在合规性问题.文献[55]提出了一种自动检测隐私政策中模糊词和句子的方法,通过众包创建了一个模糊词语料库.文献[35]向前迈出了一步,创建了一个包含45个手动标记的隐私政策的语料库,专注于由专家定义的隐私政策的风险级别.文献[45]根据GDPR第13条对隐私政策进行合规性分析,设计了一种基于GDPR的分类方案,并为此手动策划了304个隐私政策的语料库.对于语料库的扩大和填充,还需要研究人员进一步努力.
除了文献[35,49-50]对网站的隐私政策进行分析,还有许多研究对其他领域的隐私政策的分析.文献[56]根据GDPR一般规则,采用有监督的NLP技术对基金行业的234个隐私政策进行了检测.文献[45]从Google Play6(应用程序商店之一)收集应用程序的隐私政策,涵盖了22个应用程序类别,并基于GDPR第13条的分类方案注释了一个包含304个隐私政策的语料库.算法采用了SVM,以及基于嵌入的双向长短期记忆网络((bi-directional long short-term memory, BiLSTM)和基于上下文Bert网络2种具有代表的神经网络模型.文献[57]采用了文本模糊解释结构建模(textual fuzzy interpretive structural modeling, TFISM)确定了GDPR中的关键因素,并将它们与各种云服务隐私政策进行了比较,检测了GDPR与服务隐私政策之间对于不同关键术语或因素的优先级设置的相似性.文献[58]开发了一个集成的、语义丰富的知识图谱来表示GDPR所规定的规则,并将其应用于云隐私政策中对比语义相似性,大数据从业者可以利用该方法根据授权文件定期更新其参考文件.
小结:2.2节从现有的基于GDPR的隐私政策合规性研究工作中,挑选和总结了5项具有代表性的研究工作,并给出了基于GDPR的隐私政策合规性研究领域的一些观点.表4分别从分析依据、数据集、算法以及最优算法多个角度进行分析和讨论.
讨论2.由表4可知,1)从分析依据而言,基于GDPR第13条的要求进行合规性分析占研究的多数.2)从数据集来看,大多采用的是英文的隐私政策,数据集的范围领域在不断的扩大.3)从算法来看,文献[35,45,49-50]都采用了3个及以上的算法进行对比分析,结果都得出SVM算法对隐私政策的分析领域适用性最好.
观点2.基于GDPR的隐私政策的合规性研究能够将隐私政策中数据收集、使用、存储和共享的部分或全部方式直观地展现给用户和服务提供商,促进了数据隐私保护领域的发展,其研究意义重大.通过对比和归纳现有工作,本文发现:1)相比于深度学习算法,SVM算法在隐私政策分类上有更好的结果,这或许是因为深度学习算法欠缺专业标注的数据集,同时也缺少大量的正样本来训练神经网络.2)隐私政策语料库目前大部分涉及的是英文,多语言融合的语料库有待研究人员进一步开发.
Table 4 Comparison of Privacy Policy Analysis Based on GDPR
2.3 GDPR模型框架
通过调研现有研究工作,目前常见的GDPR模型主要基于合规性检测、隐私政策分析以及系统模型设计来遵循GDPR基本原则.因此,本节从这3种不同的技术角度,分别阐述了基于合规性检测的框架模型、隐私设计的框架模型以及系统设计的框架模型的研究进展.同时,在现有研究工作的基础上,对每种模型框架进行分析讨论,并给出观点.
2.3.1 合规性检测框架模型
通用数据保护条例(GDPR)的合规性对组织在个人数据隐私保护上提出了更高的要求,每个组织都必须考虑适用其组织架构的框架模型,然而庞大且复杂的法律合规需求极大地限制了组织的效率,如何为组织提供良好语义化的GDPR框架仍是一项重要的挑战.现有的研究工作主要通过合规检查表、合规评估工具以及法律模型来实现GDPR的合规性检测.
公共机构和公司开发构建的合规检查表[59-61],能够有效支持组织检查其对GDPR的遵守情况.文献[59]提出了GDPR文本扩展(GDPRtEXT),使用欧洲立法标识符(European legislation identifier, ELI)本体将GDPR公开为链接数据,将概念与GDPR相关文本链接起来.组织可引用查询结果并链接至相关文本,从而记录和衡量对GDPR的遵守情况.处理活动登记册(record of processing activities, ROPA)是组织个人数据处理活动的综合记录,创建和维护ROPA是实现问责制并帮助监管机构实施GDPR合规监管的重要过程.然而,传统的通过电子表格维护的ROPA缺乏适合构建自动化工具链的数据结构及语义.文献[60]通过语义网络将不同监管机构发布的模板合并为良好交互性的ROPA通用语义模型(common semantic model for ROPAs, CSM-ROPA),并基于扩展数据隐私词汇(data privacy vocabulary, DPV)为跨域法管辖合规性提供统一数据模型.文献[61]在文献[60]的基础上构建使用DPV审计个人数据国际传输的GDPR合规性工具,并在识别数据转移、合规性以及问责制方面有积极反馈.但受限于测试规模,该模型性能还需要进一步考量.
在合规评估方面,工具的实现往往需要基于具体的数据保护技术(例如,区块链、数据挖掘技术)或集成定制满足GDPR原则的工具实现.GDPR强调必须确保组织在用户同意情况下使用数据,用户同意也是执行同意机制的互操作性、正确性和完整性的基础.文献[62]提出了一种基于区块链的合规验证模型,确保只有获得用户授权的实体才能访问用户数据,且所有数据交互都记录在区块链上,但是该方案仅保障GDPR同意机制的实施,无法满足GDPR整体合规验证.此外,数据驱动型组织严重依赖于数据处理,存在数据交互的业务很容易违反GDPR.文献[63]提出一种基于事件日志行为的在线流程挖掘框架以实现支持业务流程的GDPR合规性.通过前向合规技术检测业务流程的合规性,由流程挖掘技术从事件日志中发现组织的违规行为来为流程提供用例.一致性检查技术将观察到的行为与业务流程期望的行为进行对比,以评估它们的偏差值,然后通过向后合规检查技术发现不合规方面并相应地调整模型,但该框架在复杂度高、跨越组织的业务流程中存在一定的局限性.
从学术届和产业届方面的工作来看,许多工具和模型仅满足特定或孤立的GDPR需求,例如透明度、问责制或数据最小化,较少存在全面支持GDPR原则的模型.文献[64]设计了一个支持GDPR数据治理的DEFeND平台框架,能够有效复用和集成满足特定或孤立GDPR异构的工具,围绕隐私保护的设计、同意机制管理和隐私影响评估管理3个概念,帮助组织模块化实现GDPR合规性.该方案能满足GDPR多方面的要求,对GDPR的实施提供了完整的参考实例.然而,目前仍缺乏应用于大数据场景中多源数据、不同目的和密集型数据处理的GDPR合规性解决方案.文献[65]提出了一个组件化框架来实现大数据场景中的GDPR应用,该框架允许对与GDPR相关的工作进行分类并集成在框架组件中,解决了大数据系统中的异构性和多源数据分析的需求,但还需要大量的测试来平衡安全解决方案和性能开销.
除此之外,法律建模方法[66-67]建议对监管概念进行建模以实现GDPR合规性,法律文本通常包含特定领域术语的定义、交叉引用和歧义,其可解释性对于开发人员可能具有挑战性,公司通常使用法规评估工具来提升法律文本的可读性,帮助组织了解其法律义务.文献[66]提出了一个描述GDPR原则的企业架构模型(enterprise architecture models, EAM),将GDPR法规形式化为遵循合规性原则的EAM片段并强调GDPR原则和义务之间的联系,帮助组织积极履行法规义务.同时,该方案在企业架构的不同层次上对GDPR法规建模,解决单一方面建模的局限性.然而,现有的法律建模倾向于考虑特定法规,但在实际环境中企业将面临诸多法规制约.文献[67]提出了一个灵活的模块化立法合规评估框架,该框架旨在支持多项立法,此外,该框架还扩展了开放数字版权语言(open digital rights language, ODRL)用于表达立法义务,这两者都是迈向上下文内容相关合规系统的重要一步,使系统可以轻松适应不同的监管领域.
合规检查表、合规评估工具以及法律建模方法都能够在不同程度上实现GDPR合规原则检测,为检查合规性和理解GDPR的影响提供指导.
2.3.2 隐私设计框架模型
隐私设计是指在设计系统时需考虑到隐私问题,即在处理方法的设计阶段必须已经考虑到所需的隐私保护问题,与隐私相关的问题应该在设计层面解决,而不是在实施之后.这种方法通常被称为隐私设计.在设计隐私框架时通常需要满足GDPR的相关原则,如主体同意原则、透明度原则、真实性和准确原则以及问责原则等,以有效保障合规性.
文献[68-69]基于GDPR基本隐私原则设计了满足GDPR要求的隐私设计框架,以实现在源头满足GDPR合规性的方法.GDPR定义了问责机制以保障个人数据的隐私,通过赋予个人对隐私数据的控制权来提升个人数据隐私权限.文献[68]提出了一种满足GDPR数据处理要求的隐私设计框架(privacyTracker),该框架支持包括数据可追溯性在内的GDPR基本原则,允许用户从任意节点以不同索引方式遍历引用来构建跟踪树,即所有接收数据实体的树状记录,跟踪收集数据的披露情况,实现个人数据泄露问责的同时评估数据完整性.这些隐私设计框架虽能有效保存和处理个人数据,但仅关注了局部的隐私原则,缺乏对隐私设计问题的整体认识.文献[69]依据GDPR基本原则为企业架构提供模式库、集成用例来实现GDPR合规性;通过对来源的检索、识别实体对象并分析所需的业务流程来定义用例;选择模式对应的GDPR原则或创建新模式来确保信息系统符合GDPR.该方案能够依据检索模式实现满足GDPR的隐私设计,融合多模式解决整体隐私设计问题,具有良好的泛化能力.但同时,需要不断更新模式库,以满足不断出现的隐私设计问题.
2.3.3 系统设计框架模型
GDPR的提出使得组织需要设计同时兼顾功能和隐私原则的系统模型.文献[70-71]针对不同应用场景设计系统框架以遵循GDPR原则.
社会技术安全(science,technologhy and society, STS)是一种设计安全复杂系统的方法,其中自主参与者和机器之间建立相互依赖关系通过交互和共享数据实现目标.文献[70]提出了一种由建模语言和推理框架构成的社会技术系统设计方法,通过建模识别参与者之间的依赖关系实现满足GDPR的社会层面建模,并由推理框架自动验证隐私政策合规性.
工业领域中识别或分析人类行为的算法,有助于实现和增强人机协作,但数据主体隐私与工作流程有效性之间存在冲突.文献[71]基于自动化工业生产场景提出了符合GDPR自动化服务的分布式隐私感知软件架构,在保证个人数据(personal data, PD)自动化感知服务隐私性的同时,规定自动化服务公司的义务和职责.但适用范围较为局限,需要与企业资源规划和信息安全管理系统的协同作用.
在医疗行业这种依赖个人敏感信息(病例)的系统中,需要着重考虑数据处理的安全性.文献[72]为电子健康记录(electronic health records, EHR)提出一种可互操作的openEHR系统架构,允许用户实时接收数据并在同意的情况下共享数据.该模型实现系统功能层和数据可追溯性、完整性和机密性相关需求,提供了开发兼容卫生系统的完整方法.同时,文献[73]提出一个面向患者基于区块链和快速医疗互操作性资源(fast healthcare interoperability resources, FHIR)的电子健康钱包(electronic health wallet, EHW)系统,和一个兼容GDPR法规的基于健康物联网系统数据的PHR系统框架.PHR系统可以兼顾数据隐私保护以及数据互操作性,鼓励患者选择性的共享数据,并以保护隐私的方式对物联网健康数据进行分析,进一步解决了医疗系统设计中的互操作性及隐私保护问题.但是,基于系统的设计框架需要平衡系统功能的可用性和数据主体隐私之间的关系,进而有效遵循GDPR原则,针对不同系统实现模型设计的统一方案还未实现.
2.3.4 小结
2.3节从现有的基于GDPR的模型框架的研究工作中,总结了4类具有代表性的合规方法并针对每类合规方法挑选出2种及以上代表性的研究工作,具体如表5所示.表5分别从合规方法、具体方式、分析对象以及使用领域多个角度进行分析和讨论.
Table 5 Comparison of Compliance Methods Based on the GDPR Model Framework
讨论3.通过研究大量文献,本节将GDPR模型框架分为合规性检测框架、隐私设计框架以及系统设计框架3部分.其中,合规性检测框架通过合规检查表[59-61]、合规评估工具[62-65]以及法律建模[66-67]检测GDPR的合规性.由文本扩展[59]、通用语义模型[60]和数据隐私词汇[61]构成的合规检查表通过建立概念与GDPR法规的映射关系,在一定程度上帮助组织实现合规性检测,但其多依赖于人工实现,在实现效率和灵活度上有待考量.合规性评估工具基于数据保护技术[62-63]或满足特定或孤立GDPR要求的工具集合[64-65],评估GDPR的遵循情况进而保障组织合规性.法律建模方法[66-67]对监管概念建模,提高法律文本的可解释性,以减轻组织GDPR合规性挑战.隐私设计框架[68-69]在设计层面基于GDPR基本原则设计隐私框架以保障隐私合规.系统设计框架[70-73]针对不同场景设计兼顾系统功能可用性、效率和数据隐私的系统框架.
观点3.针对合规性检测框架多层架构、多源数据和不同目的数据处理的需求,隐私设计框架构建整体隐私设计框架的要求,以及系统设计框架平衡系统功能和数据隐私保护之间关系的问题,本文通过对比和归纳现有研究工作发现:1)使用集成性和自动化合规性检测工具并通过具有明确组件的模块化框架能够快速解决概念合规、数据合规以及流程合规的挑战,有效实现GDPR合规性;2)集成多种隐私设计模式方案的模式库能够实现整体隐私设计需求,但需要与自动化工具结合以实现高效的隐私设计;3)异构性及其功能和隐私保护等级需求不同,使得现有研究工作并没有提出满足异构系统的系统设计框架.
2.4 小 结
建立合理的合规性检测框架,进一步规范现有的隐私政策,并且采用普适性的高效检测方法,才能达到GDPR的政策预期,保护公民的数据安全和隐私.本节分别从违规检测手段、隐私政策设计和GDPR合规性模型框架等方面分析了推动GDPR政策落实的技术手段,并加以概括总结,同时指出了进一步的研究方向,图7选择部分代表性文献展示了GDPR的合规性研究发展历程.
Fig.7 The development of GDPR compliance testing
3 GDPR相关的技术应用
3.1 基于GDPR的数据技术
GDPR指导了数据控制者和数据处理者如何对数据进行合理的处置,但数据处理必然存在着一定的风险,为了降低数据处理的安全风险,需要制定相应的保护措施.逐渐增多的跨境业务也为个人数据隐私增添了一份安全隐患,跨境流动数据需要得到更有力的保护.本节将从数据保护影响评估和数据跨境流动2个方面探讨GDPR相关的数据技术研究进展.
3.1.1 数据保护影响评估
GDPR第35条规定当个人数据处理的过程中可能会对个人权利和自由产生高风险时,数据控制者应提前做好数据保护影响评估(data protection impact assessment, DPIA).DPIA建立在隐私影响评估(PIAs)的基础上,是组织和企业必须履行的一项有关GDPR数据问责制的关键义务,它可以帮助企业实现风险最小化,并帮助企业证明合规性.如果企业未能履行这项义务,则将面对极其严厉的处罚,包括高达1000万欧元的罚款,或者高达到2%的全球年营业额.
虽然GDPR对数据保护影响评估提出了相关要求,但是GDPR只规定了实施DPIA的最低标准,并没有涉及明确的执行方法[74].文献[74-75]结合了德国数据保护机构采用的标准数据保护模型(standard data protection model, SDM)方法,文献[74]设计了一种跨学科的风险评估方法,将DPIA过程分为了准备、评估以及报告和保障3个阶段,并提出了可用性、完整性、机密性、不可链接性、透明性和可干预性6个评估要素.文献[75]就有关如何实施DPIA框架的问题展开了讨论,并通过2个案例的分析总结,实现利用SDM的数据保护目标来对风险进行结构化分析,未来也可以将这项工作纳入SDM.文献[76]在文献[74]的基础上对方法进行了实践,使用文献[74]的方法实施DPIA,与12个组织展开了合作,并分享了与公司合作实施以来积累的经验,以及不同的利益相关者在实施DPIA时需要注意的事项.
文献[77-78]针对特定的DPIA实施环境进行了分析.文献[77]专门对慈善机构及中小型企业展开了研究,与其他组织不同的是,慈善机构和中小型企业通常在财务和资源方面能力有限,因此在处理特殊类型数据和个人身份数据的工作上缺乏专业性.文章展示了实施DPIA的示范过程及设计框架,并通过一家实际的慈善机构进行了验证,该框架同样可以应用于其他需要实施DPIA的组织.文献[78]则主要针对IT系统,在系统开发早期通过基于模型的隐私安全分析来实现DPIA,并通过3个工业案例研究对该方法进行验证和评估.
因为现有的DPIA方法主要由分析师来进行评估,所以很容易受到分析师的主观影响,为了解决这个问题,文献[79]提出了一套有明确定义的标准用来帮助分析师评估隐私风险的影响和可能性,同时使用模糊多准则决策方法来系统评估隐私威胁的严重程度并进行建模.文献[80]结合数据保护影响评估(DPIA)和信息安全风险评估(information security risk assessment, ISRA)提出了一个信息安全风险评估模型pISRA,该模型为评估者提供了一个可以进行比较和重复的评估方法,但是还没有得到具体实现.
小结:本节主要针对现有的数据保护影响评估(DPIA)方法进行了讨论和分析,并给出了基于数据影响保护评估领域的一些观点.
讨论4.目前大多数研究工作都集中在构建DPIA实施框架及流程示范上,但有关DPIA框架的具体实现较少.部分研究工作针对一些特定的组织分析了DPIA实施环境,并对DPIA框架进行了验证.除此之外分析师的主观想法也会影响到DPIA流程,明确的标准和系统的评估能够帮助DPIA的顺利实施.
观点4.由于GDPR没有对DPIA的具体实施方法进行详细说明,因此目前仍缺乏标准化的DPIA实施流程,同时每个领域需要解决的问题不同,对于DPIA流程设计的需求也不尽相同,这给DPIA的实施带来了很大的挑战.如何针对特定的领域设计专门的标准化DPIA程序仍需要进一步研究.
3.1.2 数据跨境流动安全
由于各国之间对于个人数据的相关法律要求不尽相同,比如欧盟的GDPR标准对于个人数据的保护十分严格,而中国的《数据安全法》出台还没多久,在个人数据的保护方面还较为薄弱,因此个人数据的跨境流动会带来较大的安全隐患.数据跨境流动要注意数据合规性问题,合规性验证对于保证业务流程的整个生命周期的安全性至关重要.
目前针对数据跨境安全领域的研究主要集中在政策解读和模型架构、技术支持方案以及医疗健康数据方面.
1)政策解读和模型架构
在数据跨境政策解读和现有模型架构方面,文献[81]认为GDPR不仅保护了数据基本权利,也促进了个人数据自由流动,这样形成的分层数据保护制度的架构保障了包括研究在内的以不同的公共或经济利益为基础进行的数据处理活动;而文献[82]提出了GDPR标准在如何评估第三国制度数据保护水平等问题上的缺失和不足,认为可以确定一套实质性要求以及第三国必须提供的支持性程序和执行机制来确保其数据保护水平符合欧盟标准.另外,在国内也有大量法律、金融等领域的学者和专家对GDPR进行了分析和研究,比如,文献[83]指出GDPR客观上对国际服务贸易规则产生了深远而广泛的影响,其中包含的数据跨境转移规则造成了数字封锁,构成了贸易障碍,企业和第三方满足GDPR标准的数据合规要求困难重重,最终导致数据本地化是满足GDPR合规要求的最佳选择.文献[84]将GDPR与当前全球其他主要经济体的跨境数据流动政策及其实践进行比较,分析了“数字主权”下全球跨境数据流动政策的新动向,从贸易框架探寻国际合作机制并由此提出对中国相关体系建设的建议.
不同国家和组织之间的差异是目前跨境数据流动面临的最大问题,不同的政策措施也意味着不同的数据保护水平,因此,文献[85]对各国及各组织在数据跨境流动问题上的现有政策和态度进行了对比解读,分析了在APEC、CBPR以及GDPR等多个标准协定之间建立互操作系统的潜在挑战和影响,以及站在美国角度,提出了目前在数据跨境流动问题上还需要考虑和解决的一系列事项.文献[86]通过分析欧盟和美国的跨境数据保护政策,提出中国应该继续保护当地居民的个人数据,同时,在考虑到互联网带来的巨大价值,中国应该开放非个人数据传输市场的建议.针对这些争议和讨论,文献[87]提出一种通用交换数据模型(EDM),该模型利用现有的开放式欧洲标准和技术规范作为构建块,以更加内聚和统一的方式描述一次性跨境消息交易.文献[88]从中外数据本地化实践中,抽象出描述数据本地化存储的严苛度模型,并以目的和手段之间的适当性和必要性为指针,构建出一套“数据本地化存储合理界限”理论,并从该理论出发,检视中国《网络安全法》相关规定,给出基本评价并提出了数据跨境安全评估办法的总体框架.
2)技术支持方案
跨境数据流动亟待解决的问题和需求已经开始催生新的技术支持方案.例如,文献[89]引入隐私证书颁发机构(certificate authority, CA)的概念,设计了一个多个隐私CA的访问控制层次模型,这些CA负责管理不同领域的法规,不仅可以控制不同国家的数据传输,还可以控制不同经济或政治集团或城市的数据传输.另外,他们还将城镇管理应用程序作为iKaaS平台的一个用例,介绍了该访问控制机制的工作原理.文献[90]在GEO-TRUST项目中提出了一种称为偏移量证明(proof of offset, POO)的创新协议,以通过地理位置、责任、数据公开最小化、数据语义注释实现更高的控制和数据访问限制,从而保证跨域数据重用,并提高数据保护意识,以此来促进数据交换、可信任性、同意管理、声誉和安全的监管.
随着时代进步和科学技术的不断发展,区块链系统提供了一个分散、不变和透明的架构,可以将数据的所有权和控制权交还给用户,实现可信和负责的数据共享,但对于数据共享等领域,区块链网络中仍存在不同的可扩展性、安全性和潜在的隐私问题,如链上数据隐私、数据源身份验证或遵守隐私法规,因此,文献[91]提出了一种基于区跨链系统和密文策略属性加密的隐私保护和用户控制的数据共享架构ThemisABE,该方案具有一对多数据加密和细粒度访问控制等特性,能解决数据共享的隐私安全和本地化问题.针对跨境数据共享,文献[92]提出了一个使用区块链的跨订单可问责数据共享平台,其中全球云构建在不同国家设置的多个安全网关之上,分别使用包括5种算法来处理数据访问请求、数据共享、区块链交易、检测和惩罚行为不端的实体等问题.文献[93]针对GDPR下共享数据的安全性问题部署了一种基于风险的评估方法来确定如何评估现有的数据匿名化技术,以此来与GDPR中的新数据类型相协调;还进一步开发了一个基于机器学习的隐私风险挖掘框架,该框架由两阶段聚类算法和隐私风险树模型组成,可以用于检测发布新净化数据集的记录链接风险;此外,文献[93]不仅为数据控制者提出了一个隐私管理框架以提高区块链技术差异私有数据共享的效用和安全性,还提出了另一个结合区块链和同态加密的框架,以外包集中式匿名服务帮助数据所有者与多个数据控制者之间共享数据.除了区块链技术,文献[94]为了让任何非结构化数据云存储系统都必须满足跨境数据流法规遵从性的要求,还使用深度学习模型将驻留在统一文件和对象存储中的数据分类为个人信息,以及在集群文件系统级别实现地理围栏功能,以此来规范分类个人信息的跨境数据流.另外,在Web服务方面,文献[95]设计了一种测量方法,用来量化跨境的大规模跟踪流量,测量结果显示,大部分的跟踪流量都会在欧盟境内终止,也就是跟踪流量还在GDPR规则的管辖之下.文献[96]全面总结了有关第三方网站跟踪的政策及技术研究,来帮助决策者制定更加安全的解决方案.在移动应用方面,文献[97]针对安卓应用程序的数据跨境传输制定了合规评估标准,并设计了合规性评检测方法,并用此方法对100个常用的安卓应用程序进行了评估,发现有高达66%的应用程序存在着跨境合规问题.
3)医疗健康数据
在医疗数据方面,为了实现更好的医疗服务,患者的跨境移动、远程医疗和医疗研究的交流都给数据安全带来了极大的挑战,为此文献[98]借助私人区块链搭建了用于评估的平台,通过推荐最佳的安全策略来为业务和应用系统量身定制防御措施.文献[99]介绍了可自动识别风险的系统安全建模器(system security modeller, SSM),并以欧盟内部的跨国医疗数据交换为场景进行了讲解,该工具可以在系统设计的同时检测合规性,当出现不符合合规性的情况时还会计算出对整个体系结构的影响.文献[100]针对跨境电子身份认证保护进行了讨论,并建议通过假名化和选择性披露的方法使电子身份识别的互操作性框架达到要求的数据保护级别.为实现有效的跨订单医疗保健供应,欧盟发布了OpenNCP平台来解决国家间卫生信息交换中的互操作性问题,针对其中存在的一些安全问题,文献[101]在OpenNCP的基础上进行扩展并详细描述了KONFIDON项目方法以及如何通过结合互补的安全增强技术来部署该方法,以达到最终提高电子健康数据交换的信任和安全性.文献[102]提出了一种实现破坏性日志记录的新方法,即一种用于在OpenNCP上跨境交换电子健康数据的审计机制,在OpenNCP基础设施内提供可追溯性和责任支持.文献[103]提出一种访问控制方案,该方案允许请求数据和服务的消息在发送方和接收方验证安全问题后跨不同的区域或国家节点,它可以拒绝那些被检测为恶意的访问请求;并通过放置在发送方和接收方的威胁检测软件的明确反馈来抑制许可消息流,以此来提高在分布式系统如OpenNCP下运行的跨境健康数据访问的安全性;并使用一个分析模型来评估了安全系统造成的开销.考虑到医院中数据和软件使用的异构性和高度敏感性所带来的具体限制和批评,文献[104]提出了一种为医疗信息系统执行DPIA的方法,通过支持风险评估和管理,该方法可以应用于在医疗环境中执行DPIA以维护医疗保健信息系统的安全性.针对系统的互操作性问题,文献[105]也给出了解决方案,它设计了用于医疗保健行业的工业4.0模型,并集成了不同的工具,如同意管理器和数据隐藏工具,来确保医疗体系的隐私性.
4)小结
3.1.2节针对现有的数据跨境流动安全领域的研究工作进行了总结和讨论,并给出了数据跨境流动研究领域的一些观点.
讨论5.3.1.2节从数据跨境领域出发,分别介绍了国内外专家学者对于当前多个经济体的政策的解读和模型架构的分析、以及应运而生的新技术、新方法,另外也单独从医疗数据角度出发介绍其跨境安全和现有方案.不管是GDPR对欧盟数据保护起到的积极作用,还是其掣肘发展和交流的消极影响,都说明目前各个经济体针对数据跨境的制度和政策都有一定的局限性.此外,不管是框架还是技术方案,目前都还处于研究阶段,而数据跨境安全体系建设势必要落实到实践中去,既要考虑其适配性和合理性,也要不断从实践和反馈结果中发现问题并提出解决和提升的方案.此外,目前的有效技术方案较少,层次相较于普通数据共享方案也没有明显的融入数据跨境需求,缺少针对性探讨和研究.个人健康数据在跨境过程中的隐私性和安全性确实需要得到重视,但其他领域的数据也需要相应的研究和评估,这是目前研究领域存在的短板和不足.
观点5.目前不同国家的数据跨境政策之间的差异较大,且安全和发展侧重点不同,以至于短期内很难在全球范围内形成统一且高效的跨境数据治理监管体系,也就无法应对未来发展带来的大规模数据跨境安全需求问题.目前世界各大经济体都在致力于探寻符合自身利益的数据跨境方案和界限,但缺少交流协商寻求全球共识的契机.技术工具和框架建设不应止步于个人健康数据,经济、政治、科技等领域也是国家有序健康发展的重要动力,不同的数据拥有不同的敏感性和安全级别,相应的就会在跨境的各个环节产生不同等级保护措施的要求,中国现如今已经逐渐形成统一的数据分类分级制度,相关技术方案可以以此为研究角度进行设计、改进和升级.
3.2 GDPR合规应用场景
GDPR的出台确保了数据主体的数据隐私安全,为数据主体、数据控制者和数据处理者之间搭建起了一座信任的桥梁,特别是数据流动频繁、数据敏感度高的应用场景,GDPR的合规性显得尤为重要.本节分别针对区块链、物联网、电子健康及其他领域(教育、生物特征识别)等不同的应用场景对GDPR合规性进行探讨.
本文选择区块链、物联网等应用领域进行分析和讨论,主要有3点原因:1)通过对现有研究工作的梳理发现,现有的基于GDPR的数据隐私安全研究成果主要集中在这几个领域,有必要对其进行单独调研分析.2)目前大多数的区块链应用都不符合GDPR标准,区块链的永久存储不可更改的特性使得区块链的合规性变得困难.同时,物联网设备之间传输的数据量大且类型复杂,其中不乏大量的用户个人敏感信息,一旦设备遭到攻击将可能造成十分严重的数据泄露事故.3)生物特征数据属于GDPR规定的特殊类别数据,非特殊情况不得处理,因此作为当今社会重要的生产要素,生物特征数据的隐私安全不可轻视.学术研究需要用到大量的研究数据,如何确保这些数据的合规性,将在很大程度上关系到学术研究能否顺利开展.但目前有关生物特征数据和学术研究领域的研究工作较少,因此本文将其归纳到其他领域进行探讨.
3.2.1 区块链合规领域
区块链技术具有分散性、透明性、可追溯性、不变性的特性,消除了个人数据的集中化,为数据的管理和存储提供了很大的帮助.但GDPR的出台也为区块链技术带来了新的挑战,为了了解区块链领域是否能够有效应对GDPR带来的合规问题,文献[106]对区块链系统做了一项分析调查,调查包含了区块链系统的开发商和服务提供商公开发布的法律文件及官方的Twitter账户推文.然而调查结果不容乐观,虽然GDPR已经颁布了3年并实施了一年,但在区块链领域仍然存在着如何解决GDPR合规性的严峻挑战.调查显示,在314个区块链系统中只有86个(27.5%)系统涉及到了GDPR,且仅有27个(8.6%)系统有关于GDPR合规性的确切的法律文件.因此,要解决区块链技术与GDPR合规性之间的问题仍然任重道远.
本节将从数据责任和来源追踪、数据管理和数据擦除3方面来讨论区块链技术为GDPR的合规性提供的助力以及其产生的阻碍.
1)数据责任和来源追踪
虽然GDPR出台后对拥有信息的服务提供商提出了更严格的要求,但服务提供商能否一直坚守高要求还是一个变数,数据的收集和处理过程仍缺乏透明度,用户无法了解自己的数据流向了哪里,被用在何处.区块链技术为此提供了合适的解决方案[33,107-110],通过分布式账本来记录服务提供商的所有数据活动,这样一旦服务提供商违反GDPR标准,他们的行为将会被记录在案.通过区块链技术可以实现数据流动的透明度,增进个人数据利益相关方之间的信任.
文献[107]为云存储应用设计了云数据溯源架构Provchain,该架构将数据操作的历史记录散列到Merkle树节点中,并链接到区块链上,生成防篡改的数据记录以供验证,实现云数据的透明性.文献[33,108-110]则利用了基于区块链的智能合约技术实现了数据来源的追踪和记录,通过智能合约捕获服务提供商和用户之间的交易条件,而无需第三方的参与,既实现了去中心化,又能够降低成本.文献[108]设计实现了2个具有不同粒度和可伸缩性的模型,其中第一个由数据主体为每个接受数据的控制器部署访问控制策略,第二个则由数据控制器部署策略来让数据主体加入.但文献[108-110]只提出了相应的概念框架,并没有涉及更详细的技术细节.文献[33]为合规的基于区块链的个人数据管理平台提供了详细的技术机制,他们在Hyperledger Fabric区块链框架之上开发了基于业务连续性的个人数据管理系统,证明了概念的可行性.
文献[109]具体说明了如何将一组GDPR规则转换为智能合约中的操作代码,使物联网设备实现对个人数据的自动验证.该方法不仅可以应用于物联网场景,还可应用于云系统或其他的服务场景[110].未来还可以在公共许可区块链或私有区块链上实现设计的抽象模型[109].
2)数据管理
GDPR规定数据主体要对个人数据的流向知情并予以同意,还要以易于理解的方式对个人数据进行控制.基于区块链技术的同意管理平台[111-118]可以帮助用户理解同意申请并轻松地管理同意许可,确保了用户对于其个人数据的控制权.在GDPR出台之前,文献[111]就针对个人数据隐私问题,将区块链作为自动化访问控制管理器,设计了基于区块链的个人数据管理系统.GDPR出台后,文献[112-122]也利用区块链技术提出了各自的解决方法.
文献[112]针对在线社交网络现有的同意管理机制与GDPR的规定进行了比较分析,并确定了其中存在的风险,作者建议设计基于区块链的同意管理模型为在线社交网络用户提供所需的透明度.文献[113]设计了一个个人数据管理系统BPDIMS,该系统以用户为中心,最大限度地实现了用户对个人数据的控制,并通过个人数据的货币化提升了用户对于个人数据价值的认知,使用户能够在分享个人数据的同时获取金钱收益.文献[114]利用区块链技术为用户提供了一个轻量级管理系统,该系统可以显示服务提供商有关个人数据的协议.文献[114]通过对控制器和处理器进行识别来区分2种同意许可,解决了其他文献并没有将数据收集和数据处理2方面的许可区分开来的问题,未来还可以为系统增加可视化图形界面来方便用户的管理.
文献[115]结合了加密技术,保证了同意管理系统的隐私性,并且为公司设计了代理应用程序,该程序会定期查询区块链,更新有关的同意状态,并以发布-订阅的形式告知相关的服务,使其能够及时做出反应.该文献首次实现了使公司服务与数据主体的动态同意许可之间保持实时同步.
文献[112-115]仅进行了基于区块链的概念设计,并没有进行概念验证,文献[116-118]则分别在不同的区块链上开发了相应的系统.文献[116]借助语义网和以太坊区块链构建了自动验证数据合规性的系统,当数据分享给第三方时,该系统能够强制执行GDPR规则.但该系统仅使用了以太坊区块链,未来还可以在更多的区块链框架上进行探索.文献[117]则通过Hyperledger Fabric框架实现了概念验证,设计了一个同意管理模型,利用区块链技术为数据主体、数据控制者和数据处理者提供了交互的工具,并维护了数据主体的权力.文献[118]提出了一个数据安全共享方案,将智能合约设置为访问控制列表,并为不同的对象设计了4种智能合约,文中探讨了哪些数据是不可变类型且可以存储在区块链的数据,并对该方案在不同区块链平台下的性能进行了测试.
不同于其他系统的单链结构,文献[119]设计了一种新颖的双层区块链结构,开发了用户权限管理系统Soteria,该系统可以同时满足分布式系统CAP定理中一致性(C)、可用性(A)和分区容忍性(P)3个属性,其中主链满足了可用性和分区容忍性,侧链满足了一致性和可用性,保证了系统的透明性、可证明性和可扩展性.除了双层区块链的分布式账本模块,该系统还包括用户权限管理模块URM和审计跟踪模块ATS.但由于侧链将块散列到主链上的频率会影响到整个系统的延迟和吞吐量,因此Soteria的链间管理策略还需要进一步的调整优化.
基于区块链技术的自我主权身份(self-sovereign identity, SSI)[120]也是实现数据的完全控制的一种途径.区块链技术使得身份管理(identity management, IdM)系统由传统的集中化的方法逐渐向开放、分散的自我主权身份转变.自我主权身份系统通过结合分布式分类账本技术和加密技术来创建不可篡改的身份记录,实现了用户对个人数据的完全控制权[121].文献[122-124]研究了现有的自我主权身份技术方案,并对SSI系统与GDPR原则的兼容性进行了分析.
文献[122]对现有的3种区块链身份管理系统uPort,Sovrin和ShoCard进行了分析,并指出了它们存在的缺陷,提出了新型身份管理系统DNS-IdM,该系统可以通过自主身份管理实现去中心化.文献[123]对基于公共无许可的uPort和基于公共许可的Sovrin两种不同类型的身份管理系统进行了比较,发现Sovrin区块链系统更加符合GDPR的大部分要求,因为Sovrin生态系统包含一个治理模型,且由可信组织联盟管理.除了uPort和Sovrin系统之外,文献[124]还分析了在公共无许可的以太坊区块链上应用的Jolocom框架,并讨论了SSI与GDPR标准之间的一致性.
3)数据擦除
GDPR第17条规定了数据主体的被遗忘权,即当满足一定的条件时,数据主体有权要求删除自己的个人数据.用户需要合适的机制确保他们能够选择自己想要的服务,当他们不需要这种服务时也能够完美地退出,例如当用户想要退出某种服务时,服务提供商需要删除用户使用该服务的所有历史记录[113].但是区块链的不变性意味着数据一旦存储在区块链上就不能再被删除或者改变,因此如何实现区块链数据的擦除成为了一项亟待解决的挑战.在先前有关区块链的GDPR合规性问题的文章中,讨论的最多的问题也是有关数据删除和修改的规定[125].文献[125]综合研究了有关使用区块链技术进行身份管理的文献,探讨了区块链在遵守GDPR的要求方面存在的优点及产生的矛盾,尤其是区块链的不变性与GDPR的被遗忘权之间存在的冲突.
比较常见的方法有针对区块链的离线数据存储解决方案[126-130].离线存储即构建链外数据库用来存储个人数据,区块链上则仅保存指向对应的个人数据存储位置的散列数据指针.文献[126]将个人身份信息与非个人身份信息分开存储,个人身份信息存储在本地数据库中,而非个人身份信息以及个人身份信息的哈希则存储在区块链中.文献[127]详细讨论了有关区块链的链外功能集成的方法,并提出了一个概念框架实现链外结构与传统区块链技术的结合.
由于区块链上的数据会在许多节点被复制,导致了数据的大量冗余,因此在区块链存储个人数据是不现实的.如今分布式文件系统(distributed file system, DFS)越来越多地应用于区块链技术,用来解决区块链技术与GDPR中的被遗忘权之间的冲突,优异的可扩展性及内容寻址能力使DFS系统成为替代传统区块链存储的新方向[128].文献[129]提出了一个在星际文件系统(inter planetary file system, IPFS)中应用的匿名委托擦除协议,该协议可以轻松地集成到IPFS中,使IPFS符合被遗忘权的要求并被认可其合规性.协议规定只有原始数据的提供者或其代表才能对数据进行擦除,发出的擦除请求会传至所有的IPFS节点,且所需的开销并不会影响系统的性能.文献[130]对IPFS,Sia和一种专有服务3种不同的DFS方法进行了评估,发现3种方法展现了不同的性能,当出现一定的过载情况时,专有服务的响应和可靠性会优于另外2种方法.虽然离线存储有效地解决了区块链的数据存储问题,但此种方法实际上破坏了区块链的分散性,同时也需要可信的数据管理机构[131].
文献[132]开创了另一种可行的解决方法,利用变色龙哈希函数(Chameleon Hash)构建可编辑区块链,传统哈希函数的抗碰撞性保证了区块链的不变性,变色龙哈希利用陷门可以轻松地找到哈希碰撞,从而对区块链任意块中的内容进行重写.该系统扩展了变色龙哈希函数与区块链的兼容性,可以与所有流行的区块链兼容.文献[133]在文献[132]的基础上结合基于密文策略属性的加密(CP-ABE)方法,提出了新的基于政策的变色龙哈希(PCH)的概念,实现了对区块链事务级重写的细粒度控制.为了解决文献[133]的方法可能面临恶意攻击的问题,文献[134]限制了修改者重写特权,修改者最多只能修改k次,次数由中央机构定义,除此之外加入了恶意行为惩罚机制,修改者在授权期间需要在链中存入押金,一旦发生任何恶意行为,中央机构可以提取押金.由于PCH机制需要一个完全可信的中央机构,文献[135]针对这一弱点提出了去中心化的解决方案DPCH,并通过基于RSA加密算法的变色龙散列和BLS短签名进行了实例化.
除了离线存储和变色龙哈希的方法之外,文献[136]提出了一种不同于侧链的解决方法,他们采用树的结构构建区块链,根据业务上下文将交易分到线性子链中,这种方法的优点在于当其中一个线性子链被删除时不会影响到其他子链.文献[137]运用设计科学研究(design science research, DSR)的方法设计了一个概念原型解决了删除区块链数据的问题,建议在一定的时间过后自动删除区块链中的数据,来实现区块链与GDPR的兼容性.但该方法的前提是需要区块链所有的节点都能有足够的诚信,而且因为删除的时间是预定的,所以该方案并不能满足用户能够随时删除数据的要求.相比于文献[137]的方法,文献[131]的方法则完全不需要修改区块链,文章利用了假名数据的法律属性,即只有当假名数据能够与个人身份联系起来时才能被当作个人数据.文献[131]通过假名生成算法为安全使用日志设计了假名供应系统,该系统会为每一个新块提供一个一次性的交易假名来保证GDPR的合规性.
4)小结
3.2.1节阐述了现有的区块链GDPR合规性的研究工作进展,并对3类具有代表性的合规性问题以及相应的合规性方法进行了总结和讨论,具体如表6所示.
Table 6 Compliance Issues and Approaches of Blockchain
讨论6.目前有关区块链合规性问题的文献主要集中在数据问责、数据管理以及数据的删除和修改上,其中有关数据的删除和修改的讨论最多.区块链提供的智能合约、自我主权身份等技术,能够帮助企业更好地实现GDPR的合规性.而针对区块链如何进行数据删除和修改的问题,较为广泛的方法是离线数据存储,将数据存储在链外数据库中,区块链上保存数据的散列指针.除此之外,上下文链、遗忘区块链、假名数据等方法也可以用来实现数据的删除和修改.
观点6.区块链为个人数据隐私安全提供助力的同时也带来了相应的安全风险.区块链的不变性成为GDPR的被遗忘权与区块链之间难以调和的矛盾,如何解决区块链与GDPR之间的冲突是一个值得探索的方向.
3.2.2 物联网平台合规领域
物联网中设备繁多,数据量大,数据流动频繁,个人数据隐私时刻都有遭受侵犯的风险,因此如何实现物联网的GDPR合规性是一个亟待解决的难题.GDPR标准在涉及较多用户的应用领域的影响更为明显,尤其是基于服务的物联网场景如智能医疗、智慧城市等.文献[138-143]致力于为用户提供数据同意管理平台以实现数据隐私保护.文献[138]开发了物联网管理平台ADVOCATE,该平台以用户为中心,帮助用户轻松管理物联网系统中有关个人数据访问的同意请求,同时也帮助数据控制者能够遵循GDPR的原则进行活动.文献[139]提出了Privysharing框架,将区块链技术应用到智慧城市场景中,将数据分成不同的类型,并通过不同的通道处理数据,实现了物联网数据的安全共享,实验证明多通道系统比单通道系统的可扩展性更好,文章还设计了奖励机制以激励用户分享个人数据.文献[140]为物联网智能家居平台提供了一个同意管理器,管理器将复杂事件处理(comples event processing, CEP)与边缘计算结合在一起,复杂事件处理负责数据流动的控制,边缘计算则负责为复杂事件提供安全策略.
在智能医疗领域,文献[144-145]探讨了新实施的GDPR法规给医疗领域带来的变化.文献[144]针对移动医疗应用方面,提出了将GDPR关键规则集成到移动应用程序中的可视化方法,但该研究还未经过真实的场景测试.文献[145]通过文献计量学和科学计量学的方法对医疗领域有关GDPR研究的热点进行了可视化分析,分析揭示了目前的研究热词是数据保护、隐私和大数据,区块链和机器学习成为了GDPR研究的新方向.
对于更为敏感、数据交换频率也更低的医疗数据,可以采用粒度更细的解决方案[141-143].文献[141]针对用户的动态健康数据设计了一个数据共享系统,该系统结合了区块链技术和云存储技术,为大型数据集提供了离线存储的方法,解决了区块链无法存储大量数据的问题,并添加了数据质量验证模块来控制数据的质量.文献[142]设计了一种用于物联网电子健康系统的GDPR控制器,能够让用户通过细粒度的访问控制策略完全控制自己的个人数据,当非法访问的情况发生时还能及时收到通知.文献[143]提出了数据安全共享方案MedSBA,利用私有区块链来实现云存储医疗数据的访问控制策略,提供对医疗数据的细粒度访问和共享过程中的安全保障.文献[146]在容器的虚拟化技术和分布式账本技术的基础上搭建了一个云服务架构,容器技术用于数据的监控;分布式账本如区块链、智能合约等则用来记录对数据的操作,该架构在网上药店的场景中进行了验证,并可以推广到更多的医疗场景.
文献[147]分析了物联网电子健康领域面临的安全挑战,并设计了一个完整的架构来为中老年人提供更加安全的医疗服务;介绍了有关环境辅助生活(ambient assisted living, AAL)和移动医疗2种应用程序的设计和实现.文献[148]建议对医疗数据处理进行系统的风险管理和错误管理,以防止医疗项目因合作者没能正确处理数据导致的人为失误.
小结:3.2.2节针对现有的物联网领域的GDPR合规性研究工作进行了总结和讨论,并给出了物联网GDPR合规领域的一些观点.
讨论7.3.2.2节主要从智慧城市[138-140]和智能医疗[141-148]2个应用场景分析了物联网领域在GDPR合规性方面的研究进展.数据同意管理平台的建立保证了物联网系统的合规性,高效的身份验证和细粒度的访问控制也进一步为物联网数据共享提供了隐私保护.一些研究工作聚焦在了将区块链技术应用于物联网的课题上,并结合数据加密、云存储、容器虚拟化等技术为物联网用户数据提供安全保障.
观点7.目前主要的研究方向主要是为物联网开发实现数据的安全共享.通过对现有研究工作的归纳分析,本文发现:1)对于用户众多数据庞大的物联网应用场景,开发一个保护用户隐私的数据管理控制平台是很有必要的,考虑到物联网资源受限的设备,平台最好能够实现轻量化.2)区块链技术为物联网系统的合规性提供了很大的助力,未来还可以将边缘计算引入区块链系统,以减轻物联网终端节点的维护压力.3)目前有关物联网合规性的研究工作大多都集中于概念架构的设计,还未能投入物联网系统,且应用场景较为单一,如何将合规方法推广到更多的应用场景还有待进一步探索.
3.2.3 其他合规领域
1)生物特征识别领域
GDPR引入了一种新的个人数据类别——生物数据,即通过与自然人的身体、生理或行为特征相关的特定技术处理产生的个人数据,这些数据可以确认自然人独一无二的身份,如面部图像或指纹.这种生物特征数据被广泛用于考勤或门禁系统.
对于生物特征数据的立法是很有必要的,但即使在欧盟内部,成员国之间也未能在生物特征数据的使用方面达成一致意见,各国对此的法律要求各不相同,导致GDPR在生物数据方面的要求无法实现[149],因此仍需要从法律和技术方面继续分析这一问题.文献[150]总结了法律界和技术界的专家们对于GDPR对语音数据影响的看法,由于目前法律界和技术界还无法达成共识,因此作者提出了分类法的方案以实现语音技术与隐私立法之间的协调.文献[151]对智能语音设备的隐私问题进行了详细的研究,作者对市场上流行的亚马逊Echo设备进行了测试,发现设备存在着很大的安全风险,在没有安全措施的情况下,用户的个人数据很容易遭到泄露.作者在文中提出了一系列降低安全风险的建议,并指出通过语音识别的生物特征控制可以成功阻止未授权的人访问设备数据.
除此之外,某些类型的软生物特征如情绪反应等,同样会带来数据隐私方面的威胁,甚至不亚于用于识别的生物特征的威胁,但这样的特征并不受GDPR规则的保护[152].因此关于GDPR生物数据相关的内容仍需要更加系统化的定义.
2)学术研究领域
在学术研究领域,由于GDPR的合规性引起的有关受试者的数据隐私问题,使研究人员而不得不望而却步,甚至直接放弃有涉及到欧盟受试者的研究.尤其是数据密集型研究离不开物联网的支持,但GDPR的出台为研究带来了风险,因此文献[153]讨论了如何使学术环境下的物联网数据研究符合数据隐私标准的问题,确定了3个信任原则,并实现了一种物联网数据研究的可信架构.教育研究领域也同样受到了来自GDPR的影响,例如招收欧盟学生的at-scale教育项目在研究中就遇到了GDPR合规性带来的困难[154].因此文献[154]对他们面临的挑战进行了总结,并提出了一些解决方案,如了解GDPR的法律细节、及时与法律团队合作、提前征求潜在受试者的同意等.
4 挑战与机遇
在深入调研现阶段基于GDPR合规性研究现状,以及总结GDPR相关的技术应用研究现状的基础上,指出了基于GDPR的数据隐私安全面临的十大挑战,并给出了可用于应对这些挑战的潜在安全技术研究方向,其对应关系如表7所示:
Table 7 Challenges and Opportunities of Data Privacy Security Based on GDPR
4.1 软件合规性检测
对于资源相对匮乏的中小企业来说,无论是遵守GDPR还是对已开发的应用软件进行GDPR合规性检测都是一个较大的挑战.但如果有一套在软件开发之初就能实现GDPR合规性的开发规则,以设计和默认来实现数据保护,就可以大大减少资源的浪费.文献[155]曾提出在需求工程期间解决这个问题,并打算基于NLP的自动化方法来实现.目前,对于这方面的研究才刚刚开始,实现这种挑战仍待安全研究人员进一步探索.
4.2 GDPR合规性审计
由于监管机构的合规性审计是不定期进行的,并且个人用户也无法感知服务商是否有效保护了他们的个人数据,更无法感知服务商何时何处对他们同意的数据进行处理和利用.基于此类问题,一个潜在的研究方向是使用技术手段来提高企业访问用户数据的透明度使得用户可以感知,并且让违规行为不可篡改以便于监管机构进行执法.区块链和智能合约技术可以在一定程度上解决这个问题,分布式账本保证了所有的数据活动不可篡改,而智能合约可以保证触发违规行为之后不可撤销,违反GDPR规则的行为会被自动报告.文献[33,156-157]将区块链和智能合约技术应用到GDPR的规范中,目前智能合约技术在GDPR合规性检测方面的应用尚处于起步阶段,值得进一步的研究.
4.3 针对第三方跟踪服务的流量分析
移动应用系统中开发者会出于盈利目的整合具有强隐蔽性的第三方服务,用户往往无法察觉这类服务的存在,更不用说知道这些服务能够在多大程度上收集、关联和汇总他们的个人数据.尽管此类情况因GDPR的出台加以改善,但是由于应用市场包含了数以百万计的应用,很难大规模地执行这些法规,并且由于第三方跟踪服务的不透明性和开发者的授权,很难发现和追踪第三方服务的行为.更进一步的,GDPR只是规定了对用户数据的收集和处理必须基于明确的用户同意,并没有限制这些第三方跟踪机构对数据的共享和销售.基于这种情况,现阶段在流量层面上对应用程序进行分析,研究应用程序和第三方跟踪服务之间的交互过程依然是非常有必要的,如何高效地对大量跟踪流量进行精准的识别和分析依然是未来的一大挑战.
4.4 隐私政策语料库的扩建
对隐私政策的分析研究多采用监督学习技术,这类技术的准确度都是大量可靠的数据集训练得来的.数据集的标注又是一个耗时耗力的工作过程,需要大量具备专业知识的人员耐心整理.业内工作者对数据集宽度与深度的持续要求,意味着要不断投入大量人力资源.那么是否可以利用对比学习、自注意力机制等无监督学习技术降低人力的投入,达到合理有效的利用社会资源目的.这样只需要一部分数据科学家对网上收集的大量的法律法规文件进行清理,再将这些文件用于预训练.此外,因预训练时的文件资料可包括多国语言信息,使用这类方法获得的模型具备良好的多模态基础,可通过巧妙的设置下游任务,实现多语言合规性的并行检测.
4.5 异构系统设计框架
开发人员在设计系统模型框架时考虑GDPR原则有助于帮助企业更好的处理个人数据并保障个人数据隐私.但当前的系统框架多基于不同应用场景、基于部分个人数据保护原则设计,存在一定的局限性,并且如何平衡系统功能的有效性和GDPR隐私保护的合规性仍然是一个问题.分布式多层次的系统框架能够实现分化隐私保护等级并兼顾多项GDPR原则,尽管现有研究已经实现了基于部分GDPR原则的分布式框架设计,但面对大数据环境下系统的异构性和多源数据,如何设计分布式多层次的系统框架组件,实现系统性能的提升以及数据隐私的保护,还需要进一步加以研究.
4.6 隐私设计框架模型
在设计隐私框架时需尽可能多的考虑GDPR相关法规原则,以实现从源头保障组织的合规性,进而减少企业的经济损失.然而,现有隐私设计框架虽能有效保存和处理个人数据,但仅关注部分GDPR原则问题,缺乏对隐私设计整体的认识.尽管采用构建模式库的方法检索模式实现满足GDPR的隐私设计,解决了整体隐私设计问题,但需要不断更新模式库满足不断变化的设计要求.因此设计集成化隐私框架,仍然需要研究人员进一步探索.
4.7 DPIA程序设计指南
有效的DPIA方法能够帮助企业在早期阶段识别并解决问题,使企业的安全风险最小化.但GDPR只提供了DPIA的相关标准,在如何实施DPIA方面并没有给出明确的DPIA模板.如何为每家企业提供可行的DPIA方法成为了当今的一大难题,尤其对于资源有限的企业来说,专业指导的缺失会使企业难以设计适合自身的DPIA流程,因此需要针对不同领域设计专门的标准化的DPIA程序,帮助企业建立自己的DPIA模板.
4.8 数据跨境国内外制度体系建设
我国目前在跨境数据领域的管理体系还在起步阶段,相关指南和标准尚处于起草和征询意见的阶段,这不仅需要不同领域的专家和研究人员针对不同敏感程度的数据制定相应的保护等级分划方案和具体说明来指导不同的数据操作,还需要不断完善整个数据管理体系.此外,不同国家或组织拥有的不同的法律规制意味着不同水平的跨境数据保护水平,这在很大程度上阻碍了数据的跨境流动,因此,如何最大限度降低国家之间政策差异导致的影响以及如何在数据跨境领域形成统一的国际规制,在保障我国重要数据安全性的同时更好地促进以数据为载体的国际交流和合作是目前亟待解决的问题.
4.9 数据跨境安全技术完善升级
数据跨境相比传统的数据操作具有步骤更加繁琐,风险因素更加多变和复杂,安全问题影响更深和代价更大等特点,因此,传统安全技术方案也需要得到相应的升级;另外,我国在数据跨境领域的风险评估体系也在积极建设,急需通过研究分析数据跨境流动潜在的风险因素并提前部署相关措施以便在支持数据健康流动的同时更好地保障跨境数据在整个周期的安全性.
4.10 实现区块链数据擦除
区块链的不变性可以为数据处理提供防篡改的记录,增强数据处理的透明度,但区块链的不变性意味着区块链不允许进行任何的修改,这一点并不符合GDPR有关数据修改和删除的规定,尤其是第17条规定的被遗忘权.现有的解决方法有离线数据存储、遗忘区块链、变色龙哈希等,但这些方法仍然需要借助可信的第三方来实现区块链的合规性,无法提供完全的隐私安全保证.若想要区块链技术在GDPR合规方面发挥更大的效用,则需要解决这一难题.因此如何设计更有效的方法解决区块链的不变性与GDPR被遗忘权之间的冲突将会是未来的一个研究热点.
5 对中国的启示
GDPR作为个人数据保护领域的一部重要的法律规定,有着非常典型的示范意义.受其域外适用效力的影响,全球范围内的众多跨国企业的数据安全都面临了很大的挑战.中国在数据安全领域也同样出台了《个人数据保护法》等相关的法律法规及行业规则.中国出台的法律法规与GDPR的要求具有某种程度的一致性,但也存在一定的差异.在这样的背景下,中国应该如何更好的改进是一个值得探讨的问题.本节从6个方面探讨了GDPR给中国带来的启示.
5.1 跨境数据管控体系建设
GDPR中关于数据跨境的具体要求对欧盟来说,主要是针对从境外流向欧盟境内的数据,而关于对我国个人数据跨境流动立法,我们必须明确我国在个人数据跨境流动中的地位和立场,理清中国作为数据输入国和输出国所需要的不同制度要求,同时做到维护国内用户信息数据跨境安全性以及与第三方国家进行交流和贸易的合规要求.如今我国相关立法体系还未完善,虽相较于完全的数据本地化态度和政策,当前所采用的“知情-同意”原则已经有一定的进步意义,但仍旧无法与中国互联网企业和数字经济大步向前迈进的趋势相适应,目前我们仍然需要从其他经济体的数据跨境制度和实践中获取经验,探索属于中国的高适应性数据跨境方案.
除了制度,技术也要齐头并进,做到和跨境数据规制相互衔接.新的技术形式可能会给数据管理带来新的潜在风险,针对其中可能出现的漏洞,不仅需要及时了解技术发展新动态,将数据跨境需求融入技术更新,还要紧密联系技术和制度,为跨境数据管控筑牢保护屏障,从技术角度深入分析来辅助制度体系建设,以便更好地迎接挑战.
对于我国个人数据流动的监管,不仅需要建立相应的数据监管机构和数据评估机构对其进行职能划分,使其每个环节中的部门都明确相应的职责,更全面地对跨境数据进行评估,更好地监管数据在跨境前后以及整个生命周期中各个流程的安全性;还要积极引导企业和相关机构进行自评,因此,国家目前正在积极准备出台的《评估办法》和《评估指南》就需要细致化,衡量标准不宜过于笼统、模糊以及主观随意性太强,降低评估流程执行难度的同时提升数据保护强度;其次,各个行业应积极参与评估体系的建设,使其符合实际需求和落实条件,倡导行业自律,帮助建立可操行性强的数据跨境行业体系.
5.2 数据分类分级管理
为了应对GDPR以及各国的数据保护法,确保数据在流动过程中的安全性,对数据进行分类分级存储,建立分类分级跨境数据流动管理体系极其重要,《中华人民共和国数据安全法》对数据的分类分级保护作出了明确的要求.数据的分类分级管理是对数据全流程、全过程进行保障的基础,边界防护、入侵防范、身份鉴别、访问控制、数据加密等数据隐私防护方法如果建立在数据分类分级的基础上,可以达到事半功倍的效果[158].2022年9月,全国信安标委完成了国家标准《信息安全技术 网络数据分类分级要求》征求意见稿,健全了《数据安全法》的数据分类分级保护规则[159].
数据分类重点在于理解数据的本质、属性、权属及其相关关系,清晰了解各个数据是如何被使用的,明确哪些数据属于哪个业务范畴,分类不能太细也不能太粗犷[160].可根据监管与合规、业务体系、功能单元、项目等维度进行分类.不同的企业分类的方法和标准也可能不同,例如烟草商业行业会根据数据的来源、敏感度等进行分类,按照业务类别将数据分为营销数据、专卖数据、财务数据、人事数据、供应链数据、考核数据、个人数据7个大类,然后再在大类下面细分小类,层级划分逐步扩大[161].
数据分级主要是根据数据泄露或被破坏所造成的影响范围、影响对象、影响程度来进行划分.还需要依据数据的关键性、数据对业务的重要性、以及国内外相关法律的要求进行划分,例如GDPR对于任何收集、传输、保留或处理涉及到欧盟所有成员国内的个人信息的机构组织均提出了规范要求[160].常用的数据分级步骤为首先确定分级对象,然后根据数据破坏对国家安全、社会秩序、公共利益造成的影响,数据破坏对企业利益造成的影响,数据破坏对用户利益造成的影响,3个层面综合评定对客体的侵害程度,最后决定数据对象的安全等级[162].数据安全法把数据分为涉密数据和非涉密数据,涉密数据分为绝密、机密、秘密3个级别;非涉密数据根据对国家安全、社会秩序、公共利益以及相关公民、法人造成的危害程度依次分为了5个级别[163].
由于数据的海量、多元、非结构化成常态,数据的分类分级难度很大,我国目前在数据分类分级准则方面还有很多欠缺.目前主要努力的方向就是在遵守安全性、可执行性、时效性、就高不就低等分类分级原则的前提下健全数据分类分级管理制度,根据各行业各领域数据资源特点、流通场景,加快制定适应本行业本领域数据流通和开发利用需求的数据分类分级标准.表8列出了中国发布和在研的数据分类分级标准.
Table 8 Classification and Gradation Standards for Published and Developing Data[162] in China
5.3 重要数据识别与保护
作为数据安全中的重点保护对象,重要数据在中国的数据安全管理制度中一直占据着极其重要的地位.2017年我国出台的《网络安全法》第一次提出了“重要数据”的概念,2021年出台的《数据安全法》再次在数据分类分级保护制度中提到了对“重要数据”的保护义务,但这2部法律均未对“重要数据”作出具体定义,重要数据的定义范围及其识别方法成为了一个关键的问题.在2022年发布的《信息安全技术 重要数据识别规则(征求意见稿)》中,“重要数据”被定义为“特定领域、特定群体、特定区域或达到一定精度和规模的数据,一旦被泄露或篡改、损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全”[164].
重要数据识别是数据安全管理工作的基石,一个企业对于重要数据的收集处理直接影响着企业数据的安全合规性.重要数据识别工作主要分为3步:1)通过扫描发现和流量检测的方式对企业数据进行初步识别,形成企业数据资产梳理清单;2)根据行业要求对企业数据进行分类分级;3)依据重要数据识别规则对重要数据进行判定并标识,并根据重要数据的基本信息、分类、重要性及用途等信息汇总出企业重要数据清单.重要数据的识别主要包括聚焦安全影响、突出保护重点、衔接既有规定、考虑风险、定量定性结合、动态识别复评六大原则.除此之外还要针对重要数据的收集、存储和使用采取重点保护措施,对于重要数据的数据处理者要提出更高的合规要求,这样才能保证数据流通的合规有序,充分发挥数据要素的价值.
目前我国有关重要数据识别相关规则的建立仍在起步阶段,重要数据识别总体要求《信息安全技术 重要数据识别规则》仍在不断修改中,各行业也依据标准制定行业内重要数据安全管理的相关细则,例如电信领域出台的《基础电信企业重要数据识别指南》及汽车领域出台的《汽车数据安全管理若干规定(试行)》等.中国亟待健全相关的重要数据识别与保护细则,走好重要数据安全防护体系建立的第一步.
5.4 关注不同规模企业的合规义务
虽然GDPR实现了对个人数据隐私的严格保护,但是对于市场经济的发展有时却会起到适得其反的效果.尤其在市场竞争方面,由于大型企业拥有充足的资金和研发能力,能够很好地应对GDPR带来的一系列合规性问题,而对于中小企业来说,过高的合规成本阻碍了企业发展的脚步,因此大型企业的竞争力大大增强,市场份额不断增加,而中小企业在这场浪潮中却步履维艰.虽然GDPR对于中小企业有相关的特殊豁免政策,然而实际执行的过程中并未能落到实处.
因此在中国相关数据保护政策实施过程中要重点关注中小企业的发展,平衡不同规模企业之间的市场竞争利益,这样有利于市场竞争的公平性,激发市场创新活力.对于合规性监管的过程中要避免进行一刀切管理,应对不同规模的企业赋予相应的合规责任,适当减轻中小企业的合规义务,使中小企业的特殊政策能够落到实处.
5.5 保护个人数据的同时兼顾社会经济发展
GDPR基于个人控制论强化了数据主体对个人信息的控制,使得主体权利凌驾于社会利益、公共利益之上,并没有考虑个人信息的社会属性,造成了GDPR存在巨大的内在缺陷.数据控制者及处理者针对个人数据处理以及数据再利用或初始目的之外的使用需要通过大量设置同意实现,最终导致同意的滥用.同时,使用同意的预防保护机制处理泛在个人信息将会导致社会运行成本过高.并且泛在的个人信息及数据处理导致GDPR的适用范围无限扩大,进而引发侵害个人权利的风险,数据主体也可借助GDPR与其他众多法律的重叠现象来选择有利于自身的权限基础.
因此,面对GDPR确立的个人信息保护准则正在成为全球化标杆,我们应当从我国社会实际问题及需求出发,建立符合中国特色的数据经济制度需求.明确GDPR根植欧洲的政治和社会文化背景与我国社会经济文化的差异性,兼顾数字化时代个人数据控制困难问题,以及缓解泛在的个人信息处理同社会运行成本间的冲突,以促进我国个人数据保护法案的进一步升级,保障个人数据权益与数字经济的协同发展.
5.6 在数据保护的同时促进数据流通
在市场经济中要发挥好数据这一生产要素的作用,不仅要严格的数据保护,还要保证数据的流通,创造数据资源的价值,不能一味地强调数据权属,对数据进行僵化管理,让数据失去流动性.为支持数字经济发展,继《通用数据保护条例(GDPR)》之后,欧盟的《数据治理法案(DGA)》《数据法案(DA)》《数据市场法案(DMA)》《数据服务法案(DSA)》等相关法规也相继出台,为数据流动营造开放的环境.2021年中国施行了《个人信息保护法》,它是我国的第一部个人信息保护方面的法律文件,在这之后又发布了许多数据相关立法,但主要焦点仍在数据保护监管方面,在促进数据流动和创造数据价值上中国仍需要更多的政策支持,对现有政策也需要不断调整和优化,保证数字经济的良好发展态势.
6 结 语
关于GDPR的数据隐私安全研究逐年的增加使得企业以及个人对数据隐私保护意识得到了很大的加强,但因其涉及领域较广,且随着各国数据法的不断更新、应用场景的不断变化,其整体还处于起步阶段.本文在调研大量基于GDPR的数据隐私安全相关论文及其研究成果后,首先介绍了数据隐私安全发展历程及欧盟GDPR法规主要内容,并将其与各国数据法进行了详细的对比;然后通过梳理总结现有的基于GDPR的数据隐私安全的研究工作,从GDPR违规行为分析、隐私政策分析、GDPR模型框架3个方面阐述了GDPR合规性的研究现状;之后总结GDPR相关的数据技术应用以及各种合规应用场景.通过深入分析数据隐私安全问题以及现有研究工作的不足,指出了基于GDPR的数据隐私安全面临的十大安全技术挑战和机遇;最后指出了跨境数据管控体系建设、数据分类分级管理、重要数据识别与保护、不同规模企业的合规义务、兼顾社会经济发展、促进数据流通等GDPR相关研究对中国的启示.
作者贡献声明:赵景欣负责设计研究方案及论文撰写和修订;岳星辉负责调研分析、数据统计及论文部分撰写;冯崇朋、张静负责论文部分撰写及画图;李印负责最终版本修订;王娜负责论文部分撰写;任家东、张昊星、伍高飞、朱笑岩负责论文整体修订;张玉清提出论文整体研究思路,及最终论文的审核与修订.