生命周期模型下数据匿名化处理的合法性探究（上）

2020-12-15刘业

中国信息化周报 2020年43期

刘业

因而数据生命周期模型指从数据产生，经过数据加工和发布，最终实现数据再利用的一个循环过程。

现有立法和研究的不足

欧盟匿名化处理立法

对个人数据保护采统一立法模式的欧盟，对匿名化数据的成文法规制主要体现在《通用数据保护条例》（Regulation 2016/679，以下简称GDPR）之中。GDPR在继承《数据保护指令》（Directive 95/46/EC）的基础上进一步明确界定了匿名化数据的法律地位和规制态度。GDPR前言第26条表明：第一，GDPR所确立的数据保护原则适用于已识别或可识别自然人的任何信息，排除了对匿名化数据的适用;第二，匿名化数据是指在考虑所有合理可能使用的匿名化技术之后，控制者或其他人仍无法直接或间接识别至具体个人的数据;第三，在判断是否采取了合理可能的匿名化技术时，应考虑到所有客观因素，如鉴定费用和再识别所需时间，同时考虑到现有技术的发展现状。

对于患者医疗数据的法律规制，鉴于其涉隐私和人格尊严性更为突出，GDPR将其作为特殊类型个人数据，采取相比一般个人数据而言更为严格的数据保护原则。GDPR第9条采取“禁止+例外”的模式，原则上禁止对患者医疗数据的匿名化处理，仅在特定例外情形下允许处理。同时，GDPR授权各成员国可根据本国公共政策需要对涉及基因数据、生物识别数据或健康医疗数据的处理进行特别限定，以有效保护本国公民隐私利益和公共利益。

歐盟成文立法对匿名化处理的规制停留在概念和原则阶段，缺乏更为具体的操作指引。早在2014年，欧盟第29条工作组（欧盟数据保护委员会前身）出台了《关于匿名化技术的意见》（以下简称《匿名化意见》）[3]，在欧盟个人数据的匿名化处理立法的基础上，进一步论证了对个人数据进行匿名化处理的合法性基础，并逐一从指向性、关联性和推断性三个标准对主要的匿名化技术进行风险评估，认为匿名化技术匿名是相对的，会随着关联数据的累积、应用场景的差异以及再识别技术的发展等因素而使重新被识别的风险增大。

美国去识别行为立法

与欧盟不同，美国联邦层面并没有统一的个人信息保护法，采取的是分部门分领域的分散立法模式，且置于隐私权保护体系之下。在健康数据领域，则以《健康保险携带和责任法案》隐私规则（以下简称HIPAA隐私规则）为代表[ HIPAA隐私规则由《美国行政法典》中的45 CFR Subt.A.Subch.C.Pt.160，Pt.164.Subpt.A和Pt.164.Subpt. E三部分组成。]。HIPAA隐私规则对匿名化的表述为“去识别化”（De-identifiction），去识别健康信息的含义是无法识别或者有合理理由相信无法识别至具体个人的健康信息。具体实施上规定了两个方式，其一，专家决策模式（Expert Determination），要求具备公认的科学统计方法等知识或经验的人认为信息不具备可识别性;或者其二，安全港模式（Safe Harbor），删除个人及其他密切相关人员的唯一识别号、特征或代码。在去识别信息的再识别（Re-identification）规制上，HIPAA隐私规则通过白名单方式确认为法律所许可的再识别方式，并对其进行严格的限制，识别后的信息将重新落入受保护健康信息的概念范畴，受HIPAA隐私规则的全面规制。

美国卫生部（HHS）负责HIPAA隐私规则具体实施的民权办公室（OCR），于2012年专门发布了《关于受保护健康信息的去识别方式指南》（以下简称《去识别指南》），指南主要对HIPAA隐私规则中合法去识别的专家决策模式和安全港模式进行了详尽解释，以进一步增强两种方式的可操作性。

在此需予以区分的是，虽然我国于2019年亦发布了《信息安全技术-个人信息去标志化指南》（GB/T 37964—2019），但其中“去标志化”的含义仅指“通过对个人信息的技术处理，使其在不借助额外信息的情况下，无法识别个人信息主体的过程。”与HIPAA隐私规则中的去识别化虽然英文用词（均是De-identifiction）一致，但具体含义更加偏向欧盟的假名化（Pseudonymisation），假名化严格意义上并不属于匿名化技术。《信息安全技术-个人信息安全规范》（GB/T 35273—2020）明确区分了“匿名化”和“去标志化”，其“匿名化”才是本文的研究对象。

不足之处

在医疗数据领域，美国去识别专门立法更加细致具体和具有可操作性，欧盟的匿名化规则逻辑更加完整，调整范围不限于医疗数据。但二者在匿名化处理的合法性判断上，均只重点着眼于匿名化处理所得数据是否能达到法律规定的合法标准，并如何细化和明确这一标准，缺乏对匿名化处理的事前行为和事后行为合法性的关注。在对数据进行匿名化处理之前，处理者是否合法拥有此数据、处理行为是否具备充分的合法性基础;在对数据进行匿名化处理之后，处理者是否采取了必要措施加强对匿名化数据再识别的剩余风险管理，这些均应当成为数据匿名化处理合法性判断的重要依据。

纵观我国学者对匿名化行为合法性的讨论，金耀（2016）以数据匿名化法律标准为研究对象，立足匿名化处理技术本身的合法性，主张应区分不同数据类型采取相适应的匿名化法律标准。王融（2016）分事前、事中和事后三阶段，事前阶段应充分告知并取得患者同意，还应进行隐私风险评估;事中阶段，根据隐私风险评估对匿名化技术进行相应调整;事后阶段应始终保持数据的匿名化状态。张晨原（2017）着眼于匿名化处理本身，认为应当根据匿名化技术再识别风险的大小，采取不同程度的风险应对措施，不能一刀切式管理。张涛（2019）主要关注匿名化处理合法性的法律标准与技术标准的明确界定，并对去匿名化风险从事前和事后进行符合法律标准的评估。

虽然学界在谈及数据匿名化行为的合法性问题时已初露事前、事中和事后三阶段的分析思路，但实质上只是为了其中某一阶段研究而附带提及其他阶段以求逻辑自洽，并未真正以三阶段为研究对象展开系统分析。且其中有关事前、事中和事后三阶段的讨论过于简略和抽象，缺乏系统性。为弥补这一不足，笔者引入数据生命周期模型，在此模型基础上，分事前行为、数据匿名化处理行为（事中）以及事后行为三个阶段对数据匿名化处理的合法性问题进行全面系统的分析。

数据生命周期模型

与匿名化处理合法化

生命周期的概念源于生物领域，科学家用其描述寄生物扁虱从一个宿主转换到另一宿主的生命周期过程，宿主为扁虱的整个生命周期提供支撑生存的环境。后来，这一概念被广泛运用于数据利用与管理领域，为政府数据、图书馆数据等公共数据的开发利用提供实践管理和理论研究的分析模型。不同于生物领域的生命周期（Life Span）从产生至消亡，数据生命周期（Data Life-cycle）则是对数字化资源进行长期保存、提供获取，最终用于支持研究、政策制定等再利用的活动，没有消亡阶段。因而数据生命周期模型指从数据产生，经过数据加工和发布，最终实现数据再利用的一个循环过程。根据对数据处理行为不同阶段的分类，可以衍生出多种数据生命周期模型。比如有学者在此基础上将数据生命周期模型分为六个阶段：战略规划、数据收集、数据处理、数据保存、数据利用服务质量评价。还有学者对政府数据的处理分为五个阶段：数据的创建与采集、数据的组织与处理、数据的存储与发布、数据的发现与获取、数据的增值与评价。数据生命周期模型作为一套较成熟的数据利用和管理分析工具，有引入数据匿名化处理合法性研究的价值。

数据生命周期模型引入

由于本文是在个人数据保护语境下进行讨论，而个人数据权利体系下存在删除这一权利，即个人数据的消亡。因此，本文在引入政府公共数据领域的数据生命周期模型时，同时融入了生物学领域生命周期的概念，将个人数据保护领域的数据生命周期模型定义为：在个人数据产生直至消亡的整个过程中，将与个人数据相关的数据行为按照一定标准进行阶段划分，再分阶段进行治理的一种分析模型。据此，笔者构建了个人数据的七阶段生命周期模型（如图1所示）。

构建匿名化处理合法性的分析模型

数据生命周期的各阶段通过患者医疗数据而紧密联系、相互关联在一起，若因前一阶段行为违法，是否必然影响后一阶段数据行为的合法性？在财产法领域，存在票据无因性理论，即票据一旦做出，不因基础法律关系的无效而归于无效。但票据行为无因性旨在促进票据在金融市场上自由流通，与人格尊严无涉，而患者医疗数据却与人格尊严关系甚切，故不能采取无因性理论盲目促进数据自由流通而枉顾患者隐私保护。对此，笔者认为，对匿名化数据处理的合法性判断，应当立足于整个患者医疗数据的生命周期进行研究。本文将以数据加工為界限，将数据生命周期分为三个部分：事前行为（产生、收集与存储）、事中行为（数据匿名化处理行为）、事后行为（转移、使用与删除），从这三个部分对数据匿名化处理行为的合法性问题进行系统性研判（如图1所示）。

各部分与数据匿名化处理合法性之逻辑关系为：

（1）事前行为合法是数据匿名化处理行为合法性的前提条件。经由事前行为传递而来患者医疗数据，是否为没有权利瑕疵的合法数据，直接影响了以该数据为对象进行数据匿名化处理的合法性判断。

（2）匿名化处理行为本身的合法是其合法性的核心要件。事前行为部分旨在回答在何种条件下进行数据匿名化处理是合法的，在事前行为合法基础上，需进一步回答对患者医疗数据进行匿名化处理的行为本身的合法性标准，以此来判断其合法性。

（3）事后行为的风险管控是其合法性得以持续的必然要求。患者医疗数据经由以上两个层面的合法运作，将匿名化数据传递至事后行为阶段。匿名化数据存在再识别的风险，转移和使用等事后行为中应确保其数据是匿名状态下的数据，相关责任者负有防止匿名化数据被再识别的风险管控义务。

事前行为——数据匿名化处理合法化的前提条件

如上所述，事前行为包括数据产生、收集以及存储。数据产生涉及对患者医疗数据的权利保护，为合法性判断的最终逻辑依归;数据收集需尊重患者医疗数据权利从而获得合法性基础;而数据存储为数据收集的必然结果。

数据产生：患者的医疗数据权利

纵观国外个人数据保护立法的立法实践，代表如欧盟GDPR、美国《加州消费者隐私保护法案》、韩国《个人信息保护法》、英国《数据保护法案》等，均已建立起一套较为完善的个人信息权利体系。其中，以知情访问权、同意反对权和异议更改权为核心，数据可携权和删除权（或称“被遗忘权”）作为补充选择，构建起了个人信息保护的权利大厦。医疗数据作为个人信息的重要组成部分，且不同于其它个人信息的敏感隐私特性，患者在享有一般个人信息权利的基础上，其医疗数据应当受到更加严格的保护。欧盟通过将其列入特殊类型数据严格保护，美国则通过专门的HIPAA隐私规则重点规制。在我国现存法律中，初步建立起了以《民法典》《网络安全法》《人口健康信息管理办法（试行）》《国家健康医疗大数据标准、安全和服务管理办法（试行）》等法律为主体构建了个人信息保护规则与隐私权规则相结合、一般个人信息与重要个人信息相区别的个人信息保护体系，赋予了患者对个人医疗数据的知情权、同意权、隐私权等。知情权、同意权与隐私权等权利可作为整个数据生命周期合法运行的权利基础，是具体数据行为合法与否的基本判断标准。

数据收集行为的合法性判断

收集患者医疗数据，必须基于合法正当的理由。以GDPR为例，若欲处理患者医疗数据，必须满足以下情形之一：包括基于特定目的而为数据处理取得数据主体明确同意、数据处理者履行职责必要、维护核心利益必要、非营利性正当处理活动、数据已明显公开、司法执法活动必要、维护公共利益、正当医学目的、学术活动等。统合其他国家立法以及实践，主要存在以下三类合法性基础：其一，基于数据主体自由、自愿的书面同意;其二，数据控制者或处理者履行合法义务所必需，如医生诊断患者病情必须收集与病情相关的所有医疗数据;其三，出于维护公共利益或国家利益而进行，如为加强疫情防控而收集患者必要的医疗数据，为配合正当的司法与执法活动而调取数据等。

其中，第一类是最为普遍也最为核心的合法性基础。根据欧盟数据保护委员会2020年修正的《同意指南》，在处理医疗数据时需取得的合法同意必须满足四项要件：

（1）确保患者充分知情。取得患者同意需以充分知情为前提，医疗机构在收集患者个人数据时，应当事先告知患者可能收集數据的种类、收集方式、存储地点和期限、加工方式、收集使用目的、是否转移至第三方等，缺乏充分知情下作出的意思表示欠缺有效性。

（2）同意需自由作出。任何处于权力失衡、附加额外的条件、目的捆绑或以损害相威胁等情形下作出的同意均欠缺自由要素.在医患这一强弱关系悬殊的情形下应尤为注意，医疗机构在收集患者数据时，应当遵守目的限定原则（Purpose Limitation）和最小化收集原则（Data Minimisation），不能超出医疗诊断目的的范围滥收数据。

（3）同意需明确作出。患者必须作出明确的同意表示，最典型的方式是患者以书面方式签署同意书。在对重要数据进行特别保护时，要求书面同意是各国立法的普遍遵循，HIPAA隐私规则中亦是如此。

（4）拟同意事项需具体。医疗机构必须明确同意事项的目的，多个目的需征求多次同意，明确区分同意所获取信息与其他信息。

数据存储行为的合法性判断

在数据存储阶段，由于患者医疗数据的多态性所导致的不同形式的医疗数据分散至各个系统中存储，数据的格式标准难以统一，需要对各子系统的数据进行重新整合，集中至统一的数据存储中心，才能实现医疗大数据的有效利用。

因此，医疗数据的存储应分为三个阶段：阶段一（如图2-左），患者的原始医疗数据分门别类存储于各个子系统，此阶段合法性问题为医疗机构是否按照数据收集阶段的要求，将患者数据完整、准确、及时地存储在约定或合理的地点;阶段二（如图2-中），为便于医疗大数据利用，必须将具有体量大、多态性、冗余性、时效性和隐私性的医疗数据从子系统中实时提取出来，通过多源数据格式化、数据清洗转换以及数据脱敏等流程将医疗数据进行初步的加工整合，此阶段合法性问题是这些对数据的初步加工整合技术的使用是否按照统一技术标准流程运行，是否尽到相应的监管义务;阶段三（如图2-右），加工处理后的医疗数据再统一传送至医疗机构专门的数据存储中心，按照数据内容分门别类予以存储，为医疗大数据应用提供较高质量的数据支持，此阶段的合法性问题与阶段一类似，均需关注数据存储地点和存储方式的合法性。

需予明确的是，存储阶段的数据匿名化处理与加工阶段的数据匿名化处理在适用场景上存在差异，应该区别对待。存储阶段的数据匿名化处理行为与其他数据加工行为一道，目的在于将分散的数据进行初步加工以便存储在统一的数据中心，实质上是医疗机构内部范围内对医疗数据进行统一整合存储行为的一部分。相对于后期的数据加工阶段，因不涉及数据的外部流转，数据被违法使用和泄露的风险更低，因而对此阶段的数据匿名化存储行为的合法性要求应有所降低，可利用假名化技术进行数据脱敏。

（本报第38-39期第12版刊登的《数据匿名化处理的合法性探究》为本文的节选，为展示原文全部内容，现经作者授权刊登全文，以飨读者，本文转载于《信息安全与通信保密》2020年第9期）