生命周期模型下数据匿名化处理的合法性探究（下）

2020-12-08刘业

中国信息化周报 2020年44期

刘业

数据匿名化处理行为的合法标准

数据处理者必须对其获取的患者医疗数据进行合理的形式上审查，以确保所保有的数据来源合法正当。对存在权利瑕疵的数据为匿名化处理，将使匿名化处理行为处于非法状态。上一部分已对数据匿名化处理行为合法性前提条件进行了细致探讨，本部分将立足数据匿名化处理行为本身，对其合法标准展开讨论。

关于匿名化的法律定义，前已部分述及，美欧除称呼上略有不同，对其概念核心含义的界定基本一致，结合日本《个人信息保护法》第2（9）条和中国《网络安全法》第42条等国家对匿名化的定义，可以推定，国际上对匿名化的定义方式采结果主义，即处理行为若能达到“不可再识别至具体个人”之结果，便是法律所要求的数据匿名化。

参考GDPR前言第26条对匿名化的要求，笔者认为，数据匿名化处理行为是否符合“不可再识别至具体个人”之法律标准，具体可拆解成三个要件进行判断：其一，匿名化需达到无法直接或间接识别至特定个人之效果;其二，不可再识别的行为主体包括数据控制者和第三方;其三，数据控制者或第三方需用盡所有合理可能之再识别方法。

需达到无法直接或间接识别至特定个人之效果

针对直接识别：HIPAA隐私规则之安全港模式

直接识别至特定个人指依独特的身份标识符便具有识别个人身份的高度可能性，而无须与其他数据交叉验证。HIPAA隐私规则去识别方式之一的安全港模式，即是通过删除独特的身份识别数据来达到匿名化的目的。它逐一列举了18类必须删除的身份识别数据：姓名;住址（包括详细住址和邮编等）;与个人相关联的所有日期元素（包括出身死亡日期、注册日期等）;电话号码;传真号码;电子邮件地址;社保号码;医疗记录号码;健康计划受益号码;账户号码;驾驶证许可证号码;车辆标识符和序列号（包括车牌号）;设备标识符和序列号;URLs;IP地址;生物识别符（包括指纹和声纹）;全脸摄影图像和任何可比图像;以及任何其他唯一识别号、特征或代码。为尽可能降低再识别的可能性，安全港模式还要求数据处理者在删除身份识别符后应确保其自身对去识别后的数据不可单独或与其他数据结合后识别至数据主体这一结果持确信态度，若数据处理者依自身技术能力可轻易识别至具体个人，即便删除了指定的18类数据，仍不符合法律要求。有学者利用匈牙利建立的假名化人口医疗健康数据库，测试了HIPAA隐私规则是否能达到其所说的“公平的匿名化”标准，测试结果表明，即使在悲观情况下，1000万人中仅7人有被识别的风险。

针对间接识别：专家决策模式与欧盟“三性标准”相结合

不具有直接身份标识的数据，需要与其他数据相结合才可能识别具体个人，此谓之间接识别。通过间接方式识别至特定个人的判断，较难确定。原因在于：其一，据以识别的数据范围不确定，有可能通过同一数据集的各项属性值即可识别，也有可能通过多个数据集的属性值交叉认证得以识别，为防止数据控制者或第三方间接识别而试图穷尽所有相关的间接识别的数据，不具现实可行性;其二，数据控制者或获取匿名化数据第三方的背景数据和数据分析能力未知，再高明的匿名化技术，可能仅仅因为一条始料未及的关键性的背景数据，再辅以相应的数据分析能力，即可间接识别至具体个人，如美国AOL公司匿名化失败的典型案例即属此类;其三，进行匿名化风险评估时，难以将所有世界上所有去匿名化技术一一加以检验，时间成本和人力成本高昂。因此，在判断能否通过间接方式识别至具体个人时，必须依据一个合理可行的标准，最终的结论也必须容忍和接纳合理范围内的再识别风险。

HIPAA隐私规则去识别方式之二的专家决策模式，要求专家在设计去识别方案时必须使去识别数据接收者单独或与其他数据结合以识别具体个人的风险非常小，并证明其方案是合理的。为增强模式的可实施性，《去识别指南》为其设置了一套操作流程：首先，专家需对数据接收者的再识别能力进行评估，以确定采用何种去识别技术的大致范围;其次，专家向数据处理者提供一套去识别技术的指导方案;然后，与数据处理者配合实施去识别技术方案并就去识别后的数据进行风险评估，若风险仍较高，需对方案进行修正;最后，风险降至非常小的范围，方案可正式实施，专家需出具报告证明方案的合理性。《去识别指南》为专家和数据处理者提供了再识别风险评估的三项参照原则：数据可重复性（Replicability）、数据源可获取性（Data Source Availability）、数据可区分性（Distinguishability）。可重复性或称与个人关联的稳定性，根据健康信息特征与个人相关联的稳定性，划分其风险等级，如患者出生日期这类基本信息相对于患者血糖水平测试数据更加稳定，风险等级更高。数据源可获取性是指有多少外部数据源包含有患者的身份标识符数据或其他可重复性高的数据，以及访问这些数据源的难易程度。可区分性则关注患者的数据在数据库中与其他患者数据的可区分程度，如出生年月日比只有出生年月的可区分度更高。健康信息的可重复性、可获取性和可区分性越强，识别的风险就越大。

欧盟《匿名化意见》对匿名化处理技术提出了三个风险衡量标准：指向性（Singling out）、关联性（Linkability）和推断性（Inference）。指向性关注的是数据集中能识别至特定个人的数据记录，若数据集中存在较多具有识别性的数据记录，则指向性风险较高，反之则低。关联性是指将至少两个数据记录与同一数据主体或一组数据主体相联系的可能性。如果攻击者能够通过两个数据记录关联到一群数据主体，但无法进一步识别该数据记录具体归属于哪一个数据主体，则该匿名化技术具有关联性风险，而不具有指向性风险。推断性是指从一部分属性的属性值推断出另一属性的属性值的可能性。从这三个标准出发，《匿名化意见》逐一详细评估了主要匿名化技术的再识别风险大小（如表1所示）。主要匿名化技术均在一定程度上具有被再识别的技术风险，且不同技术在不同标准下风险大小均有差异。在合理风险范围内，结合数据适用的具体情境，综合运用多种匿名化技术以实现不可间接识别的目的。

《去识别指南》的专家决策模式更侧重于对拟匿名化数据的再识别风险评估，而《匿名化意见》则侧重于对匿名化技术的风险评估，二者存在一定互补性。在降低间接识别风险时，一方面可对拟匿名化处理的数据从数据可重复性、数据源可获取性、数据可区分性三方面进行风险评估;另一方面在选择匿名化技术并进行风险测试时，可从指向性、关联性和推断性三方面对拟采用的匿名化技术方案进行再识别风险评估。国际上已有从这三条标准出发，设计出一套较为合理的量化评分的方式对匿名化技术方案的安全性以及数据可利用性进行打分的研究[ Open GDA Score Project是一项专门对去身份化技术方案（de-identification schemes）进行量化评价的项目，主要评估技术方案的防御（defence）和效用（utility）能力。对防御能力的评估，主要以数据敏感性（susceptibility）、信心提升（confidence improvement）、索求概率（claim probability）、先验信息（prior knowledge）以及工作量（work）這五个为评估参考因素，通过特定软件进行计算自动生成该技术方案的GDA分值。随着每次去匿名化攻击手段的不同，GDA分值也会出现一定变化，详情内容可访问https：//www.gda-score.org/.]，可资借鉴。

不可再识别的行为主体

对数据控制者而言，由于它是数据匿名化处理行为的实际掌控者，原始数据和匿名化算法均由其掌握，而数据控制者必须剥夺对匿名化数据的再识别能力，才能使其匿名化处理行为合法。为此，原始数据经匿名化处理之后需不得留存备份，且采取的匿名化技术必须不具备可回溯性，匿名化数据无法通过数据控制者自身具有之技术能力再回溯识别至特定个人。

对获得匿名化数据的第三方而言，需要求其采取一般可能的措施、手段无法将匿名化数据关联到具体个人。然实践中获取匿名化数据的第三方自身所具有的数据资源和数据分析处理能力千差万别，针对第三方的数据匿名化标准如何确定是个难题，标准过低会造成再识别风险增大隐私受威胁，标准过高又会造成数据价值的极大减损。HIPAA隐私规则中专家决策模式在进行风险评估时亦将第三方能力纳入考量范围，但仅适用于个案化场景。对于第三方为不特定主体时，将难以进行。对此，英国数据保护机构（ICO）采取“蓄意攻击者”测试（Motivated Intruder Test）方式对第三方进行明确，进而确定具体的匿名化标准。根据ICO测试，第三方应具备以下条件：（1）主观上有去匿名化的故意，即意图通过识别匿名化数据至特定个人，以获取经济利益或其他不法利益;（2）具备获取任何公开数据或可通过合法方式获取数据的一般能力。这一数据获取能力要求高于一般大众，同时低于数据领域的专业人士，控制在一个较合理的范围。

用尽所有合理可能之再识别方法

用尽所有合理可能之方法（all the means reasonably likely to be used），“所有方法”意指数据匿名化行为之时，现存的、公开的、可预期的去匿名化技术方法，而不包括匿名化处理之后新出现的去匿名化技术;“合理可能”意指在具体情境中，根据匿名化数据内容的敏感性、匿名化程度的大小、匿名化数据接收主体数据收集和数据处理能力的强弱等因素，从各种去匿名化数据中选择出适合数据接收主体的合理去匿名化方法，以用尽筛选出的去匿名化方法为合法标准。为便于理解，笔者通过四个主要影响参数对“合理可能”作出具体判断（如表2所示）。

现将低敏感的患者基本数据进行匿名化处理，为兼顾数据有用性，将信息损失降至最低，应选择C类的三项技术。若此类数据面向收集和处理能力中等的数据主体开放，那么针对这类主体，a、b、c三类去匿名化技术何者为“合理可能”选择？由于能力为中，对于a类技术无使用的能力，排除a类，故应当以用尽所有b类和c类的六项去匿名化技术为匿名化合法判断标准，而不能以未用尽a类去匿名化技术主张其违法，因为a类技术不属于“合理可能”的范围。若面向低能力者开放，则合理可能的范围为c类的三项，高能力者则为以上全部九项。对于此类数据，在兼顾隐私保护的同时，应侧重数据的有效利用，“合理可能”的技术范围可适当缩小，以鼓励数据的利用。对于敏感疾病数据，因与患者人格尊严关切甚大，法律上应侧重患者隐私保护，“合理可能”技术范围应适当扩大，限制对敏感数据的处理，保护患者人格尊严。

事后行为——合法匿名化处理的剩余风险管理

对于匿名化之后数据的规制态度上，美欧立法不谋而合，合法匿名化后的数据由于与个人相分离，便不再受诸如GDPR和HIPAA隐私规则之类的个人信息保护法规制。基于数据匿名化处理的相对性，不存在零再识别风险的匿名化技术，合法匿名化数据在转移、使用和删除等事后行为过程中被再识别风险会因背景数据增加或技术进步而逐渐增大，因而数据匿名化处理的合法性认定也并非一劳永逸，加强对再识别风险的剩余风险（Residual Risks）管控也是对数据匿名化处理行为保持合法性的必然要求。在匿名化数据的转移、使用和删除过程中，虽不受个人数据保护法律的约束，但均具有剩余风险管控的义务。

剩余风险管理的责任主体

欧盟语境下存在数据控制者和数据处理者之分，美国HIPAA隐私规则包含专家和受规制实体。数据控制者和数据处理者可能归属同一主体，或数据处理者受数据控制者委托代为匿名化处理，在此情形下数据处理者应协助数据控制者进行剩余风险管理，并提供必要技术支持，责任主体仍为数据控制者。专家在匿名化进程中受雇于受规制实体，为其提供专业的匿名化方案，并定期评估可能风险，受规制实体乃剩余风险管理的责任主体。而接收匿名化数据的第三方，需协助责任主体为剩余风险管控，或按照责任主体指示降低其获取的匿名化数据的风险，或严格限制对匿名化数据的再识别行为并禁止其传播等，而这一前提要求是责任主体在数据转移时需对数据接收方主体信息进行备案，记录数据的传播链条。

剩余风险的评估因素

对于剩余风险，数据控制者应当定期评估其是否有扩大趋势，并采取必要措施将剩余风险控制在合理范围内。有学者认为，至少需要从七个方面来衡量风险大小，如匿名化数据体量大小、数据敏感程度、数据接收者能力、数据的使用方式、数据处理技术、数据访问限制和数据主体同意或期望。综合来看，风险评估可进一步从以下方面进行：

（1）数据接收方数量，获得数据的人数越多，可识别的背景数据就会越多;

（2）数据接收方技术能力，文化程度越高，或者与计算机数据相关的专业受众越多，剩余风险扩大可能性越大;

（3）去匿名化技术的进步，若更加先进的去匿名化技术出现，则匿名化数据被识别的风险将极大增加;

（4）匿名化数据的商业价值，随着信息科技进步以及市场需求的日益多样，原来被视为“无用”的数据可能重新被赋予新的商业价值，引来人们竞相挖掘，匿名化数据面临更大的再识别威胁，等等。

剩余风险的合理控制手段

合理評估之后若剩余风险超出可控区间，需及时采取措施将剩余风险限制在合理范围内。可采取的剩余风控手段包括：

（1）匿名化数据的进一步匿名化处理。结合现有新的场景模式，重新审视数据集中非匿名化部分被识别的可能性，尤其是与其匿名化部分相结合的情况，以及不同属性之间可能的关联，再有针对性地对部分属性值采用适当的匿名化技术降低被识别风险;

（2）对有能力进行再识别的第三方进行限制。如限制数据得使用目的、限制披露该数据、禁止任何再识别尝试、要求制定技术和组织层面的安全措施等;

（3）有针对性地限缩匿名化数据的开放范围。对于已获取匿名化数据的主体应限制其对匿名化数据的使用，对于将要可能获取匿名化数据的主体，区别其数据收集和处理能力的强弱，采取或拒绝其访问、或增加限制条件、或允许正常访问等不同应对策略。

写在最后

人是科技进步的目的而非工具，科技的发展应当让人类过上更有尊严的生活。患者医疗数据中包含着大量敏感和隐私信息，利用大数据等信息化技术挖掘医疗数据的经济和社会价值的前提应是采取严格法律措施保障患者数据权益和隐私尊严不受侵犯。针对数据匿名化处理行为，不应仅仅局限于匿名化处理行为本身的合法性，而应站在全局高度运筹帷幄，对拟处理数据的事前行为作形式上的合法性审查，拒绝处理权利瑕疵的数据;加强对匿名化处理后的数据即事后行为的剩余风险管控。数据匿名化作为撬动医疗大数据产业持续快速发展的关键，应当审慎对待。全面分析并应对其中可能存在的法律风险，做好充分的法律风险评估，切忌让患者尊严边缘化、工具化，方能真正助力国家健康医疗大数据发展战略的长远推进。

（本报第38-39期第12版刊登的《数据匿名化处理的合法性探究》为本文的节选，为展示原文全部内容，现经作者授权刊登全文，以飨读者，本文转载于《信息安全与通信保密》2020年第9期）