个人信息匿名化标准的实践和优化
2023-08-22刘晓春刘瑾
刘晓春 刘瑾
互联网时代信息采集和存储的便利化,使得数据共享交易的适用场景更加广泛,数据在数字经济发展中扮演着举足轻重的角色。“水能载舟,亦能覆舟。”大数据浪潮下个人信息的开放流通增大了零散数据微弱关联被挖掘的风险,也使得个人隐私权益的保护岌岌可危。作为平衡数据价值与主体权益的重要一环,个人信息匿名化通过技术措施有效削弱和去除信息与特定主体的关联性,促进信息合规流通,提高数据利用效率,进而实现法律与技术的深度融合。在目前阶段,个人信息匿名化的标准在实践中已有若干探索,但是亟需形成共识,以激活数据活力,推动数字经济快速健康发展。
匿名化的界定和产业标准应用
个人信息匿名化在诸多法律法规中都有所提及。我国《民法典》第1038条、《个人信息保护法》第73条以及《网络安全法》第42条对“匿名化”的基本概念进行阐释,即“个人信息经过处理无法识别特定自然人且不能复原的过程”,但并未对“无法识别”以及“不能复原”的具体标准详细说明。
匿名化的时效性、技术性、普遍性等特征为软法的适用开拓了广阔的空间。《个人信息安全规范》在法律规定基础上进一步定义匿名化为“通过对个人信息的技术处理,使得个人信息主体无法被识别出来,并且处理之后的信息不能被复原的过程。”针对其中的“不可复原”性,它明确指出匿名化处理后的信息可能会面临的再识别风险。欧盟第29条数据保护工作组在其发布的《第05/2014号意见书》中也提及“现有的各项匿名化技术都无法彻底消除处理后的信息所残留的再识别风险”。
事实上,“无法复原”的绝对化在互联网技术快速发展的现今可实现的空间过于狭窄,各国实践中大多并非追求技术上的绝对实现,而是法律上的主观匿名。欧盟GDPR在序言部分规定了匿名信息的合理可能性标准:其一,判断再识别可能时应当涵盖数据控制者及其他任何人;其二,判断再识别的可能时应当考虑到所有合理可能的手段,判断手段是否合理时应考虑所有客观因素,例如识别成本、所需时间、当时可用技术及技术的可能发展。除去上述欧盟的合理可能性标准之外,美国也在HIPAA中提出了专家确定和安全港两个实践层面的实体标准,其中“专家确定标准”从主体角度限制识别主体为具有相关背景知识的专家,由专家评估确定信息复原的风险,安全港标准则要求将明确列举的18项标识符全部删除即可,相较歐盟标准更为宽松。
《个人信息去标识化指南》确立了重新识别风险的量化指标,初步搭建起系统性的个人信息去标识化过程模板,将个人信息标识划分为直接标识符和间接标识符。其中直接标识符为姓名、身份证号码、详细住址等特定环境下可唯一识别个人的识别号码;准标识符为性别、年龄、籍贯等在相应环境下无法单独唯一识别但结合其他信息可唯一识别个人信息主体的属性。通常而言,要想实现“无法识别特定个人”的法定标准,就需要数据处理者对直接标识符进行匿名化操作。
《个人信息去标识化效果分级评估规范》列举了部分去标识化的数据处理手段,如抑制、泛化、分解、干扰、压缩等,并将个人信息去标识化分为接受需评估内容、进行定性评估、进行定量评估三个阶段,对匿名化的适用具备一定的借鉴意义。值得注意的是,去标识化意味着结合相关信息仍旧存在指向特定个人的可能性,但匿名化要求这种可能性“不可复原”,后者的安全和保密程度标准显然更高。
除此之外,今年年初正式发布实施的、由中国信息通信研究院、中国广告协会等牵头制定的《互联网广告匿名化实施指南》从技术、法律、管理三个角度,为互联网广告业务的数据匿名化处理搭建了“技术保障、评估规制、过程控制”的互信平衡机制。
当前已有诸多文件为匿名化的落地实施提供支持,但现阶段匿名化标准文件法律强制力缺乏、效力位阶较低、规范不成体系、内容不够完善等问题依然存在,导致了实践中匿名化标准的适用尚缺统一标准。
匿名化的相关司法实践
作为法律条文中的但书部分,匿名化处理后的信息被排除在个人信息的范畴之外。对于经过匿名化处理后的信息流通,企业无需承担额外的合规义务。然而,由于匿名化标准的模糊性与概括性,司法实践中特定信息经处理后能否被认定为个人信息,不同法院裁判不一。
在余某诉北京酷车易美网络科技有限公司一案中,余某诉称北京某网络科技公司属下APP可以付费获得包含案涉车辆的年均行驶里程、维修保养项目等信息的历史车况报告,综合反映了其本人驾驶习惯、维保行踪、消费能力、消费习惯等,属于其个人信息及隐私。广州互联网法院经审理认为,其一,案涉历史车况信息未出现自然人身份信息、行踪信息、联系方式等能直接识别特定自然人的信息,仅能反应所查车辆的使用情况,内容不涉及具体个人,也不用于评价具体个人的行为或状态,历史车况信息无法与其他信息结合识别特定自然人。其二,一般理性人要想实现复原目的,需要综合考虑行为成本,比如技术门槛、第三方数据来源、经济成本、还原时间等因素,识别成本较高。其三,数据提供方的主体与协议细节均为商业秘密,且不对外披露,降低了一般公众将车况信息与第三方信息结合重新识别特定自然人的可能性。因此,在车辆交易场景下,案涉车况信息与其他信息结合进行关联识别的可能性较低,不能以此认定为个人信息。
在淘宝( 中国 )软件有限公司诉安徽美景信息科技有限公司案中,一审、二审和再审三级法院均认为涉案“生意参谋”数据产品所使用的网络用户信息是在巨量原始网络数据基础上,经过深度分析过滤、提炼整合以及匿名化脱敏处理后而形成衍生数据,无法识别特定个人且不能复原,公开其数据产品数据内容,不会对网络用户信息提供者产生不利影响,因此认定淘宝公司公开使用经匿名化脱敏处理后的数据内容属于法律规定的除外情形。
在涉及隐私权的早期案例中,也对匿名化进行过适用,不过由于当时的立法规定和技术背景与现在差别较大,认定匿名化的规则有可能在当下已经不一定适用。例如,北京百度网讯科技有限公司与朱某隐私权纠纷案中,一审法院认为百度在朱某未知情的情况下借助cookie技术抓取信息并进行商业利用侵犯了朱某的隐私权。然而二审法院截然相反,认为百度所抓取的兴趣爱好等信息与朱某的个人身份信息相互分离,无法确定信息归属人,不符合个人信息的可识别要求,最终认定百度网讯并未侵犯朱某的个人隐私。
综合相关案例可以看出,司法实践中对于匿名化信息的不可识别性判断仍未形成统一标准,一般借助于是否经过脱敏化程序处理、是否缺失直接关键的身份识别信息、复原经济成本是否高额等判断标准综合考量。对于符合上述条件的数据信息,总体倾向于放宽认定为不具有身份对应识别的匿名信息而非个人信息。但这些判断通常局限于个案认定,是否能够统一提炼为行业监管和合规标准,目前尚未达成有效共识。
行业前景与优化路径
当前,我国立法尚未实现对匿名化适用标准的明确规定以及匿名化信息再识别风险的有效规制,这也使得诸多数据使用、加工、提供和委托处理密集的行业领域发展受到限制。
以互联网广告行业为例,匿名化是互联网广告领域实现数据安全利用的重要路径。一方面,由于互联网广告业务多机构参与的生态长链特性,众多机构数据处理不具备直接获得个人同意的现实条件,导致网络用户在线行为的信息收集处于不合规的高风险下,其精准及个性化的广告投放服务等主体业务使得动态化的数据匿名化难以证明。另一方面,信息处理者收集个人信息往往不仅用于企业自身经营,还可能出售或者共享给第三方,甚至作为商品打包销售以赚取更多经济利益,这也是数字经济中数据利用的重要商业模式,但是个人信息对外分享中单独同意等要求可能成为数据流转的重要合規成本。如何达成合规要求,实现数据安全交换成为互联网广告行业急需解决的难题。尽管相关部门现已发布《互联网广告匿名化实施指南》及《中国互联网定向广告用户信息保护去身份化指引》等规范,但非强制的属性使其在“指引”过程中难免效果不佳。
另一个亟需确立匿名化标准的例子是医疗数据领域。医疗信息多数为病患检查数据、临床试验数据、基因组数据、医患描述数据等敏感个人信息,依照我国《个人信息保护法》第29条规定,敏感个人信息的处理需要严格遵循单独同意规则。唯有征得信息主体的明示同意,搜集和使用个人医疗信息方属合规。然而数据来源的复杂性与信息数量的庞大性使得单独同意原则执行成本颇高,进而影响数据的流通和使用,影响数据价值变现。通过确立理性和确定的匿名化标准来推动智慧医疗、医疗大数据的快速合规发展,是这个领域的当务之急。
综合考虑各行各业的价值需求,制定一个相对清晰合理的匿名化信息判断标准已成为数据要素流动市场的关键需求。完全规避匿名化信息的重识风险在当前阶段缺乏可行性,应当秉持相对匿名化的理念,明确匿名化的实践标准,建立更加完善的信息处理机制以期尽可能将风险最小化。
域外立法对于个人信息匿名化治理已经积累了诸多经验,如前所述,欧盟及美国都有明确的判断标准,相对而言,欧盟的合理可能性标准更为严格,考虑信息处理者及第三方主体的技术再识别的可能性。英国信息委员办公室发布的《匿名化:针对实践的信息保护风险管理》中提及了“有动机的入侵者测试”标准,即并未事先掌握相关知识,但有从匿名信息中识别到特定个人的动机,强调“入侵者”主观上的再识别故意,但客观上不具备相比于普通人更高的专业知识,仅能采取一般理性人有限可行的手段进行信息再识别活动。一旦“入侵者”能够在普通环境下通过测试成功识别匿名后的信息,就意味着该匿名信息存在较大的再识别风险,反之即为合格。这种“有动机的入侵者测试”标准在有效防范匿名信息再识别风险的同时相对减轻了信息处理者的义务负担。我国可以在实践中借鉴参考,结合本土化的特征,重塑匿名化标准,适当列举必须去除的标识符,同时根据不同场景分析评估再识别风险,借助相关行业规范标准判断信息属性。
针对匿名信息的再识别风险,日本在其《个人信息保护法》中设立了“匿名加工信息”制度,为匿名化处理者规定妥善加工义务、安全管理义务、公示义务和禁止进行识别行为四种法律义务,欧盟在《第05/2014号意见书》中规定了禁止再识别行为和定期评估再识别风险的法律要求。我国在匿名化的合理范围内,也可以建立相应的风险评估机制,降低去标识化的普遍标准,对应不同风险等级的匿名化信息采取不同程度的资源倾斜和政策保护,要求数据处理者定期评估信息再识别风险,履行信息处理公示义务,及时预防侵权行为,完善事后法律救济,构建行之有效的匿名化处理标准,以实现数据利用和隐私保护之间的利益平衡。
(作者单位:中国社会科学院大学互联网法治研究中心,本文是中国社会科学院大学本科教学改革创新项目“检法协作机制下网络法治研究型人才培养模式创新研究”的阶段性成果(JGCX202312))