个人信息匿名化的迷思
——以《个人信息保护法(草案)》匿名化除外条款为例
2021-01-28沈伟伟
沈伟伟
随着数字时代的到来和相关技术的推广,个人信息的收集和使用越来越普遍,由此也引发了个人信息的非法收集、滥用、泄露等现实问题。如何回应这些现实问题,强化个人信息的法律保护,成了学术界和实务界的共识。但这只是问题的一方面。另一方面,个人信息在数字经济发展过程中的重要性不断提升,怎么样利用好个人信息资源,直接关系到我国的数字经济转型、社会治理能力和国际竞争优势。①参见国务院印发的《促进大数据发展行动纲要》(国发〔2015〕50 号)。正是在这样双重需求叠加的现实背景之下,《中华人民共和国个人信息保护法(草案)》(以下简称“《草案》”)于2020年10月正式亮相。其中,非常突出的一点在于,《草案》突破性地提出了有别于以往法律法规界定个人信息的方式,亦即将“匿名化”作为除外条款纳入个人信息的定义之中。对于这一定义上的突破,学界尚未展开充分阐释。本文的目的并非再度唤起学界对个人信息定义的兴趣,或提出全新观点,而是仅就个人信息“匿名化”这一变通性界定,从法理和技术维度做进一步考证。
写作本文的出发点是我国个人信息保护理论与技术实践的现状,即学术界和实务界对个人信息匿名化问题的分析思路存在局限,一些技术实践和价值平衡的问题尚未得到充分揭示。针对这一现状,本文旨在揭示:在界定个人信息立法层面,各国法律所采取的进路之所以存在困境,深层原因在于个人信息保护与个人信息利用之间存在着难以调和的矛盾。从上述矛盾出发,我国的个人信息保护立法应当立足技术实践和制度传统,找到个人信息保护和个人信息利用之间的平衡,既回应对于个人信息保护的现实需要,又能为个人信息的合理利用创造条件。而《草案》中个人信息匿名化这一除外条款,并不能很好地达到这个平衡的目的,反而可能造成规制失灵等诸多问题,理应作出调整。
一、全球规制背景下的个人信息保护
互联网产业的高速发展,给世界各国个人信息保护立法出了一道难题。一方面,在数字时代,假如采取过于严格的个人信息保护制度,则必将阻碍甚至摧毁互联网产业的发展,不利于一国产业体系的数字化转型;另一方面,如果采取纯粹自由放任的监管路径,小到单个公民的个人信息,大到整个国家的网络安全,都可能遭到威胁。后者的典型案例,便是2016年美国总统大选期间的“剑桥分析事件”(Cambridge Analytica)。在这一事件中,剑桥分析公司利用“脸书”涉及的8 700万用户的个人数据展开技术分析,进而干预美国大选。①Ben Brody & Bill Allison, Facebook Set Lobbying Record Amid Cambridge Analytica Furor, April 21, 2018, BLOOMBERG, available at https://www.bloomberg.com/news/articles/2018-04-20/facebook-set-lobbying-record-ahead-of-cambridge-analytica-furor (Last visited by April 6, 2021).这个事件颠覆了人们对个人信息保护重要性和紧迫性的固有认识,直接引发了美国立法史上最快立法之一——《云法案》(Clarifying Lawful Overseas Use of Data Act of 2018, “CLOUD Act”)的出台。并且,其带来的连锁反应也促成了2018年《加利福尼亚州消费者隐私保护法案》(California Consumer Privacy Act of 2018, “CCPA”)、2019年《国家安全与个人数据保护法(草案)》(National Security and Personal Data Protection Act of 2019)②S.2889-NationalSecurity and Personal Data Protection Act of 2019, available at https://www.congress.gov/116/bills/s2889/BILLS-116s2889is.xml.等一系列个人信息保护立法的出台,强化了美国的部门条块化(Sector-specific)个人信息立法模式。
与此同时,欧盟也在原本不发达的数据产业基础上,采取了与美国截然不同的一体化立法模式,将其原有的《1995年数据保护指令》(Data Protection Directive, Dir.95/46/EC)升级为保护力度和广度更强的《一般数据保护条例》(General Data Protection Regulation)(以下简称“《条例》”),试图打造一个“内紧外松”的数字单一市场。③参见许可:《欧盟〈一般数据保护条例〉的周年回顾与反思》,《电子知识产权》2019年第6期。与欧盟和美国类似,为应对此种状况,世界各国纷纷推出符合本国国情的数据立法。根据联合国贸易和发展会议(UNCTAD)的统计数据,截至2021年3月,全球已有128个国家制定了个人信息保护法。④UNCTAD, Data Protection and Privacy Legislation Worldwide,Available at https://unctad.org/page/data-protection-and-privacy-legislation-worldwide.
上述是我国《草案》制定的大背景。当然,正如许多研究者所指出的,从内容来看,《草案》在法律适用范围、个人信息处理规则、个人权利和义务、处罚细则等方面,大量借鉴了《条例》,以致其中多处都可以看到《条例》的影子。⑤参见王新锐、罗为:《我国〈个人信息保护法(草案)〉与GDPR的差别点》,https://baijiahao.baidu.com/s?id=1681511555547520051&wfr=spider&for=pc, 2021年3月25日访问。第一,《草案》对于个人信息借鉴《条例》的做法采取了特殊化处理的方式,亦即对“敏感个人信息”采取了特别规定,这与《条例》中的“特殊类型个人数据”异曲同工。⑥尽管从具体规则上看,《草案》作为后继立法,在借鉴《条例》“特殊类型个人数据”处理的同时,还作出了更进一步的、诸如“用户单独同意”这类规定。第二,《草案》的处罚细则也借鉴了《条例》。《条例》的处罚标准是“两千万欧元或上一年全球总营业额4%的金额的罚款上限(两者取较高者)”,而《草案》则将罚款上限规定为“五千万元以下或者上一年度营业额5%”。①参见《草案》第62条。第三,《草案》与《条例》类似,带有浓厚的公法色彩——规定了专门的监管机构,以及一系列类似行政处罚式的执法措施,同时,也对国家机关处理个人信息、个人信息跨境规制等问题作出一系列规定,这是调整平等主体关系的私法所不具备的特色。②对于个人信息公法保护,宪法、行政法学界已有不少论述。参见王锡锌:《个人信息国家保护义务及展开》,《中国法学》2021年第1期;余成峰:《信息隐私权的宪法时刻——规范基础与体系重构》,《中外法学》2021年第1期。
除了上述三点之外,其他借鉴亦有不少,不再赘述。这样的大量借鉴到底是现实之需,还是仓促而为,还需我们仔细分辨。但有一点可以肯定,我国应对个人信息保护这一国际性立法趋势,所要确立的目的导向、遵循的立法路径,与欧盟不尽相同,也与美国不尽相同。究其原因,主要在于我国现行公法和私法保护体系、特定时期的技术和产业发展节点,以及我国对个人信息理解的特殊法制传统。在这一点上,不少研究个人信息保护的中国学者,已有相当程度的理论自觉。③参见丁晓东:《个人信息保护:原理与实践》,法律出版社2021年版,第159-164页。
下文将详细阐述的《草案》关于个人信息定义的表述,实际上借鉴了其他国家(尤其是欧盟和美国)在先立法经验,将“可识别性”作为《草案》所保护的个人信息的判定标准,并将“匿名化”,直接纳入到《草案》个人信息定义之中。笔者将对这些借鉴和转化展开梳理与反思。
二、《草案》个人信息定义述评:匿名化的引入
本节通过比对现有的其他处理个人信息的法律,对《草案》中的个人信息定义条款进行分析,并论证“匿名化”是理解《草案》个人信息定义的关节点,也是其有别于我国其他法律法规定义的特殊之处。
首先,《个人信息保护法(草案)》第1条开宗明义,为该法定下基调:“为了保护个人信息权益,规范个人信息处理活动,保障个人信息依法有序自由流动,促进个人信息合理利用,制定本法。”④从法解释学角度分析,一部法律的第1条通常是整部法律的基调所在,它指明了该部法律的立法目的和立法意义。参见梁慧星:《民法解释学》,中国政法大学出版社2003年版,第217页。很显然,就其立法目的而言,《草案》详细列举了4项,其中前两项偏向个人信息保护,后两项偏向个人信息利用。由此可以得出三个结论。第一,在立法者眼中,无论是个人信息保护,还是个人信息利用,都属于《草案》立法目的。第二,尽管个人信息保护和个人信息利用在实践中多多少少存在冲突,但这不意味着两者直接对立,在一些情况下,至少在第1条并列式表达所体现出来的期望中,需做到两者兼得。第三,无论是《草案》标题,还是从第1条立法目的条款中列举的次序,都可以推断出:在个人信息保护和个人信息利用之间存在着优先等级,即个人信息保护要高于个人信息利用。
立法者在《草案》第1条对两种立法目的的区分确有其合理性,而这种区分也提示了二者存在交叉竞合的可能性。事实上,是不是个人信息流通得越频繁,对于个人信息的利用就越充分?是不是个人信息的流通越简约,对于个人信息保护就越得力?都不尽然。
在如今信息爆炸的时代,对于个人而言,信息有优劣之别,并不是越多越好。每天沉浸在信息之中,其中就有不少如同美国作家索尔·贝娄所言,“只不过是毒害我们而已”,假新闻这类信息就是典型。①参见左亦鲁:《假新闻:是什么?为什么?怎么办?》,《中外法学》2021年第2期。同样,对于利用个人信息的主体而言——无论是政府,还是企业,个人信息也并非越多越好。在大数据的利用过程中,也存在信息太多反倒起负作用的情形,比如信息干扰和信息混淆。②Frank Pasquale, The Black Box Society6-8 (2015).因此,为了实现《草案》第1条所确立的立法目的,我们就必须对《草案》所保护的个人信息作出明确界定,既要“被保护”,也要“可利用”,唯有如此,才能进一步探讨其他类型化和场景化的个人信息保护问题。
其次,如果说《草案》第1条为整部法律定下基调,那么《草案》第4条第1款对于“个人信息”的定义,就是《草案》的“题眼”。这是由于“个人信息”不但出现在《草案》名称中,更是贯穿整部《草案》的每一个条文,总计200余次。毫不夸张地说,“个人信息”的定义哪怕只是作出细微调整,都将会直接影响整部法律的调整对象和实施效果。那么,《草案》是怎样界定“个人信息”的呢?《草案》第4条第1款规定:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。”
孤立地审视《草案》第4条第1款,并不能全面把握其特点及其与立法目的之关联。而恰恰由于个人信息保护问题的普遍性,到目前为止,我国已有一系列法律法规都对其作出规定,但至今尚未能形成对“个人信息”的统一概念。③参见高富平:《个人信息保护:从个人控制到社会控制》,《法学研究》2018年第3期;刘洪岩、唐林:《基于“可识别性”风险的个人信息法律分类——以欧美个人信息立法比较为视角》,《上海政法学院学报(法治论丛)》2020年第5期。如果我们将现有的对个人信息定义的立法作一番比较,就可以更好地厘清《草案》第4条第1款的特殊之处及其所关联的理论意涵。
首先,我们考察民法典中的个人信息。《中华人民共和国民法典》(以下简称“《民法典》”)先是在第四编“人格权”中,专设“隐私权和个人信息保护”一章,进而确立了我国特有的“隐私”与“个人信息”二分的法律规制架构。④参见许可、孙铭溪:《个人私密信息的再厘清——从隐私和个人信息的关系切入》,《中国应用法学》2021年第1期。根据《民法典》第1034条规定:“个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。”换言之,根据《民法典》规定,个人信息的核心特征和主要认定标准都落在学界所关注的“可识别性”——既包括“单独”识别,也包括“与其他信息结合”识别。这与《中华人民共和国网络安全法》(以下简称“《网络安全法》”)所给定的个人信息的定义基本吻合。⑤事实上,最早也是影响最广泛的涉及个人信息保护的规范性文件是2012年全国人大常委会发布的《关于加强网络信息保护的决定》,该文件虽然没有明确定义何谓个人信息,但也是以识别个人身份的可识別性作为保护的标准。《网络安全法》第76条规定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。”
除了两部涉及个人信息的现行法之外,为了应对近几年个人信息保护实践中遇到的问题,相关部门也出台了一系列司法解释、部门规章等,尝试对个人信息这一概念作出界定,满足现实司法和执法方面的需求。例如,最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第1条规定:“刑法第二百五十三条之一规定的‘公民个人信息’,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。”再如,工信部发布的《电信和互联网用户个人信息保护规定》第4条规定:“本规定所称用户个人信息,是指电信业务经营者和互联网信息服务提供者在提供服务的过程中收集的用户姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等能够单独或者与其他信息结合识别用户的信息以及用户使用服务的时间、地点等信息。”①此外,工信部2012年发布的《信息安全技术公共及商用服务信息系统个人信息保护指南》和全国信息安全标准化技术委员会2017年发布的《信息安全技术个人信息安全规范》中,也对“个人信息”作出了基于可识别性的定义。
通过上述比照可以看出,《草案》对于个人信息的定义,基本上承袭了我国立法层面对于个人信息的可识别性标准的导向——尽管《草案》的自然人识别标准与《民法典》《网络安全法》的身份识别标准有一定区别——这一点有别于有些国家或地区(比如美国加利福尼亚州)法律中尝试的、保护范围更大的关联性标准。但仔细考察,可以发现《草案》中有关“个人信息”的定义并没有止步于此,第4条第1款创造性地加入了一段但书——“不包括匿名化处理后的信息”。换言之,尽管“匿名化”的个人信息仍可能受到上述其他法律法规保护,但它被彻底排除在《草案》这一个人信息保护专门立法的保护范围之外。
为什么要把“匿名化”个人信息明文排除在外?“匿名化”个人信息被排除在外后,会带来什么样的立法后果?这些立法后果和第1条所规定的《草案》立法目的有什么关联?这是下文要着重探讨的几个问题。
三、个人信息匿名化的迷思
为什么要把“匿名化”个人信息明文排除在外?要理解这一立法的意图,就必须理解匿名化与可识別性之间的关联。既然《草案》采取了可识別性为个人信息界定的标准,那么按字面意思,如果一种信息不能“单独或者与其他信息结合识别自然人个人身份”,那么这种信息自然就被排除在个人信息保护之外。这一除外条款看起来有些“画蛇添足”,但实际上该除外条款还有着隐含的意义——“匿名化处理后的信息”,如果可以完美实现,那它应当是“经过处理无法识别特定自然人且不能复原”②参见《草案》第69条。,不能“单独或者与其他信息结合识别自然人个人身份”。这一理想场景,既能给个人信息的处理者以合理流转和利用个人信息的机会,又能防范不法分子利用可识别身份的个人信息侵犯公民的隐私和其他个人信息权益。
但在实践中,这个前提并不成立。有些“匿名化处理后的信息”,在技术实践中有可能变成“银样蜡枪头”,仍然可以被“去匿名化”,仍然可以被“再识别”。为了理解这一症结,我们有必要在技术实践层面,对个人信息匿名化作出一番剖析,考察“什么是匿名化?”这一前置性问题。
个人信息“匿名化”这一概念出现在国内外诸多个人信息保护法律法规中。①严格说来,《条例》第4条定义专款并没有给匿名化(Anonymization)直接下定义,而是采用了另一个概念:假名化(Pseudonymisation)。其第4条规定:“‘假名化’指的是在采取某种方式对个人数据进行处理后,如果没有额外的信息就不能识别数据主体的处理方式。此类额外信息应当单独保存,并且已有技术与组织方式确保个人数据不能关联到某个已识别或可识别的自然人。”而在《条例》Recital 26中提到匿名化信息(Anonymous Information)时,给出了一个与《草案》类似的理想描述,亦即“不会被或者不再会被识别的信息”。而《条例》的前身——《1995年数据保护指令》,亦采取类似的方式定义匿名化信息。美国的《加利福尼亚州消费者保护法案》(CCPA)、《健康保险流通与责任法》(HIPPA)和《加利福尼亚州隐私法案》(CPRA)则采取了“去标识化”这一近似概念。我国的《网络安全法》第42条虽然没有直接使用“匿名化”这个词,但也出现了与之含义相近的“个人信息经过处理无法识别特定自然人且不能复原的过程”表述。而《信息安全技术个人信息安全规范》则将匿名化定义为“通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程”。而有备而来的《草案》,在第69条将匿名化定义为“个人信息经过处理无法识别特定自然人且不能复原的过程”②《草案》第69条定义了“去标识化”:“指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。”在此,立法者显然是把“去标识化”作为较浅层的匿名化来对待。与之相对,作为“去标识化”概念应用更早的美国法,无论是在CCPA还是在CPRA中,都是被定义为极其严格的匿名化。参见CCPA Section 1798.140 (h); CPRASection 1798.140 (m)。。
从这一系列定义可以看出,匿名化,并不是字面上将姓名隐匿这么简单,需要被隐匿的信息也可能包括上述法条中所列举的出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等,并且这类信息隐匿处理的最终目的,是要做到无法识别个人身份。③更甚之,《信息安全技术个人信息安全规范》规定,个人信息控制者在超出个人信息保存期限后,或停止运营其产品或服务时,“应对个人信息进行删除或匿名化处理”。这几乎是将“删除”与“匿名化”视作可以互相替代的责任承担方式。由定义不难看出,“匿名化”并非理论上的概念推演所创设,而是一个不折不扣的实践产物,涉及很多诸如数据抽样(Sampling)、数据聚合(Aggregation)、确定性加密(Deterministic Encryption)、同态加密(Homomorphic Encryption)、信息压制(Suppression)、抽象化(Generalization)、随机化(Randomization)、数据合成(Synthetic Data)等技术,并最终为理论所吸收。④参见杨建媛、邬丹:《脱敏技术与法律效果评价可以机械对应吗?》,《合规科技研究》公众号。
尽管匿名化属于成熟的通行技术实践,可就连对匿名化持相对乐观态度的隐私法学者保罗·斯沃兹(Paul Schwartz)和丹尼尔·索洛夫(Daniel Solove)都承认:匿名化是暂时的,再识别是可能的。⑤Paul M. Schwartz & Daniel J. Solove, The PII Problem: Privacy and A New Concept of Personally Identifiable Information, 86 N.Y.U. L. Rev.1814, 1837 (2011).在传统社会,人们可以较容易地隐匿自己身份;但是,要在网络社会做到不可追踪、不可识别,难度则要大得多。⑥Ibid.换言之,一旦某位公民的个人信息被采集,那么就存在一种潜在的可识别性,哪怕他暂时处于匿名化状态。事实上,如果稍微迂回到个人信息保护和个人信息利用这一对立法目的上,我们就很容易发现,匿名化这一技术处理,也是与上述矛盾完全呼应的——其目的是为了实现个人信息保护的同时,也能对个人信息进行利用。如果个人信息只需保护而无需利用,那么根本就无须匿名化,直接禁用即可。如果个人信息可以随意利用且无需保护,也不必采取任何匿名化措施。
但在技术实践层面,笔者在此着重强调,匿名化并不仅仅是《草案》中简单处理的“有或无”的问题,而是一个层次丰富的“多或少”的问题。换言之,匿名化信息既可以涵盖完全无法识别身份的用户信息①例如,商场投币游戏机的玩家用户数据。,也可以涵盖当下完全匿名化但无法保证未来不被去匿名化的信息②参见苏宇、高文英:《个人信息的身份识别标准:源流、实践与反思》,《交大法学》2019年第4期。,还可以涵盖当下就可以结合其他数据进行识别的信息(尽管需要或高或低的成本)。而匿名化的程度,与数据利用的程度直接相关。举例而言,在疫情期间,流调信息公布不可避免地要涉及个人信息,而各地政府在公布流调之时,也都会采取或多或少的匿名化措施。但是匿名化的程度,每个地方政府尺度不一。不乏有些地方政府匿名化做得不够,让社会公众很快就能识别出公布的病例个人信息,加之社交媒体的推波助澜,使当事人的隐私和个人信息权益遭到严重的侵犯。但与此同时,我们也要考虑到另一种极端情况,假设地方政府匿名化做得太过,隐匿确诊病例的居住地、发病与就诊情况、密接人员、行经暴露的场所及相应具体时间等一些关键流调信息,如此一来,个人信息虽因此得到更大的保护,但相应的个人信息利用(亦即流调防控效果)也就受到限制。③参见戴昕:《“防疫国家”的信息治理:实践及其理念》,《文化纵横》2020年第5期;沈伟伟:《论数字紧急状态的恢复机制——以新冠疫情防控为例》,《清华法学》2021年第2期。
这也印证了美国隐私法学者保罗·欧姆(Paul Ohm)的一个著名论断:个人信息保护与个人信息利用是匿名化这一情境下的一对难以调和的张力——匿名化不足,就无法很好保护隐私和个人信息权益;匿名化太过分,又影响其利用价值。④Paul Ohm, Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization, 57 UCLA L. REV. 1701, 1732 (2010).事实上,不但匿名化技术如此,加密技术也是如此。有研究者就对亚马逊的加密技术进行分析,指出其对于数据利用和再开发所带来的障碍。SeeHyunji Chung et al., Digital Forensic Approaches for Amazon Alexa Ecosystem, 22 Digit. Investig. 15 (2017).在高度依赖用户画像实现精准服务的时代,这一现象越发显著。⑤参见丁晓东:《用户画像、个性化推荐与个人信息保护》,《环球法律评论》2019年第5期。比如,健康码抗疫个人信息利用领域中的认证环节,一旦采取高度匿名化,那么认证环节的成本就会陡增。早期尚未形成全国联网、各地标准尺度不统一的健康码,就常常由于信息不足,而导致跨区域认证困难。反之,由于进出商场需要出示健康码实行人脸比对,自带人脸正面照片、地理位置、行程时间等容易“被识别”的信息,一旦健康码流出,就容易造成对公民隐私和个人信息权益的侵害,不少明星就在本次疫情期间“吃了这方面的亏”。⑥事实上,本次新冠疫情由于防控力度超出常规,参与防控过程(特别是流调过程)的人员和部门也更多,比如医护人员、社区职工、学校商场等公共场所的工作人员,以及公安部门、疾控中心和电信部门为主的政府官员等,泄露个人信息的风险也更大。
在匿名化个人信息的成本和风险分析中,去匿名化技术扮演着极其重要的角色。近些年,有不少隐私法学者主张用可识别个人信息(Personal Identifiable Information)和非可识别个人信息这一分类,来类型化个人信息保护措施。⑦最典型的论述,参见Paul M. Schwartz & Daniel J. Solove, The PII Problem: Privacy and A New Concept of Personally Identifiable Information,86 N.Y.U. L. Rev. 1814 (2011)。这种分类所遭遇的困难和匿名化自身所面临的技术挑战是类似的,都是去匿名化技术。简言之,如果去匿名化技术足够高超、成本足够低廉,即便是非可识别个人信息或匿名化信息,也可以被准确定位到公民个人。而且,去匿名化技术的发展,存在累加效应——去匿名化技术越发达,可利用的外部关联数据库就越多,去匿名化的效果越强。每一次个人信息去匿名化的胜利,都可能成为下一次个人信息去匿名化的垫脚石,而整个社会的个人信息风险也就因此越升越高。
美国两个广为人知的去匿名化案例,很好地呈现了去匿名化技术所引发的个人信息风险。第一个案例是“AOL①AOL ,全称American Online,即美国在线公司,是20世纪90年代以来美国最具影响力的互联网服务提供商之一。事件”。2006年,AOL公开匿名化搜索记录,供社会研究。在公开的搜索记录中,用户姓名被替换成了一串串匿名化的数字ID。但是《纽约时报》却通过这些搜索记录,识别到ID为 4417749的用户,并对其生活造成极大困扰。AOL紧急撤下共享数据,但为时已晚,AOL遭到起诉,最终付出了总额高达500万美元的赔偿。②Michael Barbaro& Tom Zeller, A Face is Exposed for AOL Searcher No. 4417749, N.Y. TIMES (Aug. 9, 2006), http://www.nytimes.com/2006/08/09/technology/09aol.html(Last visited by Mar.5, 2021).第二个案例是“Netflix事件”。Netflix 公司于2006年对其50万名用户在过去6年的影评信息进行匿名化处理之后,公之于众,并悬赏能够提升其电影推荐功能的算法。研究者赫然发现,只要获取特定用户6 部影评发布时间与评分信息,就足以识别出该网站数据库中99% 的用户身份。③Ryan Singel, Netflix Cancels Recommendation Contest after Privacy Lawsuit, WIRED (Mar. 12, 2010), https://www.wired.com/2010/03/netflixcancels-contest; Arvind Narayanan &VitalyShmatikov, Robust Deanonymization of Large Sparse Datasets, PROC. 2008 IEEE SYMP. ON RES. IN SECURITY & PRIVACY 111 (2008).Netflix公司也因此遭受舆论风暴。
在上述案例中,匿名化个人信息被去匿名化这一过程,很难完全归咎于工作人员的疏忽。对AOL和Netflix而言,这些公开信息的决策都是由当时业内顶尖的计算机工程师背书和管理人员拍板,他们并不业余。但这些业内顶尖人员,却确实在匿名化的判断上犯下错误,本质上还是由于个人信息利用和匿名化之间的冲突:为了保证个人信息可被利用(无论是AOL的研究需求,还是Netflix为提升自己算法精度),就必然要在匿名化程度上留有余地。然而,“开弓没有回头箭”,这些被去匿名化的个人信息,有可能被用来识别个人身份,再识别所引发的后果很可能是无法挽回的。但即便这些专业人员吸取教训,在下一次作出匿名化决策时,仍有可能为了保证数据能被利用而继续犯错。④“脸书”为了让广告商精准投放并估算广告费用,同样在个人信息利用和匿名化之间付出了极大努力,但即便如此,依然没有办法完全排除去匿名化风险。See Andrew Chin & Anne Klinefelter, Differential Privacy As A Response to the Reidentification Threat: The Facebook Advertiser Case Study, 90 N.C. L. Rev. 1417, 1433-36 (2012).这是因为去匿名化技术可能在升级,且匿名化数据所运行的环境可能被更多的可供对撞数据库所包围,这将使得匿名化数据面临着更不可测的去匿名化风险。⑤有关算法运行环境所带来的不可测影响,参见沈伟伟:《算法透明原则的迷思——算法规制理论的批判》,《环球法律评论》2019年第6期。事实上,在实验室环境中,不少学者已经模拟出各类去匿名化的风险。早年比较经典的研究来自哈佛大学教授拉塔娅·史文妮(Latanya Sweeney),她通过美国国家统计数据发现,87% 的美国人,其邮编、生日和性别这三样信息都不会同时和其他人共有。⑥Latanya Sweeney, Uniqueness of Simple Demographics in the U.S. Population (Laboratory for Int'l Data Privacy, Working Paper LIDAP-WP4,2000). 史文妮后来又做了一系列相关的研究。See Latanya Sweeney, K-Anonymity: A Model for Protecting Privacy, 10 INT'L J. UNCERTAINTY,FUZZINESS & KNOWLEDGE-BASED SYSS. 557 (2002); Latanya Sweeney, Simple Demographics Often Identify People Uniquely, DATA PRIVACY LAB TECHNICAL REP. (2000).许多研究者发现,在社交网络中,通过用户在社交网络中分享的内容、链接、浏览痕迹等信息,可以将大部分的用户身份识别出来。⑦关于社交网络个人信息去匿名化的研究,是计算机科学家的研究热点之一,下面仅举几篇具有代表性的文献。See L. Olejnik, C.Castelluccia, and A. Janc. Why Johnny can’t browse in peace: On the uniqueness of web browsing history patterns. In 5th Workshop on Hot Topics in Privacy Enhancing Technologies, 2012; Jessica Su, Ansh Shukla, Sharad Goel, and Arvind Narayanan, De-anonymizing Web Browsing Data with Social Networks. In Proceedings of the 26th International Conference on World Wide Web (2017),1261–1269, https://doi.org/10.1145/3038912.3052714; KorulaN ,Lattanzi S, An efficient reconciliation algorithm for social networks[J]. 2014; Nilizadeh, Shirin & Kapadia, Apu&Ahn, Y.-Y. (2014). Community-Enhanced De-anonymization of Online Social Networks. Proceedings of the ACM Conference on Computer and Communications Security. 537-548. 10.1145/2660267.2660324; Lars Backstrom, Cynthia Dwork& Jon Kleinberg, Wherefore Art Thou R3579X? Anonymized Social Networks, Hidden Patterns, and Structural Steganography, in 16th Int'l World Wide Web Conference Proc. 181 (2007), available at http://portal.acm.org/citation.cfm?id=1242598(Last visited by Mar.7, 2021).还有研究人员通过公开数据,推算出美国公民的社会保险号。⑧美国的社会保险证号是类似我国身份证号码的唯一数字串标识。See AlesandroAcquisti& Ralph Gross, Predicting Social Security Numbers from Public Data, 106 Nat'l Acad. Sci. 27, 10975 (2009).
更糟糕的是,真正实现身份再识别的主体,既可以是系统性的去匿名化专业人员,也可以是随机性的某位好事的、碰巧与受害者相识的网民。在我国层出不穷的“人肉搜索”案件中,不论是公众人物还是普通公民,在“人肉搜索”面前都可能被网络上遗留的蛛丝马迹识别出身份。①参见胡凌:《评“人肉搜索”第一案的三个初审判决》,《法律适用》2009年第7期。这让去匿名化的风险变得更加随机、更加难以把控。②网络传播所带来的“人肉搜索”,也常常在个案层面给匿名化带来挑战——常常会有某些比较熟悉被识别对象的人,通过有限的匿名化信息,推测出个人身份——尽管这种挑战更具随机性,而不像去匿名化技术那样具系统性。
从以上例证我们可以看出,匿名化可以实现完全匿名这一前提假设,多数情况下只不过是天真的愿想。在去匿名化技术和相关数据库越来越发达的时代,在立法中预设匿名化个人信息存在被再识别的可能,才是更为审慎的做法。回到《草案》语境中,这便意味着其第69条对于“匿名化”的绝对化处理,在技术实践中将面临极大的现实困境和未来不确定性。这也将直接导致规范形式上理想化的“匿名化处理后的信息”,很可能在技术实践中出现问题。
四、将匿名化引入个人信息定义的反思
下面将从条文逻辑、技术实践和立法价值三个层面,反思《草案》将匿名化引入个人信息定义的合理性问题。
第一,在条文逻辑上,匿名化处理的个人信息这一除外条款,与《草案》第5条定义的前半部分存在交叉重合。如上文第三部分开篇所述,既然第69条已经规定,匿名化是指“个人信息经过处理无法识别特定自然人且不能复原的过程”,那么它自然也就不符合第5条前半部分的“单独或者与其他信息结合识别自然人个人身份”这一个人信息定义。换言之,在立法逻辑上,第5条前半部分已经包含了第5条后半部分(除外条款)。因此,这一除外条款本身就存在着逻辑上的同义反复,而造成这一问题的根源还是在于对“匿名化”本身认识上的重大误解。假如实现了第69条所规定的绝对匿名化,那么除外条款的设置就是形同虚设,而且其带来的立法效果是强化个人信息保护,但极大弱化、甚至可能完全摧毁个人信息利用。③关于个人信息利用与匿名化的关系,参见第三部分的论证。假如立法者本意并不是真要实现第69条所规定的绝对匿名化,而是意图通过除外条款,强化个人信息利用——《草案》后续若干法条似乎更倾向于这一观点——那么其立法效果将会在强化个人信息利用的同时,极大削弱个人信息保护。这是因为以个人信息利用为导向的“匿名化”,已偏离了第69条所作的严苛界定,它将必然导致匿名化程度的滑坡,导致前文提到的形式主义匿名化的问题。④事实上,哪怕理想化的绝对匿名化,在公民日常生活与数字空间紧密结合的时代,公民的数字账号识别(而非身份识别)也足以给其造成很大困扰。参见胡凌:《刷脸:身份制度、个人信息与法律规制》,《法学家》2021年第2期。
当然,也有论者会将《条例》序言第26条搬出,指出《草案》参照的《条例》难道也不是把匿名化信息排除在个人信息之外吗?这是没错。然而,我们必须注意到,《条例》把“匿名化信息”(Anonymous Information)框定在“合理可能的无法识别”这一标准。且不论《条例》这一合理性判断,在变动的技术发展进程中现在已经和未来可能遭遇的各种困境,纵观《草案》,全文并未提及任何匿名化的合理性字眼,也没有具体的合理性审查标准,而是以第69条严格定义处理,这显然和《条例》的排除匿名化信息处理有很大差别。
第二,从技术实践层面,直接将匿名化整体引入个人信息定义有待商榷。正如美国学者劳伦斯·莱斯格(Lawrence Lessig)指出的那样,技术是数字时代极其重要、甚至在某些情况下比法律更重要的规制要素。①参见[美]劳伦斯·莱斯格:《代码2.0》,李旭、沈伟伟译,清华大学出版社2018版,第85页。而就个人信息保护而言,“将隐私融入设计”(Privacy by Design)早已在理论建构和技术实践中发挥作用。②See Helen Nissenbaum, Privacy in Context, Stanford Law Books, 2009 pp.1-5; Ira S. Rubinstein, Regulating Privacy by Design, 26 Berkeley Tech. L.J. 1409, 1411-12 (2011).例如,在《条例》第32条,假名化和加密技术就被作为个人信息处理中的两类关键技术列入条文中,但与《草案》不同的是,《条例》只是在具体场景中列举包括假名化和加密技术等技术,而不是在个人信息定义这类核心前置性条款中引入匿名化概念。《条例》这样的处理,无疑更为审慎。立法者本身对于技术发展的把握就存在很强的不确定性,而技术未来的演进迭代,也难以被立法者准确预测,因此,将匿名化这类技术标准纳入定义条款来处理有欠妥当,更妥当的做法是将其交给后续具体条款③如《网络安全法》第42条、《民法典》第1038条。,甚至下位阶的法律法规或者行业标准。④例如,《常见类型移动互联网应用程序必要个人信息范围规定》《个人信息安全规范》《个人金融信息保护技术规范》等。
更重要的是,防止个人信息被识别的技术方案存在多种选择,如数据脱敏、加密技术、差分隐私技术⑤差分隐私(Differential Privacy)技术是一项近些年来广受瞩目的隐私保护技术,其技术原理与加密技术截然不同。它通过向数据库添加随机的噪音数据,来降低任意个体的记录对数据库的统计特性影响,从而使攻击者无法轻易地从数据库中识别到个体。、假名化技术等。这些技术有些可以被匿名化技术所涵盖,有些则不可以。如果回到个人信息保护和个人信息利用的平衡上,我们可以看到每一种技术都会给两者带来不同的影响。通常而言,在个人信息保护维度,强加密技术要高于差分隐私技术,差分隐私技术要高于数据脱敏技术,数据脱敏技术要高于未经处理个人信息。在个人信息利用维度,未经处理个人信息要高于差分隐私技术,差分隐私技术要高于数据脱敏技术,数据脱敏技术要高于强加密技术。⑥这些技术方案类型的比较,落实到具体某一项技术,可能存在误差,但大体上整个类型化的技术可以在个人信息保护和个人信息利用的谱系中,找到自己的位置。
《草案》似乎想利用“匿名化”这个概念将诸多技术一网打尽。且不论其他技术概念表述上是否严谨,这在技术实践中很容易造成豁免范围过宽或者过窄的问题,也极容易造成前文所述的形式主义匿名化问题。概言之,这种立法上的笼统处理,一方面,对于“做做样子”的形式主义匿名化没有行之有效的防范措施,极容易导致个人信息保护法的规制失灵;另一方面,对于那些认真履行匿名化义务的数据处理者,却依然要面临技术实践中的责任不确定性——在《个人信息保护法》层面是合规的,但却依然可能承担《民法典》或《网络安全法》上的责任。
比较务实的解决方案,并不是将“匿名化处理后的信息”——抑或是“差分隐私处理后的信息”“脱敏处理后的信息”“加密处理后的信息”——直接引入个人信息的定义中,而是应当在具体操作场景,对相应的匿名化技术方案作出进一步规制。假如《草案》非得保留“匿名化处理后的信息”这一除外条款,那么至少也应当像《条例》一样,提出一个合理性的技术审查标准,甚至将去匿名化的难度和成本纳入考量范围①事实上,在广州互联网法院审理“酷车易美案”中,就接近这一思路。广州互联网法院虽然承认“实践中存在通过第三方信息与车况信息结合识别到特定自然人的可能性,但一般理性人在实现上述目的时,会综合考虑行为成本,比如技术门槛、第三方数据来源、经济成本、还原时间等,综合上述因素后再进行结合,识别成本较高。”参见广州互联网法院(2021)粤0192民初928号民事判决书。,而不是将匿名化绝对化导致语义重复,更不是将“可识别”标准降格为简单粗放的“已识别”标准。②在我国个人信息保护领域影响深远的“朱某案”,曾激发了对“可识别”标准和“已识别”标准的讨论,参见岳林:《个人信息的身份识别标准》,《上海大学学报(社会科学版)》2017年第6期;江苏省南京市中级人民法院(2014)宁民终字第 5028号民事判决书。
第三,从个人信息保护法立法的价值诉求的角度看,我国前期在数据、信息、隐私领域的相关立法,并没有完全复制欧盟的侧重个人尊严保护进路或者美国的侧重财产自由保护进路,而往往是突出网络安全作为我国网络规制相关建制的重要关切。③例如,从个人信息保护角度,在先的法律对于个人信息规定最为严苛的,并不是调整平等主体的《民法典》,而是侧重保护网络安全的《网络安全法》。
自党的十八大以来,我国开始系统部署和全面推进网络安全和信息化工作,网络安全逐渐演变成我国信息法治的重要价值理念,《网络安全法》也早早明确相关立法方向,并在后续的《网络安全审查办法》等法律法规中得到细化。而在《草案》中,紧接着第一章“总则”之后,就在第二章“个人信息处理规则”第三节和第三章“个人信息跨境提供的规则”中处理网络安全问题,这在比较法视野中独具特色。网络安全包含的层次很复杂,既包括了物理环境、服务器等硬件系统,也包括了操作系统、应用软件、底层数据等软件系统。而个人信息作为数字时代极其重要的底层数据,自然也在国家网络安全战略中占有极其重要的地位。如果带入网络安全视角,个人信息保护和利用之间的平衡会更加复杂④网络安全这一视角,也贯穿在整部《草案》中。参见《草案》第9条、第10条、第38条、第40条、第42条、第50条、第60条。,而这种复杂性也要求天平需要向个人信息保护方向倾斜,进而也为匿名化除外条款的设置本身带来了更大挑战。换言之,如果匿名化被纳入个人信息的定义,这将不可避免地引起《个人信息保护法》与《网络安全法》之间的冲突。因为一旦匿名化信息不被作为个人信息对待,《网络安全法》规定的个人数据跨境、个人数据本地化等要求,将很容易带来实践中的冲突,甚至被规避。而这可能有违我国个人信息相关立法的特殊价值诉求。
五、结 语
与西方国家一样,我国个人信息相关立法也面临着多重困境。一方面,随着信息技术的发展和应用,当前传统的民法和刑法的隐私保护制度难以应对数字时代的新挑战,这是保护不足、利用过度的问题;另一方面,过度依赖权利范式来保护个人信息,会给政府、企业甚至个人利用信息带来更高的成本,这是保护过度、利用不足的问题。而这两个问题并不会完全对冲,完全可能并行存在。而与域外国家不一样的是,我国在个人信息保护方面,所寻求的背后立法目的有其自身的侧重和不同,具体体现在两方面:其一,我国作为全球数一数二的互联网大国,对于个人信息的利用及其所涉及的产业发展和国际博弈,有着不同于西方国家(尤其欧盟)的诉求;其二,我国的个人信息保护传统本身与强调个人尊严和信息自决权的欧盟以及强调信息的财产属性的美国不同,有着自身的特色①See James Q. Whitman, The two Western Cultures of Privacy: Dignity Versus Liberty, 113 Yale L. J. 1151 (2004); Alan Westin, "The Origins of Modern Claims to Privacy", in Philosophical Dimensions of Privacy: An Anthology (Ferdinand D.Schoeman,ed.),Cambridge University Press, 1984,pp.56, 62-63.,这一点尤其体现在网络安全层面。②参见周汉华:《探索激励相容的个人数据治理之道——中国个人信息保护法的立法方向》,《法学研究》2018年第 2 期。
当前,《草案》中将匿名化作为除外条款引入“个人信息”定义中,其本意是激励信息处理者采取匿名化措施,减轻其在数据利用过程中的合规和法律风险。这本身与《草案》第69条对于“匿名化”的严苛定义存在很大的矛盾,甚至同义反复。而且如此定义,意味着匿名化处理后的信息,就不再属于《草案》的保护范围。在核心概念定义这个前置性环节就作出如此激进的、技术化的处理,其带来的立法效果——尤其针对形式主义匿名化问题——极有可能挑战个人信息保护的立法初衷,使个人信息保护和个人信息利用的天平向后者过度倾斜,这也有悖于我国有别于其他国家重视个人信息安全方面的制度传统。因此,无论是从《草案》对于“个人信息”的定义,还是从《草案》其他具体规制条文角度分析,都应当在充分考虑技术实践的前提下,努力做到个人信息保护和个人信息利用之间的平衡,并且在技术还存在大量发展空间及其附随的不确定性基础上,谨慎将类似“匿名化”这样的技术细节带入到上位法定义条款中,把技术细节问题留给后续具体条款③比如《网络安全法》第42条、《民法典》第1038条。、甚至下位阶的法律法规或者行业标准。