数据匿名化的体系规范构建*
2023-01-08郑佳宁
郑佳宁
(中国政法大学民商经济法学院,北京 100088)
在数字经济的发展浪潮中,数据成为了社会生产的一项全新要素,交易中数据流的作用已然与现金流无异。随着个人信息的交易限制成为企业生产数据产品的桎梏,作为消除数据可识别性的通用技术,匿名化处理应运而生。顾名思义,匿名化处理是指使得个人信息无法被识别的技术处理过程。在完成同意采集用户信息后,企业通过采用数种匿名化技术将其中的个人信息处理为匿名信息,之后方可进入市场流通领域。值得注意的是,数据匿名化并不是企业自发进行的一种单纯数据处理行为,其价值也不止停留在商业层面,事实上,匿名化对于个人信息的保护与数据产品的流通都具有重要价值。欧盟、美国等地区或国家均在法律规范的层面对匿名化的行为及效果予以关注,我国也不例外,2017年实施的《网络安全法》、2021年实施的《个人信息保护法》等法律规范同样对数据匿名化作了特别规制。然而,作为个人信息处理规则与数字财产权体系结合并展开的基础,当前我国个人信息匿名化规则过于笼统,对于匿名化的范围、程序以及效果规定粗糙,缺乏可识别性的判断标准,导致该规则在数字经济实践中缺乏明确指引。为此,本文认为,数据匿名化对实现个人信息保护和数据产品化之间的利益平衡上具有不容忽视的价值,应当结合数据的应用场景对匿名化规范进行体系性构建。
一、匿名化概念的梳理、辨析与解释
对数据匿名化作出规范层面论述之前,首先要对匿名化相关概念的内涵进行剖析,以避免诸多概念运用中的误解与龃龉。词源上看,英文中的 “anonymization”源自希腊语“anonymia”,原意为没有名称的或佚名的。至今,英文词典中的匿名仍旧是指行为或事件主体姓名的不为人所知或被隐藏的状态。[1]而布莱克法律词典则赋予“匿名”一词简洁却更进一步的解释——不知姓名或未得识别。[2]围绕自然人主体的姓名及其背后的身份,以可识别性为桥梁匿名化后形成的匿名信息与个人信息构成了对立的两端——个人信息以对自然人身份的识别为特征,而匿名信息则以不具有身份标识性为特征。因此,匿名信息除了包括本身即未与任何被识别或能被识别的自然人发生关联的非个人信息,还包括个人信息经特定方式的匿名化处理后形成的、不再能被用以识别个人身份的个人信息。学者们所关注的显然是与个人信息发生互动的后者,即通过匿名化阻断相关信息与个人身份的关联性。[3]更具体而言,本文中使用的“匿名”或“匿名化”之词语涵盖了表状态的匿名化效果和表过程的匿名化处理两层含义。表状态的匿名化,是指个人信息经处理后达到的无法识别个人信息主体的不可复原的、永久性的结果,匿名信息中的匿名即为此义。表过程的匿名化,或称匿名化处理,是指为达到匿名状态而运用技术手段对个人信息进行处理的过程。然而,完满的匿名化状态仅仅是一种理论上的美好追求和绝对化假定——第三方处理者总有诸多动机反其道而行之,对数据的匿名化状态进行破解。这种以再次识别个人信息主体为目标、与匿名化处理恰恰反向的行为被称为去匿名化。质言之,表状态的匿名化效果只是理想情形,当个人信息转变为匿名信息之后,第三方处理者总是千方百计地采用数据挖掘等手段对匿名信息进行去匿名化,继而将匿名信息复原为个人信息,侵犯个人隐私等权益的损害由此发生。
与匿名化相近的概念是去标识化,亦又被译作去身份化,该词从组词方式上来看,是对“标识”一词的否定和背离。美国商务部下辖的国家标准与技术研究院在相关文件中将去标识化的信息定义为,其中的个人可识别信息已被去除、掩去、模糊化或混淆化,以致余下的信息不能够且无合理的基础相信其可被用以识别自然人个体的信息。[4]对于“去匿名化”与“去标识化”概念的辨析,有学者认为,两者之间本质相近,其差异仅体现在用语习惯上,匿名化为欧洲地区常用词,而去标识化则是北美地区的用法。[5]本文则认为,除去使用地域上的表象差异,无论是从立法相关文件抑或学者著述中看,去标识化与匿名化相较存在明显不同。两者虽然都强调个人信息主体无法被识别或者关联,即不可识别性,但匿名化同时要求“不可复原性”。去标识化则不然,由于使用假名、加密等替代性标识技术,其本身含有“还原”标识的可能性。假名与加密是去标识化的主要技术手段,这种解释被欧盟、美国的法律规范所采纳,亦符合我国2020年发布的《信息安全技术 个人信息安全规范》中的表述逻辑。①假名,是指通过令牌化、应用哈希函数等替换个人信息中直接标识符的部分或全部的数据处理技术。加密,是指运用计算机加密算法,将个人信息转换为密文,并将密钥妥善保管的数据处理技术。假名和加密技术在个人信息保护处理层面具有显而易见的共性,即两者对个人信息可识别性的处理都是可逆的。关于假名技术,国际标准化组织在2017年修订《医疗信息学——假名》中点明,该技术用一个或多个假名替换掉个人信息中的标识符,虽然在一个方面去除了原个人信息与个人信息主体之间的联系,但却在另一方面建立了这些假名和个人信息主体特征之间的新联系。②可想而知,这种新联系如果为合法控制数据的企业之外的其他主体所掌握,则假名化处理将很可能招致未经授权的逆转。关于加密技术,加密处理必然产生一套既可以用来加密,也可用以解密的算法密匙,如果这套密匙未得到良好的管理而被未经授权的他人所获取,那么,对个人信息的解密自将发生。
由于在不可复原性上存在着显著区别,导致去标识化和匿名化的规范设计存在如下不同:第一,在处理手法上,去标识化主要指向对直接标识符的去除、替换或模糊,具体应用的技术通常包括将原数值替以假名或换上随机值等。典型范例为美国2000年颁布的《健康保险流通与责任法案》配套隐私规则(以下简称“HIPAA隐私规则”)中提及的去标识化安全港标准——企业通过去除规则中列明的18类识别符,即可达到规范意义上的去标识化效果。这些识别符中大多数是姓名、电话号码、社会安全号码、医疗记录号码、证书编号、URL地址、车牌号码、邮箱地址、全脸相片、指纹和声纹等没有争议的直接标识符,准标识符则仅有选区、邮编与IP地址三项。③由此可知,其余未被列明的准标识符将被保留在数据集中。而匿名化则不只重视对直接标识符的去除,还需综合运用数据抑制、数据模糊化、增加数据噪音、数据替换、均值替代等统计披露限制技术,全面针对所有标识符进行处理。第二,为了实现信息主体不可识别的规范目的,去标识化处理者必须承担不得还原信息的前置义务,才能达到匿名化的法律效果,因此,可被视为附前提的匿名化。以去标识化为核心的规范需对处理者增设前置义务,这是因为,采用该路径可能遭致的去匿名化风险通常由于处理直接标识符的简单手法所致,与匿名化路径中无法消除的去匿名化风险不可同日而语。因此,例如,美国《加州消费者隐私法案》在认定去标识化的信息时,要求使用数据的企业满足四项前置义务,即“已开展技术保障措施防范对消费者的再识别;已设置防范再识别的商业流程;已设置防范匿名信息意外泄露的商业流程;不试图对匿名信息进行再识别。”④又如,HIPAA隐私规则对去标识化路径作出了前提性限定——采用去标识化安全港标准时,数据控制者必须对去标识化信息可被单独使用,或可与其他信息结合使用以识别出个人信息主体的情况存在实质上的不知情。⑤由此可知,不同法域用语习惯上的差异仅是冰山一角,处理手法与法律效果的不同才是去标识化与匿名化的实质区别。综上所述,去标识化应当被解释为在追求匿名化过程中退而求其次的一种简单化处理方法。相应地,去标识化无法单独实现匿名化的法律效力——经去标识化处理的数据不能等同于匿名信息,脱离个人信息的范畴。因此,本文认为,去标识化和匿名化之间具有手段和目的的对应关系,两者并不位于同一制度层面,去标识化只是数据风险管理的一个环节,不能将其与“匿名化”的概念混同,否则将带来个人信息保护的不足。匿名化规范作为个人信息处理与数据利用衔接的连接点,不仅包含去标识化的单一规则,还需要一套包括不可复原义务、匿名化风险责任等规则在内的体系性制度。这样才能符合统计学披露限制理论的逻辑要求,既保护了数据集合的隐私和机密防范风险发生,又保留了原始数据的总体统计特征以供数据的后续利用。
因此,在构建匿名化体系规范时,应充分认识两个关键问题:一是,欲构建语义明确、逻辑自洽的规范体系,不宜将位居不同层面的匿名化和去标识化概念混用,特别是用去标识化代替匿名化,应当坚持以匿名化概念为核心设计相关法律规范。二是,从理论上界分数据匿名化的状态和过程两层含义,就表状态的匿名化而言,绝对的匿名化状态既不存在,也不宜成为人们所追求的目标。规范视角下匿名化效果相对说已经成为通说,[6]学界普遍认为应从具体情境出发,从而形成对匿名化标准的动态、合理解释。
二、社会情境理论在匿名化领域的适用
匿名化几无可能达成完满的、绝对的状态,去匿名化的风险始终存在。于立法者而言,需明确如何判定匿名化有效与否,以决定是否赋予控制数据的企业以法律适用的豁免;于企业而言,匿名化处理需以有效性标准为准则和目的,有的放矢地降低数据产品生产的风险。此时,专家判定法主观判断标准的弊端就显现出来,无论是专家的选任资格,还是判定风险的方法与水准,都无法达到定纷止争的效果。因此,构建匿名化客观判断标准势在必行。而在此之前,需要先引入一套能够与匿名化的相对性、动态性特征所适应,并在此基础上提出解决之法的理论工具,以起提纲挈领、统摄全局之效。就此,围绕信息所处情境因素展开分析的路径逐步进入研究者和立法者的视野。
(一)社会情境对匿名化效果的影响
事实上,将不同社会情境区别开来的研究方法早在社会学中有所应用,Friedland与Alford教授在制度理论研究中旗帜鲜明地指出,对社会个体行为或组织性行为的研究必须在其所处的社会情境之下开展,并不存在任何脱离情境的理论解释进路。[7]P232本文认为,对匿名化效果的情境式理解,需要明确以下几点:
首先,情境是研究中的变量而非常量,千差万别,不可一概而论。情境,是指特定的社会背景,这一背景不仅由物理意义上的地域、环境指征所定义,更具备政治影响、社会期许、历史发展、文化氛围乃至生活习惯等无形特征。这些迥然不同的特征共同组成了差异化的结构性情境设置,人们事实上生活于这些特定且相异的情境之中,诸如街坊邻里、购物、就诊、教育、雇佣、商事交易等。更进一步说,情境还可以根据参与者、行为等因素的不同再进行细分。如购物的情境可以细分为线下购物和线上购物、购买日用品和烟酒等特殊物品等多种场景。若再考虑到时间推移的因素,一些偶然性事件的发生又将带来情境的变化。如随着消费者行为定位技术的发展,企业对用户行为信息的需求不断增加,在线搜索、网络购物、网络化社交的情境亦会相应地发生变化。
其次,匿名信息中潜藏的去匿名化风险,因情境的不同而有所差异。值得注意的是,这种由情境因素引发的去匿名化风险差异往往相去甚远。例如,以单条数据、单个表格的形式存在的数据显然比居于拥有海量类似数据的大型数据库中的数据更容易被去匿名化。这符合差分隐私的基本算法逻辑,即如果在大量的数据之中,某一单条数据与任一相邻数据相区分的难度越高,该数据被识别的风险就越低。故而,当某一数据被置于足够多的数据之中,其去匿名化的风险则相对较低。又如,数据所记录的内容不同,会导致第三方处理者的动机强弱,其所包含的商业价值越大,就会面临更多的去匿名化风险。为此,互联网上公开的明星收入、行程或健康等匿名信息,较之政府普查中公布的一般公众的上述信息而言,显然更容易激发第三方处理者的再识别动机,故而其存在更高的去匿名化风险。
再次,不同情境下自然人对个人私域之期待有所差异,导致人格权益受侵害的程度不同。学者们逐渐认识到,以智能手机或实时GPS系统为代表的追踪技术,使过去以私人场合物理性侵入为表征的判断方式捉襟见肘,隐私侵权应基于具体、变动的情境进行评判。⑥由于人们的隐私期待不同,当匿名信息被再识别后,心理感受是不一样的。例如,在线下购物的情境中,人们的行踪往往处在店方监控之下,倘若云储存的商场监控记录匿名化效果不佳,被直播平台复原并传播,公众势必会产生明显的隐私被冒犯的感受。而在线上购物的情境中,用户浏览商品、点击订购、支付结算等种种消费行为均被Cookies等工具实时追踪,当该类行为信息被数据控制者去匿名化,并被广泛地投入行为定位分析时,公众对此类追踪行为的反感程度远不如被现场跟踪强烈,在这一情境下,私域被侵犯之表征就不那么明显。
(二)情境完整理论下的信息规则
在引入情境理论进行数据匿名化有效分析时必须注意的是,情境本身乃是一个抽象的社会学概念,其内涵丰富且外延模糊。因此,还应将研究的目光集中在社会信息规则的构建之上。Nissenbau教授创设的情境完整理论很好地解决了这一问题,[8]P136-138从而使情境分析的方法成为一种评判个人信息保护法律效果的成熟方法论。
根据情境完整性理论,情境由社会中的信息规则所构成,自然人则生活在信息规则下不断流通的个人信息流的背景当中。基于这一定义,倘若情境中的信息规则得到了充分的尊重和维护,个人信息始终在规则之内适当地流通,即可认定该情境具备了完整性,自然人的隐私也就无损。具言之,不同的情境存在相异的信息规则,故而,个人信息在人与人之间的流通需要对每一特定情境下的信息规则施以恰如其分的尊重。应当注意的是,情境完整性理论中的信息规则并不局限于已上升到法律层面的法律规范,还广泛地囊括了历史影响、文化积淀、社会习俗、乡规民约、合同条款以及政策规定。这些信息规则明示或潜在地影响着人们对个人的角色定位、行为方式和权益认知,如果违背了这些规则,就意味着破坏了人们对个人信息自我控制的合理预期。
因此,要想衡量去匿名化风险之高低,进而考察数据匿名化是否有效,应当结合其所处特定情境下的信息规则进行判断。换言之,根据某一情境中的特定信息规则,数据或许仅有较低的去匿名化风险,但是若被置于另一情境的信息规则之下,则有可能出现难以容忍的敏感信息泄露或身份再识别之风险。例如,在整形医患关系的情境中,信息规则不仅包括个人信息保护的法律规定,还包括医疗卫生行业的行业规则、整形手术协议中的保密约定、接触患者脸部信息的医护人员的职业道德,乃至医疗机构的内部管理秩序和声誉。故而,为脸部外形治疗所需,在采用数据匿名化处理后,根据该情境下的信息规则,患者脸部信息在医疗机构内部传递、浏览或分析时所面临的去匿名化风险不高。然而,倘若情境变为旅游服务关系,如某地野生动物园以升级年卡系统为由采集用户脸部信息,⑦则需另论风险。旅游服务情境下的信息规则,除一般性的个人信息保护法律规定外,并无行业通行的保密准则,也欠缺与个人信息主体之间的详尽约定,且旅游商业机构往往欠缺系统的数据控制流程。故而,在此种情境下,被采集的脸部信息即便经过匿名化处理,被再次识别的风险也显然高于前一种情境。由此可见,不同的情境会导致去匿名化风险程度的天壤之别,这无疑佐证了以单一评判标准来衡量数据匿名化效果,面临着误差过大、有效性不足的困境。情境完整理论提出的信息规则分析法恰能帮助克服这一困境,既避免了过度高估风险所引发的数据流通性降低,同时,又避免低估风险所肇致的个人信息保护不足。
与此同时,情境完整理论不仅能为判定匿名化有效性提供事实判断层面的指引,还能在规范层面为去匿名化风险的控制提供规制思路。例如,在著名的去匿名化案例“AOL搜索”事件中,美国AOL搜索引擎公司采取以唯一识别码替换用户名、IP地址信息的处理后,将两百万余条涉及六十五万人的网络检索记录向社会公开。尽管该公司已对上述检索记录信息进行了匿名化处理,但纽约时报的两名调查员在对某一编号的用户检索记录进行交叉引证后,迅速完成了对该名用户的身份再识别。⑧检索记录被轻易去匿名化的结果使得AOL公司广为公众所诟病。从该情境下的信息规则分析,针对AOL公司搜索事件所折射的去匿名化风险,至少有两项控制措施可以被提出:一是对匿名化技术的标准提出控制要求。在AOL公司搜索事件中,该公司对检索记录仅采取了数据抑制的技术思路,而没有对地理位置等半识别符进行模糊化处理。故而,应当统一技术控制标准,对数据匿名化提出一个合理的技术门槛,防止企业为了节约成本而采取过低的匿名化处理方式,导致匿名信息被轻易破防。二是对完全公开的匿名信息应当进行控制。AOL公司将处理后的用户检索记录上传至网络且不做任何限制,意味着任何接入网络的第三方处理者都能够出于好奇、窥私甚至恶意之动机,利用网络上存在的辅助再识别信息,进行去匿名化处理。匿名信息的公开不能脱离职业道德、合同约定或行业标准等信息规则的约束,因此,应当相应地采取限制访问、下载或处理等控制措施来降低匿名信息公开传播时去匿名化风险的发生。
三、匿名化合理性标准的确立
在明确情境理论对去匿名化风险评判与控制的重要性之后,匿名化的单一判断标准逐渐被摒弃,取而代之的是建立动态的匿名化有效性审查标准。为此,欧盟、美国、澳大利亚等国家或地区都倾向采用“合理性”标准,⑨即匿名化应当达到包括数据控制者在内的所有人,运用任何合理可能的方法手段,都无法直接或间接地识别个人信息主体之身份,即阻断相关信息与个人身份的关联性。[8]56概言之,判断采用特定去匿名化的方法是否合理可能,需要建立在全面考量客观情境因素的基础之上。此外,英国通过2018年《数据保护法案》及相关文件提出了去匿名化的反向识别标准,不仅规定了哪些再识别匿名信息的行为构成侵权,哪些行为则因法定正当理由可以进行抗辩,还提出了一项“故意侵入者测试”标准。⑩该标准假设第三方处理者在具有故意识别的主观目的下,具备获取公共信息资源却不具有特殊专业识别技能,且不进行信息窃取等犯罪行为,从而判断高于社会普通公众而又低于特殊专家的人是否能够实施再识别行为。若在此标准下匿名信息无法被再识别,则该数据匿名化处理将被证明有效。
然而,无论是采取合理性标准的欧盟、美国、澳大利亚立法例,还是从反向识别标准入手的英国立法例,均未能构建出一套兼具系统性和可操作性的匿名化有效性的判断标准。前者虽以合理性的灵活用词弥合了不同情境下信息规则的变动性,但却未能进一步提出细则规范来中和用词含糊所带来的不确定性;后者则仅仅切中了第三方处理者的去匿名化行为这一项因素,而影响匿名化有效性的其他因素却并未提及。本文认为,欲系统地构建匿名化有效性标准,以判别与控制去匿名化风险,可取路径为对合理性标准进行具象化。而匿名化合理性标准的构建,则有赖于情境完整理论对信息规则的分析方法。诚如前述,不同情境下的信息规则迥异,为此,对不同场景中的数据采取相同的匿名化标准显然不妥,必须考虑从规制的“一体主义”走向“区别规制”。[9]即面临不同的情境,综合运用诸种具体指标作为判别匿名化有效性的灵活尺度,只要合理遵从情境信息规则,依照具体指标的指引进行处理,将风险把控在尺度内,即可被认为达到有效的匿名化。实践中,情境信息规则虽然层级各异、类型繁多,但不外乎由主体、客体和传播法则三种因素组成,细节指标的提取亦可围绕这三者进行。
(一)主体相关指标
通常来说,数据流动所涉及的主体至少包括数据的发送者、接收者与个人信息主体。在研判匿名信息的再识别风险时,有关主体必然还包括开展匿名化处理的处理者——处理者既可能同时是掌握并发送数据的企业,也可以是独立承接处理流程的受托方。此外,去匿名化第三方处理者也应被视为接收者——尽管通过去匿名化行为而接收个人信息在合法性上有待商榷,但这并不影响第三方处理者正是肇致风险者这一事实。围绕这些主体,可以确立以下指标:
第一,数据发送者、处理者和接收者的内部组织情况和数据安全制度。经匿名化处理后的数据将储存或暂留在进行发送、处理和接收行为的企业内部,因而,经手匿名信息企业的内部管理、安全防控的规范性成为了匿名化合理性标准的评判标尺之一。就内部管理而言,欧盟《通用数据保护条例》要求处理个人敏感信息或大规模监控个人信息主体的企业委任内部职员为数据保护官,并规定了数据保护官的职责与企业的配合义务。英国《数据保护法》第69条至第71条也规定了数据安全负责人和管理机构制度,以落实数据安全保护责任。我国《个人信息安全规范》则规定了控制个人信息企业的责任担当、记录管理、安全评估、人员培训管理、安全审计等内部机制的组织性标准。特别需要注意的是,以跟踪应用软件为代表的恶意软件极易绕过设备制造者、网络服务提供商、系统服务提供者的日常安保手段,从而监视消费者使用设备时产生的数据流,具有极强的去匿名化能力,因此,实践中主体是否配置反恶意软件等安全措施,将作为数据安全防控措施的重要内容之一。
第二,个人信息主体的同意和被再次识别时所遭受的损害后果。“知情-同意”是构建主体间法律关系的重要行为描述。[10]个人信息主体的同意能够使企业的处理行为和对外披露行为合法化。因而,若企业事先通过知情同意原则取得了用户的共识,对匿名化处理后仍存的风险达成一致,则能免于严苛匿名化效果的要求。换言之,同意之行为表示出个人信息主体对去匿名化风险的主观预期,降低了企业匿名化处理行为达到有效标准的难度。此外,去匿名化风险兑现后个人信息主体所面临的损害也不尽一致,其结果既可能是个人敏感信息的泄露,也可能是整体身份的暴露;既可能只是收到定向广告的投送,也可能因定位信息外泄而遭到人身权益的侵害。故而,损害后果亦应成为评判标尺之一,可能遭受的损害越严重,规范所容许的去匿名化风险就越低,达到匿名化有效性的标准就越高。
第三,第三方处理者的类型及其动机。虎视眈眈的第三方处理者的存在,无疑对数据匿名化的效果带来了莫大挑战。类型不同的第三方处理者,必然会导致数据挖掘能力的强弱。一方面,职业第三方处理者比私人处理者掌握了更多的数据挖掘技术,更易通过“人肉搜索”或行业调查完成再识别行为;另一方面,在辅助识别信息上,私人处理者只能查阅互联网、政府或公益机构的公开信息,而职业第三方处理者还能够借助商业数据库中的额外数据资源完成再识别行为。实践中,调查员、分析师、广告商、雇主、跟踪者,乃至伙伴、邻居和同事都有可能出于不同的动机尝试去匿名化。第三方处理者的动机不同,对匿名化效果所带来挑战的程度也有所区别。出于政治或商业目的挖掘他人身份信息,通常比为了好奇、恶作剧等私人目的破译他人信息带来的危害更大。例如,公司利用不当收集的用户的个人数据来为大选参选人提供数据采集、分析和战略传播。
(二)客体相关指标
情境中不断流动交互的客体自然是数据。在匿名化合理性标准的视角下,个人信息的体量、历经的处理手法和实际用途都将影响去匿名化风险的衡量。
第一,匿名化处理所使用的技术。如前所述,就数量而言,匿名化技术类目繁多,既可使用数据遮掩和替换等径直抹去可识别单元的方法,亦可使用数据模糊化、数据随机化等仅部分干扰数据的可识别性或保留一定程度关联性的处理技术,后者包含诸如数据偏移和随机修约等类型繁多的技术群。就技术应用而言,企业既可单独选用某一技术,亦可设计全面的处理流程,综合运用多种手段进行数据匿名化处理。五花八门的技术应用方式将产出风险不一的匿名信息,计算机学上业已发展出评判不同匿名化技术应用所留存风险的诸多公式与算法。故而,运用何种匿名化技术可以成为判别匿名化有效性的具体指标。
第二,数据的体量。数据体量对风险衡量的影响较为复杂。一方面,数据匿名化的L-多样性理论证明了湮没在批量类似数据中的单条数据遭到去匿名化的可能性较低,因为其特性将被近似的数值混淆。在这一层面上,单条数据比批量数据被再次识别的风险更高。不过,事物具有两面性,数据的体量与数据的类目成正比,企业所控制与处理的数据体量越大,数据类目就越丰富,这意味着进入流通领域后可为去匿名化第三方处理者所获取的数据就越多。显然,数据类目的增多将导致个人信息主体身份被挖掘的可能性随之升高。因而,在衡量风险时,宜对数据体量因素的影响进行辩证分析。
第三,匿名信息的具体用途。用途上的差异也将影响匿名信息所面临风险的大小。将匿名信息运用在政府网站建设、消费者数据存档等日常用途上,通常并不会招致过高风险,无需设定格外严格的匿名化处理流程。不过,如果匿名信息被应用于非常态的、易激发去匿名化动机的用途,则显然需要效果更佳的匿名化处理流程。此外,还有学者提出,对待那些应用于重要的公益目的,或防范对他人利益严重损害的匿名信息,不应对其匿名化效果加以苛求。因为此时此刻,匿名信息将带来无价的公共收益,使得其有限的去匿名化风险不再成为立法的唯一关注点。例如,在地震、传染疫病暴发等情境下,相关信息的有效传递业已上升为更高的利益位阶,在评判匿名化是否达到有效性时不宜过分严苛。
(三)传播法则相关指标
传播法则是指,约束主体间信息流通的条款或条件的信息规则。在匿名化合理性标准的视角下,传播法则的区别意味着匿名信息所面临第三方处理者的多寡,也当然地影响了去匿名化风险的大小。匿名化处理后的数据将按照何种法则在主体间流通,同样关乎对匿名化处理效果的规范性评价。
首要解决的核心问题是,匿名信息的传播是否受到限制,也即披露对象是公众全体,还是仅限于部分主体之间。实践中,不仅企业会公开商业匿名信息,政府、公共机构也会对政务匿名信息和公共事务匿名信息进行公开。例如,美国奥巴马政府曾大力推行Data.gov网络信息汇集与公开项目,从而达到丰富公共数据储量、开启民智和公众监督之效。然而,匿名信息公开传播的代价是沉重的——完全不区分接收对象的公开传播,径直将匿名信息暴露在所有潜在的第三方处理者的面前,这无疑为匿名化效果招来了最严峻的挑战。反观非公开的传播法则,至少在一定程度上择取了数据的接收者,尝试将数据的流通局限在可信任的主体之间,从而隔绝了部分外来威胁。因此,以公开为传播法则的匿名信息应当经受更高要求的匿名化处理,而非公开法则中的匿名信息只需达到相对较低的匿名化处理要求即可。
本文认为,由于不同情境下信息规则的迥异,传播法则的差异性应当立足于公开与非公开的界分思路,进行更为深入细致的评判。具体包括:其一,应当区分因不同方式传播数据而产生的信息规则。以公开的匿名信息为例,公开在互联网可通过搜索引擎查找的匿名信息,显然比公开在档案馆须通过预约等程序方可浏览的资料面临更高的去匿名化风险。其二,应当区分数据在组织内和组织间传递的信息规则。对于非公开的匿名信息而言,亦存在信息的外部流通与内部共享。通常而言,前者由特定可信任主体之间的契约调整,后者则受企业组织内部规章的约束,显然,后者面临的去匿名化风险更小,匿名化处理的要求自然更低。其三,应当区分数据是否会被再次传播。接收者是否可以继续自由再次传播匿名信息,还是需受一定程度的约定限制,抑或因保密条款而不得再次传播,是影响去匿名化风险判别的重要因素。概言之,传播法则越自由,匿名信息越有可能被第三方处理者反向识别。
最后需要指出的是,匿名化有效性标准符合木桶效应的规律,某一指标上的畸高对于匿名化的有效性而言并无增益,反之,任一尺度上的短板都将导致去匿名化风险的剧增。因而,无论是主体、客体还是传播法则中的具体指标,单独的应用都力有未逮,而须将三者结合运用以进行综合评判。也就是说,匿名化有效性标准应当是建立在主体、客体和传播法则三项综合指标之上的合理性标准。
四、数据匿名化的体系性控制
数据匿名化规范可以分为“原则导向”和“规则导向”两类,前者强调去匿名化风险的综合判断,对匿名化效果进行评估;后者则强调对匿名化对象、方式、范围的具体规定,严格控制数据安全流程。正如前文所述,去匿名化风险无法通过技术处理一次性完成,数据处理者需要承担持续性的复合义务。为此,应当扩张匿名化流程控制的范围,以规则导向为制度核心,从匿名化处理行为的特定环节转向匿名信息生产、流通的全过程,建立数据匿名化的体系性控制。
(一)“公布即遗忘”模式的局限性
根据数据控制方式的不同,美国国家标准与技术研究院将信息发布的模式分为“公布即遗忘”模式、数据使用协议模式以及“领地模型”。[11]其中,“公布即遗忘”模式是指将匿名信息发布于公共网络环境之后,数据处理者便不再对公布后的数据进行管理。相较于后两种模式而言,“公布即遗忘”模式是基于传播获取数据控制的模式,突破了信息使用的封闭情境。该模式背后的深层理念旨在将数据公诸于众,从而促进商事交易、社会生活中信息的自由流通,这不仅是采集、利用或交易数据的企业、交易相对方不懈的商业追求,同时也是提高信息的存量与流通、推进数据产品化进程的社会共同目标。
然而,匿名信息中自始至终隐藏着一定的去匿名化风险,欲追求匿名化的有效性,只能在包容和接纳去匿名化可能性的前提下理性地评估处理后的留存风险。实证研究表明,匿名化技术取得进展的同时,去匿名化技术并非原地踏步,亦在经历升级与改造。可想而知,对匿名化处理结果的过分依赖,会使得大量匿名信息在不当保管、使用或是欠妥的公布后,即落入第三方处理者的包围圈,被破解技术而捕获。为此,当数据处理者采取“公布即遗忘”模式时,匿名信息的整体性安全缺乏保障,控制企业在匿名化过程中的义务也过于单一。
面对“公布即遗忘”模式,在判定匿名化效果时,有两点需要注意:一是,同时认识匿名化处理的重要性与局限性,对经技术处理后的匿名信息的风险评估持审慎态度,重视技术处理之外的其他隐私保护措施的作用,以全局化的眼光看待数据匿名化。二是,跳脱规范原则导向的桎梏,强调匿名化整体处理流程的安全。这意味着衡量匿名化有效性时,不必拘泥于对匿名化最终结果的苛求,而是将更多的立法资源倾注于降低去匿名化风险的程序性安排,将规范重点转移至企业的数据安全控制流程之上。也就是说,对于经匿名化处理后尚未达到有效匿名化标准的数据,或者居于某些对匿名化要求极高的情境中的数据,应当额外要求企业采取保护性的程序措施。
(二)匿名信息应用的流通控制
数据环境理论可以较好地描述采取“公布即遗忘”模式下匿名信息所属的社会情境。该理论认为,若匿名信息一直处于保密环境中,自然不存在被再识别的可能,唯有被披露并进入流通环境,才面临外部风险的考验。因而,防范去匿名化风险必须理解数据所处的披露环境,即数据被共享、散播或公布的环境。由此可知,对匿名信息的流通实施控制是至关重要的匿名化程序保障。实践中,流通控制可以通过技术和协议两种方式实现,前者不属于本文的讨论范畴。流通控制协议的表现形式多样,基于合同的自治效力,禁止性或限制性约定将对匿名信息的接收者产生拘束作用,使得匿名信息的流通控制束缚在筛选后的主体之上,以实现更为精准的匿名化效果。具体而言,数据流通控制协议可以归纳为以下几种类型:
第一,向公众用户发出的流通控制协议。该类协议并不是指向某一具体的数据接收者,而是向广大公众用户发出,从而达到对数据使用或流通进行控制的效果。实践中,大型互联网企业在面对公众用户时,往往采用“声明”“用户协议”的方式对数据的流通实施控制。例如,中国平安的网站声明规定,该网站所发布的数据不提供给受法律发布限制之国家的人士获取使用。又如,著作权领域的知识共用许可协议,在保证公众用户对作品“接触权”的同时,对署名、非商业使用以及作品的改编、修改等都作了严格的限制。这类流通控制协议的优点在于向所有访问、使用数据的用户发出,约束群体广泛;而缺点在于通常采取概括式用语,对用户的义务陈述不清,缺乏行之有效的责任条款。
第二,企业彼此间的流通控制协议。数字经济时代下,数据资源对企业把握市场趋势、衡量供需关系,进而精细化安排生产、服务具有重大意义。实践中,企业间的数据流通主要有两种类型:第一类,企业之间签订数据共享协议,在协议成员之间实现特定行业领域内的数据互通共享。例如,澳大利亚主要的银行之间订立了数据共享协议,以实现用户还款记录等信用信息在协议成员间的互通。又如,我国民航业23家航空公司共同签署了《中国民航运行数据共享协议》,建立数据共享平台,融通彼此保有的航运信息。第二类,企业之间签订数据交易合同,以交换商品或提供服务的方式进行匿名信息的转移。例如,当第三方商家接入“饿了么”平台开展业务时,需遵守《“饿了么”开放平台在线服务协议》,其中约定第三方商家对所接触的用户信息,仅可单次使用,不得进行存储、处理。需要指出的是,上述控制协议无论是否为了营利目的,抑或是否属于有偿合同,都不影响在特定合作关系中,企业之间所约定的数据传输、使用与公布方面的限制。
第三,数据经纪人主导的流通控制协议。数据资源商业价值的不断攀升,催化出了斡旋于数据信息采集端与需求端之间的数据经纪人。例如,美国Acxiom公司,旨在提供全渠道数据驱动营销服务,其数据库中包括全球范围内7亿用户的个人数据,平均拥有每个美国用户的3000条数据段。实践中,数据经纪人既可经由数据供应合同从采集端企业受让匿名信息,又可通过数据授权协议获得特定期间内的数据使用权限,还可凭借数据经销协议转让采集端企业的数据产品。上述流通控制协议通常会对数据的传输方式、数据的更新频次、数据处理、使用或转让的限制等内容作出约定。鉴于其在数据流通中扮演的重要角色,数据经纪人有义务对匿名化信息的风险进行程序性控制。对此,美国联邦贸易委员会在报告中指出,当企业将匿名信息向第三方开放时,应负有对接收者履行合同义务、承担违约责任的合理监督之责。
(三)匿名信息应用的目的控制
企业不能以完成匿名化处理为由彻底摆脱匿名化体系规范的束缚。从全局观之,影响匿名化效果的环节并不单单只有匿名化处理一个环节,无论是该环节前的个人信息采集环节,还是该环节后的匿名信息的应用环节,包括匿名信息的再处理、使用乃至转让、公开,企业都应一以贯之地遵循个人信息保护的基本原则,避免对个人隐私等权益的侵犯。其中,目的限制原则在时间节点上具有特殊意义:在匿名化处理节点前,企业采集个人信息时应当依照合法性要求,遵从信息采集的正当明确目的;在匿名化处理节点后,企业对匿名信息的使用、再处理乃至公布行为,亦应与最初的采集目的保持一致。
目的限制原则已为多国立法所采纳。早在1980年OECD颁布的《隐私保护与个人数据跨境流通指南》中,即规定了目的限制原则的两项子原则——目的明确原则和用途限制原则,该规定被2013年修订后的版本所沿用。2018年生效的欧盟《通用数据保护条例》亦明确规定了个人数据处理的目的限制原则,包含两点内容:一是企业应以具体、明确且合法、正当的目的开展个人信息的采集行为;二是此后企业对个人信息的处理行为一般不得违反初始确定的目的。那么,匿名信息的再处理与流转是否受到目的限制原则的束缚呢?欧盟第29条立法工作组指出,无论是采集、控制并处理数据的企业,还是匿名信息的接收者,这些主体在使用、再处理抑或是公布匿名信息的过程中,仍有可能对用户的个人隐私产生不利影响,即便这些数据已经得到了妥善的匿名化处理。其中,用户画像和自动决策是最可能因应用匿名信息而致使个人隐私受损的两个特殊情境。鉴于目的限制原则是由欧盟法赋予其公民的基本权利衍生而来,并始终贯彻在欧盟的数据保护规范体系中,具有极高的法律地位,故而,通过扩大解释将该原则适用于匿名信息的后续处理和使用,以约束企业的不当行为、预防对个人隐私的侵害,确有合理之处。
不过,在强调个人信息保护的同时,必须清醒认识到目的限制原则的双刃性。不加区分地限制后续应用匿名信息的目的,将极大地阻碍数据资源的价值开发和开放共享,很多情况下对应用情境的假设赶不上日新月异的市场变化。这也正是美国立法谨慎对待给个人信息主体赋权的重要考量之一。因此,本文认为,将目的限制原则适用于匿名信息,当谨记轻重有别,结合行业和情境因素进行审慎判断。具体而言,对经匿名化处理后尚未达到匿名化合理性标准的数据,必须严格适用目的限制原则;对已达到合理性标准,但所处行业或具体情境需要极强匿名化和系统化隐私保护的匿名信息,则可将目的限制原则作为额外的程序性保护措施,按照风险大小酌情适用。同时,应由数据控制者证明个人数据的后续使用与流转是否已经达到合理有效性标准,是否需要遵守特别情境中的信息规则。为此,匿名化的体系规范要充分考虑对匿名信息应用的目的限制,将事后性的损害风险判断融入事前性的程序设计之中,要求企业不能将匿名化处理作为一劳永逸的解决途径,而是要在开始数据共享、数据传播等应用行为之前对匿名信息的后续风险进行充分评估。例如,英国网络匿名化组织在其匿名化决策框架中提出,分析数据去匿名化风险时,存在情景审查、风险和控制、冲击管理三个步骤。[12]根据欧盟《通用数据保护条例》的要求,数据控制者需要执行数据保护冲击测试,综合考虑数据主体和他人的权利、合法权益,对去匿名化风险进行全面审查,具体测试内容至少包括:对数据控制者诉求的利益正当性进行系统审查;对于目的一致的处理进行必要性和适当性的评估;对数据主体的权利和自由所面临的风险进行评估;对采取的安全措施和保护机制的合规性进行审查。
匿名信息应用的目的控制存在适用例外。这是为了实现比个人信息利益更高位阶的社会利益,从而保证那些对社会整体有益的数据能够畅通地利用和流动。换言之,为了科学、历史研究,统计或为社会公益所需的信息归档之目的,企业可超越原本目的之范畴处理、使用乃至公布个人信息。欧盟《通用数据保护条例》将目的限制原则的例外分为“学术性豁免”和“研究性豁免”,值得借鉴。前者基于新闻报道的需要或学术、艺术、文学性的目的,即自由表达的要求;后者基于公共利益、科学、历史的研究或数据统计目的。此处的“研究性”目的应作扩张解释。其中,科学研究包括技术开发和示范,基础研究、应用研究和私人资助的研究,以及公共健康研究。历史研究包括系谱研究,但不应适用于已故的自然人。统计研究则要求成员国明确统计内容、访问控制,保障数据主体的权利和自由以及数据的保密,在统计数据后续用于科学研究时,统计数据应不再是个人数据,而是综合数据,且不能用于支持对任何特定自然人的措施或决定。当然,目的限制的适用豁免需要获得法律的特别授权,同时,匿名信息的应用亦需符合数据最小化原则的要求,即数据的后续利用或流转只能为了实现特殊目的之需要,而不能过度突破最初采集时之目的限制。例如,英国《数据保护法》要求此种豁免行为不得对数据主体造成严重的损害。其中,在适用学术性豁免时,数据控制者需要合理相信数据处理中的信息公开符合公共利益,而对公共利益的判断则应参考英国广播公司的编辑准则、通讯管理局的广播准则和编辑的实践准则等业界规范,即需要根据具体情境,考察对个人和公众的可能伤害,平衡信息发布的利弊。在适用科研型豁免时,要求数据控制者存在如不进行数据处理则无法实现或严重阻碍科研目的实现的情况,以防止适用豁免的滥用。
结语
“对已有材料的利用是一种值得尊重而且必须的实践活动。正如经济学家罗默和亚瑟提醒我们的,重组才是创新和财富的唯一动力源泉。”[13]P242绝对的、完美的匿名化终究是空中楼台,可望而不可及,匿名信息始终有被再次识别之可能。这也就意味着,数据匿名化应是一个体系工程,而非仅仅停留在匿名化处理一个节点之上,更不能简单地等同于对数据的去标识化。根据我国2021年生效的《个人信息保护法》,匿名化处理后的信息不再属于个人信息保护的范畴,为此,数据匿名化制度将成为数据进入生产和流通领域的重要制度出口。在对数据匿名化进行体系规范构建时,不仅应考虑采取何种匿名化处理流程,还应结合数据应用具体情境的信息规则来判断匿名化的真实效果。这种匿名化合理性标准应当是综合的,将发布者与接收者、数据类型、传播场景纳入评判指标当中,对数据的去匿名化风险进行充分评估,给予匿名化效果一个规范层面的具象解释。同时,数据匿名化规范应贯穿在数据应用的全过程当中,包括数据的采集、处理、利用和再利用等,时刻警惕去匿名化风险对个人隐私等权益的侵蚀。匿名化处理不能一劳永逸,“公布即遗忘”的简单模式显然不能应对数据后续利用或流转中的全部风险,必须建立匿名信息应用的流通控制和目的控制,对数据匿名化规范进行动态评估和调整,从而协调数据主体、数据企业、数据消费者各方之间的正当权益,最终促进数据资源的合理利用。
注释:
① General Data Protection Regulation § 4(5). Erika McCallister, Tim Grance and Karen Scarfone, Guide to Protecting the Confidentiality of Personally Identifiable Information, https://csrc.nist.gov/publications/detail/sp/800-122/final, 2022-04-18.《信息安全技术 个人信息安全规范》(GB/T 35273-2020)第3.15条的规定。
② Health informatics-Pseudonymization (ISO 25237:2017) § 3.42.
③ 45 CFR § 164.514(b)(2)(i).
④ California Consumer Privacy Act of 2018 § 1798.140. (h).
⑤ 45 CFR § 164.514(b)(2)(ii).
⑥ See United States v. Jones, 565 U.S. 400, 132 S. Ct. 945, 962 (2012).
⑦ 参见浙江省杭州市中级人民法院民事判决书(2020)浙01民终10940号。
⑧ See Michael Barbaro, Tom Zeller, A Face Is Exposed for AOL Searcher No. 4417749, https://rig.cs.luc.edu/~rig/ecs/probsolve/NYTonSearch.pdf,2022-04-18.
⑨ General Data Protection Regulation § Recital 26. 45 CFR § 164.514(a). Treasury Laws Amendment (Consumer Data Right) Bill 2019 § 56FA(1)(d).
⑩ Data Protection Act 2018 § 171, § 172. Anonymisation: managing data protection risk code of practice, https://ico.org.uk/media/1061/anonymisation-code.pdf,2022-04-18.