APP下载

隐私计算定向广告应用的法律边界

2021-08-06梁灯

信息通信技术与政策 2021年7期
关键词:画像个人信息主体

梁灯

(广东君信律师事务所,广州 510080)

0 引言

根据中国广告协会的定义[1],互联网定向广告是“通过收集一段时间内特定计算机或移动设备在互联网上的相关行为信息,例如浏览网页、使用在线服务或应用的行为等,预测用户的偏好或兴趣,再基于此种预测,通过互联网对特定计算机或移动设备投放广告的行为”。同时,因为互联网定向广告的购买投放是广告主和流量主及相关主体之间通过程序化方式完成,故从交易角度界定,这类广告又被称作程序化购买广告。原国家工商行政管理总局颁布的2016年9月1日生效的《互联网广告管理暂行办法》第十三条第一款规定:“互联网广告可以以程序化购买广告的方式,通过广告需求方平台、媒介方平台以及广告信息交换平台等所提供的信息整合、数据分析等服务进行有针对性地发布。”

毫无疑问,定向广告业界所追求的目标是通过数据精准定位潜在消费者,从而提高广告商品转化率。但“精准营销”和消费者个人信息、隐私保护两者存在内在张力:定向广告技术之前多数使用能关联到具体个人的标识符进行“跟踪”,这恰是当前法律政策所限制的。如中国国家标准化委员会与国家市场监督管理总局于2020年1月15日发布的《信息安全技术 移动互联网应用程序(APP)收集个人信息基本规范(征求意见稿)》提出:除安全目的外,“APP运营者不应收集不可变更的设备唯一标识(如IMEI号、MAC地址等)”。为解决精准营销商业模式的合规问题,隐私计算技术(Privacy Preserving Computation)被应用到互联网广告领域,从而“助力广告程序化交易联合建模,提升广告主投放效果和用户体验”[2]。所以,可以把隐私计算这类解决数据合规与效用矛盾“痛点”的技术称为“合规的技术”。然而,隐私计算技术的应用过程是否会衍生新的合规问题,随着技术的进一步广泛应用,亟待法律对这一问题进行回应,从而界定技术应用合规的标准,这一过程称之为“技术的合规”。

鉴于“合规的技术”已有不少文献和研究报告作了详尽介绍[2-5],本文对此不再赘述而着力于隐私计算“技术的合规”问题,以定向广告的应用场景为例进行讨论。定向广告商业模式的基础是用户画像,而画像数据的隐私计算涉及单方数据清洗和多方数据协同处理两方面,本文将沿着这两个维度展开讨论。

1 用户画像的单方数据清洗:标签而不是标识

1.1 用户画像的本质和前提:标签化和隐身化

1.1.1 用户画像概要

准确界定用户画像的内涵是讨论用户画像合规的要点和法律风险的前提。可以从以下两个层次理解:一是用户画像作为动词,指对所收集的个人信息进行汇聚、分析的建模过程;二是用户画像作为名词,指汇聚、分析后形成的数据模型和新信息,即前者为过程、后者为结果。法律和规范标准约束的对象是行为,因此我国《信息安全技术 个人信息安全规范》(GB/T 35273-2020)(简称《个人信息安全规范》)和欧盟《数据保护通用条例》(General Data Protection Regulation,GDPR)均从行为角度对用户画像进行了定义,但侧重点有所不同:前者第3.8款规定用户画像指“通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如职业、经济、健康、教育、个人喜好、信用、行为等方面作出分析或预测,形成其个人特征模型的过程”,侧重于预测、分析的建模目的;后者第四条第(4)项规定“‘用户画像’指为了评价自然人的某些方面而对个人数据进行的任何形式的自动化处理,特别是为了评价自然人的工作表现、经济状况、健康、个人偏好、兴趣、可靠性、行为、位置或行踪而进行的处理”,侧重于评价目的。两者语境下的定义均可拆解为手段行为、手段行为对象、目的行为和目的行为对象4个要素(见表1)。

表1 关于用户画像定义的对比

上述两份文件的定义展现了用户画像行为过程的基本框架,而通过这一框架所形成和输出的数据和信息,即为作为名词和结果的用户画像。法律所规制的对象是作为动词和过程的用户画像,用户画像过程即体现为标签化的过程。

1.1.2 标签化辨析

定向广告之要务是为产品或服务在合适的时间找到合适的用户,因此为实现这一目的而匹配的应用技术及其所承载的商业模式必然被设计成具备靶向能力的“精准捕猎”工具。因此,目标用户可见及可被发现是定向广告运作的基础。然而,发现、追踪目标用户过程中所使用、形成的用户画像并非都是具指向性的标识化数据,因为标识化数据属于个人信息,而个人信息的收集、流转等处理行为均受“告知—同意”规则的约束,若用户画像数据处理过程处处掣肘于用户同意,定向广告的商业模式将被瓦解。为此,定向广告实务中用标签(Tag)体系替代理想化的标识(Identifier)体系,从而使广告业务既合规又具效率和效用性。标签和标识,一字之差却性质相异:前者表征一个群体、一个类型的属性,而后者表征对特定个体的指向性。以系列标签维度描述各类特征从而构成一个类型用户群体,业内称之为用户属性画像(User Profile)[6],用户属性画像形成的过程即为标签化过程。与之相对的还有一种用户画像被称为用户角色画像(User Persona)[7],其形成思路与用户属性画像相反。Profile是基于用户属性、用户行为的实际数据而进行标签化、类型化而成的画像,而Persona一般是产品经理基于对用户需求的理解而设计出来的目标用户之虚拟角色。

本文所讨论的用于定向广告精准推广的是用户属性画像,画像刻画就是一个标签化的过程。但标签化并不是一个具体行为,而是若干组、一系列行为的排列和叠加,这其中涵盖的具体行为类型可以从《个人信息安全规范》对用户画像的定义中窥见一斑:“收集”“汇聚”“分析”“建模”即为上述用户画像定义中规定的4类行为。其中,数据“收集”是用户画像的前置行为,直接收集行为因涉及原始的个人信息数据而受“告知—同意”规则的约束;“汇聚”行为意味着不同数据的融合,当数据来源自不同数据控制者时,“汇聚”行为首先是数据流转行为或称为数据的间接收集行为,该类行为的合规标准将在后文展开分析;而“汇聚”行为、“分析”行为和“建模”行为是用户画像的核心流程,本质上均为数据计算行为。根据《个人信息安全规范》第6.2款规定,“收集个人信息后,个人信息控制者宜立即进行去标识化处理,并采取技术和管理方面的措施,将可用于恢复识别个人的信息与去标识化后的信息分开存储并加强访问和使用的权限管理”。因此,在数据被收集后,被计算标签化为用户画像前,还存在数据清洗这一画像前置行为,而《个人信息安全规范》对用户画像的定义仅集中描述核心流程而忽略了该行为。

在定向广告购买和投放的过程中,围绕用户画像标签化进行数据处理的各方参与者都需要各自进行单方面的数据清洗,这为下一步的多方数据协同处理奠定了结构化基础。通过直接收集所获取的各类个人信息,往往是碎片的、不规则、非结构化的日志数据,而且数据大量存在重复、缺失、错误等问题。因此,需要清洗数据,并将清洗的结果传输到分析及运用系统中以供使用[8]。数据清洗就是将原始数据结构化、标准化的过程,而结构化、标准化的目的在于提升数据质量和提高数据可靠性。而从个人信息保护的角度来看,数据清洗的结构化、标准化还蕴含着去身份化的操作,因为数据清洗会移除“错误”“不当”“不必要”保留的信息,反映具体的个人身份或与之直接相关的信息则属此类“不必要”保留信息。因此,数据清洗在个人信息保护面上体现的是隐身化的过程和结果。

1.2 隐身化的法律标准

1.2.1 隐身化的法律表达及欧美立法之不足

隐身化为个人的互联网行为提供了一种掩护机制,从而增加了个人信息主体的安全感,因为“在互联网上,没人知道你是一只小狗”[9]。但隐身化是一个内涵极不确定的概念,且需要说明的是,“隐身化”并非学界主流的中文表达,此仅为笔者为后续分析“匿名化”“去标识化”“去身份化”等几个概念的区别和联系而“创造”的一个上位概念,即本文中“隐身化”包含“匿名化”“去标识化”和“去身份化”。英文对该概念的主流表述为Anonymization或De-Identification,而中文则主要有“匿名化”“去标识化”“去身份化”等几种表达。鉴于中文术语表达最早源于英文的对应翻译,故可先从欧美相关立法中探寻这一组术语的源头。在域外数据保护立法中,“匿名化”最早见于1995年颁布的欧盟《数据保护指令》(Directive 95/46/EC),其前言第(26)条中规定“(数据)保护诸原则不适用于以匿名(Anonymous)方式提供的不可再识别数据主体的数据”。此处的“匿名”是以“不可再识别”(No Longer Identifiable)界定的。2018年实施的GDPR沿袭了这一思路,也在其前言第(26)条将“匿名信息”(Anonymous Information)定义为“与已识别或可识别到一个具体自然人无关的信息或者数据主体以不能或不可再识别的匿名方式提供的个人信息”。而去标识化或去身份化术语对应的是英文De-Identification,主要是在美国的立法中使用。美国《联邦管理规范》(the Code of Federal Regulations,CFR)第164.514条以归纳和反向列举相结合的方式界定去标识化:明确不能识别某一具体个人的健康信息,不属于《健康保险携带和责任法案》(the Health Insurance Portability and Accountability Act,HIPAA)所规范的“可识别的个人健康信息”,同时通过反向列举明确,当姓名、地理分区、日期信息、电话号码、传真号码、电子邮件地址等18种标识符被移除后(Are Removed),健康信息不再是可识别的个人健康信息[10]。

个人信息隐身化在欧盟和美国的立法中分别表述为“匿名化”和“去标识化”,比较其定义内涵并无实质区别,均指向“不可再识别”,但两者在确立隐身化法律标准的具体路径上则有所不同。就“可识别”标准,欧盟立法侧重构建质的开放性概括标准,GDPR前言第(26)条明确了两项通过可识别度判断“匿名化”信息的考量要点:一是数据控制者或其他主体可能使用的所有合理方法(all the Means Reasonably Likely to be Used);二是确定方法是否合理应考虑所有客观要素,诸如识别所需要的成本、时间和可用技术的发展水平。而美国立法体现的则是封闭刚性的“量”的标准,如上文所述,CFR详细列举了18种标识符,当数据控制者全部删除该标识符且实际不知道该信息可单独或与其他信息结合用于识别作为个人信息主体时,该信息方为“去标识化”的信息。这一“去标识化”的认定方法意味着需要不时更新增加列举的标识符类别,以应对日益发展的反匿名技术。

隐身化认定标准,欧盟与美国路径不同,体现的是美国学者所称的“规则”(Rule)与“标准”(Standard)的区别,前者是开放的决策标尺,而后者是边缘固化的决策工具[12],两条路径相比较,欧盟方案更佳。然而,欧盟的开放标准在具体个案中的自由裁量空间过大,难免使不少个案讨论陷入涉案标的信息是否属于个人数据范围之争。隐身化的初衷是提供一种风险控制工具,使经特定技术处理、清洗的个人数据可摆脱个人信息保护约束框架,从而便于使用和流动,由此起到平衡个人信息主体权利和数据有效利用的功能。但无论是美国还是欧盟的立法,隐身化标准的确立都是基于单一维度的“可识别”基础,当“可识别”的边界不断被反匿名技术攻破,而“可识别”的法律标尺要么僵化要么模糊时,最终使隐身化处理后的个人信息还是不是个人信息这一定性问题又倒退成为争议点,从而导致隐身化技术和制度设计的目标及功能无法实现。

1.2.2 我国关于隐身化法律标准的创新

我国数据隐身化术语体系的确立,最初是追随欧美的“可识别”基调,中国广告协会互动网络分会2014年发布的《中国互联网定向广告用户信息保护行业框架标准》在“单位的基本义务”一章的“数据处理”小节明确[1]:“单位应采取合理、必要的措施,实现用户身份关联信息的去身份化,即使得该信息无法用于识别、确认或关联至某个特定用户。”此时使用的是更接近美国De-Identification的“去身份化”概念,核心要素仍为无法“识别、确认或关联”等“可识别”标准。但2017年施行的《网络安全法》开辟出一条不同于欧美的隐身化立法路径,即不再仅从“可识别”单一维度界定隐身化标准。该法第四十二条规定:“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”2021年1月1日实施的《民法典》第一千零三十八条第一款也沿袭了《网络安全法》的表述。上述条款规定了对外提供无需经被收集者同意的信息的标准,除了要符合无法“识别”要求外,还新增一个判定维度:不能复原。正是因为多了一个维度,从而把隐身化数据又区分为两类:匿名化信息和去标识化信息。《个人信息安全规范》沿着《网络安全法》的路径进一步明确,前者是经处理后不能识别或关联个人信息主体且无法复原;后者是指经处理后在不借助额外信息的情况下无法识别或者关联个人信息主体。因此,隐身化数据就从欧美立法中的De-Identification信息、Anonymous数据演化为我国立法、国家标准所确立的匿名化信息和去标识化信息分离的局面(见表2)。

表2 关于隐身化数据概念的对比

我国立法和国家标准所确立的区分匿名化信息和去标识化信息的第三条路径,在理论定性和实务操作中均具有重大意义,主要体现为以下两个方面。

(1)个人信息的法律边界不因隐身化技术处理而变模糊。在我国法律语境下,匿名化比去标识化的隐身程度更彻底,且不可逆、不可复原,故匿名化信息不应落入个人信息法律保护范围。为此,《个人信息安全规范》在第3.14款的注解中明确“个人信息经匿名化处理后所得的信息不属于个人信息”,2021年4月29日公布的《个人信息保护法(草案)》二审稿也有类似的规定。因此,在实务中若个人信息经符合《网络安全法》和《个人信息安全规范》规定的匿名化标准处理的,该类信息的使用、流转不再受制于个人信息保护规则。

(2)将隐身化信息细分为匿名化信息和去标识化信息,使其分别承载不同的价值和功能,有助于实现隐身化技术和制度设计的目标。去标识化信息因尚未达到不能复原的不可逆标准,故该类信息比匿名化信息更具商业价值,特别是在定向广告领域,因为只有保留信息所蕴含的识别或关联到个人信息主体的能力,定向广告的触达方为可能。因此,《个人信息安全规范》第9.2款明确了共享、转让去标识化个人信息无需经个人信息主体同意的前提是“确保数据接收方无法重新识别或者关联个人信息主体”,此规定确立了与《网络安全法》匿名化信息流转不同的规则:前者是未经同意有限可流转,后者是未经同意绝对可流转。这体现了去标识化信息平衡个人信息主体权利与个人信息流转商业利益、社会价值的功能。而匿名化信息因其已不再属于个人信息,且自身商业和社会价值可能因经匿名化处理而减损,故匿名化在法律规范语境下体现的功能除了释放流转约束外,更旨在提供一种个人信息的删除方法,作为个人信息主体实施救济和寻求保护的措施。如《个人信息安全规范》分别在第6.1款、第6.4款、第7.5款和第8.5款分别就超出存储期限、个人信息控制者停止运营、个人信息主体退出和注销账户等场景对相关个人信息进行匿名化处理作了规定。

1.2.3 我国立法关于“不能复原”问题的澄清

我国立法和规范以能否“复原”标准区分匿名化和去标识化的做法并非没有疑问:《网络安全法》第四十二条规定的“不能复原”,在技术上能否100%保证?若否,则匿名化和去标识化的区分是否仍有意义?

从技术视角进行观察,匿名化和去标识化处理的方法并无实质差别,相异的仅仅是处理的程度。匿名化与去标识化两个术语同时并提非我国立法之首创,欧盟数据保护第29条工作组早在2014年发布的《关于匿名化技术的意见》中就将匿名化技术描述为“为实现不可逆(Irreversible)的去标识化目标而应用于个人数据的技术”。此处的“不可逆”与我国《网络安全法》规定的“不能复原”意思相近,说明欧盟已经注意到匿名化数据不同于去标识化数据的本质特征,只是匿名化与去标识化二元划分没有在随后制定的GDPR中具体规定。然而,匿名化和去标识化的概念划分并不意味两者在技术上的不同。欧盟《关于匿名化技术的意见》中指出,“匿名化技术包括两种方法:一种是基于随机化的方法;另一种是基于泛化的方法。”国家市场监督管理总局与中国国家标准化管理委员会联合发布的《个人信息去标识化指南》(GB/T37964-2019)附录A“常用去标识化技术”也包括“泛化技术”和“随机化技术”。可见,匿名化和去标识化采用相同的技术方法,两者的不同仅体现为法律要求的数据处理后的状态。

技术上无法达到《网络安全法》规定的“不能复原”状态。一方面,技术发展是动态的,所谓道高一尺魔高一丈,只要商业需求和利益存在,匿名化技术发展的同时反匿名技术也会随之发展甚至超越,从而不断提高数据“不能复原”的技术标准;另一方面,鉴于匿名化处理使用的是与去标识化技术相同的方法,而去标识化数据是可以被重标识的,故通过去标识化技术方法进行的匿名化处理,从理论上来说是可以复原的。

法律上的“不能复原”与客观上的“不能复原”不可完全等同。正如法律事实与客观事实的不同:法律事实是法律人构造的事实,特别是在司法过程中体现明显,它实质上是在证据规则、法律规范的框架下,在裁判者与争讼两造互动中重构的事实,即德国法哲学家拉伦茨所称的“作为陈述的案件事实”[13];而客观事实指向的是实际发生的事实,甚至包括人们所不知的事实,因为它在哲学维度归属于“存在”范畴,不以我们知道或能够理解为前提,它是不依赖于人的认知的独立存在。同理,法律规定的信息“不能复原”与客观上的信息“不能复原”之不同也表现为:前者受人之认知所限,而后者不以被认知或被感知为前提,即前者是匿名化信息的法律要求,后者是匿名化信息的技术要求,限于认知,法律要求只能无穷接近于技术要求而无法完全等同。

应以证明责任理论理解匿名化信息法律要求。《网络安全法》第四十二条的规定以“不能复原”作为匿名化信息的法律要求,是我国立法的创新,但当技术上存在复原可能性的场景,如何判定该信息是否符合法律的“不能复原”要求,我国的立法和相关标准规范对此并未明确规定。笔者以为,应以证明责任理论来理解匿名化信息的法律要求:“不能复原”是要求匿名化信息的控制者确保其他主体无法复原。通过加密技术处理个人信息一例进行说明:若信息控制者有保留密钥的必要,只要其将密钥与加密信息分开存储,且对密钥采取了合理必要的间隔保护措施,则对该信息控制者而言虽然该信息仍存在被复原的可能而不属于匿名化信息,但该信息对于该信息控制者以外的主体则不存在法律上被复原的可能从而成为匿名信息。而当监管部门或其他权利主体对该信息控制者对外提供该信息提出质疑时,该信息控制者须证明其对密钥的保管已尽合理注意义务,不存在过错。另一方面,《个人信息安全规范》第9.2款关于去标识化个人信息对外提供无需经个人信息主体同意的前提是“确保数据接收方无法重新识别或者关联个人信息主体”的规定,恰好说明了去标识化信息不如匿名化信息一般能确保其他方无法重新识别,所以才需要特别规定去标识化信息未经同意对外提供的前提。既然该条款已经规定去标识化未经同意对外提供须确保接收方无法重新识别,再从中细分出匿名化信息类别还有必要吗?笔者认为需要澄清《个人信息安全规范》第9.2款规定的情形与匿名化信息的不同,前者是要求确保作为相对方的信息接收方无法重新识别,是一种相对的不能复原;后者是要求确保信息控制主体以外的所有主体不能复原信息,是一种绝对的不能复原。故匿名化信息的范畴要窄于《个人信息安全规范》第9.2款规定情形下的去标识化信息。

2 用户画像的多方数据协同:数据共享与共用

2.1 用户画像的多元性

2.1.1 定向广告的多元主体

定向广告的运作并非如传统广告一般只有广告主和广告发布者两方主体,从其程序化广告交易主线关系分类,笔者认为至少有三类:一为买方,包括广告主及其代理、服务于广告主的需求方平台(Demand Side Platform,DSP)、为广告主“提供整合多个DSP平台的技术解决方案”[14]的采购交易平台(Trading Desks,TD);二为卖方,包括流量主(包含各大网站、APP等媒体以及用户终端设备)、服务于流量主的媒介方平台(Supply Side Platform,SSP);三为第三方,包括提供广告交易技术服务的广告信息交换平台(Ad Exchange, ADX)、提供数据分析服务的数据管理平台(Data Management Platform,DMP)、提供广告投放效果数据追踪和监测的广告服务(Ad Service,AS)以及提供广告可见度及流量有效性等提供验证服务的验证方平台。

在定向广告购买和投放过程中,上述三类主体都参与了可能包含用户个人信息的数据处理活动。以PC端定向广告投放基本流程为例,归纳各主体的数据处理活动的步骤依此如下:用户甲在Web浏览器访问X网站;X网站向SSP发送广告展示需求;SSP通过DMP查询用户甲的信息,通过ADX向DSP发送竞价(交易)请求,同时向其传送用户甲的信息;DSP根据ADX发送的竞价(交易)请求和传送的信息,向DMP查询用户信息;DSP根据DMP返回的用户信息匹配其自身数据库的用户画像;DSP根据匹配结果决定是否出价及如何出价,并向ADX发出竞价响应。若采取的是非竞价的交易模式,该步骤则为DSP根据匹配结果决定是否参与交易并向ADX发出交易响应;ADX确定竞价(交易)结果并通过SSP向X网站反馈竞价(交易)结果;广告投放和展示完成,用户甲在X网站看到成功交易的品牌广告主的广告[8,14]。以上流程在毫秒级的时间内在系统自动完成。

2.1.2 用户画像协同处理的多元技术

如前所述,用户画像的刻画不是由一方主体利用本地数据完成的,画像形成是多方数据协同处理的结果。相应地,隐私计算也并不是一种技术,它是一系列相关技术的泛称,一般认为包含联邦学习、多方安全计算、机密计算、差分隐私、本地差分隐私、同态加密等技术。而根据被处理的数据是集中计算还是多方分别计算,可将上述技术分为两种模式:一是中心化的隐私计算模式,包括机密计算、差分隐私和同态加密;二是分布式隐私计算模式,包括联邦学习、多方安全计算;而本地差分隐私技术兼具中心化计算和分布式计算两种模式[2]。本文将从中心化计算和分布式计算两方面分析定向广告各方主体对用户画像数据进行汇聚、分析、建模的法律风险。

2.2 中心化隐私计算合规:数据共享的法律边界

2.2.1 数据的分类和分级

数据出库、出域是中心化计算的必然要求,对这类数据交换、数据共享行为进行法律评判,不能一刀切地认定合规与否,应视其所共享的具体数据类型和风险、敏感程度而定。因此,根据生命周期、业务流程或计算模式对数据进行分类评价,并根据数据与个人信息保护相关的风险程度构建数据共享规则,是法律对中心化隐私计算在个人信息保护问题上进行全面回应的基础。从中心化计算模式和流程看,数据类型可分为被直接收集的原始数据、用于计算的输入数据、计算过程产生的数据以及作为计算输出结果的数据4类。被直接收集的原始数据,若包含个人信息,则对该原始数据的收集、使用、共享行为须受现行《网络安全法》和《民法典》有关“告知—同意”规则的约束,法律对此规定相对明确、法律适用的争议也不大。而在中心化隐私计算技术应用中,主要处理和涉及的是后三类数据,即用于计算的输入数据、计算过程产生的衍生数据以及作为计算输出结果的数据,而用于计算的输入数据是中心化隐私计算数据处理的起点,过程数据和输出结果数据均由此衍生。而作为计算起点的输入数据并非原始数据,而是经过数据清洗、已对包含其中的个人信息进行隐身化处理的数据,故由此衍生的过程数据和输出结果数据也是经清洗和隐身的数据。在定向广告程序化购买和投放的过程中,未经清洗的原始数据一般存储在广告主和流量主两端,因为广告主和流量主是与用户、消费者直接产生交互的主体,而用于计算的输入数据、过程数据和输出数据则在DSP、TD、SSP、ADX、DMP以及AS等主体间相互流转。

虽然在定向广告程序化购买和投放相关主体间流转的数据均为经过清洗和隐身化处理的数据,但这些数据在被不同的中心化隐私计算技术处理场景和阶段,其风险程度是不同的,故数据风险分级是继数据隐身化标准确定后法律应作出的制度化回应。除《个人信息安全规范》区分了一般个人信息和个人敏感信息外,我国现行法律尚未有数据分级的规定,但《个人信息保护法(草案)》和《数据安全法(草案)》已开始对数据、个人信息的分类分级保护作出原则性规定。另外值得关注的是,2021年4月12日,全国信息安全标准化技术委员会发布了《个人信息去标识化效果分级评估规范(征求意见稿)》,该征求意见稿详细规定了个人信息标识度分级及个人信息去标识化效果评定标准,今后相关立法及配套规定可以此为基础对数据个人信息风险进行定级并规定分级保护的措施。

2.2.2 数据共享的法律条件

如前所述,数据共享是中心化隐私计算的前提,而本文所说的“共享”是泛称,不是指某一具体行为,包括《网络安全法》第四十二条规定的“向他人提供”以及《民法典》第一千零三十五条第二款规定的“加工、传输、提供、公开”等行为。关于个人信息数据共享的法律条件,《民法典》第一千零三十八条的规定基本沿袭了《网络安全法》第四十二条所确定的原则,即个人信息向他人提供须经个人信息主体的同意,但经过加工无法识别特定个人且不能复原的除外。这一规定相当于再次重申“经过加工无法识别特定个人且不能复原”属于匿名化处理,经此处理的数据已不包含个人信息,故对该数据实施共享行为无需经个人信息主体同意。

实际上,《个人信息安全规范》规定了更精细的数据共享规则,其中第9.2款(b)项规定,“共享、转让经去标识化处理的个人信息,且确保数据接收方无法重新识别或者关联个人信息主体的除外”,但在该国家标准之后颁行的《民法典》并未采纳这一数据共享合规原则。究其原因,可能基于立法者认为《民法典》是民事基本法,旨在保护民事主体的微观私权,而为数据共享设置更多的自由度,是宏观层面的大数据相关产业问题,促进产业发展不是《民法典》的要务,因此《民法典》就紧紧守住个人信息共享须经个人信息主体同意的防线,仅将已不属于个人信息范畴的匿名化数据排除在适用同意规则之外。但是,《民法典》并未拒斥更精细的数据共享制度设置,其中的第一千零三十五条就规定,个人信息处理应该征得自然人或其监护人同意,但是法律、行政法规另有规定的除外。近期,十三届全国人大常委会第二十八次会议正在第二次审议《个人信息保护法(草案)》,该草案二审稿于2021年4月29日向社会公开征求意见。《个人信息保护法》作为行政法律,旨在维护公共秩序和实施行业监管,其立法定位应着眼更宏观的产业整体的健康发展。笔者认为,定向广告用户画像刻画所使用的中心化隐私计算的主要法律风险是个人信息泄露和被重新识别两项风险。这是因为:首先,中心化隐私计算的前提是数据共享;其次,隐私计算所处理的是隐身化数据,表面形式上似不具有识别特定自然人的特征,其在合规方面极具“迷惑性”;再次,中心化隐私计算中的“机密计算的安全性完全依赖于可信执行环境(Trusted Execution Environment,TEE)自身的安全性”[5]。因此,为防范个人信息泄露和被重新识别,笔者建议《个人信息保护法》可吸收《个人信息去标识化效果分级评估规范(征求意见稿)》的内容规定个人信息去标识化效果进行分级管理和保护措施,并以此为基础深化完善现行《个人信息安全规范》第9.2款(b)项的规定,对不同等级和类别的个人信息数据确定合法共享的法律条件。

2.3 分布式隐私计算合规:数据共用的法律边界

2.3.1 分布式隐私计算的法律性质

多方安全计算、联邦学习、差分隐私等分布式隐私计算关于个人信息和隐私保护的技术逻辑并不是加密,而是协同计算的各方所控制的数据仅在本地运算,不会发生输入数据和输出数据的流转。因此,法律上识别分布式隐私计算的个人信息保护风险面临的问题是在输入端和输出端均在本地的情况下如何判断计算过程的法律性质。以联邦学习为例,“其核心思想是各个参与方尽量在本地完成建模所需计算,仅在模型需要迭代更新时进行通信交互”[2]。然而,参与各方之间的模型交互,是否属于法律语境下的个人信息数据的“加工、传输、提供、公开”等共享行为。回答这一问题,需厘清以下几点。

首先,需判断具体计算过程形成的数据模型是否包含可直接识别个人信息的识别符。若包含,则此类分布式隐私计算可谓“伪”隐私计算技术,该模型传输行为完全适用个人信息共享须经个人信息主体同意的规则规制。

其次,若数据模型均为去标识化的数据,则需评估该类数据被重识别的风险程度。此即回到本文之前所讨论的以数据分级确定数据共享法律标准的问题。

再次,难点和关键问题是如果计算模型中的所有数据被确定为重识别可能极低,甚至可以确认是已经匿名化处理的非个人信息,此场景下的分布式隐私计算数据模型传输是否不属于数据共享行为从而免于数据共享规则的法律约束。不直接接触个人信息并不必然免于个人信息保护的义务,这取决于协同计算的一方所传输的数据模型在多大程度上影响掌握个人信息的模型接收方的数据库。根据GDPR的第4条第(7)项和第26条,若一方能与其他方共同决定个人数据的处理目的和处理方式,该方主体属于个人数据“控制者”(Controller)或与他方一并称为“共同控制者”(Joint Controllers)。因此,若分布式隐私计算的一方参与者通过掌握个人信息的其他主体联合建模,从而共同决定该等个人信息数据的处理目的和方式,此时该主体属于GDPR认定的个人数据“控制者”;反之,若分布式隐私计算的一方参与者与其他主体联合建模,仅提供技术支持而不决定有关个人信息处理目的和方式,该主体仅为GDPR第4条第(8)项和第28条规定的受托处理数据的“处理者”(Processor)。但我国《民法典》和GDPR以及《个人信息安全规范》不同,没有把自行处理个人信息和受托处理个人信息的主体区分,两者统一被规定为个人信息“处理者”,两类主体适用相同的个人信息处理规则。

2.3.2 定向广告各方主体在分布式隐私计算应用中的责任边界

基于前文分析的相同理由,《民法典》将受托处理个人信息主体的义务提升至与对个人信息具有控制力的主体一致,是恪守保护民事主体微观权利的原则,并未过多涉及产业宏观考量。进一步细分责任的任务落在《个人信息保护法》中,这从《个人信息保护法(草案)》二审稿可见一斑:该稿第二十一条和第二十二条区分了“个人信息共同处理者”和个人信息处理的“受托方”,明确前者的法定义务和后者接受前者监督并履行委托合同约定的义务。可见,我国的立法趋势仍是按控制力划分主体从而构建多元分层的个人信息处理义务和责任体系。

具体到定向广告的分布式隐私计算应用场景,是个人信息直接收集和间接收集两类行为的合法性基础问题。

(1)关于用户个人信息的直接收集行为,由广告主和流量主(媒体方或用户硬件终端方)完成,该直接收集个人信息行为自然落入“告知—同意”规则的约束,此处最大的争议是个人信息的范围,如用户在终端设备键盘输入的行为数据,一般无法识别特点自然人,但可与外部数据关联构成数据集而指向特定个人,有学者将之称为“数据指纹”(Data Fingerprint)[11]。若关联可识别特定自然人,“数据指纹”理应归属于个人信息范畴,但若直接收集“数据指纹”类个人信息被隐私计算技术加持,则需重新评估该收集行为的法律边界。苹果设备即为大量收集“数据指纹”类的用户行为数据,但苹果公司于2016年声称,自iOS 10开始,苹果设备将在不侵犯用户个人隐私的前提下,通过(本地)差分隐私技术获取用户的设备使用行为模式[15]。这意味着苹果公司可能不会收集用户键入的每一个字符,而利用技术对用户数据进行本地化处理后再将设备数据传至苹果公司。对此,笔者认为应具体分析数据收集者在使用分布式隐私计算技术时是否可以决定该类个人信息数据的处理目的和方式,从而确定数据收集者是否承担我国法律规定的个人信息处理者(即GDPR语境下的个人数据控制者)的在义务和责任。

(2)关于个人信息的间接收集行为,即本文所称的数据共享,情况则更为复杂:在分布式隐私计算中,为匹配广告需求,掌握个人信息的广告主或代表广告主的DSP将与DMP和ADX进行数据模型交互;为匹配用户,掌握个人信息的流量主(媒体或终端)或代表流量主的SSP也与DMP和ADX进行数据模型交互。以上在分布式隐私计算下的两方面数据模型交互,掌握个人信息的广告主或流量主并未将用于计算的输入数据和作为匹配结果的输出数据向其他方提供,DMP、ADX这些广告程序化交易第三方的责任范围,在现行《民法典》规定下取决于其处理的数据模型是否包含个人信息,即前文所厘清的前两个问题;在将来《个人信息保护法》正式颁行实施后,DMP、ADX等的责任则取决于该等主体是否与广告主或流量主共同决定相关个人信息的处理目的和方式,从而确定其是“共同处理者”还是“受托方”。而对于DSP、SSP等分别服务于广告主、流量主的主体,在多数情况下其角色为广告主和流量主的代理人,故在将来可能被确定为“受托方”从而受其与委托方(即广告主或流量主)之间的合同所约定的义务约束。

3 结束语

隐私计算作为“合规的技术”已经出现并投入应用,而隐私计算本身的法律边界,即“技术的合规”问题亟待法律给出答案。鉴于个人信息数据存在各种类型,各类个人信息的风险程度也不尽相同,且隐私计算包含多种技术,其应用场景也越发多元,故对隐私计算合规问题的法律回应难以“一刀切”地作出合法与否的判断,立法的任务是结合不同数据、不同技术、不同应用场景确立隐私计算的不同合法性条件,同时在制定方案滞后于技术发展的现实中,司法个案推动隐私计算法律边界在目前和将来都存在可能。“合规的技术”未来已来,“技术的合规”理应值得期待。

猜你喜欢

画像个人信息主体
如何保护劳动者的个人信息?
威猛的画像
个人信息保护进入“法时代”
论自然人破产法的适用主体
“00后”画像
画像
警惕个人信息泄露
关于遗产保护主体的思考
论多元主体的生成
个人信息保护等6项通信行业标准征求意见