联邦学习的个人信息保护合规分析框架
2023-02-19庄媛媛
朱 悦 庄媛媛
1(北京科技创新中心研究基地 北京 100083)2(深圳市湾区数字经济与科技研究院 广东深圳 518126)
联邦学习被视为“破解‘数据孤岛’与‘数据隐私’两难困境”的新范式与思路,具备广泛应用潜力[1].然而,在《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)等数据隐私法律的视角,无论是联邦学习还是其他隐私计算技术,其合规性均缺乏足够确定和具体的结论.针对这些技术,法学领域还时常有“法律上的不确定性”“迷思”甚至“科学乌托邦主义”等疑惑或批评[2-4].需要更加紧密地结合技术与法律,特别是结合技术的实现细节与法律的概念体系,就联邦学习和其他隐私计算技术给出更确定、具体的分析框架和结论.回应疑惑与批评并为新范式和新思路发挥应用潜力铺路.
1 相关工作
关注联邦学习的技术和法律从业者正“双向奔赴”,但二者仍有清晰界限.技术侧在相当程度混同隐私与安全,缺乏对法律核心概念的精细分析.技术层面安全措施与合规性的分析判断,因而存在逻辑上的断裂.法律侧分析常缺乏对技术的精细了解,其从业者难以断言联邦学习是否合规.
技术侧多有关注联邦学习隐私问题的研究.但无论全面综述,还是特定场景的分析,出发点都是技术视角的威胁模型,或未必能够与数据隐私法概念形成严格对应的隐私模型,如k-匿名、差分隐私等[5-7].随着结合技术与法律的需要日益迫切,也有在数据隐私法,如《通用数据保护条例》(GDPR)下的研究[8].其首先展示GDPR主要规定,再展开每一规定对应、可能发生的隐私和安全风险.这已接近本文的思路,唯其从法律到风险的推理更多是直观上相关,而非基于法律解释和适用的逻辑.本文可视为2个角度上的改进:1)在中国视角下展开分析,兼顾GDPR;2)更加牢固地将从法律到风险的推理建立在法律解释和适用的基础上.
法律侧对联邦学习的关注颇多,绝大部分为针对技术类别的整体判断,甚少深入细节.如指出联邦学习仅传递梯度或参数、而不传递原始数据的思路能够强化隐私保护和安全性,但仍然存在法律上的不确定性[2-9].这些过分稳健的判断很难为联邦学习充分发挥应用潜力提供足够保障.少量研究实现了紧密结合.如对于受“模型反转”或“成员推断”影响的模型,因其落入GDPR下“与个人相关的信息”范畴,故而应当认定为个人信息[10].相应研究为本文定性具体的数据流提供了有益的分析和结论.缺憾在于:类似研究尚不足以覆盖联邦学习架构全景,只能援引用于判断其中个别组件.从法律视角出发,本文改进处即在于将相应研究思路推广到联邦学习架构全景.
2 合规框架:以3种经典学习架构为例
综上,本文选取3种较成熟的联邦学习架构:服务器-客户端横向架构、点对点横向架构、有协调第三方的纵向架构[5].每种架构综述均包含执行步骤或伪代码.先概览框架整体思路,后基于适用于所有类别架构的个人信息保护规定,展开分析框架,将其适用于上述步骤和伪代码,即分析框架可直接将(伪)代码作为输入,从而聚焦具体技术实现,而非抽象的技术类别.执行步骤中的黑体字标识了需要进一步分析的数据流(如表1所示).
2.1 框架概览
本文着眼合规、数据隐私的法律要求,故《个人信息保护法》是分析起点.《个人信息保护法》适用于个人信息处理,为自主决定个人信息处理目的与方式的不同类型主体设定了责任义务,未能履行责任义务将致合规风险.循此,首先需要基于具体技术实现,定性其中哪些数据流属于个人信息.然后是识别相应信息上的处理,包括收集、传输、提供、匿名化等.再识别哪些主体实施了这些处理活动,以及这些主体的法律性质.知晓其法律性质以后,即可梳理需承担的责任义务.这些责任义务也就对应于潜在的合规风险项(如图1所示).
2.1.1 识别规定
首先是个人信息认定:仅当涉及个人信息处理,才需要个人信息合规.此处 “对偶”概念,《个人信息保护法》第四条:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息.”按第七十三条(四):匿名化是指“个人信息经过处理无法识别特定自然人且不能复原的过程”.二者解释的展开均依赖于对“(可)识别”“有关”与“复原”的解释.故给定待判断的信息,结合既有释义与比较方法,可将“个人信息”和“匿名化”解释展开为4部分:
1) 是否已与其他个人信息,特别是识别符相关联.这点相当简明,是“(与)自然人有关”的展开:已经与信息主体的身份证号、电话号码、cookie ID等标识符建立关联的信息都应认定为个人信息.实践中多用于判断训练集和测试集中原始数据的性质.作为中间产物的梯度、参数等数据的判断通常需进入后续步骤.
2) 综合考虑处理目的、信息内容与处理影响,是否倾向于认定为(可)识别个人或与个人有关.这点相对复杂,但确系近期执法中的趋势.无论是相对简单的ID,还是更加复杂的加密值或哈希值,或对人而言无意义的中间产物,实践认定都不容易.因此,可谓“自证”信息是否具备可识别性的处理目的是执法中易用的参照.如果相应信息的处理目的是区分、关联个体或者在个体层面推断,又或与前3类目的密切相关的个体去重、个性化或制作个体指纹,都是认定可识别性的有力根据.信息内容与处理影响的重要性相对处理目的而言较低,但如果信息内容仍可视为与个体相关,如个体人脸特征或信息处理将在个体层面造成显著影响,这些都是倾向于认定为个人信息的因素.实践中,仅处理目的足以认定.后二者一般用于说理的辅助性因素.
3) 全面考虑区分、关联与推断3类风险,是否倾向于认定为(可)识别个人或与个人有关.第2步是执法中易用、从而对联邦学习参与方而言亦易用的判断是否是个人信息的因素.证非难于证是:为认定特定信息不是个人信息,尚需彻底排除相应信息的可识别风险.为此,具体需排除3类识别风险:①区分指将个体从群体中区分出来,从而可能在处理信息时单独对待;②关联指关联属于同一个体的不同信息;③推断指相对既有信息而言,推断个体的更多信息.在联邦学习中,区分风险主要关注是否存在ID或类似ID的数据.关联风险主要来自去重,即意味着能够关联同一个体的不同信息.推断风险则与学习任务密切相关,主要关注任务是否施行个体层面的推断.排除3类识别风险时,很大程度上可以复用前2步的结果.
4) 复原原始个人信息的成本是否非常高昂[11].来自我国立法机关的观点可视为对联邦学习参与方有利“兜底”项.尽管这步不影响训练集或测试集中原始个人信息的认定,对中间产物而言,即使前3步下倾向于认定为个人信息,如果复原原始个人信息的成本非常高或实际不可能,则仍可排除其属于个人信息,从而不涉及个人信息合规.
以上展开了认定是否“个人信息”的步骤.这与认定“匿名化”是否成功一致:对匿名化后的信息适用各步骤,如已不属于个人信息,则匿名化成功.
可以与认定个人信息一同开展的是认定个人信息处理行为.按第四条:处理行为包括“个人信息的收集、存储、使用、加工、传输、提供、公开、删除等.”处理行为是开放性定义,不限于第四条列举的类别.换言之,对联邦学习涉及的每一类个人信息,需同时明确其是否、如何、具体由哪些参与方生成、收集、存储、传输、提供、加密和删除.这是后续步骤的前置工作,对履行一般意义上的个人信息合规义务亦有意义.
下一个重要步骤则是认定个人信息的处理者.第七十三条(一):“个人信息处理者,是指在个人信息处理活动中自主决定处理目的、处理方式的组织、个人.”作为(共同)处理者的组织、个人(共同)履行个人信息合规的主要义务、承担主要责任.故对期待通过“可用不可见”的联邦学习清晰划分、隔离义务、责任的联邦学习参与方而言,各方是否构成(共同)处理者至关重要.此处又分4步:
1) 识别各类个人信息各自对应的处理行为.这是前置步骤,又是认定处理者的起点.处理者认定的单位是处理行为,即每个处理行为都应有至少1个处理者,不同处理行为可以有不同处理者.处理者对相应的处理行为履行义务、承担责任.如果没有识别所有个人信息对应的处理行为,处理者的识别不完整,义务和责任的承担情况不清晰.
2) 对特定处理行为,决定处理目的的参与方很可能认定为处理者.这通常是直观的:决定为什么要施行处理行为的参与方,除非完全不参与决定实质性的处理方式,否则构成处理者.如果多个参与方共同决定为什么施行行为,且均参与决定实质性的处理方式,则构成共同处理者.此处的共同决定需要意思联络,亦即相应参与方明示或暗示对处理目的的意愿.在联邦学习场景下,生成、收集、存储、传输、提供、加密等各处理行为常服务于学习任务,故谁决定学习任务是认定处理者的重要因素.
3) 对特定处理行为,是否决定实质性处理方式也是认定处理者的重要因素.结合第十七条(二)、第二十一条和第二十三条,实质性处理方式包括处理的个人信息类型、保存期限、向其他处理者提供.由此,决定或参与决定处理目的,且决定处理类型、保存期限和向外提供的个人或组织构成处理者.仅决定实质性处理方式、未决定或参与决定处理目的和方式的个人或组织则不构成处理者.在联邦学习中,最值得考虑的实质性处理方式是保存期限和向外提供.
4) 综合考虑是否受酬、参与方关系、组织性质和信息内容等因素.如果仅凭前3步无法认定处理者,对相应处理行为和参与方,可综合3类因素辅助判断:如果参与方因处理行为受酬或在处理行为上存在其他利益,如果相应参与方间存在支配隶属关系(特别是对施行处理行为的参与方有支配隶属关系),又如果组织性质和信息内容间存在密切联系,这些都是倾向于认定为处理者的因素.这些因素体现了法律上传统的归责原则.
以上为认定“个人信息处理者”的步骤.之外,接受处理者委托处理、但不能自主决定处理目的和方式的组织、个人构成受托方,承担程度较轻的个人信息合规义务和责任.既不构成处理者又不构成受托方的组织,个人通常无须承担个人信息合规义务和责任.
最后是根据参与方的性质认定识别其义务和责任.一般而言,处理者需要就其任何处理行为取得相应合法性基础(第十三条)、向信息主体告知事项(第十七条)、响应信息主体行使其权利的请求(第四章)、采取信息安全措施(第五十一条)、开展个人信息影响评估(第五十五和五十六条)以及发生个人信息泄露时的补救和通知(第五十七条)…….个人信息处理者对个人信息权益侵害承担侵权责任(第六十九条),个人共同处理者对个人信息权益侵害依法承担连带责任(第二十条).受托方的义务和责任主要源于和处理者的约定(第二十一条).即处理者是义务和责任的主要承担方,故需要分析、识别并解决的合规风险.
2.1.2 定性数据流
第1步是根据联邦学习的步骤(如表2所示),认定其间数据流所包含的个人信息.
1) 服务器-客户端横向架构.
如果计算任务与个人信息无关,则无须讨论个人信息合规.本文聚焦与个人信息有关的计算任务,如利用客户端数据学习推荐模型.此类架构通常为企业利用分散在个人终端设备上的数据学习,故假设企业控制服务器端,个人(通常为用户)控制客户端.进一步假设服务器端也是联邦学习技术方案的设计、实施和支持者,如果此假设不满足,后文对(共同)处理者的认定可能受到影响.基于假设,所涉5类数据可定性如下:
① 计算任务.通常不与特定个人存在任何关系,很难被视为个人信息.但其可能影响其他数据、相应处理行为和处理者的认定.具体地,计算任务可能清晰揭示个人数据的处理目的与处理行为的步骤.计算任务由哪一参与方决定和具体编写,则与处理者认定密切相关.故计算任务通常不属于个人信息,但在合规中发挥重要作用.
② 客户端数据.与个人信息有关的计算任务涉及的客户端数据通常构成个人信息,或至少有部分为个人信息.由于终端设备可能认定为私密空间,其中信息认定为私密信息,客户端数据有时需在隐私权而非个人信息权益的语境下分析.个人信息保护规定或因此不适用,或竞合适用,具体事实具体分析.
③ 客户端模型.因其复杂难以解释,一般情况下不认定为个人信息.但需考虑存在成本合理的成员推断攻击此额外情况.如成员推断攻击成立,从客户端模型可以推导出构成个人信息的训练数据,故也是与自然人有关的数据,可能认定为个人信息.步骤2,3不适用于模型,故径至步骤4的排除.如果成员推断攻击的成本很高或不可能,则可将客户端模型排除在个人信息之外;否则需视为个人信息.
④ 模型参数.个人信息认定中最关键的一类数据.仅凭步骤1通常无法判断,故从步骤2开始.核心是处理目的,可以从计算任务和其他代码、文档中识别.如果生成、传输参数的目的,亦即联邦学习计算任务的目的为区分、关联、推断或类似目的,即使模型参数对人而言没有意义,也可能构成个人信息.如果参数的内容与特定个体有关,例如可以视为个体信息的表征,或者联邦学习任务在个人信息保护意义下对个人权益有重大影响(第五十五条),也都是倾向认定为个人信息的因素.取决于参数的具体形式或内容,步骤4可能适用.如在传输梯度中,实施深度泄露攻击,从而重建训练数据的成本决定了是否可以将梯度排除出个人信息.综之,模型参数可能构成个人信息,具体结论取决于与参数形式相关的攻击实施成本.
⑤ 加总参数.加总可降低个人信息的合规风险,是匿名化处理常见方式.在联邦学习中,加总降低风险的多少和匿名化的成功与否主要取决于加总范围大小,或加总终端设备多少.并无固定阈值,但千量级阈值在执法和业界实践中较常见.考虑到模型参数对人没有意义,本身具备一定去识别意义,千量级在此语境中是相当安全的阈值.
总之,计算任务通常不属于个人信息,但对认定其他类型个人信息和后续合规步骤有意义.客户端数据为个人信息.其他3类数据在一定情况下为个人信息,依赖于相应攻击成本或数量阈值.
2) 点对点横向架构.
假定计算任务与个人有关,并假定参与学习的终端设备均由个人控制.此处没有服务器端,但有设计、实施和支持技术方案的相应支持方.基于相应假设,所涉4类数据可定性如下:
① 模型更新.与第1类架构中的模型参数相似,模型参数可能构成个人信息,具体结论取决于与相关攻击实施成本.
② 本地数据.如前所述,个人信息有关的计算任务的本地数据通常构成个人信息,或者至少有一部分为个人信息.也需具体情况具体分析情况.
③ 本地模型.如前所述,本地模型可能构成个人信息,具体取决于成员推断攻击实施成本.
④ 通信网络结构.是点对点横向架构中独特的信息类型.此述网络结构,指的是对任一终端设备而言、其他哪些终端设备将与之传输更新梯度.或者任一终端设备可能与之传输作为个人信息的模型更新范围.无论是全连接的点对点架构还是均匀生成网络连接的随机架构,由网络结构通常不足以区分特定终端设备.故一般不构成个人信息.由于向外提供的范围属于个人信息处理的实质性方式,结构或与认定处理者等后续步骤有关.之外,如果采取比全连接或均匀生成更加复杂、有区分性的网络结构,通信网络结构仍有可能(概率不大)认定为个人信息.
总之,本地数据为个人信息.通信网络结构通常不是,但对后续步骤有用.其他2类数据在一定情况下是个人信息,但依赖于攻击成本.
3) 有协调第三方的纵向架构.
假设计算任务和各参与方自有数据均与个人有关.纵向架构通常用于企业对企业场景,故假设各参与方都是企业,且为自有数据的处理者.本文进一步假设协调方与各参与方相互独立,假设是否成立影响到个人信息及相应处理者的认定.基于假设,相应5类数据可定性如下:
① 样本ID.可能在多个步骤中得到判断,但通常应认定为个人信息.样本ID可能已与其他个人信息关联,其目的显然是用于区分,本身意味着可能将对应个体从群体中区分出来.综之,步骤1,2,3中的每一步都足以认定其为个人信息.因样本ID本身就是个人信息保护意义下的原始数据,步骤4在此也难以适用.
② 各参与方自有数据.个人信息有关的计算任务涉及的参与方自有数据通常构成个人信息,或者至少有一部分为个人信息.
③ 中间结果.通过同态加密技术交换中间结果可以实现损失和梯度的安全交换:在线性回归模型设定下,中间结果是模型特征和相应参数的1次和2次多项式,通过加或乘计算损失和梯度[12].中间结果的具体形式依赖于模型设定.譬如,如果需要在比线性回归更加复杂的设定下实现纵向学习,中间结果相应以更复杂的形式依赖于模型特征和参数,损失和梯度亦相应以更复杂的形式依赖于中间结果.尽管中间结果通常不与其他个人信息直接关联,因其处理目的和识别风险认定为个人信息的概率也较低,如果可以循之求逆作为个人信息的特征、损失或梯度,则依然可以认定为个人信息.求逆的成功率和成本依赖于模型设定,通常需要具体评估.
④ 损失和梯度.可能构成个人信息,取决于相关攻击实施成本.
⑤ 各参与方模型.可能构成个人信息,具体取决于成员推断攻击实施成本.
总之,样本ID和自有数据属于个人信息.其他3类数据在一定情况下属于个人信息取决于攻击成本(见图2“数据流定性”).
2.1.3 识别处理行为
承上,需识别每一类个人信息对应处理行为.为分析简便,假设构成个人信息需满足的条件全部满足.以下仍按3类架构顺序展开.另外,每一类架构的每一类信息都要经历不同方式加密处理,许多类型信息的其他处理行为亦以访问为前提,为分析简便,一律略去加密和访问这2类处理行为(实践不可略).
1) 服务器-客户端横向架构涉及的3类个人信息.客户端数据用于联邦学习,故其最主要的处理行为便是自动化决策.客户端模型基于客户端数据训练,准确率相应提升,可认定为更正,或其他类似的处理行为,如训练(第四条就“处理”采取开放定义).模型参数至少经过2类处理行为:传输至服务器端,以加总为其实现的匿名化.若模型参数在服务器端留存,应至少增加收集和存储2类处理行为.若加总未达匿名化阈值,则应去除匿名化处理行为,并补充其他处理行为.此处假设参数不留存,且加总足以达到匿名化.
2) 点对点横向架构涉及的3类个人信息.如前所述,模型更新经历了传输到其他终端设备的处理行为,由个体控制的终端设备提供给同样控制终端设备的另一个体.模型更新亦可能相应经历收集、存储、匿名化等处理行为,此处暂不考虑.如前所述,本地数据上有自动化决策的处理行为,本地模型上有更正或其他类似的处理行为.
3) 有协调第三方纵向架构涉及的5类个人信息.用于对齐的样本ID经历了匹配的处理行为.如前,参与方自有数据上有自动化决策的处理行为.中间结果、损失和梯度上有传输的处理行为.如果正确实施纵向学习,各参与方的模型都不能被其他参与方或协调第三方所访问.因此,各参与方模型上没有处理行为(见图2 “处理行为”).
2.1.4 定性主体
承上,需对每一处理行为识别相应的个人信息处理者.为分析简便,假定上文的匿名化条件达到.以下仍按3类架构的顺序展开.如前,服务器-客户端横向架构中假设服务器端即为技术方案的设计、实施和支持者,点对点横向架构中假设存在独立于个体之外的技术方案设计、实施和支持者,有协调第三方纵向架构中假设存在独立于参与方的协调者.任一假设不满足都会实质影响主体定性.
1) 服务器-客户端横向架构.此处相对简明:服务器端决定了各项处理行为的目的和方式,因而构成所有处理行为上的处理者.
2) 点对点横向架构.此处同样可以“打包”分析各类处理行为.技术支持方决定了传输和提供涉及的信息类型和通信范围,这些处理行为进一步服务于同样由支持方决定其目的和方式的自动化决策和模型训练.因此,技术支持方是各类处理行为的处理者.尽管技术支持方完全有可能在全部处理行为上都避免访问相应信息,然而,是否访问信息本就不是认定处理者的决定性条件.相应地,“不可见”并不足以豁免个人信息合规的义务和责任.
3) 有协调第三方的纵向架构.因纵向架构涉及不同企业达成合意共同利用数据、学习模型,对各项处理行为而言,处理目的的意思联络都是清晰的.通常只需要分析实质性处理方式.共同决定处理方式既包括各参与方基于意思联络施行处理方式,又包括各参与方间并无意思联络、但其各自行为结合导致施行处理方式,亦即缺乏任一参与方,则相应处理方式不能施行.缺乏任一参与方,匹配、自动化决策、传输等处理均无法发生.因此,各参与方都是各项处理行为上的共同处理者.协调方是否构成共同处理者取决于3个条件:第1个是协调方在何种程度上参与各参与方间的协商;第2个是协调方在何种程度上对各项处理不可或缺,这一因素进而取决于无协调第三方纵向架构的实用性和成本;第3个是,如果仅凭前2个条件无法判断,应进一步考虑是否受酬、与参与方关系、组织性质和信息内容等因素.由于当前3个条件的回答都难以笃定,此处不明确结论(见图2“主体定性”).
2.1.5 识别义务责任
定性个人信息并识别相应处理行为和处理者后,剩下的便是标准的个人信息合规责任.如前,处理者承担主要义务和责任,特别是需要为各项处理行为(这些处理行为与信息类型和处理目的形成严格的对应)取得合法性基础.对同意、为合同所必需等各项合法性基础,尚有进一步的规定.处理者同时需要履行告知、响应用户权利请求、开展个人信息影响评估、采取安全措施等义务.实践履行这些义务并不困难,重要的是需要全面覆盖所处理的个人信息,特别是参数等对人而言没有意义、可能因而被忽略的个人信息.不再赘述.如果在跨境传输或涉敏感个人信息等场景中开展联邦学习,可能存在其他义务.
2.1.6 合规风险分析
法律适用错误和未能履行义务和合规风险的2个主要来源:对关键法律概念的适用错误导致对合规义务认识不全面.未能认识则难以履行.已经认识到合规义务,未能充分履行也会导致合规风险.本节相应收束整个合规框架,相应导出合规风险.
最根本的风险是未能体系化、具体地适用《个人信息保护法》.无论是简化的“可用不可见”替代法律分析,还是未及技术细节便对隐私计算的合规细节作出的消极判断,都不可取.在(伪)代码层面适用法律并无本质性困难,相应可得无法“一言以蔽之”的结论.然具体问题判断未必一致,尽可能深入技术细节,从而体系化、具体地识别合规义务和相应风险却是应采取的方法.即法律适用和合规义务的“颗粒度”都应尽可能细化:不再只是对整个类型抽象判断与合规,无论是存有义务、需要履行,还是无义务、毋须履行,都需建立在对数据流、处理行为和处理者的具体判断上.否则,可能遗漏需要保护的信息类型,忽视需要合规的处理行为,甚或承担本可避免的责任.
第1层合规风险来自数据流中个人信息定性:个人信息认定有遗漏风险;此外,若未能采取足够安全措施,会有更多的个人信息需要后继履行合规义务.相应导出3类更具体风险: 1)对数据流及其间可能构成个人信息的数据的识别、认定不够全面;2)涉及加总、拆分、遮罩等可能构成匿名化处理方式时,相应方式未能达到匿名化要求,如加总未达到数量阈值、拆分后各数据项仍与原始数据存在密切关联等;3)未能采取充分安全措施,导致模型被认定为个人信息.3类风险应对是共通的,都依赖于“个人信息”和“匿名化”的分层判断.
第2层合规风险来自处理行为定性:处理行为遗漏的风险;另外,忽视“基于设计的隐私”、引入多余处理行为和合规风险.可导出2类更具体的风险:1)未能基于及时、准确的个人信息处理记录识别处理行为.此处的最佳实践可能是结合静态代码及其动态运行而判断.2)未能最小(少)化信息处理目的、留存期限和传输范围,导致发生收集、提供等本无必要的(高风险)处理行为.此处应对方式既依赖于联邦学习技术发展,又可考虑相应搭建监测和应对功能,并将“基于设计的隐私”贯穿到技术本身及其监测应对当中.
第3层合规风险来自处理者定性.此处主要是处理者定性错误导致遗漏义务和责任的风险.从宽界定(共同)处理者、提前明确约定相应义务与责任将是最佳实践.值得指出的是:联邦学习技术本身的发展可能在很大程度上纾解这一风险.如无协调第三方的纵向架构将简化有第三方架构中复杂的、需要综合考虑多因素的处理者分析.或者,联邦学习的充分学习在合规层面的对应结果之一即是充分“解耦”可能的共同处理.
第4层合规风险来自标准的个人信息合规义务.故可得5类具体合规风险:1)没有各项处理行为(这些处理行为应与信息类型和处理目的形成严格的对应)取得合法性基础;2)没有向信息主体告知处理行为和相应的信息类型与处理目的;3)未能响应信息主体针对参数等个人信息(及其处理)的查阅、更正、删除、解释说明等权利;4)没有开展个人信息影响评估,或者是开展的个人信息影响评估没有覆盖上述信息类型和处理行为;5)没有履行其他个人信息合规义务,这一项可以视为“兜底”,由联邦学习应用的具体场景而定(如图2所示).
2.2 框架适用范围
框架基于3类联邦学习架构,依托《个人信息保护法》,具体结论不能脱离这些架构和法律,但仍可扩展其适用范围.1)框架也适用于其他类型的联邦学习架构.只要有相应的代码、伪代码或步骤即可.2)框架可纳入其他法域个人信息保护规定.由于我国个人信息保护关键概念及其体系与GDPR的相似性,框架可推广到GDPR下联邦学习合规性评估.无论是GDPR下的个人数据、处理行为和个人数据控制者,还是认定这些概念的分析体系,均可“无缝衔接”.此外,GDPR关键概念及其体系影响广泛[13],框架可推广至更多法域.3)凡有代码、伪代码或步骤也可施行,推至其他隐私计算技术.可信执行环境等软硬件结合的隐私计算技术,硬件合规分析更为复杂,恐无法完全覆盖,需更深入结合技术的测试与分析.
3 结 论
本文建立一种6步骤联邦学习合规分析框架,并给出经典架构具体结论.框架基于具体架构和我国法律,可推至其他架构、法域、隐私计算技术.在最一般意义上,通过深入结合技术与法律,阐明《个人信息保护法》直接适用隐私计算技术实现,并明确判断其合规性.
正在制定、侧重安全的隐私计算相关标准亦可考虑该思路:1)可显式或隐式地将个人信息概念引入标准.在定义部分明确关键数据项(如模型参数)基础上,确保“应匿尽匿”,从而尽可能控制个人信息合规风险.2)结合安全和“基于设计的隐私”,基于常见的针对数据出入和交互的测试、审计,在确保加密、删除、匿名化等合规处理行为得到落实的同时,尽可能减少其他不必要的处理行为.3)结合安全和个人信息处理者的分析,在算法协议、计算任务的相关规范中落实清晰划分义务和责任的安排,确保相应安排有留痕、可取证.4)针对个人信息保护的合规义务相应补全具体的控制项,至少包括合法性基础、告知、影响评估等.如此,标准才能为有权解决个人信息保护纠纷的机关供给技术、法律充分结合的说理和结论,为合规结论长期未明确的隐私计算提供足够的确定性.