联邦学习中的隐私保护技术研究综述
2023-02-24黄亚鑫范艺琳
王 腾,霍 峥,黄亚鑫,范艺琳
(1.中国电科网络通信研究院,石家庄 050081;2.河北经贸大学 信息技术学院,石家庄 050061)
0 引言
机器学习算法在自动识别、智能决策等方面具备显著优势,已逐渐成为人工智能和大数据处理的技术基础。大部分机器学习算法需要庞大的训练数据集来保证训练模型的性能[1],在这背后是大量的个人数据被采集,包括姓名、身份证件号码、联系方式、住址、账号密码、财产状况、行踪轨迹、消费状况等,甚至还有生理特征、就医记录等更敏感的信息。上述信息不但被采集、利用,甚至还可能被售卖给第三方获取利益,使个人隐私遭到严重的泄露。随着个人用户、政府部门及数据采集方对个人数据隐私的关注,国家相继出台各种法律法规,严禁非法采集公民的个人数据:2017 年6 月起,我国实施了《中华人民共和国网络安全法》[2],2021 年9 月1日正式实施了《中华人民共和国数据安全保护法》[3],2021 年11 月1 日实施了《中华人民共和国个人信息保护法》[4]。
即使能合法采集个人数据,但个人数据大多分散存储在不同的机构中,由于政策壁垒与存储资源的限制,很难实现数据的集中存放。近年来,联邦学习(Federated Learning,FL)[5]的出现成为机器学习领域的新热点。联邦学习的概念最早是在2016 年由谷歌提出的[6],它是一种分布式的机器学习框架,分布在多个节点上的数据集协同训练,最终可获取全局数据集上的机器学习模型。联邦学习具有天然的隐私保护特质,数据不需要集中存放,仅需在数据分散存储的节点上训练模型,服务器无法获取原始数据,个人数据隐私得到有效的保护。在数据隐私与安全问题备受关注的今天,联邦学习在避免数据泄露、避免中心点数据受到攻击等方面具备显著优势。此外,传统的机器学习模型不能直接处理异构数据,利用联邦学习技术,无需处理异构数据即可建立全局数据上的机器学习模型,既保护了数据隐私,又解决了数据异构问题[7]。联邦学习可应用在涉及个人敏感数据的机器学习任务中,如个人医疗数据、可穿戴设备数据、面部特征数据、个人资产数据等[8-10]。
目前,许多机器学习模型已扩展到联邦学习架构中,比如线性回归[11]、支持向量机[12]、神经网络[13-14]、聚类[15]、决策树[16-17]、深度学习[18-19]等。然而,研究发现,联邦学习架构的隐私保护度不足以完全防御外部隐私攻击[20],具体来说,在模型训练和模型预测阶段都可能泄露数据隐私。在模型训练阶段,通常需要构建经验损失函数,采用随机梯度下降(Stochastic Gradient Descent,SGD)方法找到损失函数的最小值,将最小值对应的参数作为模型参数上传给服务器。不可信服务器/外部攻击者可能利用参与方的模型参数逆推数据分布特征,甚至逆推出具体的训练集数据,导致参与方的数据隐私泄露。在模型预测阶段,攻击者可反复调用模型进行预测,特别是对某些泛化能力不足的模型,在预测某些训练集中出现过的数据时,模型的表现与训练集中未出现过的数据有较大差距,攻击者通过这一特征可判断某些数据是否出现在训练集之中,如果训练集包含敏感信息,则个人隐私泄露。
隐私保护技术经过多年的发展,逐渐形成了几类较为成熟的方法:以差分隐私为代表的数据扰动法[21]、以k-匿名为代表的数据泛化法[22]、以安全多方计算(Secure Multiparty Computation,SMC)为代表的数据加密法[23]等。隐私保护的应用场景从最初的关系型数据发布、基于位置的服务等简单场景,逐渐发展到较为复杂的社交网络、电子商务、图像识别等领域。在上述隐私保护应用场景中,数据可用性与隐私保护度是一对矛盾,研究的关键问题在于如何在保护隐私的前提下提高数据可用性。而在机器学习/联邦学习场景下,隐私保护度和模型精确度是一对矛盾,隐私保护度的提升意味着模型预测精确度的下降、模型的收敛速度变慢等问题。尤其是深度学习模型结构异常复杂,且不具备可解释性,使得隐私保护与模型可用性之间的矛盾关系无法量化。针对联邦学习中的隐私泄露问题,需要设计新的隐私保护方案。
目前,联邦学习中的隐私保护技术已经成为联邦学习领域的研究热点,研究者们发表了不少相关研究内容的综述,如表1 所示。
表1 联邦学习中隐私保护技术的相关综述Tab.1 Reviews related to privacy-preserving technologies in federated learning
文献[20]中对机器学习中的隐私攻击和隐私保护方法进行了调研和分析,侧重机器学习中的隐私保护技术;文献[24]中对分布式深度学习中的隐私与安全攻击模型、防御措施进行了综述;文献[25-27]中对联邦学习架构中的安全攻击与防御措施进行了综述,侧重于安全攻击与防御;文献[28]中重点介绍了机器学习环境中安全攻击的类型及防御方法;文献[29]中综述了联邦学习的概念及隐私保护技术,提出了联邦学习中隐私问题的“5W”;文献[30]中综述了物联网领域中,利用联邦学习训练基于用户隐私数据的机器学习模型的研究现状,重点讨论了其中的隐私保护策略、通信代价和数据异构问题。
1 预备知识
1.1 隐私与隐私保护
隐私是指个人或实体不愿被外界知晓的信息。早在19世纪发表在《哈佛法律评论》上的《论隐私权》[31]中就将隐私定义为“不受打扰的权利”。随后,各国不断修整完善涉及隐私权的法律法规,直到2018 年5 月欧盟实施了最严格的隐私保护法——《通用数据保护条例》[32],要求企业赋予用户“被遗忘的权利”。同年,数据隐私被纳入计算机专有名词,指数据中直接或间接蕴含的,涉及个人或组织的,不宜公开的,需要在数据收集、数据存储、数据查询和分析、数据发布等过程中加以保护的信息。敏感信息是指不当使用或未经授权被人接触或修改会不利于国家利益、联邦政府计划的实行、不利于个人依法享有的个人隐私权的所有信息。隐私保护技术通过对原始数据的变换达到保护个人敏感信息不泄露的目的,同时保证能在变换后的数据上获取信息、模型或服务。
1.2 联邦学习
联邦学习是一种分布式机器学习架构,由中心服务器、参与方Pi(1 ≤i≤n)及用户构成。其中,参与方各自持有本地数据集Di,无需进行数据共享,通过协作的方式训练在全局数据集上的模型[33]。与传统的分布式系统不同,联邦学习的各参与方可以是“异质”的,即参与方软硬件配置、持有的数据格式、数据分布、模型结构等都可不同,依据不同角度可对联邦学习进行如下分类:
1)根据参与方数量的多寡与算力的强弱,联邦学习可分为cross-device 和cross-silo 两类[34]:cross-silo 中参与方往往为大型组织(如医疗、金融等相关机构),数量较少但算力较强;cross-device 中参与方为个人设备,数量庞大且算力较弱,在该场景下,不是每个参与方都有机会参与每一轮训练,通常利用采样的方式确定哪些用户可以参与训练过程。
2)根据联邦学习架构中是否存在中心服务器,联邦学习架构可以分为中心化架构与去中心化架构,如图1 所示。去中心化架构[35]不需要可信服务器,在每次迭代中,参与方在本地数据上更新梯度,将梯度发送到选定的一方,选定方使用其本地数据和梯度值再度更新模型,直到所有参与方都更新了模型,最后将模型广播给所有参与方。为了保证模型的公平 性,充分利用各方数据,参与方事先约定迭代相同的轮数。
图1 联邦学习架构Fig.1 Architectures of federated learning
3)根据不同参与方之间的数据特征分割方式,联邦学习又可分为横向联邦学习(Horizontal federated learning)、纵向联邦学习(Vertical federated learning)和联邦迁移学习(Transfer Federated Learning,TFL)[4]。横向联邦学习指数据持有方存储了不同用户的具有相同属性的数据;纵向联邦学习指数据持有方存储了相同用户的不同属性的数据;联邦迁移学习指数据持有方持有的数据中用户和属性重叠都较少的情况,如图2 所示。
图2 基于数据分割方式的联邦学习分类[5]Fig.2 Federated learning classification based on data segmentation methods[5]
联邦学习中参与方的参数更新方式可分为两类:一类是基于随机梯度的更新方法(SGD-based),另一类为基于模型特征的更新方法(Model specialized)[36]。FedSGD 和FedAVG[37]是基于随机梯度更新的典型方法:FedSGD 指参与方将每轮机器学习的梯度值传给服务器,服务器聚合后返回给参与方;FedAVG 方法允许参与方在服务器聚合参数之前多次迭代计算梯度值,服务器不必每次计算中间结果的均值,减少了通信轮数。FedSVRG[38]、FedProx[39]、FedNova[40]等方法对FedAVG 的参数聚合进行了改进。FedSVRG 向服务器发送的不是简单的梯度值,而是随机方差缩减梯度,与FedSGD 相比,FedSVRG 方法在相同迭代轮数下模型精度更高;FedProx 和FedNova 考虑到参与方数据异构的问题,以限制本地更新的次数与全局聚合的方式提高模型精确度。常用的FedAVG 聚合方式为加权平均,即:w=,其中wi表示第i个参与方的模型参数,pi表示第i个参与方的数据量占全局数据量的比例,w表示经服务器聚合后的模型参数。通过w*=计算可获取全局数据上的机器学习模型参数。经验风险最小化是常用的求解最优参数w*的算法,Fi(·)表示第i个参与方的经验损失函数,通常采用随机梯度下降求解。
另一类参数更新方式为基于模型的方法,指参与方与服务器交互参数时,不直接更新梯度值,而是依据模型特征设计更新参数,已应用于梯度增强决策树[16]、联邦森林[41]、线性/逻辑回归等模型[42]。Zhao 等[16]提出了联邦学习梯度增强决策树的模型,参与方在本地数据上训练决策树,将训练好的决策树模型送到下一个参与方。文献[43]中利用图像中的相似信息通过使用位置敏感哈希建立联邦梯度提升决策树(Gradient Boosting Decision Tree,GBDT),通过聚集类似实例的梯度值来利用参与方本地数据。
无论上述哪种参数交互方式,参与方之间或参与方与服务器之间的模型参数的交互都必不可少,数据传输也会导致数据隐私的泄露。
1.3 联邦学习中的隐私泄露问题
Papernot 等[44]提出了机器学习中的CIA 安全模型,即机密 性(Confidentiality)、完整性(Integrity)及可用性(Availability)。机密性是指未经授权的用户无法获取训练数据、模型参数等信息;完整性指模型的预测结果不能偏离预期;可用性指模型在异常甚至恶意输入的情况下,仍然可以正常使用。本文主要关注CIA 模型中的机密性。联邦学习中数据无需集中存放,不会产生由大规模数据采集带来的直接数据隐私泄露问题,但在联邦学习中,模型训练阶段及预测阶段可能产生数据隐私泄露的问题,具体表现为:
1)在模型训练阶段,不可信服务器可利用参与方上传的参数进行攻击,获取训练数据的敏感信息[45];或利用接收到的中间参数进行成员推断攻击,推测某条记录是否出现在参与方的敏感训练集中[46];或获取参与方数据的分布特征后,利用生成模型重构参与方的训练集。
2)在模型预测阶段,由于训练模型的泛化能力不足、训练模型简单易导致参与方数据泄露攻击[19]。为了避免向模型训练服务缴费,攻击者通过部分模型结构信息和标签信息,试图获取完整的模型参数信息产生模型参数提取攻击[47]。在模型预测阶段,若模型预测结果较敏感,如患某种疾病的概率等,预测结果也可能泄露数据隐私。
2 联邦学习中的隐私攻击
本章从联邦学习模型的机密性保护入手,从敌手能力、攻击目标、攻击方式三方面对联邦学习中的隐私攻击模型进行归纳总结。
2.1 攻击方式
联邦学习中的攻击者包括内部攻击者和外部攻击者:内部攻击者指不可信的服务器或参与方;外部攻击者指模型用户或外部窃听者。从攻击能力来看,可分为黑盒攻击(blackbox attack)和白盒攻击(white-box attack)[33]:黑盒攻击指攻击者无法直接获取模型内部参数,但可通过模型的使用观测到输入数据与输出结果,依据获取的“输入-输出”发起推理攻击,通常情况下,模型用户可以发起黑盒攻击;白盒攻击指攻击者能获取训练过程中任一轮的模型中间参数,不可信的服务器和参与方在训练过程中持续交互参数,可发起白盒攻击。外部窃听者通过监听,非法获取服务器与参与方之间的交互的参数或非法获取模型结果,根据获取数据不同可发起两种类型的攻击。
2.2 攻击目标
破坏机密性的攻击目标主要包括:1)获取参与方数据的分布特征或敏感信息[48-49],利用生成模型重构参与方训练集数据,从训练数据方面破坏了模型的机密性。文献[49]中训练了多个参与方联合训练人脸识别的分类模型,参与方的训练集图像是参与方本人的照片,利用模型反演攻击,采用生成模型可以重构该参与者的面部图像。2)推测机器学习模型的参数或功能,复制出一个功能相似甚至完全相同的机器学习模型[50],从模型参数方面破坏模型的机密性。
2.3 攻击模型
联邦学习中的攻击模型总结在表2 中。推理攻击包括数据泄露攻击(Data leakage attack)、属性推理攻击(Attribute inference attack)、模型反演攻击(Model inversion attack)和成员推断攻击(Membership inference attack)。数据泄露攻击易发生在简单线性模型的训练中。机器学习的训练过程通常需要构建经验损失函数,采用随机梯度下降方法找到损失函数的最小值,将最小值对应的参数作为模型参数。在联邦学习中,梯度值一般由学习率(learning rate)和函数微分的乘积构成,如果损失函数过于简单,则发送梯度值大致等同于发送原始数据。此外,若机器学习模型的泛化能力较弱,则也易遭受数据泄露攻击,如递归神经网络(Recursive Neural Network,RNN)具有记忆并暴露训练数据中敏感、特殊模式的缺点。文献[48]中指出,谷歌键盘Gboard 基于用户的历史文本数据联合学习文本预测模型,从而实现联想词智能提示功能。如果用户的键盘上曾经输入过信用卡号码、身份证号码等具有特殊模式的敏感信息,模型中会以某种方式包含该值,导致数据隐私泄露。
表2 隐私攻击模型分类Tab.2 Classification of privacy attack models
成员推断攻击和模型反演攻击在机器学习隐私保护技术中已有研究。Shokri 等[46]首次提出了成员推断攻击,利用训练目标模型影子模型的方式,推断某些数据是否属于训练集。Hayes 等[54]提出了针对生成模型的成员推断攻击。在目标模型生成的样本上训练了生成对抗性网络(Generative Adversary Network,GAN),依靠GAN 对真实记录和合成记录进行分类,可区分样本是否是基于训练集的输入。在联邦学习架构下,不可信服务器通过成员隶属攻击可获取参与方数据的敏感信息。在训练过程中,攻击者通过白盒攻击获取目标模型的多个版本,对多个版本的模型分别进行成员隶属攻击提高攻击成功概率。联邦学习中模型反演攻击威胁更大,个人设备作为参与方,其数据敏感且相似(如同一个手机端的数据),经模型反演攻击后得到的数据完全暴露了参与方的敏感信息。文献[49]中研究了多个参与方联合训练人脸识别的分类器的问题,每个参与方的训练图像都是参与方本人的照片,利用模型反演攻击与生成模型可以重构该参与者的面部图像。
3 联邦学习中的隐私保护技术
本文依据机器学习/分布式机器学习中的隐私保护技术分类,将联邦学习中的隐私保护分为基于差分隐私的隐私保护技术、基于同态加密的隐私保护技术、基于安全多方计算的隐私保护技术及其他技术。
3.1 基于差分隐私的隐私保护技术
基于差分隐私的隐私保护技术指向数据中添加噪声达到扰动数据、保护隐私的目的,实现技术主要包括差分隐私(Differential Privacy,DP)[21]、本地化差分隐私(Local Differential Privacy,LDP)[56]、混洗(shuffle)差分隐私[57]等。
3.1.1 基本概念
差分隐私是建立在严格的数学理论基础之上的强隐私保护模型,能保证攻击者即便在具有最大背景知识的前提下,即已知数据库中除目标记录以外其他所有记录的信息,也无法推测出目标记录的敏感信息。
定义1(ε,δ)-差分隐私。给定任意相邻数据集D和D',对随机算法M 及任意输出结果S,有不等式Pr [M(D) ∈S]≤exp(ε)×Pr [M(D′) ∈S]+δ成立,则称算法M 满足(ε,δ)-差分隐私。
实现差分隐私的机制包括拉普拉斯机制、指数机制[58]、高斯机制[59]等。差分隐私需要有可信的第三方数据收集者,保证所收集的数据不会被窃取和泄露。在实际应用中,第三方数据收集者是否真正可信很难保证。本地化差分隐私将数据隐私化的工作转移到用户端,在数据发出用户设备之前先进行扰动,避免了不可信第三方造成的数据泄露。
定义2ε-本地化差分隐私。n个用户分别持有一条记录,若算法M 在任意两条记录t和t′上的输出结果满足不等式:Pr [M(t)=t*]≤exp(ε)×Pr [M(t′)=t*],则 称算法M 满足ε-本地化差分隐私。
实现本地化差分隐私的机制主要是随机响应技术、混洗模型[57]。混洗模型在本地差分隐私的基础上,增加了一个可信的shuffler 部件,将用户端发来的数据随机打散后再发给服务器,达到匿名的效果。
3.1.2 实现原理
差分隐私技术在FL 中应用的原理是:在发布的模型参数中引入一定程度的不确定性噪声,掩盖任何个体用户对训练结果的贡献。在集中式机器学习中,可通过输入扰动、输出扰动、目标扰动及梯度扰动四种方式保护训练数据及模型参数不被泄露;在联邦学习中,数据不集中存放,原始数据无需扰动,隐私保护主要实施在模型训练阶段及模型发布阶段,保护参与方输出的本地模型参数或全局模型参数不被泄露。
1)模型训练阶段的隐私保护。
模型训练阶段的隐私保护目的:使攻击者无法获知参与方的本地模型参数,聚合服务器可在扰动后的参数上计算出全局模型参数。在模型训练阶段,其采用的方法大多基于图3 中展示的两种架构:基于差分隐私的安全聚合及基于混洗差分隐私的安全聚合。
图3(a)展示了基于差分隐私的安全聚合结构。参与方在本地模型的参数上添加噪声,聚合服务器无法获取参与方的精确参数,研究的关键在于:如何降低噪声添加量,保护隐私的同时保证本地参数的可用性。Wei 等[60]对经验风险最小化后的参数添加高斯噪声。数据扰动的公式表示为:=是参与方上传参数时添加的噪声,当满足ρ(η) ∝e-α||η||时,经验风险最小化的过程满足差分隐私,α是与隐私预算ε及经验风险最小化函数敏感度相关的参数。参与方从服务器端下载参数也需添加噪声。添加噪声的大小取决于函数Fi(·)的敏感度,由于各参与方的函数敏感度不同,取各个参与方函数敏感度的最大值以保证安全。Geyer 等[61]同样使用高斯机制产生噪声数据,提出一种随机化的参数聚合方法,该方法部署在服务器端,与文献[60]不同之处在于,该方法可防止攻击者识别某个参与方是否参与了训练,而不是只保护参与方中的某条数据。在每一轮迭代中,服务器随机选择若干个参与方加入集合Zt,模型参数仅发送给Zt中的参与方。Zt中的参与方在本地数据上重新训练之后,将参数传给服务器,事先计算出参数聚合操作的敏感度,再采用高斯机制扰动。Liu 等[62]提出一种分层相关传播算法,在训练神经网络模型时计算每个属性对模型输出的贡献度,针对贡献度确定隐私预算,添加自适应的噪声满足差分隐私,在确定输出层的贡献等于模型输出之后,依次计算其余神经元的贡献通过从数据元组中提取同一属性的贡献,可计算出每个属性类对输出的平均贡献度,向属性类的贡献度中添加拉普拉斯噪声以保护数据隐私。Hu 等[63]利用差分隐私技术解决参与方计算能力各异、数据结构异质情况下的隐私保护,提出了个性化联邦学习中的隐私保护问题,同样是在参与方的中间参数中添加高斯噪声,设置了两个关键参数W和Ω,W是m个参与方的参数向量构成的矩阵,Ω为表示各参与方之间参数关系的协方差矩阵,则目标函数可表示为:,求解时迭代多轮直到收敛后可求得最优模型参数。
图3 基于差分隐私的参数安全聚合Fig.3 Secure parameter aggregation based on differential privacy
降低添加的噪声量是基于DP 的隐私保护方法的研究要点。Liu 等[51]提出了一种基于概要(sketch)数据结构的联邦学习隐私保护方法。sketch 用少量数据描述全体数据的特征,牺牲了数据描述的准确性,但降低了数据存储及处理代价。sketch 仅描述数据的部分特征,达到同样的ε-差分隐私在sketch 上添加噪声量明显小于在原始参数上添加的噪声量。Liu 等[51]利用sketch 结构[64]实现cross-device 场景下参与方模型更新参数的隐私保护,提出并证明了一个重要的规则:Count-sketch 和Count-Min 在模型空间明显较大时能实现差分隐私,因此将应用场景放在cross-device 联邦学习场景下。利用“参与采样+传送参数sketch”的方法实现了参数的隐私保护,并在线性回归、多层感知模型、循环神经网络模型上进行了实验,结果表明在达到ε-差分隐私的情况下,通信代价下降到传送原始参数通信代价的10%。差分隐私还可结合安全多方计算技术减少噪声添加量。经典差分隐私方法需添加方差为C2σ2的高斯噪声以实现隐私保护。假设联邦学习架构中可信成员数为t,Truex 等[65]采用SMC 技术将添加的噪声量从N(0,C2σ2)减少到
上述基于DP 的安全聚集对隐私预算ε要求颇高,每一轮迭代所使用的隐私预算满足顺序合成定理(Sequential composition),所有迭代轮次所用隐私预算为ε,在迭代轮数不能确定的联邦学习过程中,事先为每一轮迭代分配多少隐私预算难以估计。基于混洗模型的安全聚集可在一定程度上避免上述问题。混洗模型是用来实现本地化差分隐私的一种模型,是ESA(Encode-Shuffle-Analyze)模型[57]的核心思想。Shuffle 是一个介于客户端和服务器之间的可信部件。Ghazi 等[66]使用混洗模型架构实现了联邦学习中的安全的多方聚合,确保通过添加随机噪声项传递给聚合服务器的单个数字完全随机,而总和是一个固定值,通常情况下可为零。零和噪声的加入不需用户之间的协调。每个本地混淆器(local randomizer)的输出接近于完全随机,对于所有可能输入与真实输入相同的和,可计算出与该输入一致的多种分解形式,从而无法逆推本地混淆器的输出。Shuffle 模型可以“放大”隐私保护度,即使用较小的本地隐私预算,实现全局数据模型上更大的隐私保护度[67]。
2)模型发布阶段的隐私保护。
模型发布阶段的隐私保护包括模型参数隐私保护与预测结果隐私保护。Hamm 等[68]利用差分隐私技术对联邦学习全局模型参数进行扰动。针对分类模型,采用多数投票的方式确定全局模型的分类结果,在输出全局模型参数上添加符 合ρ(η) ∝e-α||η||分布的噪声数据,其中α=λε2。Jayaraman 等[69]在联邦学习下对模型训练阶段的扰动和模型发布阶段的扰动进行了对比。提出参与方在安全计算中聚合本地模型,在发布模型之前添加拉普拉斯噪声的隐私保护方法,并证明了该方法的隐私放大效果。实验证明该方法能够实现与未采用隐私保护的模型十分相近的模型可用性。
Triastcyn 等[70]提出利用贝叶斯差分隐私实现模型训练及模型发布时的隐私保护。贝叶斯差分隐私与传统差分隐私的不同之处在于,两个相邻数据集相差一条符合p(x)分布的随机变量记录,而不是一条确定的数据记录。添加符合高斯分布的噪声达到贝叶斯差分隐私,但需要计算每轮迭代的隐私代价,累加各轮隐私代价后计算参数ε和δ的界限值。在参与方数据分布较相近的情况下,BDP 与传统差分隐私相比,具有显著的优势。
3.1.3 总结与分析
基于差分隐私的隐私保护技术通过添加随机噪声或采用随机应答机制就可实现隐私保护,不会带来额外的计算开销。研究的关键问题主要在于:1)依据添加噪声后的数据需进行何种聚集运算,计算运算函数敏感度,量化噪声添加量;2)在确保隐私度的前提下设法减少噪声数据的添加量,如结合SMC 技术、使用特殊的数据结构或引入混洗机制。
基于差分隐私的方法虽然有效,但噪声数据的引入会给模型可用性带来影响,如增加模型收敛的迭代次数、影响运行时间和通信代价、降低模型预测的精确度等。此外,由于隐私预算的限制,差分隐私处理高维数据后的可用性有待于进一步提高;基于混洗模型的方法需要可信第三方,若参与方中存在恶意用户,混洗模型就无法达到其宣称的隐私保护度。
3.2 基于加密的隐私保护技术
用于联邦学习中的加密技术主要是同态加密技术。
3.2.1 基本概念
同态加密是一种允许用户直接在密文上进行运算的加密形式,得到的结果仍是密文,解密结果与对明文运算的结果一致。即:给定明文数据x1和x2,使用同态加密之后的密文分别表示为[x1]和[x2],则其同态性可表示为:
1)加法:[x1]⊕[x2]=[x1⊕x2];
2)乘法:[x1]⊗[x2]=[x1⊗x2]。
根据同态加密支持的运算种类和次数,又可分为全同态加密(Fully Homomorphic Encryption,FHE)[71]、部分同态加密(Partially Homomorphic Encryption,PHE)及类同态加密(Somewhat Homomorphic Encryption,SHE)[72]。FHE 支持密文上任意计算的同态性,且不限制计算次数,虽然足够安全可靠但计算开销太大;PHE 仅支持加法或乘法运算的同态性;SHE 介于上述两者之间,是一种支持有限次加法和乘法运算的加密方法。AHE(Additive Homomorphic Encryption)则仅支持加法运算的同态性。由于同态加密的良好性质,可委托第三方对数据进行处理而不泄露信息。常用的同态加密算法有Paillier 加密[73]、RSA 加密[74]等。
3.2.2 实现原理
利用同态加密对本地模型参数、数据加密,服务器无法获知参与方的模型参数,也无法获知参与方的原始数据或预测结果,保护了训练阶段及预测阶段的数据隐私。图4 展示模型训练阶段基于同态加密的参数安全聚合过程。下面分别介绍同态加密用于模型训练阶段及模型预测阶段技术。
图4 基于同态加密的参数安全聚合Fig.4 Secure parameter aggregation based on homomorphic encryption
1)模型训练阶段的隐私保护。
模型训练阶段的隐私保护任务主要是保证训练过程中的中间参数不泄露。Phong 等[75]基于加法同态加密方法AHE 实现了一个保护隐私的深度学习算法PPDL(Privacy-Preserving Deep Learning)。算法分别部署在参与方和聚合服务器上。每个参与方从服务器下载全局加密参数,并用私钥sk解密后得到权重参数,进而可得权重向量wglobal。在本地数据上训练模型,利用AHE 加密方法将参数加密为E(-α⋅G(i))后传送给聚合服务器,服务器收到参与方发来的参数后无需解密,计算+E(-α⋅G(i))更新参数值。该方法通过理论分析与实验,验证了该方法牺牲了效率但不损失模型的精确度。Zhang 等[33]以同态加密和中国余数定理(Chinese Reminder Theorem,CRT)为基础,研究了联邦学习神经网络训练中的隐私保护问题与可验证问题。在数据处理过程中,参与方Pi将神经网络每一层的梯度值wi分成r份,联合各个分值做线性同余运算,利用CRT 原理可得到唯一的解,表示为,随后利用Pi的私钥对其加密,得到[]pk,Pi利用同态哈希函数h 和双线性聚合签名x计算签名值σi=(h())x,并将加密值和签名同时发送给服务器。服务器收到加密梯度值和签名后,直接在密文上聚合各个参与方上传的参数,得出聚合结果。验证阶段,参与方需要检验服务器是否诚实地聚合了上传的参数,先将参数解密获得,如果公式e(g1,σ)=e(,h())成立则可验证服务器诚实,其中,e 为双线性映射,g1是一个随机生成数。随后,计算modmi得到每一层的梯度值。反复执行上述参数“上传-聚合-下载”过程,直到模型收敛为止。
2)预测阶段的隐私保护。
预测阶段的隐私保护最早出现在“机器学习即服务(Machine Learning as a Service,MLaaS)”场景中。数据持有方将数据上传给MLaaS 服务器,服务器将预测结果返回给数据持有方。在该交互过程中,数据持有者的数据及预测结果都泄露给了MLaaS 服务器。由于同态加密算法仅对加法及乘法运算有效,非线性运算仍由数据持有方完成,将中间结果加密后发送给云服务器,云服务器将计算结果返回给数据持有方,直到训练完成[76]。显然,这种方法把中间结果暴露给了服务器。Rahulamathavan 等[77]利用Paillier 加密技术将支持向量机(Support Vector Machine,SVM)模型的函数及分类样本转换为密文的形式,客户端以加密格式将数据样本发送到服务器。服务器利用同态加密属性直接在加密数据上分类样本。若部分运算不能由同态性质处理,则客户和服务器之间基于安全两方计算协议进行有限次交互。Xie 等[78]提出一种保护隐私预测方法Crypto-nets,将加密后的数据传送给神经网络模型进行预测,预测结果也同样用加密的方式传给用户,可以保证在模型预测阶段不泄露隐私。由于神经网络模型的函数不是多项式函数,故一个关键问题是如何在密文上利用神经网络模型进行预测。Xie 等[78]提出可以根据Stone-Weierstrass 定理构造一个逼近神经网络函数的多项式函数,从而可使用同态加密进行预测和输出。
3.2.3 总结与分析
基于加密的隐私强化技术可以达到较高的隐私保护度,既可以保护训练阶段中间参数的隐私不泄露,也可以保证预测阶段的预测结果隐私不泄露。同时,不需多项式逼近的同态加密方法,不牺牲模型可用性,但是同态加密需要价高的计算花费及通信代价,且其不支持机器学习中sigmoid 函数、softmax 函数等非线性运算,需要利用多项式近似表示这些函数,因此在一定程度上造成模型精度的下降。基于同态加密的隐私保护技术计算代价较高,不适于参与方计算能力较差的场景;但在要求较高隐私保护度的场景下,同态加密依然不失为一个最佳选择。
3.3 基于SMC的隐私保护技术
安全多方计算(SMC)[23]可使多个参与方以一种安全的方式正确执行分布计算任务,任何一方不能获取其他参与方的额外信息。
3.3.1 基本概念
安全多方计算的原理可描述为:有n个参与方P1,P2,…,Pn,每个参与方Pi持有1 个秘密输入mi,在不泄露mi的情况下,n个参与方可协作计算出函数f(mi)的值。参与方Pi可能是诚实参与方、半诚实参与方或恶意参与方。
多方安全计算的协议众多,在联邦学习中常用的协议有安全两方计算协议与秘密共享协议[79]。Yao[80]使用混淆电路(Garbled Circuits,GC)技术将计算函数表示为布尔电路,实现了安全两方计算,保证在半诚实模型下的计算安全性。秘密共享协议(Secret Share,SS)包括(t,n)门限秘密共享协议[80]、Blakley 秘密共享协议[81]和中国余数定理。(t,n)门限秘密共享协议是指,用户将某个秘密信息s分成n份,任意t(t≤n)份可以重构s,而任何t-1 份均无法重构s。
3.3.2 实现原理
基于SMC 的隐私保护技术能保护联邦学习模型训练阶段的隐私,但无法保护预测阶段的隐私。Kanagavelu 等[82]提出了一种基于SMC 的两阶段联邦学习架构,重点保护参与方生成的本地参数wi,参与方将wi分解为n个无意义的值:前n-1 个值是随机数,第n个值通过公式V(i,n)=(V(i)-Q计算得出。参与方之间互相秘密交换份额,每个参与方持有参数向量的一部分。参与者对秘密份额进行局部聚合,再做全局聚合得到w*。两轮秘密份额的交换和相加之后,可以消除份额拆分的随机性,即,该方法的参数聚合机制如图5[82]所示。为了解决互相交互秘密份额导致通信代价过高的问题,采用两阶段联邦学习架构,通过投票方式产生参与方委员会,委员会成员之间进行秘密份额的交换与聚合,产生聚合后的参数。
图5 基于SMC的参数安全聚合Fig.5 Secure parameter aggregation on SMC
Bonawitz 等[83]使用一次性掩码对本地模型参数加密。将n个参与方做全序排列,任意一对参与方(u,v)用某个随机向量su,v作为加密参数,参与方u 的参数wu与该向量求和,参与方v 的参数wv就与该向量求差,保证服务器收到的每一对参与方的参数总和不变。但这种方法通信代价太大且容错度较低。为了降低通信代价,Wu 等[84]提出了一种名为Pivot 的方法。该方法使用TPHE(Threshold Partially Homomorphic Encryption)和SMC 的混合框架训练垂直分割数据的树模型。每个客户端在TPHE 的帮助下执行尽可能多的本地计算以降低通信代价。与之前的结构不同,Pivot方法需要一个超级参与方协调训练过程。在初始化阶段,参与方确定协作训练某种树模型,并对齐关联样本、确定参数,如密钥、修剪阈值等。参与方共同生成门限同态加密密钥,接收公钥pk和私钥ski。在模型训练阶段,超级参与方广播加密参数协助其他参与方计算加密统计信息。然后,参与方联合将上述加密统计信息转换为SMC 兼容的输入信息,也就是若干份秘密分享的值。计算当前树节点的最佳分裂方式,并以加密形式表示。整个过程中不会向参与方披露中间信息。获取树模型后,整个树以明文形式发布。内部节点的分割阈值和叶节点上的预测标签以秘密共享的形式出现,参与方不可见,保证不会泄露除预测标签外的任何信息。
3.3.3 总结与分析
基于安全多方计算的联邦学习隐私保护的方法能保证较高的隐私保护度,不需要可信聚合服务器即可完成学习任务,但安全多方计算并非解决联邦学习中隐私问题的唯一方法,这是由于:1)基于SMC 的隐私保护方法的计算代价大、通信轮数多。参与方之间的信息交互造成的通信代价可能成为整个训练过程的瓶颈,基于SMC 的隐私保护技术的研究目标在于降低系统通信代价。2)服务器无法评估通过秘密共享产生的聚合参数是否可用。Bonawitz 等[83]指出有恶意参与方存在的情况下,此类方法无法保证联邦学习模型的可用性。3)基于SMC 的方法仅能对训练过程中的参数进行隐私保护,无法对预测结果进行隐私保护。
3.4 其他方法
近年来,区块链技术的出现也为隐私保护技术提供了新的研究思路。区块链是一个分布式的共享账本和数据库,具有去中心化、不可篡改、全程留痕等优点。联邦学习中参与方众多,分布式记账方式不仅能保证本地模型参数不泄露,还能保证参数聚合过程是可审计的,亦可通过调整激励策略,保证参与方对模型的贡献/收益比是公平的。
基于区块链的隐私保护以分布式事务分类账方法为基础,记录学习任务的参数、参与客户端本地及全局模型的参数更新,单独设置一个聚合器用来聚合参与方更新的参数。更新后参数包装在本地更新事务中,在矿工的协助下记入总账。Awan 等[85]提出了一个基于区块链的隐私保护联邦学习框架,利用区块链的不变性和分散信任属性来保证模型更新的安全。Weng 等[86]提出使用秘密共享协议和区块链技术实现训练过程中的参数隐私保护。参与方对本地计算的梯度值分别加密并上传,通过秘密分享协议获得更新的参数。协同解密需要至少t个参与者提供其秘密分享片段。在梯度值收集过程中,参与者的事务包含加密的梯度值及正确性验证值,允许第三方审核参与方是否上传了正确加密的梯度值。另一方面,矿工通过记录在DeepChain 中的事务来计算全局参数更新结果。参与方下载全局参数并协同验证。任何第三方都可以审计全局参数值是否正确。此外,DeepChain 提供了一种基于区块链的价值驱动激励机制,迫使参与方正确上传本地参数。
基于区块链的隐私保护技术具备可审计、无需可信节点、安全性高等优点。但区块链技术本身的局限性也限制了其在隐私保护应用领域的应用,如:吞吐量有限、可扩展性差等。因此,在大规模数据的应用场景下,基于区块链的隐私保护方法的有效性一般。
4 隐私保护性能衡量标准
依据联邦学习的过程,隐私保护程度可分为计算隐私保护(Computation Privacy)和输出隐私保护(Output Privacy)[65]。计算隐私保护可确保在聚合参与方参数时不会泄露单个参与方的结果;输出隐私保护,指敌手在反复查询模型时,防止敌手推断出训练集中的某条记录或部分数据的信息。依据联邦学习的架构,隐私保护度可分为用户数据隐私保护(Instance Level Privacy)、参与方隐私保护(Client Level Privacy)及联合隐私保护[70]。用户数据隐私保护目的是隐藏单个用户的数据,更具体地说,要限制学习结果分布上的任何单个用户暴露,模型参数的分布不能暴露单条用户数据。参与方隐私保护指参与方上传给服务器的中间参数不会泄露。参与方隐私保护可为用户数据提供额外的保护层,以防不可信服务器获取参与方的数据更新。联合隐私保护指同时达到用户数据隐私保护和参与方隐私保护。
依据联邦学习中的隐私保护方法,评价标准包括隐私保护度、模型可用性、收敛迭代次数和通信代价。其中,隐私保护度的衡量标准主要有隐私泄漏率(privacy leakage)及达到的隐私模型,如(ε,δ)-差分隐私、k-匿名等。模型可用性衡量标准包括模型精度、召回率及F1 分数(F1-Score)。收敛迭代次数指模型收敛时的迭代次数上限。通信代价的主要衡量标准包括传输数据量、算法运行时间等。
基于差分隐私的隐私保护技术采用达到的隐私模型来衡量隐私保护度,训练阶段对模型参数的隐私保护度可以达到(ε,δ)-差分隐私。文献[60]和[63]中分别计算了达到(ε,δ)-差分隐私时,添加的高斯噪声参数σ的取值:文献[60]计算得出,噪声参数σ的取值是聚集次数T、参与方个数N与隐私预算ε的某个函数;文献[63]得到类似的结论。文献[51]中用泄露隐私概率衡量隐私保护度,即使服务器能完全从sketch 中恢复参数值,参数隐私泄露的概率不超过1/n,n是模型参数的维度。在模型精确度方面,差分隐私在训练过程中引入噪声数据,影响模型精确度或训练的迭代次数。文献[63]中采用模型收敛迭代次数来衡量噪声数据对模型训练的影响,定义了一次更新质量的概念,用以衡量每次迭代的下降率,最后计算出模型收敛的迭代次数上限。
基于同态加密的隐私保护技术能达到“不泄露任何信息”的隐私保护度,线性模型的模型精度不受同态加密的影响;但涉及机器学习中sigmoid/softmax 函数等非线性运算时,需要利用多项式近似表示这些函数,会造成模型精度的下降。基于同态加密的隐私保护技术计算量和通信代价较高。文献[32,75]计算出使用Paillier 加密方法,每轮更新的通信代价是异步SGD 方法的2.93 倍;使用基于LWE(Learning With Errors,LWE)加密方式,每轮通信代价是异步SGD 方法的2.4 倍。
基于多方安全计算的隐私保护技术在隐私保护度上可达到与同态加密相同的效果,不泄露任何隐私,但其通信代价较大。为了降低通信代价,HybridAlpha 方法[87]引入了函数加密(Functional Encryption,FE)方法和差分隐私技术降低传输的数据量。基于SMC 的基准方法的通信量为2mn+n,HybridAlpha 方法将通信代价降低为mn+m+n(n为参与方数量,m为聚集服务器数量)。文献[82]先采用P2P(Point to Point)的方式选举少量FL 参与方作为模型聚合委员会成员,参与方和委员会成员交互参数后,再将所有参与方的参数发给服务器,降低了通信代价。单纯采用SMC 技术不会影响模型精度,但有些研究工作将SMC 技术与差分隐私相结合,以求降低通信代价的同时减少噪声量,这种方式则会对模型精度产生影响。
5 总结与展望
联邦学习为构建跨企业、跨数据、跨领域的大数据和人工智能生态圈提供了良好的技术支持。为了进一步强化联邦学习的隐私保护特质,研究者们提出了基于加密、差分隐私、安全多方计算、区块链的隐私保护技术。本文列举了各类技术中的代表性研究工作,如表3 所示。上述四类隐私保护技术大多是在训练阶段以保护“本地模型参数”为基本任务,防止参与方与服务器在参数交互时泄露数据隐私。多数算法都在公开的数据集(如MINST、SVHN 等)上进行了实验,评估了模型收敛率、可验证性及通信代价等衡量标准。
表3 联邦学习中的隐私保护方法的比较Tab.3 Comparison of privacy-preserving methods in federated learning
随着联邦学习研究的深入与应用领域的拓展,在研究和应用领域仍有一些挑战性问题亟待解决。
1)隐私保护技术对联邦学习模型可用性影响的量化研究。在联邦学习中,模型的收敛性还没有理论上的证明,仅有一些研究提供了近似收敛的证明。Li 等[94]研究了FedAvg在非独立同分布数据上的收敛性,结果表明,收敛速度与局部迭代的总次数成反比。如果采用差分隐私方法提高联邦学习的隐私保护度,在局部模型的中间参数中加入噪声数据,亦不能保证模型的收敛性。即使模型最终收敛,添加噪声数据后的模型性能表现不容乐观。有研究表明,在深度学习网络中加入人工噪声后,模型可以收敛,但在MNIST 数据集上训练分类模型并进行预测时,精度下降了40%左右[95]。因此,模型的收敛性和预测精度方面还有以下问题需要研究:第一,研究在理论上证明保护隐私的联邦学习模型收敛率的方法;目前的大多数研究在隐私保护处理之后,给出了隐私保护度与模型可用性的实验验证,但未从理论上证明隐私保护处理后的联邦学习模型的收敛问题;即使模型具备收敛性,收敛率和模型性能也需要量化的分析和研究。第二,联邦学习模型的隐私保护度与模型收敛率之间的关系需要进一步的研究;定量衡量联邦学习模型在隐私保护处理之后的精确度、通信代价、经验损失函数的变化等问题也需要深入研究。
2)联邦学习架构中隐私保护技术的研究。在经典的隐私保护技术,如差分隐私技术、安全多方计算及加密技术中寻求新的思路。基于差分隐私的保护技术计算量小,隐私保护度较高,但目前该研究领域仍有以下问题有待探索:第一,噪声的添加会导致全局机器学习模型的收敛速度变慢,模型性能和隐私度是矛盾的[60]。高隐私保护度会造成较低的模型可用性和较慢的模型收敛速度,隐私保护度、模型可用性、模型收敛速度之间均衡的定量关系值得研究。第二,对一定的隐私保护级别,增加参与方数量可能会提高模型收敛速度,但缺乏理论上的证明;对一定的隐私保护级别,存在最佳的聚合时间及通信轮数,也需要定量的研究。第三,当参与方数据非独立同分布时,某一参与方对参数更新贡献较大时,需限制其对全局参数更新的贡献大小,防止其结果影响整个更新。
3)联邦生成模型中的隐私保护技术研究。生成模型中也存在隐私泄露的问题,主要原因是生成模型数据集中分布在训练数据点上,且训练样本很容易被记录下来。当生成模型应用到私人数据(如用户面部识别的图像)或敏感数据(如患者医疗记录)上时,会泄露个人敏感信息。目前,已有一些研究针对生成模型进行隐私保护,Xie 等[89]提出了一种满足差分隐私的 GAN 模型 DPGAN(Differentially Private Generative Adversarial Network),直接发布Wasserstein 距离相对于训练数据的梯度值会暴露训练集的数据特征,在此梯度值上添加噪声数据保护隐私。Acs 等[90]提出了一种满足差分隐私的基于k个神经网络的生成模型DPGM(Differentially Private Generative Model),利用随机傅里叶特征将高维数据转换为低维数据,利用一种满足差分隐私的Lloyd’s 算法,将低维数据聚类。在低维数据生成的簇上训练生成模型,在训练过程中使用满足差分隐私的随机梯度下降方法,噪声值添加到梯度更新中。可见,已有研究工作主要是在训练的梯度值上添加符合高斯分布的噪声实现的,然而,生成模型往往是多层神经网络构成的,结构非常复杂,噪声的添加会影响生成模型的精确度。另外,为了生成更复杂的数据,例如个人照片或各种序列数据,还需要对具有多个隐藏层的深度神经网络进行有效的隐私保护训练,有很多内容值得深入研究。
4)联邦学习中的参与方隐私异质性与模型可用性研究。联邦学习的一个重要优势在于可在参与方的数据格式各异、计算能力各异的情况下,协同多个参与方联合训练机器学习模型。目前的隐私保护技术可以保证结构各异的参与方达到相同的数据隐私保护度,最终获取相同的模型参数[63]。然而,各个参与方对隐私保护度与模型可用性的需求可能各不相同,有些参与方希望牺牲一些数据隐私换取更好的模型性能,而有些参与方刚好相反。目前鲜有研究考虑联邦学习系统中的“隐私异质性”,在差分隐私背景下,可以给参与方分配不同的隐私预算,初步解决隐私异质性问题。然而,笔者认为,该问题的关键在于模型参数的聚合策略,可设计智能的模型参数聚合策略区分参与方对隐私保护度和模型性能的个性化需求。
5)隐私保护度、通信代价、模型精确度之间的权衡,建立统一的隐私保护度与模型可用性衡量标准。已有的研究方法在隐私保护度、通信代价、模型精确度上难以兼得,或者牺牲隐私保护度换取模型精度,或牺牲通信代价换取隐私保护度。从研究者角度来看,需要定义一个统一的衡量指标体系,综合考虑隐私保护度、模型精度、通信代价及计算开销。统一的隐私保护度与模型可用性衡量标准可为各种研究方案的对比奠定基础。
6)针对cross-device 场景下离线客户端对隐私保护度的影响,研究隐私保护技术对系统稳定的鲁棒性。上述隐私保护算法假设所有参与方在每一轮参数交互过程中都可以连接到服务器,不存在无法连接的情况。当参与方数量较多时,如cross-device 场景下,一些客户端会由于网络连接中断或其他原因暂时无法连接到服务器。若采用差分隐私添加噪声的形式实现参数的隐私保护,则客户端的退出会导致添加的噪声太少,无法达到要求差分隐私的隐私保护度。一种保守的方法是增加每个客户端的噪声量,即便存在一定比例的离线客户端,剩余客户端在进行安全参数聚合时仍能达到差分隐私的隐私保护度。但是当客户端没有掉线时,易产生大量的额外噪声,导致模型精度下降。挑战性问题在于如何处理大规模客户端参与的联邦训练模型,且能保证隐私保护技术在系统不稳定时的系统鲁棒性。
7)面向应用领域的联邦学习隐私保护新技术研究。由于数据隐私策略与数据孤岛问题的产生,联邦学习在未来的发展中,应用领域将越来越广泛,诸如医疗大数据、财经大数据、个人移动设备大数据等涉及敏感数据的领域都可能使用联邦学习联合训练模型。联邦学习架构不同,其隐私保护技术所采用的方法也可能不尽相同。在cross-device 的应用场景中,更注重个性化隐私保护,需研究异质性隐私;在crosssilo 场景下,可信服务器可能难以完全可信,如何设计无可信服务器的隐私保护技术、研究在去中心化联邦学习架构中的隐私保护方案是挑战性问题。此外,基于应用领域的不同需求,一些安全领域的技术如机密计算等、可信执行环境等与隐私保护技术的结合也是一个值得研究的问题。
6 结语
作为人工智能的重要分支,机器学习和联邦学习技术已经成为处理大数据不可或缺的技术手段。而人工智能领域中的伦理问题向来受到全社会的关注。数据隐私保护是人工智能面临的重要伦理问题之一,已经成为《人工智能道德准则》[96]的组成部分。数据隐私保护技术的解决方案通常包括加密、泛化、扰动等途径,为了适应联邦学习或机器学习模型中强大的攻击能力,数据隐私保护技术可能需要更强的隐私保护模型或者结合几种隐私保护技术,设计出轻量级的隐私保护算法,在技术上探讨机器学习/联邦学习架构中的隐私保护技术,使得机器学习/联邦学习模型的机密性、完整性、可用性三个标准完美均衡;另一方面,需要制定适当的法律法规与政策引导,技术和法规的有机结合可作为解决机器学习隐私与伦理问题的新探索。除了数据隐私与安全,人工智能中的伦理问题还包括数据透明、算法的多样性、非歧视性和公平性等其他重要部分,同样需要技术上的深入研究。