APP下载

面向非独立同分布数据的联邦学习数据增强方案

2023-02-20汤凌韬王迪刘盛云

通信学报 2023年1期
关键词:差分客户端标签

汤凌韬,王迪,刘盛云

(1.数学工程与先进计算国家重点实验室,江苏 无锡 214125;2.上海交通大学网络空间安全学院,上海 200240)

0 引言

联邦学习[1-2]以深度神经网络为载体,通过本地训练和中央聚合的模式,使各节点在数据不出本地的情况下共同训练一个全局模型,有效打破了不同团体和组织间的信息壁垒。然而,联邦学习实用化面临的一个关键问题是:节点间的数据往往是非独立同分布(non-IID,non-independent and identically distributed)的。由于面向的采样对象不同或采样设备存在规格差异,各节点的本地数据往往不服从同一分布,表现出较大的差异性。non-IID 数据会影响全局模型的预测准确率,甚至导致模型不收敛,从而使联邦学习任务不能取得预期的效果。例如,2 个节点希望共同建立一个判断就诊人员是否患病的二分类模型,节点A 只拥有患者样本,节点B只拥有健康人员样本,则A 训练得到的模型倾向于将所有样本判定为“患病”,而B 则相反,此时2 个本地模型都不具备基本的可用性,直接对模型进行聚合容易偏离全局最优的优化方向,因此全局模型不会有较高的准确率。

一些文献就non-IID 数据对模型精度的影响进行了分析。文献[3]证明了数据分布的差异会导致各节点训练得到的本地模型逐渐收敛到局部最优,而偏离了全局最优的方向,严重影响聚合后的全局模型精度,学者将这种现象称为“本地模型偏移”或“节点偏移”。文献[4]则认为节点在模型训练的过程中发生了“知识遗忘”,虽然所有参与节点会在本地训练一定轮次后进行参数聚合,但数据分布的固有差异仍会导致节点在下一轮本地训练中不断巩固自身样本的知识,而逐渐忘记源于其他节点的样本知识。文献[5]将实际场景下的non-IID 数据分为标签分布偏斜、特征分布偏斜以及样本数目偏斜三类,并通过实验验证标签分布偏斜对模型精度造成的影响最大。

针对non-IID 数据,提高模型精度的工作主要存在以下困难:1) 联邦学习对隐私保护有较高的要求,节点间无法简单地通过共享原始数据来平衡数据分布;2) 联邦学习涉及多方节点的计算和通信,任何额外的工作量都可能导致任务时长成倍增加;3) 方案应该具备普适性,不能只适用于某种特定的non-IID 数据分布情形。

为此,本文提出了一种面向联邦学习的数据增强方案,可以在保护用户数据隐私的前提下,解决non-IID 数据引起的模型精度下降问题,同时不影响联邦学习主任务的效率。本文的主要贡献如下。

1) 提出了一种联邦学习数据增强(DA-FL,data augmentation in federated learning)框架,通过生成虚拟样本及标签并在节点间共享,平衡节点间的数据分布差异,从而减轻训练过程中各节点的模型偏移现象。

2) 提出一种隐私样本生成(PSG,private sample generation)算法,基于生成式对抗网络(GAN,generative adversarial network)生成虚拟样本,并利用差分隐私机制保护GAN 的训练过程,防止敌手利用虚拟样本进行逆向攻击。

3) 提出一种隐私标签选取(PLS,private label selection)算法,利用差分隐私机制防止虚拟样本的对应标签泄露用户隐私。

4) 基于MNIST、SVHN、Cifar10 等数据集,在多种non-IID 数据划分方式下验证了方案的有效性。实验证明,所提方案能有效提高模型准确率,加速模型收敛,并取得了比基准方法更好的效果。

1 相关工作

为解决联邦学习中non-IID 数据引起的模型精度下降问题,相关工作主要分为3 个方向。

1) 为本地训练的损失函数添加正则项,从而控制和减轻本地模型偏移现象[6-8]。

2) 改进中央服务器的聚合算法,使聚合后的模型更新方向更贴近全局最优[9-11]。

3) 通过节点间共享数据来实现数据的补充和增强,缓解数据的non-IID 程度[12-14]。

事实上,除上述3 个方向外,个性化联邦学习[15-17]根据每个节点自身的数据特点和任务目标,学习个性化的模型,也有助于缓解数据非独立同分布带来的问题,然而本文主要关注建立统一、可用的模型,因此对该方向不作展开。

添加正则项和改进聚合算法两类方法具备模块化、效率高的优势,对原有联邦学习算法只需进行少量改动,且不会明显增加系统开销。然而其缺点为:1) 效果有限,无法带来明显的模型精度提升;2) 普适性不强,只适用于某些特定non-IID 数据分布情形,而当节点间数据分布情况发生改变时,方法效果减弱甚至降低模型精度[5]。

数据共享方法从本质上缓解了节点间数据非独立同分布的状况,并且扩充了节点的本地数据集,因此对模型精度提升更明显。然而该方法往往面临新的问题,一是增加了隐私泄露的风险,二是增大了计算和通信开销。例如,文献[4]中提出各客户端在本地随机选取部分数据进行共享,但未考虑数据隐私问题,贡献的数据是明文。文献[18]提出了COVID-GAN,整合多种来源的数据训练一个生成式对抗网络,来估计现实世界的人口流动,以便帮助相关部门制定决策,该方法虽然避免了明文传输,但一些研究表明敌手仍能通过访问生成器实现逆向攻击[19-20]。文献[14]提出一种基于样本平均的数据增强方法,将多个样本进行平均,客户端之间通过共享这些平均样本来辅助校正本地训练,该方法通过平均计算来隐藏个体样本信息,但未能给出严格的隐私性证明。文献[13]提出了一种零次数据增强方法,客户端可根据上一轮的全局模型参数生成虚拟数据,无须接触其他客户端的真实数据。然而该方法只支持有限的模型架构,并且为了生成虚拟数据,客户端每轮训练需要求解额外的优化问题,影响了主任务的效率。

针对这些问题,本文提出一种隐私保护的联邦学习数据增强方案,与上述工作不同,所提方案中数据增强阶段不依赖于主任务的执行流程和中间结果,因此可在主任务前任意时间进行,而不影响主任务的效率,增强了方案的实用性。另外,所提方案利用差分隐私技术保护用户样本的隐私,防止敌手进行逆向攻击,提高了方案的隐私性。

2 理论基础

2.1 生成式对抗网络

生成式对抗网络是由Goodfellow 等[21]于2014 年提出的一种机器学习架构,包含生成器G 和判别器D 这2 个模型。训练过程可看作2 个模型的零和博弈,生成器输入低维随机噪声,输出虚拟样本,其优化目标是尽可能让判别器将虚拟样本误判为真实样本;而判别器输入真实样本和虚拟样本,输出每条样本是真实样本的概率,其优化目标是尽可能正确区分两类样本。该过程可看作如下优化问题

学者后续对GAN 进行了许多优化和改进,例如,CGAN(conditional generative adversarial network)[22]允许生成器生成指定类别的数据,DCGAN(deep convolutional generative adversarial network)[23]改变生成器和判别器的模型架构,将全连接层替换为卷积层和卷积转置层,使生成器能更好地生成复杂图像。WGAN(Wasserstein generative adversarial network)[24]用 Wasserstein 距离代替Jensen-Shannon 散度,来解决真实样本和虚拟样本分布不重叠时生成器的梯度消失问题,从而将优化问题(1)转化为

其中,fw是判别器尝试拟合的函数,且满足K-Lipschitz 连续。

2.2 差分隐私

差分隐私是由Dwork 等[25]提出的隐私保护框架,最早用于保护数据库被查询时的样本隐私。差分隐私的概念可被扩展至任意算法。

若随机算法M 对任意只相差一个元素的相邻集合D和D′,以及M 所有可能输出组成的集合S,满足

其中,概率取自对M 的随机掷币,称M 满足(ε,δ)-差分隐私。

满足差分隐私的算法简称为DP 算法,其输出对任意数据都不敏感,因此杜绝了敌手通过输出分布的差异推断一条数据的敏感信息。差分隐私一般通过对算法输出添加噪声来实现,以高斯机制为例,假设f是对数据集D的一个查询函数,查询返回结果为f(D),此时对结果添加噪声 N (0,σ2),当满足时,算 法 M(D) =f(D) +N (0,σ2)满 足(ε,δ)-DP[26],其中,ε∈ (0,1),。可见噪声方差由隐私预算(ε,δ)和查询函数敏感度Δf共同决定。

2.3 满足差分隐私的机器学习

文献[27]基于差分隐私技术提出了一种典型的隐私保护机器学习框架——差分隐私随机梯度下降(DP-SGD),在模型训练过程中,对一批样本中每个样本得到的梯度进行剪裁,平均梯度后再添加噪声,最后更新模型。该方法提供了模型单步更新的隐私保证,而模型训练需要经过多轮迭代,为统计全局的隐私保护程度,文献[27]进一步提出了隐私计量方法Moments Accountant,用于计量训练全流程的隐私损失,根据该损失可以计算满足差分隐私定义的参数(ε,δ)。

基于DP-SGD 框架,学者们对满足差分隐私的生成式对抗网络(DP-GAN)进行了探索[28-29],由于只有判别器接触真实数据,故在训练中对判别器的梯度添加噪声,使其满足差分隐私,由后处理定理[26]可知,在不接触原数据的情况下,对差分隐私算法的输出做任意计算都不会增加隐私损失,因此生成器及其生成数据也满足差分隐私。

3 方案设计

3.1 整体架构

本文的核心思路是通过数据增强的方式,平衡不同节点间数据分布的差异,从而提高最终模型的表现。每个客户端基于本地数据训练一个满足差分隐私的生成式对抗网络,然后用生成器输出一定数目的虚拟样本,并上传至中央服务器,形成一个共享数据集。服务器将共享数据集下发至各客户端,客户端合并本地数据集与共享数据集从而完成数据增强,至此预处理阶段结束。方案的整体架构如图1 所示,以客户端1 为例描绘了本地GAN 训练和生成虚拟样本的过程,实际上所有客户端都同样执行上述流程。

图1 方案整体架构

本文的数据增强方案在预处理阶段进行,而联邦学习的模型训练过程则称为主任务阶段,当主任务开始时,各客户端基于增强后的数据集进行模型训练,与正常联邦学习的流程相同,此处不再赘述。

在方案高效性方面,虚拟样本的生成和客户端本地的数据增强不依赖于联邦学习主任务的执行逻辑和中间输出,除了因客户端本身数据集规模扩大而增加的训练开销,不在主任务阶段引入额外的计算和通信开销,提高了方案的实用性。

在方案可用性方面,注意到GAN 生成的样本是不带类别标签的,可直接适用于主任务为半监督学习的情况。而当主任务是监督学习时,本文利用CGAN技术,先选取一批虚拟标签,再生成对应标签的虚拟样本,后续将主要介绍主任务为监督学习的情况。

在方案的隐私性方面,本文关注个体样本的隐私,分别在虚拟标签选取过程和虚拟样本生成过程引入差分隐私,从而保证敌手无法根据客户端的虚拟样本及标签推断出特定真实样本的信息。

表1 给出了系统参数及含义。

表1 系统参数及含义

3.2 联邦学习数据增强框架

本文提出的联邦学习数据增强框架DA-FL 如算法1 所示。

算法1联邦学习数据增强框架DA-FL

首先,每个客户端Ci计算所需生成的虚拟样本数目mi,由本地数据集Di的规模乘以一个共享比例γ得到,即mi=|D i|γ,设置参数γ是便于仿真时评估虚拟样本数目对联邦学习的提升效果,实际应用中各客户端的共享比例可以不同。

然后,记Ui为Di中所有样本的对应标签集合,例如,客户端Ci本地共5 个样本,其中一个样本属于类别1,其余4 个属于类别2,则Ui= {1,2,2,2,2},易知Ui是一个无序的多重集,且|Ui|=|Di|。客户端Ci从Ui中随机选取mi个标签,称为虚拟标签。3.4 节将改进上述虚拟标签选取方法,使其满足差分隐私。

接着,Ci执行PSG 算法,生成与虚拟标签对应的虚拟样本特征,之后将虚拟样本和标签一并上传至中央服务器,中央服务器整合后下发至所有客户端。

最后,客户端收到源于其他节点的虚拟数据,将其加入本地数据集从而完成数据增强。

算法1 中PSG 算法的描述见3.3 节。注意到,上述框架是模块化的,只涉及预处理阶段的数据增强,而不对后续的联邦学习流程做出改动。因此,现有的联邦学习主任务流程的优化算法理论上都可与本文方案相结合,从而进一步提高non-IID 数据场景中的模型准确率。在第4 节仿真实验中,为客观地对比不同方法的效果,采用基础的FedAvg算法作为本文方案的主任务算法。

3.3 满足差分隐私的样本生成

虽然GAN 生成的样本与真实训练样本不同,但有研究表明通过模型或虚拟样本,仍能发起对训练样本的成员推断攻击[19-20]。因此,本文采用差分隐私保护真实样本的隐私性。

本文基于DP-SGD 框架,在GAN 训练过程中对判别器的每个梯度进行剪裁以控制其敏感度,然后将同一批次的梯度进行平均并添加噪声,同时利用Moments Accountant 统计每轮训练产生的隐私损失。为了使生成器能生成指定类别的样本,对判别器和生成器的模型结构进行修改,用嵌入层对样本标签进行表示,并将其作为判别器和生成器的额外输入。另外,GAN 模型中常使用批归一化技术,而该方法需获取一批样本的整体统计数据,破坏了差分隐私性质[30-31],因此将其替换为实例归一化,并禁止追踪滑动均值与方差,模型架构详见4.1 节。

隐私样本生成算法如算法2 所示。步骤1)~步骤21)是生成式对抗网络的训练主循环,其中,步骤5)~步骤12)为判别器的训练和更新过程,步骤13)~步骤18)为生成器的训练和更新过程;步骤19)~步骤21)利用Moments Accountant 统计当前的累计隐私损失,并计算已消耗的隐私预算,一旦超出预先设定的隐私预算,则停止训练并撤销当前轮次的训练结果;步骤22)~步骤26)利用训练得到的生成器进行样本生成。

算法2PSG 算法

输入生成虚拟样本数目m,虚拟标签,本地数据集D,预定训练轮数T,学习率η,批样本数B,隐私预算 (ε0,δ0),训练梯度剪裁上界c,噪声乘子σ,隐私损失计算函数A

输出虚拟样本特征

3.4 满足差分隐私的标签选取

算法1中客户端除了向服务器提交虚拟样本的特征外,还要提交虚拟标签,所以需要保证选取的虚拟标签也满足差分隐私。

设计标签选取方法需要兼顾隐私性和可用性。一种简单的方法是客户端为每个类别生成相同数目的虚拟样本,且虚拟样本数目为事先约定,则该标签选取过程与本地数据集无关,也不会泄露任何信息。这种方法适用于IID 数据场景,然而non-IID数据场景中客户端可能只拥有某几类的样本数据,对于缺失的类别,生成器无法生成有效的虚拟样本,影响了样本的可用性。

考虑到上述类别缺失问题,以及共享数据集中样本的多样性和全面性,一个合理的方式是使共享数据集的分布逼近全局数据的分布,从而使模型在共享数据集上的优化方向趋近全局优化方向。此时,客户端选取的虚拟标签应该与本地真实标签的分布相同,即不同类别间的虚拟标签数目占比应与本地真实标签保持一致。设全局数据分为L个类别,客户端每个类别的真实样本数目分别为n1,…,nL,每类选取虚拟标签的数目分别为,则应有

但是,该标签采样方法是确定性的,无法抵抗敌手的逆向差分攻击,故在此基础上,引入指数机制(EM,exponential mechanism)对每种类别采样的标签数目进行扰动,具体步骤如下。

1) 对类别k,定义效用函数为

2) 对类别k,令取值为r的概率为

依据上述思路,给出虚拟标签选取算法如下。

算法3PLS 算法

输入虚拟样本共享比例γ,全局样本类别总数L,客户端样本总数n,其中每个类别样本数n1,…,nL

输出虚拟标签

利用算法3 代替算法1 的步骤3),即可保证虚拟标签满足差分隐私。

定理2算法3 满足(ε,0)-差分隐私。

证明如附录2 所示。

至此,根据定理1 和定理2,可以得到算法1的隐私性质。

定理3算法1 满足(ε,δ)-差分隐私。

证明算法1中每个客户端需按顺序执行算法3和算法2,根据差分隐私的组合性质,假设算法2满足 (ε0,δ0)-差分隐私,算法3 满足(ε1,0)-差分隐私,则算法1满足(ε,δ)-差分隐私,其中,ε=ε0+ε1,δ=δ0。证毕。

4 仿真实验

4.1 实验设置

1) 实验环境

本文的实验环境为Amazon EC2 p3.2xlarge,硬件配置为8vCPU、61 GB 内存、Tesla V100 GPU。本文方案基于Pytorch 和Opacus[31]库实现,参与对比的基准方法部分采用了 NIID-Bench[5]和FedLab[32]中的实现代码。

2) 数据集与数据划分

实验数据集为MNIST[33]、FashionMNIST[34]、Cifar10[35]、SVHN[36]。文献[5]详细研究了不同的non-IID 数据划分方式对模型精度的影响,本文从中选择了3种对模型精度影响最大的数据划分方式进行实验,分别如下:1-Label,每个客户端只有一种类别的样本;2-Label,每个客户端只有2 种不同类别的样本;Dir(0.05),客户端的样本服从Dirichlet 分布[10]Dir(β),其中,参数β越小表示非独立同分布程度越高,此处将β设置为一个较小的值,即β=0.05。

本文设置了10 个客户端的联邦学习场景,针对上面3 种数据划分方式,随机生成一组样本分布并固定,以便公平地比较不同方法的效果。图2 展示了non-IID 数据划分情况,每个子图展示了各客户端的样本分布,不同类别样本用不同深浅的灰色标识。

图2 Non-IID 数据划分情况

3) 模型架构

本文使用的GAN 和CNN 分类模型的结构如图3所示。其中,判别器和生成器的主体分别为4 个卷积层(conv)和4 个卷积转置层(upconv),均采用实例归一化。跨步(stride)、填充(padding)等参数设置如图3 所示。判别器和生成器中间层的激活函数分别为LReLU 和ReLU。判别器接收32 像素×32 像素图像和标签作为输入,输出一个判别评分;生成器接收维度为10 的高斯噪声和标签作为输入,32 像素×32 像素图像作为输出。本文所用数据集图像规格为28 像素×28 像素,故对输入判别器和生成器输出的图像进行resize 处理。联邦学习主任务的分类模型主要包含2 个卷积层和2 个全连接层FC,每层卷积后设置最大池化层Max Pooling 和ReLU 激活函数。

图3 GAN 和CNN 分类模型的结构

4) 相关参数

表2 给出了实验参数设置。其中,每轮参与训练的客户端比例设置为1,即所有客户端都参与训练。对于数据集SVHN 和Cifar10,隐私预算ε分别设置为100 和200。

表2 实验参数设置

4.2 方案有效性验证

本节验证方案的有效性。基于图2 所示的数据划分方式,测试了联邦学习经过50 轮通信后的全局模型准确率。同时,在相同的参数设置下,将本文方案与FedAvg[1]、FedProx[6]、SCAFFOLD[7]、FedNova[9]、FedMix[14]进行了对比。其中,对于本文方案,测试了虚拟样本共享比例为0.01 和0.05 这 2 种情况;对于FedProx,超参数μ测试了{0.001,0.01,0.1,1}4 种取值;对于FedMix,超参数λ测试了{0.05,0.1,0.2}3 种取值,分别报告最好的一组结果。另外,对每个数据集测试了集中训练(centralized training)的模型精度,该结果用来估计给定模型架构、训练算法和超参数后,所能达到的模型精度上界。

由表3 可知,本文方案在3 种数据划分方式下,都取得了相对较高的模型准确率,特别是1-Label的极端non-IID 场景下,本文方案在各数据集上都取得了比基准方法更高的模型准确率。由2-Label和Dir(0.05)的实验结果可见,样本数目的不均衡对模型精度的影响相对较小,而客户端本地数据的类别多样性对模型精度的影响较大。在本文方案中,每个客户端的增强数据集包含了所有类别的样本,因此能取得较好的模型表现。

表3 不同方法的模型测试准确率对比

图4 给出了不同方法训练中的模型准确率变化情况,其中,本文方案设置γ=0.05。从图4 可知,本文方案在non-IID 数据场景中可以使模型快速收敛,在1-Label 下,基准方法训练过程中的模型准确率振荡幅度较大甚至不收敛,而本文方案中模型在前5 轮通信即可收敛至极值点附近。相比于上述情形,在2-Label 下,基准方法与本文方案的最终模型准确率差距缩小,但基准方法的收敛速度较慢,所需通信轮次较多。联邦学习主任务阶段往往涉及多个节点参与,节约此阶段的训练轮次具有重要的实际意义。

图4 不同方法训练中的模型准确率变化情况

4.3 隐私预算对方案效果的影响

本节研究差分隐私的隐私预算对方案效果的影响。基于MNIST 数据集在1-Label 下进行实验,令γ= 0.01,δ= 10-5,分别 测试ε= 1,5,20,50,∞这5 种情况下,主任务模型经过50 轮通信后的准确率,其中ε=∞表示不对GAN 训练添加噪声。

由表4 可知,当不添加噪声时,GAN 生成的样本能帮助主任务模型达到最高的准确率;当隐私预算为5~50 时,模型准确率相对接近;当隐私预算为1 时,模型准确率明显降低。上述情况体现了DP-GAN 可用性和隐私性之间的矛盾,隐私保护程度越强,生成的样本质量越低。

表4 不同隐私预算时的模型准确率

图5 展示了不同隐私预算时的虚拟样本,此处选取只有样本类别“8”的客户端,对不同的隐私预算ε= 1,5,20,50,∞分别训练一个生成器,然后固定一组输入噪声,观察每个生成器输出的虚拟样本。由图5 可知,随着隐私预算的减少,虚拟样本质量略有降低,当ε=1时发生了模式崩塌,对于不同的输入噪声,生成器只输出相同的图像,说明对梯度添加的噪声过大,影响了判别器的正常更新,从而无法正确指导生成器优化。

图5 不同隐私预算时的虚拟样本

4.4 样本共享数目对方案效果的影响

本节研究客户端贡献的虚拟样本共享数目对方案效果的影响。基于MNIST 数据集进行实验,样本共享比例分别设置为γ= 0.1,0.05,0.01,0.005,观察训练过程中模型准确率的变化情况。

由图6 可知,在1-Label 中,节点间数据分布差异较大,增大虚拟样本的共享数目有助于平衡全局数据的分布,从而增强训练稳定性,提高最终模型的精度。在2-Label 中,节点间数据分布差异变小,γ值对最终模型准确率的影响也变小,4 种取值都能获得相近的模型表现,但增大γ仍有助于提高模型收敛速度。由表3 可知,Cifar10 数据集训练过程中γ=0.05 时的模型准确率反而低于γ=0.01,这是因为GAN 训练过程中的噪声导致生成样本质量较低,造成了数据分布与样本质量间的矛盾,加入更多的虚拟样本更好地平衡了数据分布,但降低了总体样本质量。

图6 不同样本共享比例的模型准确率变化曲线

4.5 方案效率测试

本节测试方案的执行效率,主要验证以下两点。1) 主任务效率:方案的主任务阶段耗时是否与基准方法相近;2) 总体效率:考虑预处理阶段耗时,方案的总体耗时是否仍处于可接受范围。

基于表2 的默认参数设置,在6 个场景下对不同方案进行效率对比,结果如图7 所示,其中Ours-Main和Ours-Pre 分别代表本文方案的主任务阶段和预处理阶段。因为联邦学习是同步系统,每个通信轮的耗时取决于执行最慢的节点,而在 2-Label 和Dir(0.05)中存在明显的样本数目偏斜,所以主任务阶段耗时比1-Label 更长。

本文方案主任务阶段采用的是FedAvg 算法,主要区别是由于数据增强,客户端的本地数据集规模增大,故由图7 可知,本文方案主任务阶段的耗时与FedAvg 等基准方法相近。其次,本文方案数据增强阶段的耗时约为主任务阶段的 10.2%~16.7%,2 个阶段的总体耗时相比于基准方法处于可接受范围。

图7 不同方案效率对比

5 结束语

本文提出一种面向非独立同分布数据的联邦学习数据增强方案,所有客户端在本地训练一个生成式对抗网络,然后生成一定数目的虚拟样本,客户端间通过共享虚拟样本来增强本地数据。在生成式对抗网络训练过程中,对判别器添加合适的噪声,使虚拟样本满足差分隐私,从而保证原始数据的隐私。同时,设计了满足差分隐私的标签选取算法,避免在数据共享过程中虚拟标签泄露隐私。与已有工作相比,所提方案在多种数据划分下都取得了更高的模型精度和更快的模型收敛速度。在未来的工作中,将进一步研究DP-GAN 可用性与隐私性之间的矛盾,在合理的隐私预算下,生成更复杂的、高可用的虚拟样本,提高方案在面向复杂数据集时的有效性。

附录1 定理1 的证明

基于Moments Accountant 技术[27]证明定理1。首先,定义调用一次算法M 所产生的隐私损失为随机变量Z为

其中,D,D′是相邻数据集,o属于M 的输出域。可以通过计算Z矩母函数的值来估计隐私损失的范围,定义

引理1[27]对任意ε> 0,算法M 满足(ε,δ)-差分隐私,其中,。

记算法2 为M,则由引理1 可知,为保证算法M 满足差分隐私,只需约束αM(λ)的上界,并且,由αM(λ)可以进一步计算得到隐私预算(ε,δ)。M 共包含T轮训练,记第t轮训练为子算法 Mt,Mt又包含2 个子算法:判别器D 的训练过程,生成器G 的训练过程。

下面证明对每个t,的隐私损失存在上界。算法2中步骤7)和步骤8)可合并写为

式(9)表示由真实样本和虚拟样本共同计算得到的判别器梯度,将该计算过程抽象为

设batch size 为B,则式(9)需执行B次,然后对每个梯度进行剪裁并添加噪声,最后计算平均梯度。为方便分析,令剪裁上界c=1,于是可表示为

至此,证明了给定参数ε,δ,q,T时,通过选取合适的噪声乘子σ可使整个训练过程满足(ε,δ)-差分隐私。实际执行过程中,算法2 的噪声乘子是预先确定的,通过隐私计量函数A 计算当前已消耗的隐私预算(εt,δt),当其超过既定隐私预算 (ε0,δ0)时,则停止训练。

证毕。

附录2 定理2 的证明

由此可知输出一个类别的标签数目满足(ε,0)-差分隐私,由差分隐私组合性质可知,输出所有L个类别的标签数目满足(Lε,0)-差分隐私。因为生成的虚拟标签是相互独立的,不存在先后次序关系,所以L个类别的标签数目唯一决定了所有的虚拟标签,至此证明了算法3 满足(ε′,0)-差分隐私。

证毕。

猜你喜欢

差分客户端标签
RLW-KdV方程的紧致有限差分格式
数列与差分
如何看待传统媒体新闻客户端的“断舍离”?
无惧标签 Alfa Romeo Giulia 200HP
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
大枢纽 云平台 客户端——中央人民广播电台的探索之路
不害怕撕掉标签的人,都活出了真正的漂亮
标签化伤害了谁
科学家的标签