面向数据混合分布的联邦自适应交互模型
2023-06-07郭松岳王阳谦柏思远刘永恒王梦鸽
郭松岳 王阳谦 柏思远 刘永恒 周 骏 王梦鸽 廖 清,
1 (哈尔滨工业大学(深圳)计算机科学与技术学院 广东 深圳 518055)
2 (鹏城实验室 广东深圳 518055)
3 (上海浦东发展银行 上海 200002)
机器学习需要收集大量用户数据作为样本进行训练,但包含隐私的数据经由多方处理,势必在数据传输、交换时造成泄露风险.例如,Facebook 泄露的用户隐私数据就曾经被滥用于总统大选的预测,最终引发了股票的大跌和群众抗议活动.2018 年,欧盟正式推行《通用数据保护条例》(General Data Protection Regulation,GDPR)[1],而中国也于2017 年6 月1日开始实施《中华人民共和国网络安全法》,并将个人信息安全列入重点保护范围[2],近期国务院决定于2021 年9 月1 日开始正式施行《中华人民共和国数据安全法》,从而进一步完善对个人信息的保护.《中华人民共和国数据安全法》和GDPR 法案的施行表明了民众和政府对数据隐私的保护意识逐渐增强,这无疑给传统机器学习方式带来了严峻的挑战[3].而联邦学习(federated learning,FL)[4]可以在保证数据隐私安全的前提下,进行机器学习模型的训练.
联邦学习是一种新兴的分布式机器学习框架,该框架不直接将用户数据暴露给服务器和网络,而是在客户端对隐私数据进行模型训练,并选择性地传递模型参数至中央服务器,从而共同建立一个中央服务器模型.这个中央服务器的性能表现与将整个用户数据集放在一起进行训练的性能表现相差不大[5-6],同时保证了数据的隐私安全.
传统的联邦学习方法侧重于独立同分布场景下的训练分析,并假设用户设备的数据分布相同或近似[7].然而,在实际场景中由于用户的使用习惯不同,其产生的本地数据会存在不同程度的差异,从而导致用户数据的分布不同.如图1 所示,用户A是电子产品经销商,拍摄的照片多为显卡、手机等电子设备图片;而用户B是户外运动爱好者,更喜欢风景、美食等图片.因此用户A,B的数据在样本分布上存在差异,我们称这种差异为数据的非独立同分布(non-independent and identically distributed,Non-IID).Non-IID 现象的存在会令联邦学习出现严重的性能下降,最终导致联邦学习模型的训练效果远不如预期效果.因此在联邦学习场景中,如何处理非独立同分布数据是亟待解决的问题[8-9].
Fig.1 Image sample categories of user A and user B图1 用户A、用户B 图片样本类别
本文提出了一种新型的联邦自适应交互模型(federated adaptive interaction model,FedAIM)框架,该框架可以同时对不同偏置程度的混合数据进行自适应地交互学习,从而有效地提升Non-IID 样本下的的准确精度,其主要贡献包括3 个方面:
1)针对Non-IID 场景下的混合数据分布问题,提出了自适应联邦学习交互框架FedAIM,该框架可以同时处理不同偏置程度的混合数据.
2)FedAIM 引入陆地移动距离(earth mover’s distance,EMD)对客户端数据进行偏置程度度量和客户端划分,并设计极偏服务器和非极偏服务器2 类模块分别处理不同偏置程度的客户端数据,从而提高联邦学习的模型准确率.
3)在FedAIM 中,本文提出了一种基于信息熵(information entropy)的模型参数交互机制,使得FedAIM的中央服务器可以有效地聚合2 类服务器产生的模型参数,从而减少联邦学习中服务器间的交互轮次.
1 相关工作
本节主要介绍经典的联邦学习方法和Non-IID场景下的联邦学习方案.
1.1 联邦平均(FedAvg)框架
McMahan 等人[10]提出的联邦平均(federated averaging, FedAvg)框架是最常见的联邦学习框架.FedAvg的具体流程为:客户端使用本地数据输入模型进行训练,将模型参数上传中央服务器,中央服务器模型通过聚合客户端模型参数并对模型参数重分配的方式进行联合学习.
此时中央服务器C在t+1轮加权聚合后的模型参数为
其中n为所有客户端的数据总量.
国内外已有大量研究表明,Non-IID 的存在对FedAvg 的训练效果造成极大的影响.特别是在偏置程度较大时,客户端拥有极度偏置的数据样本分布.此时局部梯度的加权不再是对宏观收敛方向的无偏估计,从而会对训练效果造成严重的影响[11].
1.2 Non-IID 场景下的联邦学习方案
Zhao 等人[5]在Non-IID 场景下,基于对FedAvg框架的改进提出了FedShare 框架,该框架会根据客户端的样本分布偏置程度,向客户端分配n份IID 的共享数据来减弱客户端样本分布的偏置程度.Li 等人[12]提出了FedProx 框架,FedProx 在FedAvg 的基础上通过在优化目标上引入二次近侧项来确保客户端本地模型不会与中央服务器模型相差过大,从而在一定程度上解决Non-IID 数据问题.Smith 等人[13]提出的MOCHA 框架使用多任务学习训练中央服务器模型,但MOCHA 不能解决如深度学习这类的非凸问题.Duan 等人[14]提出Astraea 框架,Astraea 使用KL(Kullback-Leibler)散度对客户端的数据分布的偏置程度进行度量,并按KL 散度将客户端重新分配到中介服务器下进行异步训练,从而达到缓解客户端偏置程度的目的.Zhang 等人[15]采取了基于客户端选择的方式在FedAvg 上进行改进,提出了CSFedAvg框架.该框架通过收集客户端本地模型,筛选出本地数据分布较全、模型收敛效果较好的客户端模型,使用筛选后的那部分客户端参与FedAvg 的模型聚合过程,从而降低Non-IID 对联邦学习的影响.
然而,现有方法大多侧重于单一偏置程度的Non-IID 数据,忽略了解决不同偏置程度的混合数据分布问题.本文提出的FedAIM 框架同时考虑了极偏数据和非极偏数据的混合分布情况,并引入EMD 对各客户端数据偏置程度进行度量,从而将拥有不同数据偏置程度的客户端分配至极偏服务器和非极偏服务器2 个模块.此外,本文还提出了一种新型的基于信息熵的模型参数交互机制,使得FedAIM 可以有效地聚合2 类服务器的模型参数,从而提升模型对混合数据分布的准确率和收敛速度.
2 研究发现
本节主要介绍Non-IID 下传统联邦学习的表现以及Non-IID 数据偏置程度的度量方式EMD.
2.1 Non-IID 下的FedAvg 表现
为了探究FedAvg 在Non-IID 下的表现,本文在MNIST 数据集上进行了不同偏置程度客户端组合的混合场景实验.将MNIST 图片数据集按照标签划分为10 类,在FedAvg-IID 的场景中,每个客户端从10 类样本中每类随机挑选300 张图片,因每个客户端拥有的样本类别和数目一样,数据分布不存在极偏现象.
在FedAvg-NonIID(0)的场景中,每个客户端从10 类样本中随机挑选8 类样本,并从每类中随机挑选300 张图片,因每个客户端拥有的样本类别大部分重合,数据分布存在较弱的偏置程度.在FedAvg-NonIID(1)场景中,每个客户端从10 类样本中随机挑选5 类样本,并从每类中随机挑选300 张图片,因每个客户端拥有的样本类别部分重合,数据分布存在中等的偏置程度.在FedAvg-NonIID(2)场景中,每个客户端则是从10 类样本中随机挑选2 类样本,并从每类中随机挑选300 张图片,此时因每个客户端拥有的样本类别大部分不重合,所以数据分布存在较强的偏置程度.
图2 展示了在MNIST 数据集下,FedAvg 框架在不同数据偏置程度下的模型准确率.其中FedAvg-IID表示在IID 场景下FedAvg 的模型准确率,而FedAvg-NonIID(0)~FedAvg-NonIID(3)表示FedAvg 框架在Non-IID 场景下随着样本偏置程度逐渐增加时的模型准确率.可以发现FedAvg 在IID 场景下能够快速收敛并获得较好的模型准确率,而随着数据偏置程度的增加FedAvg 的模型准确率急剧降低.因此,FedAvg的传统联邦学习方法难以在偏置程度较高的Non-IID 场景下获得满意的模型效果.
Fig.2 Accuracy of FedAvg under different degrees of Non-IID图2 FedAvg 在不同程度Non-IID 下的准确率
2.2 Non-IID 数据偏置程度的度量方式EMD
为了有效地解决混合Non-IID 场景下数据不同偏置程度的度量问题,我们引入EMD 作为Non-IID数据偏置程度的度量方式.EMD 可以定量地计算2个数据分布的距离[16-17],而其中距离W(Pr,Pa)定义为
其中Pr,Pa是2 个不同的概率分布,S(Pr,Pa)是组合Pr和Pa分布的所有可能的联合分布集合.对于每一个可能的联合分布 γ,x和y是 γ中的随机变量,则样本对距离的期望值为E(x,y)~γ[‖x-y‖].在所有的联合分布中,对期望值取下界便是Pr,Pa的EMD 距离.
相较于传统的联邦学习使用JS(Jensen-Shannon)散度和KL 散度进行数据偏置程度度量,EMD 对数据的偏置程度具有更好的可度量性.例如,使用JS或KL 散度对2 个没有重合的数据分布进行度量时,度量值常为定值或无穷值.而EMD 仍然可以度量2个数据分布之间的距离.因此,EMD 在Non-IID 环境下可以适应不同偏置程度的混合数据分布.
为了进一步探究在联邦学习中EMD与模型训练精度的关系,我们使用CIFAR-10 数据集在Non-IID 场景下对经典的联邦学习框架FedAvg 进行实验.如图3 所示,随着EMD数值的增大,即数据偏置程度变大,FedAvg 的准确率下降,且当客户端数据分布EMD=3 时,FedAvg 的准确率急剧下降.这说明在Non-IID 场景下存在EMD-Accuracy 阈值θEMD,因此可以根据EMD阈值θEMD将客户端划分为极偏客户端(extremely biased clients,EBC)和非极偏客户端(nonextremely biased clients,NEBC).
Fig.3 Relationship between EMD and accuracy on CIFAR-10 dataset图3 在数据集CIFAR-10 下EMD 和准确率的关系
3 FedAIM 框架
本文考虑到Non-IID 场景下的混合数据分布问题,提出了FedAIM 框架.本节首先结合图4 对FedAIM框架的基本结构进行了表述.其次,阐述客户端的分类规则和流程,并设计了极偏服务器和非极偏服务器2 个模块.最后,提出了一种基于信息熵的模型参数交互机制,使得FedAIM 中央服务器可以有效地聚合极偏服务器和非极偏服务器产生的模型参数.
3.1 FedAIM 整体结构
如图4 所示,本文的FedAIM 主要分为中央服务器(central sever,CS)、极偏服务器(extremely biased server,EBS)和非极偏服务器(non-extremely biased server,NEBS)3 个部分.在FedAIM 中,首先使用EMD 阈值划分出极偏客户端和非极偏客户端.在极偏服务器中,各极偏客户端被分入不同的中介服务器(mediator server,MS),设计了FedSeq 对中介服务器中的客户端进行模型参数更新;在非极偏服务器中,采用FedAvg 对非极偏客户端进行模型参数更新.在中央服务器中,设计了基于信息熵的模型参数交互机制对极偏服务器模型参数wEBS和非极偏服务器模型参数wNEBS进行聚合和更新.
3.2 客户端划分
本节基于EMD 计算各客户端Non-IID 分布的偏置程度,并将客户端划分为极偏客户端和非极偏客户端.当客户端的EDM > θEMD时,客户端的样本分布均衡程度低,划分为极偏客户端;当客户端的EDM <θEMD时,客户端的样本分布较为均衡,划分为非极偏客户端.客户端划分的具体流程为:
1)各客户端依据全局样本种类计算客户端的EMD 值.
2)当客户端EMD<θEMD时,客户端归入非极偏服务器.
3)当客户端EMD>θEMD时,客户端归入极偏服务器,并按照中介服务器的数据样本总体分布偏置程度最低的原则,对极偏客户端进行中介服务器的分配.
基于EMD 划分客户端流程如算法1 所示.
3.3 非极偏服务器
由于非极偏服务器模块中的非极偏客户端样本分布较全,Non-IID 程度小,因此我们选择FedAvg 的方式进行训练.非极偏服务器训练的具体流程为:
各客户端接收非极偏服务器第t轮的模型参数作为客户端本地模型初始参数为
客户端在t+1轮的本地模型参数的变化值为
其中第k个客户端的数据集为Dk,数据量为nk,在t轮时的模型参数为.同时客户端k的第i个数据样本符合的概率分布,xi为客户端k的第i个数据样本,yi为xi的标签.L(·)为损失函数.η是学习率,为客户端k在第t轮的模型梯度.变化值是上一轮的客户端k的本地模型梯度,是损失函数L(·)和学习率η相乘得到的.
由此可以得到非极偏服务器的模型参数在t+1轮的加权聚合为
其中LNEBC为非极偏客户端序列,n为所有非极偏客户端的数据总量.此外,在每个交流轮次结束时,非极偏服务器都会将非极偏服务器模型参数wNEBS上传至中央服务器.
3.4 极偏服务器
在极偏服务器中,我们设计了一种新型的客户端训练方式FedSeq,通过将客户端划分为多个集群并引入中介服务器对集群进行并行式训练.该训练方式既可降低极偏服务器单个训练迭代的时间,也可通过对客户端再分配的方式降低集群中数据样本分布的偏置程度,从而增强模型对Non-IID 场景下的鲁棒性.FedSeq 在中介服务器中训练具体流程为:
在极偏服务器第t轮训练中,中介服务器m接收极偏服务器的模型参数作 为初始参数,初始参数为
中介服务器m下的第1 个客户端m1的模型参数为
而中介服务器m下的第k个客户端mk的模型参数为
由此,得到更新后的中介服务器m的模型参数为
其中K为中介服务器m的客户端总数,为中介服务器m下的最后一个客户端mK的模型参数.
当所有中介服务器都完成1 轮迭代后,FedAIM将进行中介服务器之间的模型参数交互.在中介服务器模型参数交换过程中,考虑到当中介服务器中数据分布偏置程度较大或数据量较小均会导致极偏服务器训练效果不佳的情况,从而设计了一种中介服务器权重分配机制.该机制考虑到各中介服务器中的数据偏置程度和数据量对中介服务器权重进行合理重分配,让训练效果较好的中介服务器在极偏服务器中获得较大的权重;让训练效果较差的中介服务器在极偏服务器中获得较小的权重.
定义中介服务器m在极偏服务器的权重Bm为
其中Bk=,nk为客户端k的数据量,JEMD,k为客户端k的EMD值.
t+1轮的极偏服务器模型参数由所有中介服务器的模型参数聚合而成,极偏服务器模型参数为
其中 M 为所有中介服务器的集合,B为所有中介服务器的权重总和,为FedSeq 更新后的中介服务器m的模型参数.
3.5 基于信息熵的模型参数交互机制
考虑到传统联邦学习中,中央服务器因为模型参数频繁交互导致的通信代价大,本文提出了基于信息熵的模型参数交互机制,从而帮助中央服务器以较小的交互轮次获得较高的模型准确率.
首先,需要确定在中央服务器中基于信息熵的模型参数交互机制的条件:当非极偏服务器模型处于较为稳定的状态,且极偏服务器模型与中央服务器模型产生较大差别时,进行极偏服务器模型与中央服务器模型的参数交互.
参照文献[5,18-19]计算极偏服务器模型参数和中央服务器模型参数的权重发散(weight divergence,WD)程度,如式(14)所示:
其中表示第t轮的极偏服务器模型参数.当权重发散程度超过阈值θWD时,我们认为极偏服务器和中央服务器模型参数之间产生了较大差异.在本文中,设定θWD=0.015.
用损失函数差值作为衡量模型稳定的标准,如式(15)所示:
其次,考虑到信息熵在一定程度上可以反映模型包含的信息量[20-22],而信息量越大的模型在混合分布场景下可能意味着训练样本数据规模越大、数据种类越齐全.因此在模型参数交互阶段,通过极偏服务器和非极偏服务器模型参数的信息熵来自适应调整非极偏服务器的权重为
其中arctan(·)为反正切函数,A的 大小可以代表当一个模型的信息量远大于另一个模型时信息量小的模型保留的比例,c是用来缩放2个模型信息量差值的大小.在本文中,设定A=0.5,c=1.而和则分别表示非极偏服务器模型参数和极偏服务器模型参数的信息熵,由式(17)(18)计算得到.
先将模型参数和的参数取值区间划分为y个等长区间,进而计算模型参数在各区间y上的概率和:
其中和分别表示模型参数和在区间y内的参数个数,NwNtEBS和NwEtBS分别表示模型参数和的总参数个数.
最后,当模型参数交互条件满足时,在极偏服务器和非极偏服务器模型参数交互阶段采用式(21)进行极偏服务器和非极偏服务器的自适应聚合,更新中央服务器模型
3.6 FedAIM 框架算法
FedAIM 框架具体流程如算法2 所示.
4 实验与结果
本节首先介绍了关于MNIST,CIFAR-10,Fashion-MNIST,SVHN,FEMNIST 共5 个实验数据集的基本信息以及运行软硬件配置和本地迭代次数(epoch)的选取设置.其次,在固定极偏占比 λ的混合数据分布下,将FedAIM 与7 种对比方法进行了分析.最后,还针对极偏占比 λ设计了相应的对比分析实验.
4.1 数据集简介
本文实验采用的5 个数据集,各数据集样本示例如图5 所示.
Fig.5 Examples of datasets samples图5 各数据集的样本示例
1)MNIST.手写数字数据集,分为数字0~9 共10 类样本,训练集为60 000 个样本,测试集为10 000 个样本.
2)CIFAR-10.常用图片数据集,分为10 类衣物,标签为数字0~9,训练集为50 000 个样本,测试集为10 000个样本.
3)Fashion-MNIST.衣物图片类MNIST 数据集,分为10 类衣物,训练集为60 000 个样本,测试集为10 000个样本.
4)SVHN.街景门牌号码数据集,分为数字1~10共10 类样本,训练集为73 257 个样本,测试集为26 032个样本.
5)FEMNIST.适用于联邦学习的图片分类数据集,图像种类除了包含有数字0~9,还有26 个大写字母和26 个小写字母,共62 类,客户端平均样本数为226.83 个,客户端数量3 550 个.
4.2 各数据集实验设置
表1 展示了对比实验在各个实验数据集上的实验设置.例如,在MNIST 数据集中,设置了客户端本地模型LeNet CNN[23]架构进行训练,优化器采用随机梯度下降SGD 方法[24],同时设置学习率为0.01,冲量为0.78.各客户端中模型批大小为64,其他数据集上实验数值设置与MNIST 数据集相近似.
Table 1 Experimental Setting on Different Datasets表1 在不同数据集上的实验设置
4.3 客户端数据处理及划分
由2.2 节得知,Non-IID 场景下存在EMD-Accuracy阈值,且当EMD阈值θEMD≥3时FedAvg 的训练精度急剧下降.在本文实验中,各客户端随机从训练数据集中抽取n类数据的图片样本进行模型训练,并计算各客户端EMD值,当θEMD≥3时被划分为极偏客户端,反之则为非极偏客户端.
4.4 实验软硬件配置
本文实验使用Python-3.6.4 作为编程语言,利用Pytorch 框架建立神经网络架构.表2 展示了本文实验所需的软件及硬件配置参数.
Table 2 Software and Hardware Configurations in Experiment表2 实验软硬件配置
4.5 准确率对比实验结果
为了验证FedAIM 在混合Non-IID 数据下的性能表现,将FedAIM 框架与7 种方法进行了对比.
1)FedShare[5].各客户端共享中央服务器中部分数据进行模型训练.
2)Astraea[14].引入KL 散度对数据进行偏置程度度量,进而将客户端分配到各中介服务器进行模型训练.
3)CSFedAvg[15].中央服务器只选择客户端中数据分布较全的非极偏客户端参加训练.
4)FedAvg[10].经典的联邦平均算法.
5)FedProx[12].引入二次近侧项使得本地模型与全局模型不会差异过大.
6)FedNova[26].在FedAvg 的基础上,通过标准平均后的本地参数变化值来抑制客户端偏移.
7)SCAFFOLD[27].引入控制因子来矫正客户端偏移现象.
表3 展示了当客户端极偏占比λ =40%时FedAIM 和对比方法在MNIST,CIFAR-10,Fashion-MNIST,SVHN,Fashion-MNIST 数据集上的模型准确率.如表3 所示,FedAIM 在MNIST,CIFAR-10,Fashion-MNIST,SVHN,FEMNIST 数据集上的模型最终准确率均优于现有的对比方法.其中FedAvg 在5 个数据集上的准确率最低,因为FedAvg 方法更适合于IID 数据场景.而针对Non-IID 数据场景设计的CSFedAvg,Astraea,FedProx,FedNova,SCAFFOLD,FedShare 在5 个数据集上的识别准确率均有不同程度的提高.在MNIST 数据集中,FedAIM 的准确率达到了98.54%.此外,在CIFAR-10,Fashion-MNIST,SVHN,FEMNIST 数据集中FedAIM的准确率比第2 优的Astraea 方法的准确率分别提高百分比约2.5,3,3.9,2.7.这是因为Astraea 忽略了各中介服务器之间Non-IID 程度不同的影响,而FedAIM可以通过极偏服务器和非极偏服务器2 类模块分别处理不同偏置程度的数据,即针对不同偏置程度的数据使用不同的训练方式.因此,FedAIM 可以有效地提升学习模型的准确率.
Table 3 Accuracy comparisons of Each Method on Different Datasets表3 不同数据集下各方法的准确率对比%
4.6 交流轮次对比实验结果
图6 展示了在MNIST,CIFAR-10,Fashion-MNIST数据集上,FedAIM 与7 种对比方法的模型识别准确率随着交流轮次的变化情况.在MNIST 数据集上,当交流轮次达到1 000 时FedAvg 准确率最低,这是因为FedAvg 更适用于处理IID 场景下数据,而在Non-IID 场景下FedAvg 鲁棒性较差.此外,针对Non-IID场景下的 FedAIM,CSFedAvg,Astraea,FedShare,FedNova,FedProx,SCAFFOLD 框架均获得较好的准确率(>95%)并且,CSFedAvg 只使用了较少的交流轮次就达到了95%的准确率,这是因为CSFedAvg 在训练时会抛弃部分极偏客户端进行训练,而在较为简单的MNIST 数据集上抛弃部分客户端数据对模型识别影响不大.所有对比方法在最终收敛稳定时,FedAIM 框架仍获得了最高的准确率.在CIFAR-10 数据集上,FedAIM 只需要500 交流轮次即可获得约82.0%的较高准确率,而Astraea 方法则需要1 250 交流轮次才可达到约80.0%的准确率.这是因为Astraea每次交流轮次结束时都需要各中介服务器之间的模型聚合,而FedAIM 只有在满足非极偏服务器模型稳定且极偏服务器模型与中央服务器模型差异较大的模型参数交互条件时才会进行模型聚合,故FedAIM交流轮次更少.此外,CSFedAvg 方法虽然在500 交流轮次时模型准确率基本稳定,但准确率只有75.0%,FedShare 和SCAFFLOD 的准确率也仅约72.6%和75.7%.
Fig.6 Model accuracy on MNIST, CIFAR10, Fashion-MNIST datasets under different communication rounds图6 MNIST, CIFAR-10, Fashion-MNIST 数据集在不同交流轮次下的模型准确率
同样地,在Fashion-MNIST 数据集上,FedAIM 只需要最少的交流轮次即可获得最高的准确率.例如,FedAIM 在1 000 交流轮次时准确率约为84.0%,比第2 优的Astraea 准确率高了约3%,而第3 优的FedNova准确率只有80.7%.此外,FedSha re,FedProx,CSFedAvg方法的准确率分别为73.1%,76.5%,74.9%,而FedAvg方法则只有68.0%左右.因此,在数据混合分布场景下,FedAIM 只需较少的交流轮次就能达到更高的准确率.
图7 展示了在SVHN 和FEMNIST 2 个数据集上8 种方法的识别准确率随交流轮次的变化.FedAIM在SVHN 和FEMNIST 数据集上同样只需要较少的交流轮次即可获得最高的准确率,而第2 优的Astraea方法则需要最少2 倍多的交流轮次才可达到相近的准确率.此外,之前在MNIST,Fashion-MNIST,CIFAR-10数据集上表现较好的FedNova 在SVHN 和FEMNIST数据集上的准确率大幅度下降,这是因为SVHN 和FEMNIST 训练样本中的噪声较多,会导致各个客户端在本地更新时的模型参数变化值并没有被有效纠正,从而影响了模型的准确率.
Fig.7 Model accuracy on SVHN and FEMNIST datasets under different communication rounds图7 SVHN 和FEMNIST 数据集在不同交流轮次下的模型准确率
4.7 极偏占比 λ实验
为了进一步探究混合分布场景的极偏客户端占比 λ对于模型准确率的影响,本文选择了SVHN 数据集和Fashion-MNIST 数据集作为实验数据集,实验结果如图8 所示.
Fig.8 Model accuracy on SVHN and Fashion-MNIST datasets under different λ values图8 不同 λ数值下在SVHN 和Fashion-MNIST 数据集上的模型准确率
如图8 所示,随着极偏占比 λ值的增加即极偏客户端占比提高,所有方法的模型准确率都会出现大幅度下降,而FedAIM 即使在λ=80%的情况下,与λ=40%相比,在SVHN,FEMNIST 上模型准确率也分别只下降了约1.4%,1.3%,这说明FedAIM 即使在极偏客户端占绝大多数的混合分布场景中仍然可以生成性能优越的识别模型,这得益于FedAIM 将极偏客户端和非极偏客户端分别分入了极偏服务器和非极偏服务器;分别采用了适合客户端数据分布极偏程度的训练流程.而CSFedAvg 由于随着 λ值的增大,极偏客户端占比增加,可供CSFedAvg 主动选择的客户端数量迅速减少,所以CSFedAvg 的模型准确率会随着 λ的增加急剧降低.FedProx,FedNova,SCAFFOLD 随着λ的增加,模型准确率下降的程度大致相同,原因在于它们都是采用在损失函数和优化目标的层面上进行限制本地模型更新的策略.
4.8 客户端本地迭代次数实验
为了探究本地迭代次数对于模型准确率的影响,本文以客户端总数K= 50,λ = 40%,中介服务器个数M=3为实验设置,在MNIST,CIFAR-10,Fashion-MNIST 数据集上进行实验,实验结果如表4 所示.
Table 4 Model Accuracy Under Different Local Epochs表4 不同本地迭代次数下的模型准确率
从表4 中,我们发现在这3 个数据集上,随着客户端本地迭代次数的增大,FedAIM 和Astraea 的模型准确率并没有显著地提升或降低.考虑到本地迭代次数增大时模型训练时间较长,但模型准确率提升幅度不大这一现象,因此在本文的实验最后将客户端本地迭代次数统一设定为2.
5 总 结
本文针对Non-IID 场景下不同客户端数据混合分布所导致的联邦学习效果不佳的问题,提出了一种联邦自适应学习交互框架FedAIM.该框架基于EMD 对客户端进行偏置程度度量并构建2 类服务器模块分别处理极偏数据和非极偏数据,从而缓解客户端数据混合分布的问题,提高模型准确率.此外,我们提出了基于信息熵的模型参数交互机制,使得FedAIM 可以有效地聚合2 类服务器产生的模型参数,从而有效地减少服务器之间的交互轮次,降低通信代价.在未来的工作中,我们会将FedAIM 框架作进一步扩展,使得FedAIM 框架能够更细粒度地处理数据混合分布.
作者贡献声明:郭松岳负责方案的构思与实施、实验结果整理与分析、论文撰写与修订;王阳谦指导方案设计;柏思远负责方案设计与实施;刘永恒参与方案可行性讨论;周骏负责框架工程化指导;王梦鸽负责集成框架至浦发银行波塞冬隐私计算产品中;廖清指导论文撰写与论文修订.