一种异步联邦学习聚合更新算法

2021-12-08陈瑞锋谢在鹏朱晓瑞屈志昊

小型微型计算机系统 2021年12期

陈瑞锋，谢在鹏，朱晓瑞，屈志昊

(河海大学计算机与信息学院，南京 211100) E-mail：zaipengxie@hhu.edu.cn

1 引言

近年来，智能手机、平板电脑、可穿戴设备等移动设备逐渐成为人们日常生活的组成部分.这些移动设备通常装备了种类丰富的传感器，可感知诸如图像、声音、加速度等数据.随着这些设备的普及，诸如运动检测[1]、图像识别[2-4]、自然语言处理[5]等移动互联网应用逐渐流行.这些应用通常基于机器学习模型对用户提交的感知数据进行处理并返回处理结果.理想情况下，用于处理用户数据的机器学习模型可使用来自不同用户的大量标记数据进行训练以提高模型的表达性能和泛化性能.然而出于隐私与安全原因，用户经常不愿意上传这些数据.

针对此问题，谷歌[6]提出了联邦学习用于解决机器学习模型训练的数据需求与用户数据隐私保护之间的矛盾.联邦学习是一种分布式机器学习框架，能够在满足用户隐私与数据安全的同时有效利用数据进行机器学习模型训练.具体而言，联邦学习利用移动设备(工作节点)本地计算能力和数据训练机器学习模型，然后将训练后的模型参数在服务器端聚合并作为下一轮本地训练的初始参数，迭代上述过程直至达到最终模型达到最好的泛化性能.由于所有用户数据都只用于本地模型训练，联邦学习充分保护了用户隐私与数据安全.

尽管具有上述优点，联邦学习在实现时经常面临以下问题[6-8]：1)由于多个工作节点上可用的计算、通信资源以及数据量通常不同，因此工作节点完成每轮本地训练后提交模型参数的时间存在差异.这会造成参数服务器因等待慢节点上传参数而延长训练时间(即落跑者问题[9])；2)由于多个工作节点上的数据通常不能服从相同概率分布，这会造成不同工作节点的本地模型收敛方向均与参数服务器不一致，从而降低了整体训练速度.

为解决上述问题，现有工作提出了基于指数滑动平均的联邦学习方法[9-15].具体而言，参数服务器在接收到某个工作节点发来的神经网络参数(权重)后，参数服务器将保存的平均权重与工作节点发来的权重加权平均以得到新的平均权重，并将此权重返回给工作节点.由于参数服务器不再需要等待收集完所有工作节点相同版本的参数后进行聚合，因而解决了落跑者问题，提高了训练速度.加权平均的策略将由非独立用分布数据训练的模型参数聚合成一个全局泛化能力更强的模型参数，从而缓解了非独立用分布数据的影响.但是使用指数滑动平均聚合也存在指数滑动平均方法并不能主动控制版本差距问题[9]：1)快节点频繁提交权重会造成聚合后的模型参数偏离其他节点上模型的收敛方向；2)慢节点滞后提交的参数会阻碍参数服务器模型的收敛，并且此影响无法完全消除.这些问题会显著影响参数服务器上模型的收敛速度.此外，当训练节点差距过大时，甚至会导致模型不收敛.上述问题的主要原因在于指数滑动平均只保存了一个全局平均权重，导致工作节点提交的参数一旦被聚合到参数服务器平均权重中，就不能对这个权重做任何修改，只能等待之后的每次更新所占比例下降.

针对指数滑动平均聚合更新方式的不足，本文设计并实现了一种异步联邦学习聚合更新算法(FederatedWeight Profileand VersionAware，FedWPVA)：一种基于权重摘要(Weight Profile)和更新版本感知(Version Aware)的异步联邦学习聚合更新方法，其解决了因工作节点训练速度差异而导致的模型收敛速度降低问题.具体而言，权重摘要保留了工作节点最新权重，并且所有工作节点所占权重比例相同.首先所有保存了所有工作节点最新权重作为权重摘要，从而保留了完整的聚合信息.权重摘要通过每个工作节点只能更新自身摘要部分，限制了快节点高频更新对整体权重的影响，降低可以推动参数服务器上的模型更快地收敛.版本感知是参数服务器对权重摘要的版本进行记录，使得参数服务器聚合时可以根据工作节点不同的版本确定不同的加权比例.同时，当整体版本差距过大时，通过全局更新方式将慢节点中使用的旧权重更新到最新权重，从而提高慢节点的更新效率，使参数服务器上的模型更快的收敛.

本工作的主要贡献如下：

1)本文所提出的异步联邦学习聚合更新方法消除了过时权重对全局权重的影响，解决了现有指数滑动平均算法的问题.针对版本差异，当工作节点间版本差距过大时使用主动更新机制同步更新所有工作节点，当版本差距较小时，使用完全的不同节点版本来对权重进行加权聚合解决了版本差距问题.

2)本文在两个典型数据集上进行了实验评估，在数据集上的实验结果表明，将基准算法、FedWPVA在MNIST数据集中训练相同个训练轮次，对比基准算法，使用相同训练轮次，FedWPVA将损失值平均降低了14.45%，CIFAR-10数据集损失平均降低了7.26%.

2 相关工作

近年来，联邦学习参数服务器上的聚合更新机制被广泛关注[10-24]，这些工作主要分为基于联邦平均算法(Federated Averaging，FedAvg)和基于指数滑动平均(Exponential Moving Average).

原始的联邦平均算法[6，16，17]将每轮训练的所有工作节点的权重进行加权平均.需要等待最慢的工作节点.针对比问题，FedProx[18]利用参数服务器调整不同性能工作节点上本地训练所需轮次，减少快节点与慢节点的差距，并且限制本地多轮训练时的工作节点对参数服务器发来的权重做过多的更改，将修改范围限制在一定范围，减少了快节点对参数服务器的影响，使得模型收敛性更好.然而FedProx直接将工作节点权重对应位置进行加权平均的做法减低了收敛.针对比问题，联邦匹配平均[19](Federated Matched Averaging，FedMA)联邦匹配平均算法认为之前的，基于神经网络参数的置换不变性，在对多个节点进行平均前，先对其进行匹配，再进行加权平均，使每次模型聚合更加有效，增加了模型的收敛性.上述同步联邦学习方法都能取得一定的成效，但是受限于联邦平均算法的框架，不能完全解决落跑者问题.随着工作节点规模的扩大，落跑者问题将更加严重，同步的策略也可能导致网络拥塞.

指数滑动平均的聚合更新策略[20，21]在通信延迟较高且异构的情况下，效率较高，在联邦学习中也有也广受关注[9-15]，使用指数滑动平均的方式，即工作节点完成本地固定轮次更新后发送到参数服务器，参数服务器将这个更新权重与参数服务器保留的平均权重做加权聚合.通过指数滑动平均的聚合更新策略，可以避免参数服务器对慢节点的等待，每次收到工作节点的更新都可以与参数服务器保留的权重以固定权重加权求和.

但是不同工作节点发送的权重的版本不同，以固定加权比例会降低收敛性能，在参考文献[9]中，对指数滑动平均算法的加权比例进行改进，根据工作节点的不用版本，使用不用的比例，当工作节点与参数服务器版本差距较小时，加权比例取更大的值，当版本差距较大时，减少加权比例的值，通过这种加权的策略来减少慢节点梯度延迟造成的影响.

针对指数滑动平均策略版本差距大的问题，参考文献[11]提出了对损失函数增加惩罚项的策略，并且针对相对慢节点动态的提高本地训练中的学习率，降低慢节点的学习率，从而降低工作节点间权重的差异，增加整体收敛速度.针对神经网络，参考文献[12]提出了一种以不同频率更新DNN网络不同层次的训练方式来提高整个模型收敛速度的策略，由于神经网络中浅层神经网络一般代表了不同数据集的常规特征，深层神经网络代表了特定数据集的特定特征，所以在这篇论文中通过更高的频率更新浅层神经网络，来提高模型在不同分布的数据集上泛化能力，通过这种策略可以使用更少的通信量更新更多的轮次，从而提高模型的收敛速度.

针对指数滑动平均策略收敛速度慢的问题，针对神经网络的实际情况，参考文献[13]结合了同步与异步，认为神经网络不同层可以通过使用不同的更新策略提高模型收敛速度，多个工作节点间的同一神经网络层使用同步更新，而层与层之间使用异步的策略进行更新，类似参考文献[12]这种策略可以降低每次通信代价，从而提高模型的收敛速度.

上述工作均在指数滑动平均策略的基础上做出了改进，缓解了指数滑动平均快慢节点差距的问题，但是没有有效的利用工作节点上传来的权重信息，参数服务器只保留了一个平均权重信息，没有解决快节点频繁提交权重造成聚合后的模型参数偏离其他节点上模型的收敛方向，以及慢节点滞后提交的参数阻碍参数服务器模型的收敛的问题.不能消除过时权重对参数服务器的影响；对版本差距的控制也不够灵活、主动.

3 FedWPVA方法

针对指数滑动平均策略快节点频繁提交权重造成聚合后的模型参数偏离其他节点上模型的收敛方向，以及慢节点滞后提交的参数阻碍参数服务器模型的收敛、版本控制不够灵活、主动的问题，本文提出了一种基于权重摘要(Weight Profile)和更新版本感知(Version Aware)的异步联邦学习聚合更新方法.

基于权重摘要的聚合方式通过参数服务器保留完整工作节点的最新权重，实现每次更新可以完全替换掉之前旧权重的影响，使得整体更新更加有效.基于版本感知的更新机制分别在版本差距较小时使用完全的版本加权策略提高快节点的快节点的所占比例，以及版本差距较大时的全局更新策略保证联邦学习内部版本差距的控制.下面的分别讨论FedWPVA方法的权重摘要的聚合算法、以及版本感知更新策略.

3.1 聚合策略

3.1.1 基于指数滑动平均的聚合问题分析

如图1所示，假设，在联邦学习系统中，存在n个工作节点，一个参数服务器.

图1 异步联邦学习系统架构Fig.1 Asynchronous federated learning architecture

1)工作节点端

每个工作节点中都有可用于训练的本地数据，并且数据分不平衡、非独立同分布.参数服务器不可以直接操作数据，通过聚合工作节点训练的模型的范式不断迭代.

(1)

∀i∈[n]，其中i是本地数据集i的采样.即每次本地训练都是从本地数据中采样部分数据作为本轮训练数据，由于数据非独立同分布，i≠j，∀i≠∀j，因此，不同设备的数据集有不同的期望，即Ef(W；i)≠Ef(W；j)，∀i≠j.

2)参数服务器端

指数滑动平均的聚合策略为本地训练固定轮次后，将自身神经网络参数发送给参数服务器，并等待最新的神经网络参数，当接收到参数过后使用指数滑动平均的方式聚合成新的权重，如公式(2)所示：

(2)

其中Wk+τ为参数服务器在聚合时的保留权重，Wki为工作节点i上传到服务器的权重，ki为第i个工作节点权重的更新版本，工作节点使用指数系数η得到下一轮服务器最新的权重Wk+τ+1，并将其发送给发来权重的工作节点，工作节点将当接到参数服务器发来的权重时将继续训练重复上述过程.

3)问题分析

但是在指数滑动平均聚合策略下，快节点频繁更新，慢节点更新滞后，当慢节点完成一轮训练得到Wki时，参数服务器上的最新权重Wk+τ，其中μ=k+τ-ki，μ为此次更新工作节点与参数服务器版本差距，当版本差距过大时，此次更新对参数服务器整体权重无效甚至产生负面效果，如果参数服务器中接收了一个权重延迟的更新Wd，这个产生负面影响的权重将合并到参数服务器的最新权重中，并且造成的影响只能通过之后的多次更新来减少其影响，经过τ轮更新，这个负面影响的更新仍保留Wdητ，并不会完全消失，即使滑动平均策略使用版本差距加权来减少梯度延迟更新所占的更新比例，但是仍然会有部分梯度延迟聚合到整体权重中，并且在之后的聚合过程中，这个聚合到参数服务器的不良更新会同样被当作最新权重获得跟其他权重相同的加权比例，并且随着节点规模扩大，产生的慢节点的概率也相应增高，并且快节点与慢节点在参数服务器的平均权重中所占比例差距会随着设备异构增大而增大，这与联邦学习优化目标最小化平均损失不符，这种聚合策略更加偏向了快节点的数据分布.

图2 指数滑动平均更新策略Fig.2 Exponential moving average strategy

3.1.2 FedWPVA聚合机制

基于权重摘要的聚合方式保留了完整的工作节点的最新权重，假设t时刻权重摘要其中代表1号工作节点保存了t版本的摘要再参数服务器.假设下一个时刻1号节点发来了更新权重摘要将更新一号节点对应位置，通过这种方式，节点更新时可以完全去除过时更新权重，快节点的频繁更新只能更新自身权重，使得慢节点的梯度延迟可以在下一次有效更新中去除.并且由于每个参数服务器的参数都单独存储，而不是简单聚合在一起.

FedWPVA通过这种策略实现了保留所有节点最新权重，而没有采用指数滑动平均的策略，本策略虽然提高了参数服务器存储压力，但是当慢节点进行更新时可以将之前梯度延迟造成的不良影响完全消除，并且可以有效限制快节点的频繁更新，使之不能通过频繁的更新使整体权重严重偏向快节点训练数据，提高了模型整体收敛性能.在本策略中如果碰到与图2相同的网络状况，3个节点在参数服务器保留的比例是一致的.

在本策略中，在使用3.1节图2相同假设的情况下，FedWPVA可以保证每个节点在聚合存储时拥有相同的权重，使得FedWPVA不会偏向快节点的数据分布，当落后的权重更新时，FedWPVA可以完全去除落后权重的影响，如图3所示.

图3 FedWPVA聚合策略 Fig.3 FedWPVA aggregation strategy

根据上述思路，在算法1中，假设在一个异步联邦学习下有一个参数服务器，随机选择n个工作节点，在初始化阶段参数服务器分发给工作节点神经网络、初始神经网络参数，本地训练轮次等参数.之后进入聚合更新阶段，当工作节点完成指定次数迭代将会把自身节点编号id、神经网络参数w上传到参数服务器，第1行中，参数服务器将此权重存储到节点标号对应位置serverw[id]，若节点所在位置已经存在值，则进行覆盖，在第2行中，计算所有已知节点最新权重的平均值wlatest作为下一轮迭代的初始值，第3行中，send函数用于向工作节点发送更新权重，需要两个参数：工作节点id和发送权重wlatest，本算法中将最新权重的平均值wlatest发送给节点编号id.

3.2 更新策略

3.2.1 基于指数滑动平均的更新问题分析

指数滑动平均方法的更新策略只是将聚合后的权重发送给本次更新的工作节点，并不能控制版本差距所造成的影响.在每次聚合更新过程中，指数滑动平均策略中参数服务器保存的平均权重是由不同版本的权重组成的，但是在更新时使用了相同的权重与工作节点传来的新权重加权平均，当快节点与慢节点版本差距过大时，指数滑动平均策略不能够对版本差距做主动干涉，造成上述快节点、慢节点两个问题更加严重且不可控，从而降低了模型收敛性能.如公式(2)所示，当工作节点版本与参数服务器平均版本差距过大时，降低模型的收敛性能.从公式中可以看出，一旦权重合并到参数服务器平均权重内，再次与其他权重加权时获得相同的加权比例，这是相对不够灵活的.

算法1.FedWPVA参数服务器聚合算法

输入：节点id，节点权重w

输出：聚合后的参数wlatest

1.serverw[id]←w；//存储w的权重

2.wlatest←mean(serverw)；//计算均值

3.send(id，wlatest)；//将计算的均值发回

3.2.2 FedWPVA版本控制更新机制

基于3.1.2节的FedWPVA聚合策略，如果不对版本进行感知，通过上述过程，本结构下的参数服务器所做的聚合方式下，各个工作节点的更新如公式(3)所示：

(3)

FedWPVA通过参数服务器简单记录个节点最新的参数版本，使参数服务器能够记录联邦学习中的参数版本差距情况，针对由于设备异构导致的快节点版本高、慢节点版本低的问题，使用参数服务器保存了存储的对应不同工作节点的最新权重版本信息，当整体版本差距较大时，使用主动更新机制将使慢节点追上快节点的版本，使下一次慢节点的更新更加有效.当版本差距不大时，在聚合时使用根据版本差距加权的策略对聚合时的所有权重按照版本信息加权聚合成最新权重.

1)FedWPVA加权聚合机制

FedWPVA方法的基础结构虽然有效限制了快节点的频繁更新，有限的在慢节点提供有效更新后能够剔除之前权重延迟的不利影响，但当数据集的分布非独立同分布程度低时，严重的限制快节点也会拖慢整体训练速度，引入加权机制可以更好的根据不同的数据实际情况，决定加全局和的超参数来适配不同的实际情况，可以在聚合时根据不同节点上提供的最新版本，与参数服务器记录的当前最新版本，根据版本差距，增加版本差距较小的更新的节点的权重，减少版本差距较大的节点的权重.

在3.2节中新提出的机制中，由参数服务器记录了用户节点的版本信息，这根据不同版本加权赋值提供了前提条件，同样基于上小结提出的结构，可以在聚合时加入对版本的考虑，进一步减少慢节点存留在整个系统的影响，不同于传统的加权平均机制策略，参数服务器加全局聚合只考虑参数服务器保存的整体权重以及传来的节点梯度的版本差距做加权聚合，FedWPVA的加权聚合策略将考虑参数服务器保存的所有的节点的版本差距与最新版本的差距进行加权聚合，并且随着最新版本的递增，服务器上存储的各个节点的权重所占比例也是动态改变的.

如公式(4)所示，p(i)代表了权重摘要标号为i的节点比例，α为版本比例超参数，α∈(0，1).

(4)

为了权重期望保持不变，需要对其进行归一化.如公式(5)所示，P(i)代表实际加权所占权重.

(5)

结合上述公式，可以看出，FedWPVA算法中的加权觉和机制更加灵活，它可以给权重摘要上每一个权重一个合适的权重进行聚合，如公式(6)所示：

(6)

2)FedWPVA主动更新机制

FedWPVA存储结构提出的存储结构虽然可以使得等待慢节点更新替换掉梯度延迟的权重，完全去除之前梯度延迟的影响，但是在设备异构严重的环境下，如果存在大量延迟节点，即使慢节点完成了一次更新，还会因为计算此次更新的权重相对参数服务器最新梯度差距过大成为无效甚至有害的权重，所以必须要控制FedWPVA系统下的整体版本差距，当系统版本差距过大时，由参数服务器向工作节点推送最新的梯度，从而使慢节点的下一次更新相对有效，提高系统的收敛速度.本文中，将版本存储、控制交由参数服务器控制.

假设t时刻权重摘要=对应版本分别为=，vleast=max()，那么版本差距设置版本差距为vthreshold，经过反复测试得出公式(7)：

vthreshold=「2nlog2n+1⎤

(7)

假设本轮选择了n个工作节点，每个工作节点都有自身不变的id编号，每次工作节点上传自身权重时，发送自身节点id和权重w.send函数接收目标节点id列表、权重在参数w，将权重发送到目标节点上，服务器保存所有工作节点的最新权重值serverw，每次节点更新都只会更新serverw[id]，在参数服务器中保存所有工作节点的最新版本号到serverver，serverver可以单独存储所有接收到得工作节点的最新值，版本号初始化为1，每次发生更新后自增1，当前最新版本号记录为versionlatest，未使用加权策略时，最新的权重使用serverw中保存的所有工作节点的最新值得平均数作为本次得出的最新结果wlatest，检测所有节点版本是否落后最新版本之和是否超过了版本差距限制gap，当超过版本差距限制时，参数服务器将发送最新权重到所有节点all_node，否则只发送更新到本次接收得工作节点.综上，FedWPVA方法完整算法流程如算法2所示.

算法2.参数服务器完整算法

输入：节点id，节点权重w

输出：聚合后的参数wlatest

1.versionlatest←1；//初始化版本为1

2.versionlatest←versionlatest+1；//版本累加

3.serverw[id]←w；//存储w的权重

4.serverver[id]←versionlatest；//更新节点版本号

8. |send(id，wlatest)；//版本差距较小不需要全局更新

9.else

10. |send(all_node，wlatest)；//版本差距大需要全局更新

4 实验验证

4.1 实验设置

在本章中为了验证FedWPVA算法在实际应用上的表现，本文通过集群模拟实验的方式进行了实验验证，操作系统环境为Ubuntu 20.04.1 LTS，整个实验基于分布式机器学习框架Parallel-SGD，在集群环境下进行试验，共8个工作节点，为了模拟设备异构每个工作节点占用8-16GB内存，根据公式(7)，带入节点数目为8，计算得出vthreshold=49.

数据集分别使用的MNIST[22，23]、CIFAR-10[24]两个数据集，并且对前两个数据集在分发给不同节点前进行了非独立同分布处理，其中MNIST数据集包含60000个用于训练的示例和10000个用于测试的示例，每个实例均为28×28的单通道图片，拥有10个不同类别.CIFAR-10数据集包含50000个用于训练的示例和10000个用于测试的示例，每个实例均为32×32的RGB通道图片，拥有10个不同类别，所有数据集在分配到不同工作节点时均使之符合非独立同分布.

在神经网络模型方面，其中MNIST采用全连接的神经网络，共有4层.CIFAR-10数据集采用卷积神经网络进行训练.为了比较说明训练速度，本文比较为相同训练轮次的形况下，不同实验设置的损失值变化情况展示不同策略下的联邦学习收敛性能.实验分别使用上述提及的两个数据集，使用相同的学习率、损失函数等实验设置依次对比使用FedWPVA基础结构对比基于指数滑动平均的异步联邦学习、为了验证更新机制的效果，对比更新是否使用更新机制的区别，最后使用完整的FedWPVA算法对比基于指数滑动平均的异步联邦学习，查看整体收敛情况.由于MNIST相较于CIFAR-10更容易收敛，本文对MNIST训练20个轮次，对CIFAR-10训练60个轮次.

在对照实验方面，我们使用了基于指数滑动平均的异步联邦学习Afed(Asynchronous Federated Learning)和2020年的相关改进算法Aed_Hinge(Asynchronous Federated Optimization + Hinge)[9]，该算法基于指数滑动平均的异步联邦学习进行了改进，当接受工作节点的更新时，如果版本差距达到一定限制，降低本次更新中落后节点的加权权重.

4.2 实验结果

我们首先测试了基于指数滑动平均的异步联邦学习Afed、Aed_Hinge、FedWPVA在MNIST数据集上损失下降的不同，Aed_Hinge、FedWPVA在相同轮次损失函数上都相较传统异步联邦学习更快下降，如图4所示，其中Aed_Hinge算法对比Afed算法在MNIST数据集上损失平均降低了3.95%，FedWPVA对比算法对比Afed算法在MNIST数据集上损失平均降低了14.45%.从图4中可以看出FedWPVA算法收敛速度较快，其中Afed_Hing算法在早期版本差距不显著时几乎与Afed保持一致，当后期差距更加显著时Afed_Hing与Afed逐渐拉开差距，FedWPVA算法较为稳定全程超过了Afed、Afed_Hing算法.

图4 Afed、Afed_Hinge、FedWPVA在MNIST数据集上训练效率Fig.4 Afed、Afed_Hinge、FedWPVAtraining efficiency on the MNIST dataset

之后我们测试了基于指数滑动平均的异步联邦学习Afed、Aed_Hinge、FedWPVA在CIFAR-10数据集上损失下降的不同，Aed_Hinge、FedWPVA在相同轮次损失函数上都相较传统异步联邦学习更快下降，如图5所示，其中Aed_Hinge算法对比Afed算法在CIFAR-10数据集上损失平均降低了4.00%，FedWPVA对比算法对比Afed算法在CIFAR-10数据集上损失平均降低了7.26%.从图5中可以看出FedWPVA算法收敛速度较快，其中Afed在训练中期损失下降变慢是由于快满节点版本差距拉大，由于慢节点的更新降低了模型整体收敛性能，Afed_Hing算法由于对慢节点进行了权重惩罚，可以一定程度上缓解中后期的收敛速度慢的问题，但是FedWPVA由于其权重摘要和更新版本感知机制在实验后期效果对比Afed_Hing算法效果更加明显.

图5 Afed、Afed_Hinge、FedWPVA在CIFAR-10数据集上训练效率Fig.5 Afed、Afed_Hinge、FedWPVA training efficiency on the MNIST dataset

5 结束语

基于指数滑动平均的异步联邦学习，在实际使用时会出现聚合比例偏向快节点、慢节点过时权重不能被及时消除等聚合问题，当慢节点与快节点版本差距拉大时，指数滑动平均策略更新策略对版本差距的处理也不够灵活.本文通过基于权重摘要的聚合策略和版本感知的更新策略，其中权重摘要通过保留工作节点最新权重，并且所有工作节点所占权重比例相同.权重摘要通过每个工作节点只能更新自身摘要部分，限制了快节点高频更新对整体权重的影响，可以推动参数服务器上的模型更快地收敛.版本感知是参数服务器对权重摘要的版本进行记录，使得参数服务器聚合时可以根据工作节点不同的版本确定不同的加权比例.同时，当整体版本差距过大时，通过全局更新方式将慢节点中使用的旧权重更新到最新权重，从而提高慢节点的更新效率，使参数服务器上的模型更快的收敛.

综上所述，FedWPVA算法解决了因工作节点训练速度差异而导致的模型收敛速度降低问题.提高了异步联邦学习训练效率.