MADDPG算法并行优先经验回放机制
2021-01-26董志明宋敬华
高 昂, 董志明, 李 亮, 宋敬华, 段 莉
(1. 陆军装甲兵学院演训中心, 北京 100072; 2. 中国人民解放军61516部队, 北京 100076)
0 引 言
多智能体系统(multi-agent system, MAS)是在同一个环境中由多个交互实体(代理)组成的系统[1-2],具有模块化、可扩展、并行性、鲁棒性强等特点,常用于解决单智能体系统难以解决的问题。强化学习(reinforcement learning, RL)是实现MAS智能的一类重要方法,许多现实问题,如网络包路由、城市交通控制、自主化无人作战等,可以很自然地被建模为多智能体RL(multi-agent RL, MARL)问题。然而,随着智能体数量增多,状态空间呈指数级增大,MARL方法在问题规模的扩展性上受到限制。近来,深度学习(deep learning,DL)[3]的兴起解决了高维状态空间感知的问题,融合DL和RL的深度RL(deep RL,DRL)[4]方法成为许多领域研究的热点。文献[5]对DRL进展进行了较为全面的阐述,研究人员将DRL方法融入MAS领域,催生了多智能体DRL(multi-agent DRL,MADRL)方法[6]。经过数年的发展,MADRL诞生了众多算法、规则、框架,逐渐成为人工智能领域的热门方向,具有较高的研究和应用价值[7-9]。
用于多智能体协同控制的MADRL算法主要包括:智能体间增强学习(reinforced inter-agent learning, RIAL)算法[10]、策略空间回应/深度分层认知(policy-space response oracles,PSRO / deep cognitive hierarchies, DCH)算法[11]、引入宽大值的深度Q学习网络(lenient deep Q-learning network, LDQN)算法[12]、滞后深度递归Q学习网络(hysteretic deep recurrent Q-learning network, HDRQN)算法[13]、加权双重深度Q学习网络(weighted double deep Q-learning network, WDDQN)算法[14]、获胜导向(for the win,FTW)多智能体算法[15]、价值分解网络(value decomposition networks,VDN)算法[16]、Q学习混合网络(Q-learning mixing network, QMIX)算法[17]、反事实多智能体策略梯度(counterfactual multi-agent policy gradients, COMA)算法[18]、参数共享的深度Q学习网络(parameter sharing deep Q-learning network, PS-DQN)算法、参数共享的置信域策略优化算法(parameter sharing trust region policy optimization, PS-TRPO)、参数共享的异步优势行动者评论家(parameter sharing asynchronous advantage actor critic, PS-A3C)算法[19]、多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法[20]。相比于其他算法,MADDPG算法可应用于多智能体间的竞争、合作等多种任务场景,同时可以利用其他智能体的观测信息进行集中训练,进而提升算法效率,并采用策略推断、策略集合机制增强算法鲁棒性,应用场景更广阔[21]。
1 相关工作
图1为单智能体DRL方法与MADRL方法的示意图,每个黑色实心圆表示一个具有目标、动作、领域知识,并位于特定环境下的实体。单智能体DRL方法是指由一套神经网络控制所有实体策略输出,如图1(a)所示。MADRL方法是指每个实体的策略输出均由一套神经网络控制,如图1(b)所示[1]。
图1 单智能体DRL方法与MADRL方法示意图Fig.1 Schematic diagram of single agent DRL method and MADRL method
并行优先经验回放机制在单智能体DRL领域已成功应用,本文以MADDPG算法为研究对象,将并行、优先经验回放思想应用到MADRL算法,提出基于并行优先经验回放机制的MADDPG(MADDPG based on parallel priority experience replay mechanism,PPER-MADDPG)算法。
1.1 AC框架下的并行方法
RL算法可分为3类:基于值函数(value based,VB)、基于策略梯度(policy gradient based,PGB)、VB与PGB结合的演员-评论家(actor-critic,AC)算法[2],如图2所示。AC类RL算法[22]由Actor策略网络与Critic价值网络组成,相比于VB和PGB类单任务执行RL算法,AC框架提供了智能体行动任务与评估任务可同时进行的并行结构,使得RL算法在计算效率、样本利用率、计算资源上的性能大幅提升。
图2 RL算法分类图Fig.2 RL algorithm classification diagram
并行方法突破了单一进程的限制,可添加多进程同时进行计算。研究者借助并行方法对AC框架下的单智能体DRL算法研究,使得智能体空间探索效率提高,事件相关性减弱,算法收敛性提升。2016年,DeepMind提出异步优势行动者评论家(asynchronous advantage actor critic,A3C)算法[23-24],如图3所示,A3C使用并行actor学习策略参数,每个actor使用AC模型的一个实例与环境交互,周期性地暂停,将计算出的梯度参数共享至主actor,并从主actor获取最新更新参数,其中,主actor仅用于存储AC网络结构参数,不进行训练。
2018年,DeepMind[25]在A3C基础上将并行思想再次扩展,提出重要性加权行动者-学习者框架(importance weighted actor-learner architecture, IMPALA)单智能体大规模DRL训练,如图4所示。与A3C不同的是,actor不计算梯度,只负责和环境交互产生经验数据,并将这些数据传递至learner,这样actor不用去等待其他actor,可以尽可能多地产生数据。learner只负责计算梯度,并同步梯度参数给actor。IMPALA框架完全把actor和learner分开异步进行,从而支持多台计算机同时接入,系统的数据吞吐量大幅提升。针对actor与learner解耦导致的actor策略落后于learner,IMPALA对采集到的off-policy样本引入离线策略修正算法V-trace,对actor的轨迹进行补充。
图3 A3C算法示意图Fig.3 Algorithm diagram of A3C
图4 IMPALA框架示意图Fig.4 IMPALA framework diagram
另外,还有并行版本的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法、近端策略优化(proximal policy optimization, PPO)算法等算法[26-28],均是基于以上思想对单智能体DRL的扩展,例如文献[26]提出的并行DDPG算法,将一个进程用于训练,多个进程同时进行数据收集并放入经验池,并在数据收集进程中添加随机过程以激发动作空间中更丰富的探索行为。
1.2 优先经验回放机制
1993年Lin[29]提出“经验回放”概念来加速单智能体RL中信度分配的传播过程。经验是一个四元组(st,at,rt,st+1),表示RL智能体探索环境过程中,在状态st处执行动作at,转移至新状态st+1,并获得奖励值rt。如图5所示,智能体将得到的经验数据(st,at,rt,st+1)存入经验回放池,然后从中对数据进行批次采样,并用来训练更新深度神经网络(deep neural network, DNN)参数。其中,从缓存器中对经验数据批次采样的过程称为经验回放(experience replay, ER)。
图5 经验回放机制示意图Fig.5 Experience replay mechanism diagram
DNN对训练数据的假设是独立同分布的,然而在RL中,训练数据由高度相关的“智能体-环境交互序列”组成,不符合采样数据独立性条件。智能体在探索状态空间的不同部分时是主动学习的,因此训练数据的分布是非平稳的,不符合采样数据独立同分布条件。ER机制使RL智能体能够记住并回放过去的经验数据,通过与最近数据混合,打破观测序列的时间相关性,有助于解决数据非独立同分布造成的问题。
2013年,MNIH等[30-31]提出深度Q网络(deep Q-network, DQN)算法,一方面,将DNN与RL的Q-learning方法结合,对动作值函数泛化逼近,解决了“维度灾难”问题,另一方面,采用ER机制,解决了以DNN为值函数逼近器的训练稳定性问题。由于缓存器中的历史经验数据与当前经验数据可能不匹配,因此ER主要用于离线RL方法[7]。采用ER机制的单智能体DRL算法主要包括基于值函数DRL方法中的DQN系列算法[32-34],基于策略梯度DRL方法中的DDPG[35]、A3C算法框架与离线学习方法结合形成的基于ER机制的AC(AC with ER, ACER)算法[36]、置信域策略优化(trust region policy optimization,TRPO)算法[37]、PPO[38]、基于熵正则化DRL方法中的柔性AC(soft AC, SAC)算法[39]等。
然而,ER使用的均匀分布采样并不是高效利用数据的方法。2016年,Schaul等[40]提出优先ER(prioritized ER, PER)的采样策略改进DQN算法,优先采样经验池中具有较大TD-error的样本,实现对重要经验数据的优先回放,PER原理示意图如图6所示。
图6 PER原理示意图Fig.6 Schematic diagram of PER principle
后续研究在上述方法上做了改进,文献[41]提出优先序列ER方法,文献[42]将PER方法应用于DDPG算法,提高了采样效率。
在多智能体领域,智能体i的价值函数Vi:S→R可表示为在联合策略π:S→Δ(A)下的期望奖励,即
2 MADDPG算法框架及训练方法
MARL的目标是以固定离散时间为步长,从与环境交互的经验中学习最优联合策略π(a|s)=∏i∈Nπi(ai|s),使得智能体累积联合奖励最大。不同的MARL算法会有不同的解决方案,但均可以认为是在多智能体环境非平稳性、经验回放失效等问题约束下的目标优化问题[43],其目标函数为
MADDPG是一种基于AC框架的算法,如图7所示。假设环境中有N个智能体,联合策略空间为π=(π(θ1),π(θ2),…,π(θN)),各智能体策略均采用单智能体DRL算法DDPG框架[35],由Actor、Critic、TargetActor、TargetCritic网络组成,θ=(θ1,θ2,…,θN)表示各智能体策略参数的集合。针对多智能体环境非平稳性、经验回放失效问题约束,MADDPG算法采用了集中训练、分散执行的框架实现寻找最优联合策略的目标,其背后的主要动机是,如果所有智能体的策略是已知的,那么即使智能体的策略变化,由于动力学模型为
图7 MADDPG算法框架示意图Fig.7 Schematic diagram of MADDPG algorithm framework
(1)
然后,通过梯度下降法计算更新动作网络的参数,梯度计算公式为
(2)
网络参数更新公式为
(3)
式中,η为学习率。
为进一步加速智能体学习过程,PPER-MADDPG打算再次从MADDPG的经验回放池数据着手,扩展经验数据吞吐量、增加数据多样性、提高经验数据利用率。
3 PPER-MADDPG算法
PPER-MADDPG算法如图8所示,并行、优先经验回放均是提高数据利用效率的思想方法,以下结合图示阐明两类方法的思想如何融入MADDPG算法,并具体阐述PPER-MADDPG流程,讨论PPER方法的引入是否会导致环境非平稳性、经验回放失效恶化等问题。
图8 PPER-MADDPG算法示意图Fig.8 Schematic diagram of PPER-MADDPG algorithm
3.1 并行方法引入
针对MADDPG算法集中式训练和分布式执行的特点,PPER-MADDPG方法借鉴了单智能体DRL中,IMPALA框架actor与learner分开,多个actor只负责产生经验数据的“数据并行”思想,将经验回放池的数据划分为多个批次,让批次经验数据并行流动;同时,借鉴A3C框架使用主actor与多actor体系结构更新梯度参数的“模型并行”思想。MADDPG并行方法流程图如图9所示,步骤①~⑥使每一个learner副本对应每批次的经验数据,步骤⑦~⑨采用主learner与多learner体系结构更新梯度参数,从而扩展经验数据吞吐量、增加数据多样性。
图9 MADDPG并行方法流程图Fig.9 MADDPG parallel method flowchart
智能体i累积期望奖励的策略梯度计算公式为
假设M>N,M是N的整数倍,M和N均为整数。那么,同时开启[M/N]个进程各自从D中完成规模为N-size的数据采样及learner梯度更新所需要的时间仍为T,即
3.2 优先经验回放机制引入
为了在不丢失多样性的情况下进一步提高经验数据利用率,learner副本在使用经验数据更新梯度参数过程中,采用了优先经验回放机制。“优先”的核心组成部分是对经验数据重要性的评判,其中,一个合理标准是智能体学习的效率越高,重要性权重越大,符合该标准的一个选择是时间差分(temporal difference,TD)偏差δ,即
δ=(y-Qπ(s,a1,a2,…,aN))2
(4)
δ越大,在该状态处学习效率越高,设样本i处的TD偏差为δi,则该样本处的采样概率为
(5)
经验缓存池D的元素记录了所有智能体的经验数据,基于式(5)对D中元素重要性采样,同时Critic网络通过优化损失函数来进行更新,网络的输入包括其他智能体的观测值和采取的动作。
定义误差值εk=Es,a~D(N -size)[|Qk-Q*|],其中,Qk为第k次迭代拟合的最优值函数,Q*为真正的最优值函数。当值误差εk平稳下降,表示算法能有效地修正Q函数中的误差;当εk出现波动或上升时,表示算法的学习进度很差;当εk稳定在某个εk≈0的值时,表示算法大致收敛,εk越小,算法收敛性越好。
图10 PER机制算法流程图Fig.10 PER mechanism algorithm flow chart
然而,由于真实的最优值函数Q*未知,值函数拟合是通过将Bellman回溯应用于之前学习的Q函数,而不是真正的最优Q*作为目标值来训练,Critic网络优化的目标是
在每一次迭代k中,最小化值误差εk,即最小化Bellman误差的分布pk。因此,Critic网络优化损失函数进行更新的问题可定义为
min Es~D(N -size)[|Qk-Q*|]
式中,B*为Bellman等式。
然而,近似动态规划(approximation dynamic programming, ADP)方法所带来的问题是,之前Q函数中的错误可能会导致当前状态下以不正确的Q值作为目标训练。例如,图11表示在一个树状结构的马尔可夫决策过程(Markov decision-making process, MDP)上的Q学习的迭代。使用当前策略对轨迹进行采样,每轮试验(以图形周围的虚线表示)都从根节点开始。函数逼近会导致方形节点和圆形节点的“混叠”,这样对一个圆形节点的更新会影响所有其他圆形节点,对于方形节点也是如此。由于分布训练和混叠作用,算法会计算出不准确的目标值,另外,以前在其他状态下正确的值可能由于这些错误的目标值而变得不正确,从而导致不收敛。这个问题是由于每个导致错误的叶节点的采样频率低于树中较高受到这些错误影响的节点,从而使算法无法获得正确的错误目标值。
图11 MDP中的Q学习迭代示意图Fig.11 Schematic diagram of Q-learning iteration in MDP
图11展示了Q-learning在这棵树上的学习过程,每个状态处的Q值根据当前策略下这些状态的访问频率进行更新。因为在图11的状态分布中,叶子节点的可能性最小,所以Bellman优化在叶子节点上纠正错误的速度很慢。使用这些不正确的叶节点Q值作为树中较高节点的目标值,即使Bellman错误在采样转换中被完全最小化,也将导致算法无法计算出正确的状态-动作值。因此,大多数Bellman更新实际上不会使更新的Q值更接近真正的Q*。经验表明,与ER机制相比,PER通常能提高智能体的性能,但缺乏良好的PER数学模型,文献[44]通过建立一个基于经验回放的Q学习动态系统模型来解释以上问题,指出如果对状态进行排序,例如对经验缓存池D的数据采用经验优先回放方法,并基于式(5)对D中元素重要性采样,即优先处理具有较高Bellman错误的转换,更频繁地采样具有较高Bellman错误的经验数据,那么这种对数据分布的特定修正可以提高数据利用效率,在很大程度上缓解以上问题。同时指出当经验回放池容量较小时,尤其是学习速率不大时,PER的表现相对较差,这归因于过度调整和快速调整权重之间的平衡,而对于经验回放池容量较大情况,PER更新权值的速度则更快,收敛速度也更快。
3.3 算法框架及流程
PPER-MADDPG算法步骤如下所示。
步骤 1随机初始化每个智能体的价值网络Qi(s,a1,a2,…,aN,θQi)和策略网络πi(oi,θπi),以及网络权重θQi和θπi。
步骤 3初始化经验回放池D和动作探索噪声εa。
步骤 4设置采样数据规模M-size,批数据规模N-size。
步骤 5设置最大训练回合数,对每个回合进行如下操作。
步骤 5.1初始化环境和所有智能体状态集合s。
步骤 5.2对回合中的每一步,智能体i执行以下步骤。
步骤 5.3每执行M-size步,按照图9中,步骤③~步骤⑤更新开启多进程。
步骤 5.4针对图9中步骤⑥,learner[k]使用进程[k]的采样数据更新梯度信息,k=1,2, …, [M/N],使用了PER机制,执行步骤如下:
步骤 5.4.1根据式(4)计算N-size规模经验数据的策略损失。
步骤 5.4.2根据式(5)计算当前经验的优先级,即N-size数据的采样概率。
步骤 5.4.3执行图10的算法流程。
步骤 5.4.4计算
步骤 5.4.5根据式(1)最小化损失以更新评估网络参数。
步骤 5.4.6执行图9中的步骤⑦,通过式(2)梯度更新当前智能体的策略网络参数。
步骤 5.4.7执行图9中步骤⑧,learner[j]从主learner获取最新梯度参数信息,j=1,2, …, [M/N],j≠k。
步骤 5.5更新网络参数:
(6)
步骤 5.6结束步循环。
步骤 6当算法训练达到步骤5设置的最大回合数,结束回合循环。
4 实验数据分析
本节采用文献[20]中的多智能体对抗、合作两类实验环境,对比PPER-MADDPG、基于PER机制的MADDPG(MADDPG based on PER mechanism,PER-MADDPG)、基于并行机制的MADDPG(MADDPG based on parallel mechanism, P-MADDPG)、MADDPG和DDPG算法效果,验证改进PPER-MADDPG算法的有效性。衡量DRL算法效率的指标主要是智能体奖励值随训练轮数/时间的变化情况,相同训练轮数/时间下,智能体奖励值越大,收敛速度越快,算法效率越高;收敛后累计奖励值的方差越小,算法性能越高。在以下实验中,分别对比分析各算法的奖励曲线。Actor、Critic神经网络结构如图12所示。分别采用2层和3层隐藏层的全连接神经网络,隐藏单元数分别为(400,300)、(400,300,300),并使用ReLU激活函数;网络主要超参数设置:Actor、Critic网络学习率η=0.001,折扣因子γ=0.99,目标网络更新系数τ=0.01,采样数据规模M-size=256,批数据规模N-size=128。
图12 Actor、Critic神经网络结构Fig.12 Neural network structure of Actor、Critic
4.1 对抗实验
多智能体对抗实验采用经典的“捕食者与猎物”环境,如图13所示。二维坐标平面[0,1]中,设置捕食者数量n=2,速度相对较慢;猎物数量为1,速度相对较快;障碍物数量k=1,面积相对较大,可以阻挡智能体观察和运动。
图13 “捕食者与猎物”环境示意图Fig.13 “Predator and prey” environment diagram
捕食者i与猎物j的奖励分别取决于其和对方的距离以及是否碰撞。捕食者i的奖励函数为
(7)
猎物j的奖励函数为
(8)
式中,捕食者i与猎物j之间的距离为D(i,j),即
(9)
距离越小,捕食者奖励越大,猎物奖励越小。
(10)
表示当捕食者捕获猎物成功时,得到较大奖励,同时猎物得到较大惩罚。
(11)
表示对逃出边界的智能体施加较大的惩罚,目的是为了防止智能体逃出边界难以学到较好的策略。
4.1.1 实验设计
如图14所示,分别采用PPER-MADDPG、PER-MADDPG、P-MADDPG、MADDPG算法控制捕食者运动,DDPG算法作为基线,控制猎物运动。
图14 对抗实验设计示意图Fig.14 Schematic diagram of experimental design of confrontation
4.1.2 实验结果及分析
统计智能体每训练100轮的胜率,把在相同训练区间内,PPER-MADDPG智能体胜率≥90%,其他智能体算法胜率≤2%作为算法训练终止条件,智能体胜负判定条件如式(12)所示,智能体胜率统计如表1所示,智能体胜率曲线如图15所示。在第4 901~5 000轮时,PPER-MADDPG vs PER-MADDPG=(0.94,0.02),PPER-MADDPG vs PER-MADDPG=(0.96,0.01),PPER-MADDPG vsMADDPG=(0.94,0.01),PPER-MADDPG vs DDPG=(0.96,0.02),因此,可在第5 000轮时将算法终止。
(12)
episode≤i≤episode+N-1
episode=100k+1,k=0,1,2,…
表1 智能体胜率统计表
图15 智能体胜率曲线Fig.15 Agent winning curve
从表1中可以看出,PPER-MADDPG智能体训练4 500轮之后,胜率明显高于其他算法智能体。智能体训练5 000轮后的实验数据如图16所示。
图16 对抗实验数据图(episode维度)Fig.16 Counter experiment data graph (episode dimension)
从图16(a)对抗实验奖励曲线可以看出,由于算法学习效率不同步,奖励曲线出现波动,其中,PPER-MADDPG算法智能体奖励曲线呈现明显波动上升趋势,并且奖励值明显高于其他算法,这些均说明PPER-MADDPG算法性能明显优于其他算法。从图16(b) 5 000轮全部奖励值平均柱状图可以看出:PPER-MADDPG算法控制的智能体平均奖励值为1.43,MADDPG为0.04,是MADDPG的35.75倍;PER-MADDPG(0.85)、P-MADDPG(0.06)分别是MADDPG的21.25倍,1.5倍,P-MADDPG算法只增加了1个平行进程,提升不明显。DDPG算法控制的智能体平均奖励值(0.24)高于P-MADDPG(0.06)、MADDPG(0.04),说明DDPG算法性能高于P-MADDPG、MADDPG,这是因为单智能体DDPG算法比MADDPG算法更容易收敛。
图17 每轮训练所用时间统计图Fig.17 Chart of time spent in each training round
统计智能体每训练1 h的平均奖励值为
图18 对抗实验数据图(时间维度)Fig.18 Counter experiment data graph (time dimension)
表2 智能体平均奖励差值统计表
4.2 合作实验
多智能体合作实验采用经典的“合作导航”环境,如图19所示,二维坐标平面中,设置智能体数量n=3,目标点数量k=3,智能体的目的是以最短步长到达目标点,并避免相撞。智能体i的奖励取决于距离最近目标的距离以及是否碰撞[21]。智能体i的奖励函数为
(13)
图19 “合作导航”环境示意图Fig.19 “Cooperative navigation” environment diagram
(14)
表示对发生碰撞的智能体施加惩罚。
4.2.1 实验设计
如图20所示,分别采用PPER-MADDPG、PER-MADDPG、P-MADDPG、MADDPG、DDPG算法控制智能体运动,相同训练轮数/时间下,性能较高的算法会得到较大奖励,并且收敛速度较快。
图20 合作实验设计示意图Fig.20 Schematic diagram of experimental design of cooperation
4.2.2 实验结果及分析
统计智能体每训练100轮的平均奖励值,即
episode=100k+1,k=0,1,2,…,平均奖励曲线如图21(a)所示。统计智能体每训练100轮的标准偏差,即
i∈(episode,episode+N-1)
图21 合作实验数据图(episode维度)Fig.21 Cooperation experiment data graph(episode dimension)
图21为智能体训练5 000轮后的实验数据图,从图21(a)合作实验奖励曲线可以看出,随着训练轮数的增加,各算法奖励曲线呈现上升趋势,并逐渐收敛,说明智能体在相互合作的环境中学习到的策略逐渐趋于完善。其中,PPER-MADDPG算法智能体大约在1 500轮左右奖励曲线就已经收敛,收敛速度最快。从表4智能体奖励值均值与标准偏差统计表中可以看出,PPER-MADDPG算法在4 901~5 000轮收敛后,各算法平均奖励值为
表3 智能体奖励值均值与标准偏差统计表(训练轮数不同)
PPER-MADDPG算法智能体收敛后平均奖励值最高;在4 901~5 000轮收敛后,各算法标准偏差为
表4 5 000轮智能体奖励值平均
PPER算法在提高学习效果的同时引入了时间复杂度,对5 000轮训练中每一轮训练所用的时间进行统计,如图22所示,因此以时间为横轴对比算法的改进。
图22 每轮训练所用时间统计图Fig.22 Chart of time spent in each training round
统计智能体每训练1 h的平均奖励值:
i∈(h,h+1)
图23 合作实验数据图(时间维度)Fig.23 Cooperation experiment data graph(time dimension)
表5 智能体奖励值均值与标准偏差统计表(训练时间不同)
图23为智能体训练80 h后的实验数据图,其中,PPER-MADDPG算法智能体大约在15 h左右奖励曲线就已经收敛,收敛速度最快;从表5智能体奖励值均值与标准偏差统计表中可以看出,PPER-MADDPG算法在训练70~80 h收敛后,各算法平均奖励值为
PPER-MADDPG算法智能体收敛后平均奖励值最高;在训练70~80 h收敛后,各算法标准偏差有
表6 80 h累积奖励值平均统计表
5 结 论
本文从多智能体经验回放池数据着手,将并行PER机制融入MADDPG算法,使得在MAS中,经验数据吞吐量扩展、数据多样性增加、经验数据利用率提高。最后,通过在OpenAI对抗、合作类典型实验环境中对比测试各算法,结果表明PPER-MADDPG算法性能优于其他算法,改进算法的有效性得到验证。因此,下一步会将算法迁移至更多场景下进行测试,将领域知识引入PPER-MADDPG框架,进一步提升算法性能。