协作多智能体深度强化学习研究综述

2022-12-29邹启杰蒋亚军李文雪张汝波

航空兵器 2022年6期

邹启杰，蒋亚军，高兵*，李文雪，张汝波

(1.大连大学信息工程学院，辽宁大连 116000；2.大连民族大学机电工程学院，辽宁大连 116000)

0 引言

多智能体系统(Multi-Agent System, MAS)是由多个智能体与环境交互组成的分布式决策系统[1]。20世纪70年代以来，研究者在MAS领域展开了众多的研究，目的在于建立一个拥有特定自主等级和自主学习能力的群体智能决策系统[2]。MAS信息共享、分布式计算和协同执行的特点在现实生活中有着广泛的应用需求，如在军事、工业、交通运输等众多领域[3]，MAS可以高效地完成群体性自主决策任务[4]。此外，资源调度、商业竞争、金融分析、群体心理学等一些复杂的社会性问题同样可以抽象为多智能体模型，进而解决其智能优化问题。

最初的群体智能算法灵感源自仿生学，如蚁群算法、粒子群算法等启发式算法。然而，仿生集群智能方法中单个智能体智能决策水平十分有限，智能体集群执行协同任务较为单一，不能更好地适应复杂未知任务[5]。在决策优化问题中，强化学习(Reinforcement Learning, RL)可以有效解决序贯决策问题[6-7]，因此，多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)成为广大MAS研究者重点关注的领域，极大推动了MARL模型不断优化[8]。

随着研究的不断深入，MARL一方面提升了群体智能决策水平，另一方面也丰富了多智能体执行任务的类型。目前，根据多智能体的优化目标不同，可以将MARL中智能体的学习任务分为三种类型：完全协作、完全竞争和混合环境[9-10]。多智能体合作往往在实际生产和作业过程中具有更广泛的应用价值，其中狭义的学习合作指智能体仅通过局部观测来学习协同，以达成共同目标。另外，尽管多智能体通信机制可以更好地促进协作策略的高效率执行，但是一方面显式通信交流是以无通信下的协作策略研究为基础，另一方面通信占据一定的计算成本和资源，使得大部分应用场景并不适用。因此，无通信环境下的协作多智能体应用前景广泛。由于MARL在无通信环境下可以通过状态-动作信息参数共享等方式获取全局信息，本文将这种智能体之间无直接通信的环境称为隐式通信环境。本文对MARL领域中隐式通信下的协作型多智能体强化学习研究成果进行归纳，侧重于学习合作场景，同时不涉及额外的显式通信。

1 多智能体强化学习

MARL是指小规模或大规模具有自主控制能力和自主决策等级的智能体集合，通过RL方法解决序贯决策问题，使得MAS达到任务需求最优均衡状态[11]。由于多智能体强化学习往往涉及大量的特征信息，通常采用深度学习的神经网络逼近目标函数，因此多智能体强化学习一般指多智能体深度强化学习，简称采用MARL，本文沿用此习惯。

图1 MARL结构图

MARL联合值函数表示为

(1)

联合策略就是组成联合值函数的动作集合，即

(2)

在无通信的任务场景中，MARL遵循以马尔科夫决策过程(Markov Decision Process, MDP)为基础的随机博弈理论。在学习决策过程中，每个智能体仅能感知周围环境，并不能覆盖整体环境。因此，MARL问题遵循分布式部分可观测马尔科夫决策过程(Decentralized Partially Observable Markov Decision Process, Dec-POMDP)的模型，可以描述为一个七元组(S,A,P,O,Ω,γ,R)。其中，智能体：i∈I={1, 2, …,N}；状态：s∈S；动作：ai∈A，a∈AN；转移函数：P(s’|s,a)；奖励：R(s,a)；观测：oi∈Ω；观测函数：oi∈Ω～O(s,i)。

2 MARL研究进展

在多智能体学习合作的研究领域，本文将深度强化学习研究方法分为三个类别：基于价值分解(Value Decomposition, VD)的方法、基于Actor-Critic(AC)的方法和基于经验回放(Experience Replay, ER)的方法，如表1所示。

表1 MARL研究分类

2.1 基于价值分解的方法

初期的MARL方法中，智能体的学习方式主要是完全分布式学习和完全集中式学习。在完全分布式学习方法中，每个智能体学习自己的值函数，并根据局部观测oi输出Q值。分布式学习方式面临的问题是环境对系统的联合奖励无法合理有效地分配到每个智能体，致使智能体的学习环境不稳定，收敛性也得不到保证。完全集中式学习方法则是把MAS看作统一的智能体集合进行学习，联合网络把所有智能体观测历史O作为输入，输出联合Q值，即Qtot。这将面临学习规模严重受限问题，即使采用神经网络进行值函数拟合，也无法解决随着智能体数量增多，智能体状态S和动作A空间会呈现指数级增长困难的问题，因此单纯的集中式或分布式学习无法进行智能体数量的大规模扩展。

近来，价值函数分解方法采取集中训练、分散执行(Centralized Training and Decentralized Execution, CTDE)的范式，学习一个集中但可分解的Q值函数。价值分解方法通过维护联合行为价值函数，一方面可以避免完全集中式学习过程中由智能体增加而出现的特征维数爆炸问题，以及完全分散式学习的协同性低下问题，因此价值分解的方法在扩展性方面具有结构性优势；另一方面，智能体保留各自的Q值，使得奖励可以按照Q值进行分配，从而达到有效的信度分配。因此，价值分解方法在扩展性和信度分配问题上具备天然的结构性优势。最新的价值分解方法研究进展，如图2所示。

图2 价值分解方法研究进展

为了保证多智能体Q学习的CTDE范式的有效性，联合贪婪动作应该等同于各智能体的个体贪婪动作的集合，被称为IGM(Individual-Global-Max)原则[12]，即

(3)

初期，VDN将联合动作价值函数转化为单个动作价值函数的加性分解[13]，其基本思想是中心化地训练一个联合的Q网络，这个联合的网络是由所有智能体局部的Qi网络求和得到

Q((h1,h2, …,hN),(a1,a2, …,aN))≈

(4)

然而，VDN可加性的约束条件必然使得其在大部分非可加性的情况下无法正常收敛。

QMIX方法是对VDN的改进，采用Mixing Network以非线性的方式将局部值进行组合，使得联合动作价值函数表示为一个单调函数的形式，如图3所示。每个智能体学习一个局部Q值函数Qi，训练时通过Mixing Network联合生成一个网络输出Qtot。分布式执行时，智能体去除Mixing Network，仅保留自己的值函数网络，并通过值函数网络进行动作的选择，并输出到环境进行交互。

图3 价值分解方法结构图

(5)

由于QMIX方法的Mixing Network是一个非线性网络，其表达能力因而超过VDN。实际上，这个约束条件使得Mixing Network关于每一个Qi的权重必须非负，因此，单调性的限制条件使得QMIX方法无法拟合复杂收敛场景。

上述方法采用Qi近似得到Qtot的思路，但是拟合后的Qtot仍和真实的Qtot存在偏差，因此另外一个途径是从真实的Qtot分解为局部的Qi。

图4 QTRAN结构图

最近，QTRAN方法的研究团队对其进行改进，提出QTRAN++方法，增加优化约束条件，明确地指定了最优动作组成的Qtot，当前最大Qtot，以及得到的近似Qtot之间的大小关系[15]，如图5所示。改进后的QTRAN++方法深度分析了最优动作序列的关系，明确了Q函数的更新目标，减轻了Qtot和Qi的训练压力。

图5 QTRAN++结构图

Qatten方法提出了一种基于多头注意力机制(Multi-Head Attention)的Q值混合网络来近似Qtot值和分解Qi值[16]，如图6所示。Qatten方法从理论上系统推导出了全局分解为局部的过程，为价值分解方法提供了充实的理论依据，弥补了QMIX和VDN等方法在理论上的不足。

图6 Qatten结构图

ROMA方法将多智能体协同过程的智能个体的任务差异性加入MARL方法之中，通过“角色”来描述，智能体的价值函数或策略依赖于学习的“角色”，不同“角色”负责执行不同的子任务，并实现智能体之间的自适应共享学习机制[17]，如图7所示。

图7 ROMA结构图

综上，相较于其他MARL方法，价值分解的方法近年来取得了较多的研究成果并日趋成熟。基于价值分解的MARL方法具有明显优势：一方面，价值分解的方法在智能体数据的扩展性方面具有结构性优势，避免了完全集中式学习过程中因智能体增加而出现的特征维数爆炸问题，以及完全分散式学习的协同性低下问题；另一方面，采用效用函数细化值函数的方式，简化联合行为价值函数的训练方式，同时具备针对性，可以有效解决多智能体信度分配问题。

然而，价值分解的方法也有其明显的不足之处。首先，价值分解的方法在处理环境非平稳性问题上的表现不尽如人意；其次，受限于离散的动作空间，价值分解方法无法在连续的动作空间中有效地学习；另外，价值分解方法无法同时满足off-policy学习、值函数近似和自举学习，缺乏稳定性；最后，一些方法假定的约束条件使得这些方法在大部分情况下无法有效收敛。

2.2 基于Actor-Critic的方法

MARL的现有研究中，通常采用集中Critic网络和分散Actor网络(Centralized Critic Decentralized Actor, CCDA)结构，如图8所示。CCDA方式属于CTDE范式的一种，可以通过学习中心化Critic网络将所有智能体的动作-状态信息作为输入，输出全局Q值；同时每个智能体学习独立的Actor网络进行分散式的执行。因此，这种结构拥有突出的抗环境非平稳性的能力。

图8 CCDA结构图

然而，集中式的Critic网络输入网络的同时，动作-状态空间维度呈指数级上升，当智能体数量增大时，过高的维度空间提升了函数拟合难度，因此系统可扩展性较差；Critic网络输入全局状态信息，无法将联合奖励按信度分配到每个智能体上，因此, 缺乏较好的信度分配机制。

OpenAI首先提出将DDPG方法扩展到多智能体领域并进行改进，提出最初的MADDPG算法，如图9所示。MADDPG 算法假定每一个智能体拥有独立Actor网络以及Critic网络，并假定智能体个体可以根据任务需求设计特有的回报函数，这使得MADDPG算法可以同时解决协作环境、竞争环境以及混合环境下的多智能体问题[18]。MADDPG算法学习连续动作空间中的确定性策略，并使用以下更新策略的梯度：

图9 MADDPG结构图

(6)

从MADDPG算法的网络结构和梯度更新策略来看，每个Critic网络可将其余所有智能体的局部观察以及动作作为输入，以消除环境非平稳性，有效地缩小方差。从每个智能体的Critic网络输入环境观察数据不难发现，每个智能体实质仍然属于中心化训练，因此MADDPG算法并非完全分布式的训练。

尽管MADDPG算法实现了连续动作空间中高效的学习，却没能解决针对完全合作环境下的“信用分配”(Credit Assignment)问题。COMA方法的显著特点是提出反事实基线以解决“信度分配”问题，防止智能个体学习的惰性。基线计算通过边缘化当前智能体的行动，同时保持其他智能体的行动不变[19-20]。而后，通过优势函数计算当前Q值和反事实基线的差异，作为智能体当前贡献度[21-22]。

MAAC算法引入注意力机制，求解其他智能体对于该智能体的贡献，从而选择性地输入其他智能体的信息[23-24]。MAAC算法既解决了Critic网络信息维度指数级增长问题，又使得智能体之间相互影响的差异性得以体现，如图10所示。

图10 MAAC结构图

DOP(Off-Policy Multi-Agent Decomposed Policy Gradient)方法将基于价值分解的思想引入，定义一个线性分解的Critic网络，将集中式的Critic网络抽象分解成多个Critic网络，再通过类似VDN的方式累加得到Qtot[25]，如图11所示。

图11 DOP结构图

综上，Actor-Critic方法簇建立一个独立或共享的Critic网络，利用输入的全局观测信息和联合策略解决其训练问题。这样能够有效地解决多智能体学习的非平稳性问题，突破了价值分解理论在离散动作空间的局限性，可以在多智能体连续动作空间发挥作用。

相较于价值分解的方法，基于Actor-Critic的方法利用Actor-Critic结构优势，分散式的Actor网络可以直接根据智能体自身观测输出策略，有利于隐式通信下多智能体分布式的执行。另外，由于基于价值的强化学习方法在处理高维度动作空间面临困境，甚至瘫痪，而多智能体中数量增加导致的维数爆炸更甚，因此Actor-Critic的结构优势在未来MARL的研究中将具有很好的前景。

然而，由于集中式输入的Critic网络面临由状态数量剧增、梯度下降方向正确率大幅降低而引起的维度爆炸问题，因此Actor-Critic方法无法有效地扩展到复杂任务或大规模的多智体系统中。同时，此类方法缺少信度分配机制，无法对爆炸的信息实施有效过滤，而全局Critic指导个体策略梯度存在困难，多智能体学习难以收敛。现有信度分配的解决方案中，尽管利用优势函数等方法求解智能体贡献，如COMA，然而实际表现不佳。最后，尽管多智能体Actor-Critic方法拥有良好的结构性优势，但是目前的研究相较于价值分解方法不够成熟，实验表现略逊，因此Actor-Critic方法存在较大的研究空间。

2.3 基于经验回放的方法

独立Q学习(Independent Q-learning, IQL)是MARL方法中最初的方法，指每个智能体都独立地学习自己的策略，而将其他智能体视为环境的一部分[26]。然而，单纯的IQL方式面临环境非平稳性问题，致使MAS的收敛性能无法得到保证。随着深度强化学习的发展，经验回放机制在传统强化学习处理环境非平稳和稀疏等困难中得到较好效果，于是众多研究者将经验回放机制引入MARL方法中，以克服环境非平稳带来的状态转移连续性问题，智能体之间通过经验共享而实现协同目标。

经验回放方法是将系统探索环境得到的数据存储起来，然后通过随机采样更新深度神经网络参数。深度强化学习中的神经网络作为监督学习模型，需要数据满足独立同分布。另外，由于强化学习在马尔科夫决策过程中产生的探索数据是前后关联的，经验回放方法通过数据的存储和随机采样训练，打破了数据相关性，并且提升重要数据的利用率，降低参数更新的方差。如随机优先采样保证在一个转移优先中的采样概率是单一的，转移i的采样概率为

(7)

式中：α为确定使用的优先级，当α=0时，为均匀采样。

文献[27]提出的稳定经验回放算法，将重要性采样(Importance Sampling)和指纹(Fingerprint)引入MARL方法中，解决IQL与深度学习的经验回放兼容性问题。重要性采样自然衰减过时的数据，根据指纹调节每个智能体的值函数，消除时间引起的数据歧义性。

尽管稳定经验回放方法将经验共享的思想引入MARL并取得较好的成果，但其前提条件是所有动作更新频率相等，Q-learning中的动作值是异步更新的，因此动作值更新函数的导数与实际相差一个因子，频率调整Q学习(Frequency Adjusted Q-learning，FAQ)方法可以融合进化模型，其动作值更新的权重与动作被选中的概率成反比，从而模拟同步更新[28]。

Bloembergen等[28]利用FAQ的同步更新优势提出“宽大(Lenient)”的概念，对于智能体初始学习性能低下问题，给予更多的宽恕处理。在学习过程开始时提高智能个体对搜索空间投影的准确性，从而增强了随机回报的鲁棒性。从理论角度看，通过调节“宽大”的程度，能够使得多智能体学习收敛到帕累托最优。当联合空间中的次最优纳什均衡优于最优纳什均衡时，会出现相对过度泛化，如图12所示。因为当与协作智能体的任意动作匹配时，每个代理在次最优均衡中的行动是更好的选择。

强化学习中，深度神经网络的强大函数拟合能力使Q学习的计算性能得以提升，因此Palmer等将宽大概念引入DQN方法中，提出L-DQN(Lenient-Deep Q-Networks)，在原有温度控制的动作选择的基础上，增加宽大处理函数[29]。

宽大经验共享机制同时带来了相对的过度概括病态[30-31]，随后产生的分布式Q学习[32]和滞后Q学习[33]，旨在克服这种过度概括：

l(s,t)=1-e-k×T(φ(s), a)

(8)

式中：每条宽大经验映射一个温度值T，通过预先计算温度衰减计划计算温度指数值，从而对宽大经验进行衰减处理，防止策略经验过早冷却[34]。

尽管经验回放的方法可以通过改进训练数据回放机制来促进MARL的协作策略学习，然而在大规模智能体的扩展过程中稳定效率低下，无法较好地提高扩展性能，于是Gupta等[35]提出了参数共享作为一种改进同构多智能体环境中学习的方法。智能体之间采样经验样本汇总来更新模型，实现参数共享，以提高算法可扩展性。同时，参数共享的方式将局部观察和自身索引输入模型，避免智能体因参数共享引起的策略缺乏差异性的弊端，从智能体中获得的一批轨迹用来计算优势值。

在多智能体显式通信领域，Foerster提出的RIAL和DIAL算法也采用参数共享的方法，通过在智能体之间共享参数来进行集中化学习，参数可以极大地减少学习所必须的通信参数数量，从而提升学习速度[36]。RIAL方法如图13所示。

图13 RIAL结构图

参数共享的方法通过智能体之间的参数传递，可以有效减低MARL学习过程中参数学习的复杂度，从而提升学习效率，在价值分解和Actor-Critic方法中也被广泛采用，如VDN，QMIX和MADDPG等[37-38]。由于参数共享是基于智能体部分观察的场景，因此智能体最终的学习动作会存在差异性[39]。

综上，在基于经验回放的方法中，MARL方法通过经验和参数共享的方法提升数据利用率，增加了共享模型的鲁棒性，从而提升了算法对于训练经验处理机制的实用性，为价值分解和Actor-Critic等众多MARL方法提供了更高的经验处理思路。然而，基于经验回放的方法缺乏智能体之间的关联性和协同性，因此无法较好地适应高效的协同策略训练场景。

3 协作多智能体深度强化学习的挑战

因深度强化学习发展迅速而得到广泛关注。尽管MARL在图像或语音识别的模式识别领域和围棋扑克等决策任务中表现优异，但是从特定环境到复杂现实任务的过渡仍存在众多困境，单智能体强化学习存在的问题在多智能体扩展中得到进一步恶化，如维数爆炸问题和模型泛化问题等。

(1)维数爆炸问题

得益于计算性能的提高与算法的不断优化，单智能体在处理高维度信息时不再困难，然而在向多智能体扩展过程中，动作-状态信息呈指数级增长，所需的计算成本不断提高，增大了函数拟合的困难。

(2)模型泛化问题

强化学习的模型泛化对于同一个领域中的同一个任务，强化学习模型在训练环境训练，在测试环境验证模型的性能。由于强化学习的数据是在模型与环境交互过程中产生的，所以普遍认为强化学习中的泛化能力弱，模型较容易过拟合到当前的训练环境。MARL中，智能体的增加增大了学习难度和模型复杂度，进一步加剧了模型泛化的困境。

另外，由于分布式计算智能和环境动态的特性，MARL仍然面临诸多问题亟待解决。

(1)现实环境的非平稳性问题

多智能体系统中，单智能体的观测oi仅为环境整体状态的一部分，即对于智能体来说环境是部分可观测的[40]。多个智能体的并行训练导致每个智能体所面临的环境动态变化，这是指某个智能体采取的行动会影响其他智能体回报及全局环境的改变，而导致智能体在相同状态下执行相同动作后，由于其他智能体干扰，致使环境状态转移不再具备连续性[26，41]，这有违于强化学习马尔科夫的基本假设。

价值分解和Actor-Critic方法凭借CTDE的学习范式，一定程度上缓解了非平稳环境带来的收敛困难问题。而在独立Q学习中，尽管一些方法试图通过经验回放、指纹算法和宽恕/滞回处理等方式来解决非平稳性问题，却仍然由于智能体个体和其他智能体的策略训练之间缺乏关联性，导致独立Q学习的方式缺乏根本性的解决方案。

(2)多智能体稀疏奖励问题

奖励稀疏是RL在复杂问题中学习困难的重要原因。目前RL方法中，智能体无法得到正确的监督或协作信号以得到期望的目标或奖励收益，导致学习缓慢甚至无法有效学习。在MARL中，每个智能体任务不同，但是彼此之间又相互耦合影响，奖励设计的优劣直接影响策略的好坏。

解决奖励稀疏问题有三个主要途径：一是利用内部或外部数据进行奖励学习或重塑，利用专家经验或良好轨迹来学习最佳奖励信号，包括模仿学习和课程学习等，通过双水平优化奖励参数自动地添加奖励修正，引导强化学习智能体获得优异的学习策略，最大化真实环境下的奖励；或者利用已有内部数据产生内在的奖励，以鼓励更好的探索，包括好奇心驱动和优先/事后经验回放。二是在时间和空间角度进行信度分配，时间角度是将稀疏的终止奖励分解到以前的时间步，空间角度是根据智能体个体的贡献将全局奖励分解到个体智能体上，而空间上的信度分配是MARL的一大难题。三是任务层次化分解，将原始任务分解为离散或连续的子任务，高层遵循半马尔科夫决策过程，底层从高层分解的子目标中接收奖励反馈并完成子目标。

(3)智能体个体的信度分配问题

在协作多智能体Dec-POMDP问题中，环境的反馈信号(即奖励)由所有智能体的联合动作所决定，个体的奖励难以准确描述，智能体在不同状态做出的相同动作对于整个团队的贡献未知[42-43]；同样地，当智能体探索到最优策略序列中的自身策略时，由于整个团队的策略对于环境的影响较差，导致智能体对该最优策略的误判[44]。因此，多智能体面临信度分配问题，即求解单智能体的策略对MAS联合策略的贡献度。

在竞争或混合任务场景中，通常采用差异奖励的方式来促进MAS中智能体对各自任务的差异化策略训练。然而，协作多智能体系统中智能体贡献无法衡量，目前主要的方式是采取贵族效用的方式，来衡量智能体实际行为和平均行为间的差异，计算优势函数来求解智能体贡献度。另外，借助RL学习过程中的轨迹，可以按照时序分配奖励。

(4)大规模集群智能的扩展性问题

随着智能体数量的增加，联合动作空间维数呈指数级增长，使得现有的小规模智能体协作策略算法扩展到大规模集群时，收敛效率大幅降低，甚至陷入资源冲突、无有效可行解状态。因此，对于大规模集群性强化学习算法需要特殊考虑算法处理指数级任务空间求解优化问题[45-46]。

现有的研究集中在采用课程学习或专家经验来训练协同策略行为，使智能体由小规模到大规模地进行学习训练。另外，模型共享的机制通过为所有同构智能体群组学习一个共享的模型结构，从而成为一种解决优化大规模空间收敛难的途径。

(5)多种优化目标难以平衡问题

MARL模糊的学习目标主要归结为均衡议程和AI议程。均衡议程指收敛到某一个博弈纳什均衡点，AI议程指最佳学习策略，即学习最优反馈信号下的策略序列[47-48]。博弈均衡理论(Game Equilibrium Theory)可以协调多智能体优化目标。在均衡学习范式中，智能体策略训练目标是在其他智能体策略未知的情况下，智能体试图至少学习到纳什均衡状态的收益，即收益下限。因此，通过博弈均衡目标的优化，可以使得MAS收敛到纳什均衡状态，从而缓解多场景下多目标平衡矛盾。

(6)信息结构复杂性

信息结构复杂性主要有两个方面：一方面是信息内容不同，即智能体在训练和执行阶段所需信息是不同的，也是未知的。另一方面是信息基于局部策略，尤其竞争环境下无法获得对手策略和奖励信息。

4 MARL的应用领域

MARL最前沿的研究一直致力于在复杂环境中使得多智能体具有更强的环境适应能力，以及学习更好的协作策略，从而替代人类完成一些高危或未知的任务。

(1)多机器人协作

MARL在工业[49-51]、农业[52]、军事[53]和医疗[54]等领域多机器人协作任务中具有广泛的用途，如机械臂、无人机、自动驾驶和物联网等。在现实生活中，隐式通信的多机器人通过协作来提升MAS的任务效率，移动机器人底层的决策和规划成为多智能体协同控制的关键技术，其中多机器人之间的自主避障和导航是多机器人协同的重点。

(2)资源调度

另外，MARL在资源调度领域的应用具有无可比拟的优势，MARL可以解决资源供需不平衡导致的资源利用率低下等问题，如5G网络优化-多频段参数优化、供应链优化、芯片3D-IO布线优化和电网调度等场景[55]。由于任务的复杂性和多智能体必需的协同决策，资源调度任务并不能简单归类为运筹学问题或者机器人规划问题。因此，MARL可以根据实际任务将复杂问题归类为决策、规划以及组合优化问题，通过智能体协同进而提升资源利用效率。

(3)虚拟互联网场景

在虚拟互联网场景中，MARL凭借用户的实时反馈和长期累积奖励，成功在搜索系统、推荐系统和广告推送等领域广泛使用。在互联网搜索领域，MARL可以训练多个智能体来代替通用智能体模型，有效地学习各种查询重构[56-57]。另外，在推荐系统的训练学习中，MARL可以捕获不同场景之间的顺序相关性并联合优化多个推荐策略，来减少训练数据需求并执行更准确的策略更新[58]。在互联网广告推送方面，MARL可以将印象分配问题定义为一个拍卖问题，为出版商在不稳定环境下最大限度实现目标提供合作策略[59]。

(4)游戏AI

在游戏AI领域，MARL取得众多进展，如德国扑克、国际象棋和围棋等分步回合制对抗游戏，以及星际争霸、DOTA和王者荣耀等即时战略游戏[60]。智能体可以通过自我博弈、协作对抗等方式学会有效信息并不断增强策略学习能力。多智能体游戏AI，由于游戏复杂性、动作状态维度过高和获取信息局限性等因素影响，使得模型训练难度加大，MARL学习更加困难。

(5)群体博弈

博弈均衡理论可以有效地协调多智能体优化目标。博弈是指在一定的游戏规则约束下，基于直接相互作用的环境条件，参与者依据所掌握的信息，选择各自的策略(行动)，以实现利益最大化的过程[61]。在经典博弈论中，智能体通过策略选择使得自身回报最大化，最终进化为纳什均衡状态[62]。

MARL可以理解为一个随机博弈过程，将每个状态的阶段博弈的纳什均衡结合为动态环境中的智能体策略，并不断与环境交互，更新每个状态的阶段博弈中的Q函数。而对于传统的纳什均衡，每个智能体都希望优化到一个不动点，这对于个体智能体是最优的，而协作多智能体是一个非零和博弈过程，是基于联合的最优策略序列作为优化目标。

5 总结与展望

目前，在基于价值分解的多智能体强化学习方法中，MAS通过建立了一个集中的混合网络，将个体值函数联合，并通过全局值函数进行训练。为了适应动态环境和MAS的协作性能，以及考虑每个智能体的局部优化，需遵循IGM原则。基于Actor-Critic的方法通常用于学习MAS的独立或共享的Critic网络，以指导分布式Actor网络的梯度更新，即CCDA结构。经验回放方法在数据采样及参数共享训练中可以有效提高数据利用率，然而单独优化经验回放采样方法无法有效提升MARL方法效率。因此，MARL方法的研究可以引入经验回放方法，进一步提升算法收敛效率。

目前，尽管价值分解方法的实验性能略优于Actor-Critic方法，但其结构在对抗环境非平稳问题方面存在明显的弱点。集中Critic是通过输入全局行动和状态信息来处理非平稳环境的有效手段，因此Actor-Critic方法在多智能体强化学习研究中前景广阔。然而，在现有的Actor-Critic框架的MARL方法中，由于集中的Critic和智能体数量的增加而导致的信用分配，在指导分布式智能体策略梯度方面效率低下，智能体在团队中的贡献不能得到有效表达，因此收敛效率变得缓慢。此外，全局最优动作与个体的最优动作组合的一致性不能得到保证，全局贪婪动作的选择不能与局部最优动作相匹配。这些问题使得MARL方法的收敛效率和稳定性无法提高。因此，Actor-Critic方法尚需进一步展开研究。

在未来，由于动态环境奖励稀疏性，将任务层次化的划分[63]，以及多目标、多任务学习[63]，将使得智能体学习分工协作成为重点研究的方向。从算法的角度来看，采用课程学习进行策略迁移的思想可以更好地引入MARL之中[64]，使得MAS在任务的完成过程中实现由易到难的学习，并且使得小规模到大规模智能体得到平稳扩展。另外，将模仿学习[65]等方法的专家经验与MARL融合可以解决较为复杂智能体行为问题，如自动驾驶、机械臂装卸等。最后，智能体划域和图卷积网络[66-67]的方法在解决大规模智能体问题上也是一个重要的趋势。