基于多智能体深度强化学习的车联网通信资源分配优化

2022-06-24方维维王云鹏

北京交通大学学报 2022年2期

方维维，王云鹏，张昊，孟娜

（北京交通大学计算机与信息技术学院, 北京 100044）

在全球范围内，目前在车联网领域主要有两种不同的通信技术方式：1）基于蜂窝网络的车联网通信技术（Cellular Vehicle-to-Everything，CV2X［1］）；2）基于Wi-Fi 的车辆短程通信的专用短程通信技术（Dedicated Short Range Communications，DSRC）［2］.基于蜂窝的C-V2X 具有大覆盖、高容量、高服务质量和多播/广播支持的优点，但CV2X 存在的不足之处在于蜂窝基础设施的中继性质，这种中继方式在时延敏感的车辆应用，如自动驾驶车辆系统中，可能会带来安全隐患.DSRC 作为美国和欧洲推行的车联网通信技术，它的特点在于供高速的数据传输和保证通信链路的低延时和低干扰，然而它目前存在的问题是需要完善的设施部署［2］. 新一代V2X（Vehicle-to-Everything）技术综合利用以上两种方式，并通过结合移动边缘计算技术与无线资源管理，带来了低延迟和高带宽的通信服务.基于V2X 的车联网通信提供的环境感知、信息交互、协同控制能力，支持丰富的网络应用类型，与智慧交通、无人驾驶等领域融合协同发展［3］.在相应的车联网通信场景中，由于车辆的高移动性使得网络拓扑迅速变化，通信信道具有高度时变性，同时通信业务将更加复杂，这些是V2X 技术在通信频谱资源分配时所亟需解决的挑战和问题.

在V2X 中，频谱接入设计［4］包含了V2V 与V2I两种网络连接模式.V2V 链路提供当前车辆与其相邻车辆之间的直接通信，而V2I 链路是将每个车辆连接到基站（Base Station，BS）或路边单元通信.3GPP［5］中讨论的基于蜂窝的V2X 架构中V2V和V2I 的连接分别通过侧链的无线电接口和蜂窝网络的支持.针对版本15 中的5G V2X 增强功能，出现了大量新的用例和需求.例如，5G 蜂窝V2X 网络需要同时支持高速率的娱乐应用和高级驾驶服务.娱乐应用需要高带宽V2I 连接到BS，以及进一步接入到具有视频流的互联网.同时，高级驾驶服务需要通过V2V 通信在相邻车辆之间周期性地传播车辆的隐私数据（例如，10、20、50 包/s，取决于车辆移动性［6］）.

虽然有大量的文献应用传统的优化方法来解决V2X 资源分配问题［7］，但实际仍然存在以下挑战.一方面，由于车辆的高速移动而导致快速变化的动态信道条件，对资源分配造成了很大的不确定性，例如，由于收集信道状态信息（Channel State Information，CSI）的不准确而导致性能损失.另一方面，为了支持新的V2X 应用程序，越来越多样化的服务需求正在被提出，例如同时最大化V2X 流量组合的吞吐量和可靠性.这样的需求很难用精确的数学方法来建模，用系统的方法来寻找最优解决方案更加困难. 近年来，强化学习（Reinforcement Learning，RL）［8］在解决不确定性决策问题方面展示出优异的能力和表现，特别是深度强化学习在视频游戏［9］和AlphaGo［10］中取得的成功，也激发了人们将该技术应用于解决车联网领域问题的兴趣，如车联网中的多通道边缘计算资源管理［11］、流量卸载方案［12］和低延迟服务波束跟踪［13］等.

本文作者研究利用多智能体强化学习算法来解决V2X 频谱接入的功率选择问题，首先分析车联网通信系统模型，设计状态、动作空间以及最终目标相关的训练奖励，之后设计强化学习的分布式执行算法，其中将每辆车视为一个智能体，每个智能体通过与局部的车辆环境不断交互来学习知识并优化资源分配策略，从而最终得到最优功率控制结果.

1 车联网通信系统模型

如图1，考虑一种基于蜂窝的具有V2I 和V2V链路的车联网，该网络为移动的高数据速率的娱乐应用提供支持和为高级驾驶服务提供可靠的周期性隐私数据共享.V2I 链路利用蜂窝的接口将车辆连接到基站以获得高数据速率服务，而V2V 链路通过具有本地化的设备到设备（Device-to-Device，D2D）通信的侧链接口传播定期生成的隐私数据.假设所有车辆的收发机都使用一根天线，车联网中的V2I链路和V2V 链路的集合分别用M=｛1，…，M｝和K=｛1，…，K｝表示.假设上传数据的V2I 链路已经被预先分配好了正交谱子带，即第m号V2I 链路占用第m号子带，其中V2I 链路发射功率是固定值.因此，本文的目标是通过设计一种V2V 链路基于连续动作的功率发射算法，使得V2I 和V2V 链路在高移动性的车辆环境下分别最大化自己的信道容量和负载传输成功概率.

图1 车联网系统Fig.1 Vehicular network system

在车联网系统中采用了正交频分复用多址（Orthogonal Frequency Division Multiplexing，OFDM）技术，其原理是通过将频域内选定信道转换为多个子载波上的并行的平坦信道.将几个连续子载波划分一个频谱子带，假设信道衰落在一个子带内大致相同并且在不同的子带之间是独立的，hk［m］是小尺度衰落的功率分量，并假设其呈指数分布.αk表征与频率无关的大尺度衰落.则在一段相干时间内，第m号子带上的第k号V2V 链路的信道功率增益［14］表示为

假设从第号V2V 链路发送端通过第m号子带到第k号V2V 链路的接收端的干扰信道表示为gk′，k[m]，在m号子带从k号V2V 链路发送端到基站的干扰信道表示为gk，B[m]，在m号子带从m号V2I链路发送端到基站的信道增益表示为̂m，B[m]，在m号子带上从m号V2I 链路发送端到k号V2V 链路的接收端的干扰信道表示为̂m，k[m].假设Pcm表示m号V2I 链路发送端的发射信号的功率，m号子带上k号V2V 链路发送端的发射功率大小为Pdk[m]，σ2是噪声功率.在m号子带上的m号V2I 链路上接收的信干噪比（Signal to Interference plus Noise Ratio，SINR）［14］的计算表达式为

如上所述，V2I 链路通常被用来支持高传输速率娱乐服务，因此一个适当的设计目标是最大化它们的和容量，即∑mCcm[m].在此期间，V2V 链路主要用来保证隐私数据可靠传输，其中车辆以不同的频率周期性地生成数据.令B表示周期性生成的V2V 有效载荷的大小，单位是比特.ΔT是信道相干时间，t是相干时间的索引.在约束时间T内，则大小为B的数据包的传输速率为

所研究的资源分配问题可描述为：对所有k∈K，m∈M，V2V 链路的传输功率连续可调变量Pdk[m]，同时最大化所有V2I 链路的总容量∑mCcm[m]和式（7）.在车辆环境中的高移动性排除了在中央控制器上收集精确的全局的信道状态信息，而采用分布式的V2V 资源分配是一种更好解决方案.其次，如何协调多个V2V 链路上的动作，使它们不仅仅只为自己的利益行事以损害整个系统的性能表现.此外，式（7）涉及时间约束T内多个相干时隙的顺序决策，但由于指数复杂性而给传统的优化方法带来困难.为解决此问题，本文将问题转换成马尔可夫决策过程，提出一种基于多智能体强化学习（Multi-Agent Deep Deterministic Policy Gradient，MADDPG）的V2V 链路的发射功率控制的分布式算法.

2 基于MADDPG 的资源分配算法

本文将每辆车的V2V 链路尝试不同的发射功率控制的问题建模成多智能体强化学习问题.每辆车充当一个智能体，都与未知的环境进行交互以获得经验，然后从经验中学习最优策略.多个智能体共同探索一个环境，并根据环境状态的变化来优化功率控制策略.为提高神经网络的全局性能，通过对所有智能体使用相同的奖励函数，将各个智能体博弈过程转换成一个完全合作的方式.多智能体强化学习算法分为两个阶段，即集中式学习（训练）阶段和分布式执行阶段.在学习阶段每个智能体都可以获得系统奖励，然后智能体采用集中式学习训练Critic 和Actor 网络.在执行阶段每个智能体根据接收情况对各自训练的Actor 网络选择各自要执行的动作.下面描述基于多智能体强化学习的功率控制算法的设计思路.

2.1 状态空间设计

2.2 动作空间设计

本文将车联网的资源分配设计归结为V2V 链路的发射功率的连续控制问题.在多数文献［15-16］中，V2V 链路发送端的发射功率是连续变量，它的取值范围为，智能体k的动作决策表示

2.3 奖励函数设计

强化学习在解决高维复杂的场景中难以优化的目标问题时，重在其奖励函数的设计.当每个步骤获得的奖励值与预期目标存在关联时，所设计的奖励函数可以提高系统性能.在第1 节中所提的V2V链路发送端的功率控制问题中，本文的目标是在于两方面，一方面最大化V2I 容量和，另一方面提高在T时间内V2V 有效负载交付的成功概率，其中所有V2I 链路的瞬时容量和定义为对于每个智能体k，将奖励Lk设置为V2V 链路的传输速率［14］，直到有效负载完全交付，之后令奖励为常数β，它大于最大的V2V 链路传输速率.因此，在t时间步V2V 链路有效负载成功传输的奖励设置为

其中，当V2V 链路上的有效负载交付完成之前，该奖励设置为0，当完成交付后奖励设置为1.考虑到实际训练过程中，存在智能体获得奖励为0 的情况以至于智能体难以学到有用的经验.因此，设置一个在0 到1 之间取值的权重λ，该参数反映了优化方向倾向于V2V 链路负载的成功传输概率，本文将奖励函数设计为V2I 链路总容量和V2V 链路负载的传输成功概率的折中：

2.4 多智能体深度强化学习算法

1）深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法：通过引入神经网络来拟合值函数，深度Q 网络（Deep Q-Network，DQN）解决了状态空间的“维度灾难”的问题.此外，DQN算法采用经验池存储多步样本并抽取最小批样本进行批处理和不同于估计网络参数更新频率的目标网络都有效地促进了神经网络的学习.DDPG 算法结合了策略梯度和DQN 的优点，它包括了两种类型的神经网络，一种是基于策略（Policy）的Actor 网络，另一种是基于价值（Value）的评论家Critic 网络.Actor 网络通过收集到的环境状态，然后根据策略πk执行相应的动作.Critic 网络使用状态-动作值函数根据策略Qk(·)来评估Actor 网络选择的动作的好坏.是智能体k的输入状态，γ是即时奖励Rkt的折扣因子.那么DDPG 算法的状态-动作值函数可以表达为

作为一种策略梯度算法，DDPG 的主要思想是获得一个最优策略π*k，并学习与最优策略π*k相对应的状态-动作值函数直至收敛.DDPG 的Actor Critic网络采用双网络结构，一个是评估网络（Actor 评估网络的参数θμk和Critic 网络评估网络的参数θQk），一个是目标网络（Actor 评估网络的参数θμ′k和Critic 网络评估网络的参数θQ′k），评估网络的参数θμk和θQ k是实时更新的.更新过程是先从经验池中随机抽取一小批量的样本经验，并将其逐个输入到智能体中.在训练阶段，Actor 和Critic 网络根据每个输入的小批量的样本更新评估网络的参数.Critic 网络通过尽量减少损失来调整评估网络的参数，它的损失函数可以表达为

式中：Qk′(·)是目标网络的动作-状态值函数.当L(θQ k)是连续可微时，θQ k可以随损失函数的梯度进行调整.当Actor 为每个观察做出行动决策，每个智能体旨在最大化累积回报时，通过最大化策略目标函数来更新Actor 的评估网络参数，其目标函数为

式中：μk(·)是一种状态映射动作的确定性策略πk的Actor 评估网络函数.由于动作空间是具有连续性的，J(θμk)是连续可微的，θμk可以调整梯度∇θμk J(θμk)下降的方向.随着评估网络的参数θμk和θQ k的不断更新，目标网络的参数θμ′k和θQ′k采用软更新（其中用到一个接近于0 的正数常量τ≪1）的方式进行更新

2）MADDPG 框架：该MADDPG 框架由K个智能体组成，其中每个智能体都由类似DDPG 算法实现，MADDPG 框架如图2 所示.

图2 多智能体深度确定性策略梯度MADDPG 框架Fig.2 MADDPG framework

如图2，不同于DDPG 算法的集中式训练和执行方式，在MADDPG 框架中采用集中式学习训练和分布式执行［17］，其中每一组Actor 和Critic 都是一个智能体.在集中式的离线训练阶段，除了智能体k通过局部观察得到的状态信息Skt和当前车辆的执行动作Akt外，需要引入其他智能体的动作信息和状态信息合并一起存储到当前智能体的经验池中用于集中式训练Critic 网络，用于集中式训练的联合动作表示为At，联合状态表示为St.此外，有了额外的信息，每个智能体都允许分别学习其状态-动作值函数.在分布式执行阶段，由于Actor 网络只需要局部观察，每个智能体都可以在不了解其他智能体的环境信息的情况下获得其动作. 根据以上，总结出基于多智能体强化学习MADDPG 的V2V 链路的功率控制算法为

3 实验仿真

3.1 仿真环境

在本文的车联网无线通信场景中，根据3GPP TR 36.885［3］附录A 定义了城市中车联网模拟器，包括车辆、车道和无线通信网络模型，主要的仿真参数如表1 所示，其中一条V2V 链路对应一条V2I 链路.每个智能体的Actor 网络和Critic 网络均由3 个完全连接的隐藏层组成，分别包含256、64 和16 个神经元组成.激活函数为修正线性单元（ReLU），使用适应性矩估计（Adaptive Momentum Estimation，Adam）优化器来迭代训练更新神经网络权重.算法一共训练2 000 Episode，为智能体选择的动作添加一个可变的高斯噪声，探索概率采取线性退火算法处理，从开始的1 一直退火到1 600 Episode 时的0.02，在后面的训练步中探索概率保持不变.本文在算法训练阶段V2V 链路负载量选取1 060 兆字节，在对比其他基准算法以验证算法鲁棒性时采用不同大小的负载量.

表1 仿真参数设置[3]Tab.1 Simulation parameter setting

3.2 基线算法

1）基于离散动作空间的多智能体深度强化学习（MADQN）：本算法单个智能体遵循DQN 算法，即每个智能体基于当前的车联网环境从动作集｛0，0.003W，0.006W，0.012W，0.025W，0.5W，0.1W，0.2W｝选择离散的动作，与DDPG 算法不同，DQN 算法仅有一种神经网络即Q 网络.DQN 算法也采用了经验池和评估网络与目标网络的双网络结构.DQN算法的超参数学习率和折扣因子与DDPG 一样.MADQN 也采用集中式训练和分布式执行的方案.

2）随机优化算法（Random）：在每个时间步，车辆在V2V 链路上以一种均匀分布的随机方式选择传输功率.

3）基于连续动作空间的单智能体深度强化学习（DDPG）：算法中只有一个智能体，智能体具有评估网络和目标网络的双网络结构.智能体只观测单个车辆的局部观察和奖励.

3.3 实验结果

如图3 所示为奖励随Episode 的变化情况，可以观察MADDPG 算法的收敛性表现.本文设置每个Episode 中共有100 个训练步，每个Episode 的所有训练步的累计奖励和作为回报奖励.分析得出，随着不断地训练迭代，奖励值逐渐增加，当训练到500 Episode 时，所提算法开始收敛，其中由于车辆的高移动性，网络拓扑会发生快速变化，信道衰落波动，导致算法收敛时存在数值波动.

图3 MADDPG 算法的收敛性Fig.3 Convergence of MADDPG algorithm

图4 所示不同V2V 链路有效负载大小条件下各个算法对V2I 链路容量和优化性能比较.实验结果表明，随着V2V 链路有效负载大小的增加，所有算法优化的V2I 容量和均呈现下降趋势.为了提高V2V 有效载荷传输成功概率，V2V 有效载荷的增加导致更长的时间内对V2I 链路造成更强的干扰，从而危及其容量性能.即V2V 链路负载的增多会导致V2V 链路传输数据的时间更长，发射功率变大，由此将导致对V2I 链路的干扰更强，进而通信容量会变小.在相同的负载条件下，所提算法优化的V2I 链路总容量仍然比其他3 个基线策略更高.随着负载增加，3 个基线策略的V2I 链路总容量呈一直下降的趋势，而所提算法性能出现了缓慢波动下降的趋势，具有良好的鲁棒性.

图4 不同负载大小下各个V2I 链路总容量Fig.4 Total capacity of each V2I link under different loads

图5 展示了V2V 链路传输成功概率和V2V 链路传输负载大小的关系.4 种优化策略的传输成功概率都会随着负载的增大而下降.这是因为在相同的传输速率和相同的传输时隙条件下，传输的负载量基本固定，而V2V 链路的需要总负载大小越大，会导致V2V 链路负载的传输成功概率越低.此外，实验结果表明，所提MADDPG 算法在不同的负载大小的情况下都要优于随机、MADQN 和单智能体DDPG 策略，随着传输负载的增加，与其他3 种策略的V2V 链路负载传输成功概率差值在不断增大，所提算法具有更好的性能表现.

图5 不同负载大小下V2V 链路负载传输成功概率Fig.5 Success probability of V2V link load transmission under different loads

为更好地理解提出的MADDPG 算法取得更高性能的原因，现选择一个episode 对MADDPG 和随机算法进行对比分析，在此种情况下，算法允许所有的V2V 链路负载大小为1 060 Bytes.图6 显示了两种方案在30 ms 时间约束内所有V2V 链路瞬时速率的变化. 在图6（a）中，利用所提出的MADDPG 算法，链路4 在开始时获得非常高的传输速率，以提前其他3 条链路完成传输，使得该链路的良好信道条件被充分利用，并且在该episode后期不会对其他链路产生干扰.链路2 起初保持低速传输，使得易受攻击的链路1 和链路3 可以获得相对较好的传输速率来传输有效载荷，当其他链路传输完毕后链路2 以高速率完成自己链路的负载传输.这样保证了所有V2V 链路的负载有序快速地完成传输，说明了所提MADDPG 算法在多智能体的合作方面的有效性.而在图6（b）中随机算法中各个链路争夺频谱资源，使得链路之间存在较大的信号干扰，进而导致传输失败的可能性较高，因此传输完成的时间比较长.

图6 负载大小为1 060 Bytes 时各个V2V 链路在各个时间步的传输速率Fig.6 Transmission rate of each V2V link at each time step under the load of 1 060 Bytes

4 结论

1）采用马尔可夫决策过程建模，提出了一种基于多智能体强化学习MADDPG 的资源分配算法.此算法解决了智能体的连续动作的功率控制问题，算法分为集中式训练和分布式执行两个阶段.

2）通过Python 编程实现车辆和信道等仿真器，在机器学习TensorFlow 平台下使用深度神经网络编程并进行实验仿真.实验验证了所提算法的收敛性和鲁棒性.相较于单智能体DDPG、MADQN 和随机策略，所提算法优化的V2I 链路总容量和V2V链路负载传输成功概率更高，具有更好的性能表现.此外，所提算法可以有效地鼓励各个智能体之间的合作，以提高整体系统性能.

未来的工作将包括所提算法的优化策略，包括注意力机制，优先经验回放等方法，这样可以选择更加有利的经验样本数据训练神经网络，使得神经网络更快地向着正确的方向达到收敛，以进一步提升算法的性能.