基于MADDPG 算法的匝道合流区多车协同控制
2024-12-15蔡田茂孔伟伟罗禹贡石佳姬鹏霄李聪民
摘 要:为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。
关键词: 多智能体确定性策略梯度算法(MADDPG) ;多智能体强化学习;多车协同控制;匝道合流
中图分类号: U 491.1 文献标识码: A DOI: 10.3969/j.issn.1674-8484.2024.06.014
匝道合流区域作为高速公路与其他道路交汇的关键部分,常常成为交通拥堵和事故高发区域[1]。而随着智能网联汽车(intelligent connected vehicles,ICV) 技术的进步,车与车之间得以信息共享[2] ,在匝道合流场景下,主线车辆和匝道车辆之间可以通过综合协调控制避免轨迹冲突,开展智能网联环境下的匝道合流区多车协同控制方法研究,对于提升匝道合流区车辆行驶安全性与道路整体通行效率有着重要意义[3]。
目前,针对匝道合流问题的多车协同控制方法研究以优化方法为主流[4]。东南大学刘畅[5] 采用混合整数线性规划和动态规划实现合流次序优化,并构建了考虑车辆动力学的多车安全合流轨迹规划方法。XULinghui 等[6] 将以主道车辆行驶时间最小和合流车辆数量最大为优化目标,采用遗传算法求解最优合并顺序。HUANG Tianyu 等[7] 则设计了一种双层动态规划的求解方法以缩短计算时长,上层寻找最优合并次序,下层在给定的合并策略中优化车辆轨迹。XUE Yongjie 等[8]侧重降低匝道车流汇入对主道交通的干扰,应用灰色预测模型与模型预测控制分别完成多车的规划与控制。
然而,基于优化的方法计算复杂度往往会随车辆增加急剧增长,实际应用中计算资源需求较大[9]。在此背景下,基于深度强化学习的方法因其能够实现离线训练的特性,因而具有较好的实时性[10],在匝道合流区多车协同控制问题上具有独特优势。
基于强化学习的匝道合流研究方法中,单智能体强化学习相关研究主要以匝道车辆为研究对象,探究单车汇入场景为主[11],较少考虑多车交互,而多智能体强化学习则在多车协同方面有独特优势,目前多数研究集中应用在非信控交叉路口,少数学者开始探索将其应用于匝道场景。ZHOU Shanxing 等[12] 采用多智能体确定性策略梯度(multi-agent deep deterministic policygradient,MADDPG) 算法解决了混合交通下的匝道汇入问题,着重降低匝道汇入过程中的能耗,其协同车辆数目局限在3 辆车。ZHUANG Huanbiao 等[13] 使用集中式训练、分布式执行架构的多智能体近端策略优化 (multi-agent proximal policy optimization,MAPPO)算法研究无信控交叉路口下的车辆协同问题,协同车辆数目最多为4 辆ICV 与5 辆重型车辆(heavy-dutyvehicles,HDV)。CHENG Dong 等[14] 面向含有HDV的混合交通匝道合流场景提出了具有动作掩蔽、局部奖励、课程学习与参数共享等特点的分布式架构多智能体强化学习算法,最多实现6 辆ICV与5 辆HDV 的汇入场景。
综上,多智能体强化学习方法在解决匝道合流区多车协同控制问题上,相较优化方法与单智能体强化学习方法兼顾了实时性与通行效率[15],但是在当前研究中,普遍存在协同车辆数量少的问题,训练场景多侧重应对固定数量智能体场景[16],较少探究连续车流解决方案。
因此,本文提出了一种基于多智能体深度确定性策略梯度算法的匝道合流区多车协同控制方法。基于匝道合流场景建立分布式MADDPG 算法训练架构; 针对连续车流训练场景中智能体环境动态变化的问题,通过构建相对静止环境,改进策略更新梯度,拓展协同车辆数目;在此基础上,为准备区与汇入区分别设计状态、动作空间及奖励函数,构建匝道合流区训练环境进行模型训练并提出模型合并应用方法;最后,本文选取现有典型的全局优化方法与基于规则的方法作为对比算法,对所提出匝道合流控制方法的高效性与实时性进行验证。
1 问题描述
本文的研究场景为图 1 所示在理想通信条件下的高速公路匝道合流区,区域内车辆均为智能网联车辆,通过车端无线通信设备与路侧单元交换信息。合流区道路分为主道与匝道,加速车道区域位于匝道末端,在该区域内车辆可以换道并入主道中。为了优化强化学习训练效果,减小单个回合内智能体任务量,本文将如图1 所示的匝道合流区划分为加速车道前800 m 的准备区与200 m 长含加速车道区域的汇入区,并根据匝道合流区不同区域,拆解匝道合流的任务,制定不同控制目标与训练方案。