基于深度强化学习的智能网联车辆换道轨迹规划方法

2022-02-01景首才赵祥模刘建蓓

汽车安全与节能学报 2022年4期

冯耀，景首才，3*，惠飞，赵祥模，刘建蓓

（1.长安大学信息工程学院，陕西 710064，中国；2.交通运输部交通安全与应急保障技术行业研发中心，陕西 710075，中国；3.中交第一公路勘察设计研究院有限公司，陕西 710075，中国）

智能网联车辆搭载先进的感知设备，融合无线通信技术，实现车与车、车与路的信息共享，利用合理的决策规划与控制方法，可以提高车辆的安全性，减少拥堵和提升驾乘舒适性，因此相关的自动驾驶运动决策规划方法成为近年来的研究热点[1-2]。换道是车辆行驶过程中的一项基本任务，对车辆的安全行驶起着非常重要的作用，同时也是智能网联车辆的关键技术之一[3]。随着车辆智能化水平的提高，兼顾安全与交通效能的车辆变道决策规划逐渐成为智能网联车辆变道研究的热点之一[4]。

现有的智能网联车辆的换道轨迹规划方法主要包括3 类：基于采样和搜索的算法、基于几何曲线函数的算法、基于优化的控制算法。基于采样和搜索的常见方法有快速扩展随机树法(rapid-exploration random tree,RRT)[5]、Dijkstra 算法[6]、A*算法[7]等。张卫波等[8]提出的改进RRT 算法,解决了RRT 算法采样效率低下的问题，提高了路径规划的效果。这类方法适用范围较大，但其采样过程复杂且计算量大，在规划期间未能考虑汽车的动力学等约束。

基于几何曲线函数的轨迹规划方法主要有多项式曲线[9]、螺旋线[10]、B 样条曲线[11]、Bezier 曲线[12]等。陈成等[12]将曲率约束、速度约束和加速度约束考虑进四阶Bezier 曲线，生成了满足实时性和有效果性的轨迹。基于几何曲线函数的方法进行轨迹规划，其优点是方便构建和插入新的路径点集，使得到的参考轨迹更加平滑连续，但是其路径的优化性并不能得到保证。

基于优化的控制算法是将轨迹规划作为一个优化问题，将车辆的期望状态作为优化目标，从而得到最优轨迹。徐扬等[13]将行车环境势场作为模型预测控制的优化目标，生成最优参考轨迹，实现对无人车的纵横向控制。江浩斌等[14]结合实际驾驶人变道数据，研究了基于自适应伪普法的变道切入点选择优化方法。基于优化的控制算法考虑了车辆的运动学和动力学约束，可实现多优化目标问题的求解，但面对精度要求较高的模型时其计算时效较低。

换道轨迹规划是一个考虑时间的序贯决策问题，完成换道过程中的每一步都是决策的结果，共同构成该换道问题的解，从而实现轨迹规划，相较于上述传统的换道决策轨迹规划方法，在解决具有复杂时序交互特点的车辆换道轨迹规划问题时，深度强化学习方法更具有优势[15]。

目前，强化学习已经被广泛应用到车辆自动驾驶领域[16]。文献[17-18]采用改进深度Q 网络（deep Q-network，DQN 算法实现了自动驾驶车辆的换道决策。PENG Baiyu 等[19]使用深度双Q 网络（dueling double deep Q-network，DDDQN）网络，将图像和主车速度作为状态输入实现了端到端的自动驾驶。CHEN Jianyu[20]引入了潜在序贯环境模型，与强化学习相结合，在复杂的城市驾驶场景中取得了较好的效果。LI Guofa 等[21]建立了驾驶风险评估的安全指标，利用深度强化学习寻找期望风险最小的策略，生成鲁棒的安全驾驶策略。当前的深度强化学习算法中，DQN 类的算法其输出为离散的动作，无法应用到车辆速度、加速度等连续变量的控制中；谷歌DeepMind 团队提出的DDPG 算法[22]实现了连续动作空间的应用，但存在Q 值高估的情况，在不断的迭代过程中会使误差扩大，从而使得学到的策略失效。

综上所述，基于传统轨迹规划算法的劣势以及现有强化学习算法在轨迹规划方面的不足，本文使用双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)[23],采用裁剪双Q 学习、目标策略噪声处理和延迟策略网络更新3 个技巧，减缓DDPG 算法Q 值高估的程度，提高算法效率。针对考虑安全与能效的智能网联车辆换道时空轨迹规划问题，设计分层式换道决策规划架构，解耦智能网联车辆的纵横向运动学约束，建立纵横向离散化的车辆运动学模型；为了保障换道过程中的安全性，构建考虑安全性与高效性的换道决策博弈论模型；以降低燃油消耗和提高驾驶效率为目标，研究基于深度强化学习(TD3 网络)的智能网联车辆换道轨迹规划方法；最后以3 个典型换道场景为仿真用例，验证了算法的有效性。

1 智能网联车辆分层式换道规划架构设计

1.1 分层式架构设计

智能网联车辆的换道轨迹规划，是在已知全局路径的基础上，结合实时车辆状态和动态道路交通环境信息，根据局部实际场景规划出一条包含空间位置-车速映射关系的时间序列点集或关系式[24]。换道过程中的决策与规划只与车辆当前状态有关，与车辆之前的历史状态没有关系[25]，针对这一特征，本文设计了分层式智能网联车辆换道决策规划架构，如图1所示。

图1 分层式智能网联车辆换道决策规划架构

按照信息的传递将车辆换道分为环境感知、行为决策层和轨迹规划3 层。环境感知层中智能网联车辆搭载了车载摄像头、激光雷达、毫米波雷达等传感器实现对环境信息的感知，并且能够以LTE-V2X 的通信方式在低延时、无丢包的情况下获取周围车辆的速度、加速度、位置等信息；行为决策层车辆利用纯策略博弈换道决策模型，在保障安全的条件下，确定车辆行驶行为；轨迹规划层利用基于深度强化学习的换道轨迹优化算法，构建考虑换道油耗和舒适性的智能网联车辆纵横向换道轨迹。

1.2 车辆运动学模型

轨迹规划是面向车辆上层控制的运动状态规划，为车辆下层跟踪控制器提供优化参考轨迹。因此，本文利用车辆点运动模型描述车辆状态[26]，对车辆运动学模型进行纵横向解耦，并以Δt为采样时间进行离散化，得到车辆纵横运动方程及约束条件如下：

其中：vxt、vyt分别表示t时刻车辆的纵向速度和横向速度，xt和yt分别表示t刻车辆的纵、横坐标。纵、横向加速度axt、ayt,由每个时间步Δt中车辆与算法交互得到，vx,max和vy,max分别是纵横向速度的最大值，xmax和ymax分别是纵横向位置的最大值，tf为换道的完成时间。通过运动学公式得到下一时刻车辆的位置和速度，直到车辆到达换道目标位置或驶离车道时终止状态结束。

2 基于博弈论的智能网联车辆换道决策模型

车辆换道前需根据当前行驶状态及周围车辆状态在确保安全的条件下决策换道行为。换道决策是换道车辆与周围车辆策略博弈的一个过程，通过博弈得到使双方的收益达到最大[27]，因此本文建立了基于博弈论的智能网联车辆换道决策模型。

2.1 基于博弈论的换道决策模型

博弈的基本要素有博弈参与者、参与者的策略集和每种策略对应的收益函数。本文建立了基于完全信息静态纯策略博弈的换道决策模型，完全信息博弈表示所有博弈参与者的物理状态、策略空间和收益函数对于其他参与者都是透明的，纯策略指的是构成的策略不考虑博弈参与者的行为概率。

车辆换道示意图如图2 所示，其中M 车为换道车辆；Ao车和Bo车分别为原始车道前车和跟随车辆；Ad车和Bd车分别为目标车道前车和跟随车辆；Li,i={Ad,Bd,Ao,Bo}，表示换道车辆与周围车辆的车头间距。

图2 车辆换道示意图

换道时博弈的参与者为换道车辆M，目标车道跟随车辆Bd和目标道前车Ad，换道车辆M 的策略集为Φ1={m1,m2}，包括2 种纯策略，其中m1表示换道，m2表示不换道；目标车道车辆Bd，Ad的策略集为Φ2={di1,di2}，其中di1表示车辆允许换道，di2表示拒绝换道。

以确保换道的安全性和提高换道的效率为目的，建立体现安全和驾驶效率的收益函数，以最小安全距离作为安全性的评估指标，利用当前策略完成换道所需时间与原始状态下所需时间对比评判该策略的时效收益，使得车辆在博弈时考虑这2 个因素最终得到换道行为决策。换道车辆和目标车道车辆的收益函数定义如下：

其中，Rsafe、Rtime，表示决策车辆考虑安全性和时效性所获得的收益，其计算公式如(8) -(12);αs、αt分别为安全性收益和时效性收益的权重系数,αs+αt=1,代表进行换道决策时不同驾驶因素的重要程度。

其中Lhead为当前时刻两车的车头间距，Lmin为当前状态下所需的最小安全距离（以换道车辆M 和目标车道前车Ad为例），当两车匀速运动时，可写成公式(10)；vMx和vLdx分别表示换道车辆和目标车道前车的纵向速度，aMx和aLdx为换道车辆和目标车道前车的纵向加速度。t0表示保持原状态下达到目的地所需的时间，xtarg为换道目的点的纵向坐标；tf表示当前策略下到达换道终点所需要的时间，可由轨迹规划部分得出。

2.2 换道决策收益矩阵

根据搭建好的博弈模型求取最优换道决策，即达到Nash 均衡的状态[28]。Nash 均衡是一组对于所有的博弈参与者均是最佳的策略集合，任何参与者在不选择该策略的情况下，都不会有更佳收益。在换道博弈中，Nash 均衡可以理解为每一辆车在当前交通环境下所选择的最优驾驶策略，所有车都不会舍弃最优策略去选择其他策略。

如在一次博弈下，有n个换道参与者，车辆的单个策略可表示为ci，其策略集和收益分别表示为Ci和Ri，则该博弈可表示为

本文采用收益矩阵来求解换道博弈模型的最优策略，通过式(7)分别求出换道车辆M 与目标车道车辆Ad和Bd进行博弈时的博弈收益，换道车辆的收益用RM表示，目标车道车辆的收益用RD表示，如RM(di1,m1)表示换道车辆选择“换道”策略，目标车道车辆选择“允许换道”策略而得到的收益，列出博弈收益矩阵，如表1 所示。

表1 博弈收益矩阵

表1 中，换道车辆与目标车道前车和跟随车分别进行博弈，得到4 种博弈结果为：换道车辆进行换道，目标车道车辆允许换道；换道车辆进行换道，目标车道车辆拒绝换道；换道车辆不换道，目标车道车辆允许换道；换道车辆不换道，目标车道车辆拒绝换道。只有换道车辆选择“换道”策略，且目标车道前后车都做出“允许换道”的策略时，才能成功执行换道。

计算出每种策略下换道车辆和目标车道车辆考虑安全性和时效性的收益值，得到博弈收益矩阵，如果博弈矩阵中存在某一纯策略(din,mn)使得下式（15）成立，则称(din,mn)为当前博弈的纯策略Nash 均衡。即为当前环境下车辆做出的最优换道决策，根据此决策确定所需求解的换道轨迹规划子问题，如左换道、右换道、车道保持（不换道）。

3 基于深度强化学习的智能网联车辆换道轨迹规划方法

3.1 强化学习

强化学习是一种典型的经验驱动、自主学习的方法，用来解决序贯决策的问题，换道问题可以用Markov 决策过程（Markov decision process，MDP）进行建模，其主要元素为S,A,P,R,γ，智能体的状态集用S 表示；决策所产生的动作构成动作集A；P表示当前状态转移到下一状态的概率；R 为奖励集；γ为奖励折扣因子，其值越大，在进行策略选择时越具有全局性，反之则只考虑当前收益。强化学习的最优策略π*满足如下条件[29]，即：

本文使用TD3 网络框架作为智能网联车辆换道轨迹规划的架构，TD3 算法沿用Actor-Critic 类算法的网络框架，使用Actor 网络进行策略的选择，Critic网络对状态-动作(state-action)对进行评估，能够处理连续状态空间和动作空间的问题，将车辆的当前状态作为Actor 网络的输入，输出为车辆执行的动作at，Critic 网络以车辆当前状态st和动作at作为输入，输出为累计奖励的期望Qπ(st,at) (以下用Q值描述)。

表示成递归的Bellman 方程形式为

Critic 网络通过最小化损失函数Loss 进行更新：

Actor 网络通过策略梯度进行更新：

TD3 算法在DDPG 基础上，使用两个策略评估Critic 网络计算Q值，如式(20)，在进行Critic 网络的梯度更新时，选取二者的较小值，以减缓过估计问题；对目标动作的计算添加基于正态分布的噪声，使得Q值函数更新更加平滑；延迟更新策略网络使得Q值的评估更稳定。基于TD3 的智能网联车辆换道轨迹规划架构如图3 所示。

图3 基于TD3 的智能网联车辆换道轨迹规划架构

3.2 基于TD3 网络的智能网联车辆换道轨迹规划问题建模

智能网联车辆换道问题的交互过程如下：假设车辆在t时刻的状态为st，Actor 网络输入st，输出当前时刻的动作选择at，与环境进行交互得到车辆下一状态st+1和采取本次动作的奖励rt，将每一步采集的样本(st，at，rt，st+1)进行存储，车辆通过与环境不断交互-探索产生大量的数据，TD3 算法则从这些数据中采样进行训练，在考虑油耗和舒适性的情况下不断优化策略选择网络和策略评估网络，得到整个换道过程中的车辆加、减速决策序列和车辆状态序列。

针对基于TD3 算法的智能网联车辆换道问题的轨迹规划模型，设计其状态、动作和奖励函数。

3.2.1 状态空间

状态空间中包含智能网联车辆换道所需要的全部信息，每个时刻都需要获取当前车辆的纵坐标xt，横坐标yt，纵向速度vxt，横向速度vyt。每一时刻的状态用一个四元组表示，st=[xt,vxt;yt,vyt]。

3.2.2 动作空间

动作空间主要定义智能网联车辆所采取的动作，结合车辆运动学纵横向解耦状态方程（1-4），用纵横向加速度作为智能网联车辆的动作，考虑驾驶的舒适性[30]，纵向加速度axt的取值范围设定为[-2,2] m/s2；考虑车的横向安全约束和横向舒适性，横向加速度ayt的取值范围为[-0.2,0.2] m/s2。每一时刻的动作用一个二元组表示，at=[axt，ayt]。

3.2.3 奖励函数

强化学习中，奖励函数对于引导智能体采取获得更高收益的动作，从而得到期望策略具有重要作用。因此,设计合理的奖励函数是智能网联车辆能否完成换道任务的关键。

本算法期望智能网联车辆以最快的换道效率和最小的燃油消耗从当前车道换到目标车道，并能够与前车以相同的速度保持安全车距行驶。

1) 沿目标车道中心线奖励设置Ry

其中：yt和ytarg分别表示车辆当前位置的横向坐标和目标位置的横向坐标，此项是为了让车辆在换道过程中尽量靠近车道中心线行驶。

2) 目标速度奖励设置Rv

其中：axt为表示当前时刻的纵向加速度，vxt和vtarg分别表示当前时刻的纵向速度和换道目标速度，此项目的是使换道车辆能够按照期望速度行驶，提高换道效率。

3) 油耗奖励设置Re

油耗计算使用了K.Ahn 等[31]建立的VT-Micro微观油耗排放模型，

其中，MOEe为瞬时燃油消耗，包括线性、二次和三次速度和加速度项的组合，表示在速度的k次幂和加速度的q次幂下MOEe的模型系数，此项用瞬时燃油消耗作为惩罚项，使车辆学习到节能的换道方式。

4) 终止奖励设置Rd

智能网联车辆处于终止状态时，本回合实验结束，终止状态包括驶离车道范围、达到最大仿真步数但未完成换道、在误差范围内到达换道终点这3 种情况。当智能网联车辆出现驶离车道或者未完成换道任务时，给予较大的惩罚；而当智能网联车辆在误差允许的范围内完成换道任务时，则给予较大的奖励：

其中，C1、C2取较大的正数。

综合上述4 个影响智能网联车辆换道因素来驱动车辆以高效、舒适和节能的方式完成换道任务。最终的联合奖励函数Rt设计为

其中，wy,wv,we,wd分别为不同收益的权重系数，表示其重要程度。

3.3 基于TD3 的换道轨迹规划流程

完成换道问题的建模后，确定换道车辆的换道起点和换道终点位置，设置训练回合数和超参数，通过以下步骤对TD3 网络进行训练，如表2 所示，使其能够在考虑油耗、舒适性的情况下完成换道任务。

表2 TD3 算法流程

4 仿真实验与结果分析

本文所用的硬件设备为：Window10 64位操作系统，显卡Nvidia Quadro P600，处理器为Intel 至强Bronze 3104，内存为16GB；软件设备为：编程语言python3.8，深度学习框架Pytorch1.8，用gym 库创建仿真实验场景，运行环境为pycharm2020。

4.1 仿真环境设计

为了验证换道轨迹规划的有效性，实验使用python 作为仿真环境，模仿了gym 库中的仿真环境设计规则，设计了一个长120 m，宽3.5 m 的单向双车道，并做出如下假设：

1）只考虑直道上相邻车道的换道行为;

2）车辆做出的决策和规划都是依据当前时刻的状态进行的，车辆状态发生变化时重新进行决策和规划。

换道车辆的初始速度为指定速度范围内的随机值，初始位置为指定的换道起点，周围车辆的行驶速度为当前时刻的速度值，换道终点为满足最小安全换道距离的指定位置。车辆驶出车道或达到最大步数时结束本回合。

4.2 参数设定及模型训练

实验中TD3 网络的结构如表3 所示，训练超参数设置如表4 所示。

表3 TD3 网络结构

表4 主要超参数说明

4.3 训练及测试结果分析

4.3.1 左换道轨迹规划

在这个场景中，假设换道车辆的初始位置在右车道中心线起点(1.75,0) m 处，初始速度在43.2～72 km/h中随机初始化，周围车辆的行驶速度为57.6 km/h，换道车辆与原始车道前车的车头间距为50 m，与目标车道前后车的车头间距均为60 m，目标位置为左车道中心线(-1.75，100) m 处，博弈收益中的权重系数αs、αt分别取0.6 和0.4，得到左换道时的博弈收益矩阵如表5 所示。

表5 左换道博弈收益矩阵

由表5 可知，此时博弈的最优策略为：换道车辆进行左换道，目标车道车辆允许换道（换道车辆与目标车道车辆前后车的车头间距是一样的，得到的博弈收益矩阵是相同的）。训练结果及换道车辆以初始速度12 m/s 进行左换道的测试结果如图4 所示。

图4 左换道训练结果

4.3.2 车道保持轨迹规划

在这个场景中，假设换道车辆的初始位置在右车道中心线起点(1.75,0) m 处，初始速度为54～90 km/h中随机初始化，周围车辆的行驶速度为72 km/h，换道车辆与原始车道前车的车头间距为30 m，与目标车道前后车的车头间距均为20 m，目标位置为右车道中心线 (1.75，100) m 处，博弈收益中的权重系数αs，αt分别取0.6 和0.4，得到车道保持时的博弈收益矩阵如表6 所示。

表6 车道保持博弈收益矩阵

由表6 可知，此时博弈的最优策略为：换道车辆不换道，周围车辆拒绝换道，因此换道车辆需要减速进行车道保持，训练结果及车辆以初始速度为25 m/s进行车道保持的测试结果如图5 所示。

图5 车道保持训练结果

4.3.3 右换道轨迹规划

在这个场景中，假设换道车辆的初始位置在左车道中心线起点(-1.75,0) m 处，初始速度为 54～90 km/h中随机初始化，周围车辆行驶速度为72 km/h，换道车辆与原始车道前车的车头间距为50 m，与目标车道前后车的车头间距均为60 m，目标位置为右车道中心线(1.75，120) m 处，博弈收益中的权重系数αs，αt分别取0.6 和0.4，得到右换道时的博弈收益矩阵如表7所示。

表7 右换道博弈收益矩阵

由表7 可知，此时博弈的最优策略为换道车辆进行右换道，周围车辆允许换道。训练结果及换道车辆以初始速度16 m/s 进行右换道的测试结果如图6 所示。

图6 右换道训练结果

从左换道、右换道的实验结果看出: 车辆智能体在前150 个回合中处于试错阶段，车辆智能体不知道如何进行换道，总是由于异常结束而导致回合提前结束;大概从150 回合后，收集到足够的历史数据后，开始逐步学习提升，每回合所得的累积收益开始增大，说明车辆智能体学习到的策略在不断变好，由刚开始的无法完成换道任务到能够逐步完成换道，并不断增加（为了便于看出智能体学习到的策略在进行优化，使用滑动平均曲线将收益进行平滑，收益曲线波动是由于不同初始速度完成换道所得到的收益不同），最终逐渐稳定在一个范围内，表明车辆的策略的优化过程，此时车辆智能体能够到达设定的换道终点，且换道车辆的速度与环境车的速度相等，能够安全完成换道任务。用训练好的模型进行测试，得到的换道轨迹如图4c、6c 所示，速度控制曲线如图4d、6d 所示。

在换道过程中考虑油耗问题，以油耗的大小作为对智能体的惩罚: 油耗越大，惩罚越大，希望车辆智能体能够以节能的方式完成换道任务。车辆在左、右换道任务中训练前后完成换道任务的平均油耗对比如表8所示。

从表8 可见，未经过TD3 算法学习前，左换道过程中每步的平均油耗为30 mL/ s，右换道过程中每步的平均油耗为32 mL/ s；经过算法提升后的左换道过程中的单步平均油耗为11 mL/ s，右换道过程中的单步平均油耗为18 mL/ s；左、右换道过程中的平均油耗分别减少了63%和44%，达到了节能驾驶的目的。

表8 平均油耗对比

实验2 中由于当前车辆不满足安全换道条件，此时车辆需要进行车道保持，并减速行驶，最终与周围车辆的速度相同，如图5c 所示，车辆的初始速度为25 m/s,到达目标位置的速度为20 m/s；测试得到的车道保持轨迹如图5b 所示。

使用DDPG 算法和TD3 算法进行左换道和右换道实验时每回合所用的训练时间对比如图7 中所示。

图7 DDPG 与TD3 训练时间对比

总的训练时间、每回合的平均训练时间以及具体场景的单步轨迹规划所需时间对比如表9 所示。

从表9 中看出，使用TD3 算法在左换道和右换道实验中所用的训练时间均少于DDPG，在左换道实验中，TD3 总的训练速度和每回合的平均训练速度较DDPG提升了约12%。在右换道实验中，TD3 总的训练速度和每回合的平均训练速度较DDPG 提升了约9%。综上，与DDPG 算法相比，本文所用算法的平均训练速度提升了约10.5%；而且采用训练好的模型完成左、右换道场景完整的轨迹规划所需时间均在1.3 s 内，单步规划所需时间在10 ms 内，可满足实时要求。因为所需时间与处理器性能有关，若采用高性能处理器所需时间会更短。

表9 训练时间对比

5 结论

本文提出了基于深度强化学习的智能网联车辆换道轨迹规划方法，在考虑安全性、舒适性、燃油经济性和效率的情况下实现对智能网联车辆的换道轨迹规划。使用基于完全信息的静态纯策略博弈模型做出换道决策，保证了决策的安全性和时效性，并确定需要求解的轨迹规划子问题；将换道轨迹规划问题解耦为纵横向控制问题，使用TD3 算法进行求解，在奖励设计部分，使用瞬时燃油消耗、与期望速度的差值和加速度作为奖惩项，引导车辆以节能、高效、舒适的方式得到换道轨迹。

通过设计左换道、车道保持和右换道的仿真实验，表明了算法在燃油经济性和实时性方面的优势。与DDPG 算法作比较，本文所提方法在左换道和右换道实验中的平均训练效率提升了约10.5%，平均油耗分别减少了63%和44%，且用该模型进行换道的轨迹规划，单步轨迹的规划时间在10 ms 内，能够实时规划车辆的行驶轨迹。