APP下载

深度强化学习在自动驾驶系统中的应用综述

2023-07-15韩胜明肖芳程纬森

关键词:决策自动深度

韩胜明,肖芳,程纬森

(1.成都汽车产业研究院,四川 成都 610101;2.四川传媒学院,四川 成都 611745)

自动驾驶汽车作为未来新型移动智能终端,是当前人工智能、信息通信、云计算、大数据等新一代信息技术的最佳应用载体。随着人工智能技术的快速发展,加快推动自动驾驶系统智能化等级不断提高,当前机器学习(ML)、深度学习(DL)、强化学习(RL)等人工智能算法已从理论研究阶段进入产业化应用阶段。深度强化学习(DRL)兼具了DL 的感知能力和RL 的决策能力,可直接输入输出完成端到端控制,已开始在汽车自动驾驶技术领域开展大规模应用。如特拉斯公司推出了纯视觉全自动驾驶系统(FSD),直接舍弃激光雷达和毫米波雷达,依托全真真实场景数据以及人工智能核心算法,通过“影子模式”不断提升FSD 自动驾驶性能。深度强化学习在高阶自动驾驶系统展现出强大的生命力,已成为当前自动驾驶技术应用研究的热点。

1 深度强化学习概述

强化学习除监督学习、非监督学习外的机器学习子领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习可被建模为基于序贯决策的马尔科夫决策过程(MDP)[1],核心目标是个体在与环境交互过程中获得更多的奖励,这里的状态和动作通常都是离散且有限的,使用表格记录这些概率。而在很多实际问题中,有些任务的状态和动作的数量非常多,还有些任务的状态和动作是连续的,采用类似表格的方式就变得不可行,除了基于策略梯度类型方法外,结合神经网络的强化学习方法能一定程度解决这样的问题。

深度学习是机器学习领域中一个非常重要的子领域,是一种以神经网络为主体的架构,通过建立包含多个处理层的计算模型来构建多个级别的神经网络层。传统机器学习的特征提取主要依赖人工,而深度学习的特征提取依赖机器自动提取,这也使得深度学习在机器视觉、自然语言处理、信息推荐等领域取得了巨大的成功。

深度强化学习结合了深度学习和强化学习两个领域,将在环境中获取的目标观测信息以及当前环境下的状态信息作为输入,通过深度强化学习算法模型,最终输出当前状态映射到的相应动作以及预期回报评判动作价值,如图1 所示。深度强化学习是当前AI 领域的研究热点,其核心在于采用了深度学习的方法,让智能体(agent)可以直接基于非结构化数据来做决策,而不需要人为设计的状态空间[2],可以实现从原始输入到输出的直接控制。当前DRL 方法已经在机器人、工业控制、视觉安防等领域取得了突破性进展。已开展商业化应用的深度强化学习算法主要分为基于值函数(valuebased)的深度强化学习和基于策略梯度(policybased)的深度强化学习[3]。

图1 深度强化学习示意图Fig.1 The diagram of DRL

1.1 基于值函数的深度强化学习算法

基于值函数的深度强化学习算法主要涉及深度Q 网络(DQN)和深度Q 网络的改进算法。Mnih等[4]将神经网络(CNN)与Q 学习算法进行结合,提出了DQN,该模型主要用于处理基于视觉感知的控制任务。DQN 模型结构如图2 所示。

图2 DQN 模型结构Fig.2 The DQN model

深度Q 网络的改进算法是通过向DQN 算法中添加新的功能模块,如DRQN 模型就是在基于竞争架构的 DQN 基础上引入深度循环 Q 网络,通过DRQN 模型,Agent 可在策略评估过程中更快地识别出正确的行为。Hausknecht 和Stone[5]共同提出了 DRQN 模型,利用循环神经网络结构来记忆时间轴上连续的历史状态信息,性能表现优于DQN模型。DRQN 模型结构如图3 所示。

图3 DRQN 模型结构Fig.3 The DRQN model

1.2 基于策略梯度的深度强化学习算法

基于策略梯度的深度强化学习方法是一种通过不断优化策略获得最优策略的方法,主要通过不断优化策略的目标函数,获取策略最大奖励,最终在策略空间中寻找最优策略。主要策略有AC 算法(动作评价算法)、A2C 算法(优势动作评价算法)、A3C 算法(异步优势动作评价算法)[6]。其中,AC 算法是策略梯度学习方法与Q 学习方法的结合,Actor 为策略函数(策略网络),常用神经网络来表示,Critic 为评价函数(评价网络),两个模型同时进行训练。A2C 算法使用优势函数替代AC 算法中Critic 网络中的原始回报。A3C 算法基于AC 模型,采用多个线程同时计算方式,相当于多个Agent 同时搜索,并行计算策略梯度[7]。

同时,相关科研机构正在分层DRL 算法、多任务迁移DRL 算法、多智能体DRL 算法、基于记忆与推理DRL 算法等[2]前沿领域开展深入研究,加快工程实践应用。当前,国内外自动驾驶研发企业以及相关科研院所正加快利用深度强化学习算法解决高阶自动驾驶系统中环境感知、规划与决策、控制与执行等实际应用问题。

2 自动驾驶系统关键技术

自动驾驶系统(ADS)主要涉及环境感知、决策规划、控制执行三大领域。其中:环境感知主要是利用激光雷达、毫米波雷达、超声波雷达以及车载高清摄像头等传感器获取汽车行驶过程中的外界环境信息;决策规划主要通过收集的数据,对车辆的下一步行为作出判断和指导;控制执行主要通过信号指令控制汽车的油门、制动、转向等执行机构,完成车辆横向和纵向控制。自动驾驶技术架构如图4 所示。

图4 自动驾驶系统技术架构图Fig.4 The technical architecture diagram of autonomous driving systems

2.1 环境感知技术

环境感知技术是利用双目摄像头、单目摄像头、激光雷达、毫米波雷达以及超声波雷达等传感器以及车联网系统感知周围环境,通过实时感知车辆周围的目标物体,获取道路标志标识信息,为自动驾驶汽车提供决策依据。如利用摄像头可感知外界目标物体,在通过神经网络图像识别算法实现对每个目标物体分类和定位的基础上,可实现多目标跟踪,如图5 所示。

图5 环境感知技术示意图Fig.5 The diagram of scene understanding

2.2 规划决策技术

决策系统的任务是根据生成的行驶轨迹结合自车运行状态以及外界环境信息等,计算出采用的驾驶行为及动作的时机。常用的决策方法包括决策树、深度学习、增强学习以及深度强化学习等。决策机制应以安全为前提,在满足不同行驶场景需求(如高速工况、城区工况等)的情况下同时进行舒适、节能、高效的正确决策,如图6 所示。

图6 规划决策技术示意图Fig.6 The diagram of planning and decision

2.3 控制执行技术

自动驾驶汽车的控制执行可以分为纵向(驱动、制动)、横向(转向)和横纵向综合控制,如图7所示。纵向控制是指通过对驱动和制动的协同控制,实现利用加速度或减速度对目标车速或目标扭矩的精确响应。横向控制主要是指通过对电动助力转向系统(EPS)进行转角或转矩控制,实现汽车的自动转向功能。

图7 控制执行示意图Fig.7 The diagram of control execution

3 深度强化学习在自动驾驶系统中的应用现状

3.1 DRL 在环境感知领域的应用现状

当前,深度强化学习算法已经在自动驾驶系统环境感知技术领域深入应用,主要涉及视觉控制、视觉导航等方面。视觉控制是指Agent 利用视觉系统的图形信息进行后续控制操作,如视觉控制中,通过不同控制任务间迁移的可迁移状态用于减少训练样本的大小是当前亟待解决的问题。Mu等[8]提出一种新的CtrlFormer 方法,旨在解决如何高效地将Transformer 移植到视觉控制中。该方法实现在视觉令牌和策略令牌之间学习自注意力机制,利用DRL 来训练CtrlFormer 模型可以在不发生灾难性遗忘的情况下学习和迁移多任务表示。视觉导航是指Agent 利用机器视觉技术实现实时建图与定位,并构建语义地图完成点对点路径规划,当前基于目标驱动的视觉导航任务存在泛化能力弱、数据效率低等问题。李鹏等[9]提出了一种基于深度强化学习的区域化视觉导航方法,主要根据分布式环境特征,在不同区域内独立学习控制策略,构建区域化模型,实现导航过程中控制策略的切换和结合,同时增加奖励预测任务结合经验池回放奖励序列,再添加景深约束,防止因碰撞导致的遍历停滞。近年来自动驾驶系统怎么从2D-RGB图像获取交通参与者6D-pose(3 个自由度的位移和3 个自由度的空间旋转)是计算机视觉的研究热点,传统的方法需要高算力支持,代价高。Shao等[10]提出了一种将6D 位姿增强信息建模为马尔科夫决策过程(MDP),采用深度强化学习,并将6D 位姿增强信息作为输入信息。该方法将传统的弱监督6D 位姿信息替换为2D 图像注释信息,大大减少了计算消耗以及时间代价,同时利用序列性MDP 信息来优化延迟积累回报,以达到高效学习目的。

3.2 DRL 在决策规划领域的应用现状

自动驾驶决策规划可分为路由寻径、行为决策、运动规划等技术,如表1 所示。其中,行为决策的作用是决定车辆的行驶意图:对于静态障碍物,决定往左绕还是往右绕;对于动态障碍物,决定减速避让还是加速超车。以下分别从路由寻径、行为决策、运动规划3 个方面对DRL 在决策规划领域的应用研究现状进行分析。

表1 自动驾驶决策规划领域的主要技术类别Tab.1 The major technology category of ADS planning and decision

3.2.1 路由寻径

自动驾驶系统在路由寻径方面被看成是一个寻优的过程,随着深度学习和强化学习模型不断优化,DRL 算法在自动驾驶领域快速工程化应用。如Kulkarni等[11]在端到端的深度强化学习框架中引入继承表征(SR),提出了深度继承强化学习(DSR),增加了远端奖励变化的敏感性,并能够在给定随机策略训练SR 的情况下提取子目标,与DQN 相比,DSR 能更快适应末端奖励值变化。Hsu等[12]提出一种不同局部区域的分布式DRL 模型,能够在没有预先构建地图的情况下实现大规模室内复杂环境中的导航。Zhu等[13]提出了一种端到端的学习框架,使用当前agent 图像和目标图像,分别通过ResNet-50 得到2 048 维特征,使用4 帧历史图像特征作为输入(共8 092 维),以解释agent 过去的动作,再通过A3C 最终输出4 维的动作概率分布和单个值函数。其核心是通过端到端的方式解决收敛性、目标和场景泛化性、Sim2Real 的泛化性及端到端导航的便利性问题。

3.2.2 行为决策

多智能体在复杂环境中的行为决策问题一直是L4 级自动驾驶系统核心技术之一。当前自动驾驶系统行为决策算法大致分为基于价值的决策模型、基于证书的推理模型、决策树、有限状态机和DRL 算法模型等。其中:基于价值的决策模型是通过可量化的指标来选出具备最佳性能指标的驾驶策略;基于证书的推理决策模型用于模仿驾驶员的行为决策过程,通过算法模型来实现车辆外部环境特征到横纵向综合控制直接映射;采用DRL 算法驾驶行为决策模型可定量评估当前的驾驶策略与目标任务的符合程度,从而筛选出最优驾驶决策行为。如Furda等[14]提出了一种应用于城区工况的多准则驾驶决策型,通过利用已有的输入感知信息对可能性的决策方案进行最优排序并选出最优方案。

3.2.3 运动规划

当前运动规划相关控制算法正加快应用于自动驾驶汽车领域。应用较为成熟的运动规划算法有直接优化方法、参数化曲线构造法、人工势场法、基于搜索的规划算法、基于采样的规划算法等,但传统运动规划算法存在搜索空间大、容易陷入局部最优等问题。一些研究人员正利用深度强化学习优化传统运动规划算法,如Waydo等[15]提出基于深度强化学习的流函数进行平滑路径的规划,Daily等[16]针对高速车辆提出了基于深度强化学习的谐波势场路径规划方法。

3.3 DRL 在控制执行领域的应用现状

自动驾驶系统控制执行技术可分为常规控制方法与智能控制方法。其中,常规控制方法主要包括PID 控制、最优控制、模型预测控制(MPC)等类型,基于受控对象的数学模型实现闭环控制,需要建立精准的数学模型。智能控制方法拥有基于大量数据的自主学习能力,通过数据驱动Agent 可适应各种未知的复杂环境,在自动驾驶领域得到快速应用,主要包括专家控制(ECS)、模糊控制(FL)、滑模控制(SMC)、CNN 和DRL 等。相较于其他智能控制方法,基于DRL 控制方法不需要直接建立精准的数学模型,而是直接在系统交互过程中对控制策略进行在线学习并不断优化迭代。朱冰等[17]针对自动驾驶系统控制主车跟随前车实现巡航功能场景,为降低因前车运动瞬态不确定影响主车控制功能,提出了一种基于深度强化学习算法融合前车运动随机性的自动跟随控制策略。首先建立主车跟随控制策略和前车移动随机过程模型,利用DRL 算法实现交互式迭代学习,从而训练出融合运动随机性的主车纵向控制最优策略。文献[18]提出了一种基于深度强化学习的车道保持控制策略,通过设计合适的奖励函数和深度卷积网络,采用深度确定性策略梯度算法训练横向和纵向控制模型,在与环境交互过程中以试错的方式进行不断训练直到找到最优控制策略。

4 深度强化学习在自动驾驶系统中的应用展望

自动驾驶环境感知主要任务是通过单一传感器或多传感器融合方案实现物体检测和语义分割,并最大限度地获取本车周边三维空间的全景分割信息。DRL 应用于感知方面依赖DL 算法,其模型虽然泛化能力强,但仍然具有很强的不可解释性,从整车功能安全层级DRL 算法感知结果仅能达到ASIL QM,无法达到ASIL B 以上功能安全要求,制约了DRL 在高阶自动驾驶系统环境感知领域的进一步应用。为此,研究DRL 可解释性,提升功能安全等级成为新的研究热点。自动驾驶系统决策规划目标是系统能够成熟应对及时处理各种各样复杂的交通场景,并在自身异常或故障情况下实现安全停车,最终达到经验丰富的人类驾驶员的操作能力。当前,基于端到端的深度强化学习决策模型虽然简化了车辆自主决策过程[19],但实车测试性能稳定性较差,仅作为冗余决策方案,如何提升DRL 模型的决策稳定性已成为商业化快速应用的发展方向。自动驾驶系统横纵向综合控制已成为其控制执行技术的主要发展方向,如何提升车辆横纵向综合控制能力,使其更加符合人类驾驶习惯已成为当前的研究热点,采用DRL 算法获取真实奖励函数[20],让自动驾驶系统综合控制能力接近人类驾驶水平是当前亟待解决的问题。

5 结束语

深度强化学习(DRL)兼具了深度学习和强化学习的抽象感知能力和优秀的决策能力两大优势,能够处理高维度的输入与输出数据,已被学术界和产业界证实可解决自动驾驶系统中的环境感知、决策规划以及控制执行等一系列复杂问题,但仍面临很大挑战。高阶自动驾驶系统要面对非常复杂的行驶工况并及时作出规划决策需要相当复杂的AI 模型来支撑,采用深度强化学习算法AI 模型需要大量的训练时间和反复模型优化,同时AI 模型的精度和自动驾驶系统的架构设计会影响深度强化学习算法的可用性。

猜你喜欢

决策自动深度
为可持续决策提供依据
深度理解一元一次方程
自动捕盗机
决策为什么失误了
深度观察
深度观察
深度观察
基于STM32的自动喂养机控制系统
关于自动驾驶
Stefan Greiner:我们为什么需要自动驾驶?