基于深度学习的自动驾驶环境感知技术研究
2021-09-10裴汉林
裴汉林
摘要:自动驾驶车辆是由环境感知、定位导航、路径规划、运动控制等组成。充分考虑车路合一,协调规划的车辆系统。自动驾驶的环境感知系统融合了超声波传感器、红外线传感器、激光雷达、毫米波雷达等多种传感器的数据来获取道路信息。为此,本文首先介绍了激光雷达在自动驾驶感知系统的应用。然后对自动驾驶环境感知系统的关键技术:目标检测、跟踪、场景分割分别进行研究。
关键词:自动驾驶;环境感知;深度学习
1 研究背景及意义
近年来,随着人工智能和深度学习技术的不断深入研究,自动驾驶技术被认为是最具有研发价值的领域之一。然而,将自动驾驶汽车应用到实际复杂的道路交通场景,还存在着一定的差距。因此,环境感知系统是自动驾驶汽车的重要组成部分。主要的任务是识别和分类道路障碍、交通标志、信号灯、行人车辆等,能够分析判斷出车辆所处环境的位置[1]。
环境感知系统是自动驾驶车辆的关键技术之一。它对于交通场景语义的准确理解以及车辆做出相应的行为决策都是至关重要,是行车安全与智能化的一个重要保障。基于深度学习的神经网络算法在人工智能领域的深入研究,促使了自动驾驶的变革。传统的环境感知算法对于处理复杂的交通场景道路准确性和实时性达不到预期的效果。而基于深度学习的卷积神经网络算法可以很好的处理庞大的数据集训练出理想的模型,可以很迅速的感知车辆前方的道路信息,可以及时的给车辆感知系统反馈,在实时性和准确率方面都有一定的提升。
2 环境感知技术的国内外研究现状
许多政府机构、学术界和工业界都在自动驾驶系统上投入了大量的资源,如CMU、Stanford、清华大学、Google、百度、阿里、华为等。在过去的十年里,人们对环境感知模块进行了深入研究。对于道路信息的信息收集通常由多个传感器采集,如相机、雷达、激光雷达和红外传感器。预处理后,提取环境中物体的各种特征,如道路、车道、交通标志、行人、车辆等。
在国内主要的科研公司代表是百度阿波罗(Apollo)L4级别的自动驾驶车辆,2019年研发了一套完整的L4级别的视觉感知系统。该系统可支持对10路摄像头,200fps数据量的同步处理,最高丢帧率在5%以下,可实现全方位360的道路场景感知,障碍物最远检测距离达240m。这套视觉感知方案最突出的地方是可不依赖高速机械旋转的激光雷达探测信息,就可以实现在城市道路上实现端到端闭环的L4级别的自动驾驶。使得在一定程度上降低了自动驾驶车辆的成本费用,创造了更多的应用价值。
在国外的自动驾驶环境感知众多研究领域,其中美国的特斯拉(Tesla)公司在自动驾驶这一领域的研究有着领先水平,尤其在环境感知这一方面来讲,其视觉系统是由超声波雷达、摄像头、GPS定位系统等构成,侦测范围可达250m,该系统的观测视野远比人眼更加广阔,获得交通道路信息更多。为解决激光雷达费用昂贵的问题,总部位于美国的Cepton公司研究出一款价格低于1000美元以下的激光雷达Vista-X90,检测距离最远可达200m,可实现高分辨率的空间三维成像。
通过国内外的自动驾驶环境感知研究现状的分析,车辆对周围环境的实时感知和理解是十分关键。其面临着需要处理来自多个传感器的大量数据的挑战,如相机、无线电探测和测距(雷达)、光探测和测距(激光雷达)。因此对于自动驾驶环境感知系统的目标检测、目标识别、目标跟踪和驾驶员行为分析以及场景理解等关键技术的研究十分必要。
3 环境感知技术的应用
深度学习是机器学习为基础的更深层次学习,通俗来理解为通过大量的数据标签,总结出规律训练出想要的模型,然后通过该规律将与新的数据智能分类和预测[2]。深度学习技术覆盖范围包括医学图像工程辅助诊断、人脸识别、自然语言处理、图像处理等科学研究领域。
深度学习的卷积神经网络(CNN)的不断研究,推动了自动驾驶在环境感知、运动控制、行为决策等多项关键技术的慢慢走向成熟。在自动驾驶领域,以卷积神经网络(CNN)为基础,进一步开发的R—CNN、Fast R—CNN. SSD、YOLO等神经网络[3]。下面将介绍深度学习在自动驾驶环境感知技术应用。
3.1 激光雷达的交通场景识别
自动驾驶的激光雷达是通过发射激光束来探测目标位置的雷达系统,同时也可获得车辆周围的深度信息,可以准确的判断出车辆周围的障碍。如美国Velodyne公司的64线中的激光需达,它的机械式旋转结构能够实时地建立起周围环境的3D场景图。目前,激光雷达因其测量的高度可靠性、精确性,仍是自动驾驶系统中最重要的视觉传感器之一。但是在开阔地带,由于缺乏特征点,会存在点云过于稀疏,至丢失点的问题。最近几年研究者开始使用卷积神经网络来对三维的点云聚类进行分类,在实际工程应用中通过将采用激光雷达获取目标的深度信息,并且通过摄像头采集到的视频信息,将其两种数据融合基于CNN的各种目标检测识别算法,来获取交通道路场景获取的目标位置及分类[4]。所以在实践中通常采用多传感器融合的方式,来获取交通场景的周围信息[5]。
3.2 目标检测
在自动驾驶的环境感知系统中,对交通信号灯、行人和车辆、车道线以及可行驶区域、交通标志的识别检测是一项关键的技术内容。传统的目标检测算法主要是采用多尺度滑动窗口来获取图像,计算的数据量庞大,并且会产生冗余的窗口,鲁棒性较差,目标信息的特征容易受外界环境影响,分类的精度较低,泛化能力差。
随着深度学习算法的提出,基于卷积神经网络(CNN)算法的目标检测技术慢慢的应用到实际的工程应用中。其中在深度学习的目标检测算法又可分为:①基于two stage的车辆检测方法:如R-CNN、FAST-R CNN、FASTER-R CNN等。这种算法主要分两步进行:首先选取候选区域,再进行分类和回归。②基于one stage的车辆检测方法:以SSD、YOLO为基础衍生的一些列检测算法。该算法的特点是一种端到端的网络结构,直接将目标检测的问题转化成回归问题,不再需要选取候选区域。这两者算法的综合比较后者因为网络结构更加简单,计算量以及训练数据的相对减少,使得实时性更好,在环境感知系统中更适应实际的交通道路场景。
为了更好的判断目标检测这些算法的优劣,我们需要一系列的数据集。我们常用的数据集包PASCAL VOC数据集、COCO数据集、ImageNet数据集、MIT(行人数据集)、KITTI(车辆数据集)、CTSD(中国交通标志数据集)等。
3.3 目标跟踪
自动驾驶车辆的感知系统中另外一项关键技术就是对车辆前方障碍物的目标跟踪,其中对象包括车辆轨迹跟踪、非机动车辆轨迹跟踪、行人轨迹跟踪等。目标跟踪技术对行车安全至关重要,能够有效的预测物体运动的轨迹,从而控制层可以提前做出碰撞预警以及变道处理等决策。
目标跟踪的的应用从目标数量上可分为单目标跟踪(SOT)和多目标跟踪(MOT),而在实际的交通场景更多的是MOT,考虑到多个车辆目标在实际运动中上一帧到下一帧的匹配关系。目标跟踪算法大致可分为两种:①生成式:均值漂移算法(Meanshift)、卡尔曼(Klaman)滤波算法等;②判别式:相关滤波算法、基于深度学习的跟踪算法。两种算法的比较下后者更具有鲁棒性,应用在自动驾驶车辆感知系统中。
为了评价各种目标跟踪算法的实用性,这里将介绍通用的数据集与评价指标。常用的数据集有MOT数据集专门用于行人和车辆的跟踪。目标跟踪技术当今面临的关键问题:①光照变化;②物体快速运动造成的图像模糊;③视觉传感器与周围目标距离的变化,也称尺度变化;④背景杂乱,相似的目标物体的每一帧的检测过程中会造成匹配错误,从而丢失了跟踪目标。
3.4 场景分割
自动驾驶系统中另一项核心技术就是交通道路场景语义分割,影响着车辆的自主导航与行为决策,它对于环境的理解和分析有着重要的意义。语义分割是在像素级别的标准,通过对目标进行分类,如行人、车辆、车道线、草地、建筑物等。场景的分割即是对图片的语义分割,帮助自动驾驶的感知系统,建立交通场景的语义实体模型以及对周围环境理解,判断出可行驶区域的重要工具。
将深度学习的方法应用到场景分割是一项突破性的成果,提高了行车的安全性以及对交通场景分割的准确性和时效性。深度学习的语义分割的方法主要有:①基于空洞卷積的方法;②基于编解码的方法;③基于特征融合的方法;④基于RNN的方法;⑤基于注意力机制的方法。
为评价场景分割的算法的实时性和性能,我们需要在特定的数据集上进行测试,常用的大型公共数据集按场景类可分为以下几种:①室外场景:Stanford back-ground、siftflow数据集,特点是类别和分辨率低;②驾驶场景:KITTI-Ros、智能机器人和自动驾驶的常用数据集;③城市街道场景:Cityscaps利用车载摄像头采集的欧洲街道场景;④复杂场景:ADE20K、MS COCO数据集场景类别较多,包含的样本数量和类别较多。
4 总结与展望
本文针对环境感知的目标检测与跟踪、场景分割三项关键技术进行深入理解,并且给出用来测试的数据集。但自动驾驶的环境感知技术的研究还需要在以下几个方面进行完善:①环境感知系统应适用于更加复杂的天气情况包括夜间、雾天雨天;②激光雷达传感器费用昂贵,可以考虑缩减成本,使用其他的高性能视觉传感器;③加大力度投入计算机视觉领域研究,通过提升算法的性能,对处理图像的准确率和时效性满足现在交通场景的要求;④优化视觉传感器的抗干扰性能和数据处理速度。若是能够充分考虑这些内容进行改善,这将对自动驾驶汽车的舒适性、安全性、稳定性有着巨大的影响。
参考文献:
[1]高铭.基于深度学习的复杂交通环境下目标跟踪与轨迹预测研究[D].吉林大学,2020.
[2]章军辉,陈大鹏,李庆.自动驾驶技术研究现状及发展趋势[J].科学技术与工程,2020,20(09):3394-3403.
[3]李健明.基于深度学习的无人驾驶汽车环境感知与控制方法研究[D].长安大学,2019.
[4]陈兆一.基于三维激光点云的复杂场景人体目标识别[D].北京邮电大学,2019.
[5]宫铭钱,冀杰,种一帆,陈琼红.基于激光雷达和视觉信息融合的车辆识别与跟踪[J/OL].汽车技术:1-8[2020-09-28].