APP下载

基于多传感器融合的智能汽车多目标检测技术综述

2022-01-13徐岩松蔡英凤

汽车安全与节能学报 2021年4期
关键词:激光雷达雷达传感器

王 海,徐岩松,蔡英凤,陈 龙

(1. 江苏大学 汽车与交通工程学院,镇江 212013,中国;2. 江苏大学 汽车工程研究院,镇江 212013,中国)

相较于传统汽车,智能汽车在防止交通事故、缓解交通拥堵、提高生产效率、减少大气污染等方面具有显著的优势[1],国内外车企、互联网公司、高校因此纷纷加入研究智能汽车行列。传统汽车行业深厚的积累、基于深度学习的计算机视觉领域的迅速崛起,以及激光雷达等传感器生产成本的降低,促进了智能汽车领域的快速发展。根据功能的不同,智能汽车系统可分为环境感知系统、决策规划系统和车辆控制系统3部分[2]。根据国家出台的《汽车驾驶自动化分级》(GB/T 40429-2021),汽车自动化程度可分为6个等级:0级(应急辅助)、1级(部分驾驶辅助)、2级(组合驾驶辅助)、3级(有条件自动驾驶)、4级(高度自动驾驶)、5级(完全自动驾驶),具体级别信息见表1。虽然不同级别的自动驾驶程度不同,但都需要一个稳定可靠的感知系统,自动驾驶程度越高对环境感知的要求越高。环境感知是智能汽车完成运输任务的开始,是其余2大系统的基础,对周围环境感知结果的好坏是智能汽车能否完成运输任务的前提,如果智能汽车没有环境感知功能,就像是人没有感觉器官,将不能和外界进行交互。

表1 驾驶自动化等级与规划要素的关系

智能汽车所在的驾驶环境不同于其他人工智能机器所处的工作环境,具有高速、复杂的特点,用于获取图像数据的相机易受光线影响,获取点云数据的激光雷达易受恶劣环境的影响,毫米波雷达不擅长检测静止的目标,传感器本身的缺陷使得智能汽车只靠单一传感器无法完成感知任务。本文着重研究了如何通过融合多传感器数据来实现周围环境检测。

综述[2-3]涵盖了用于多模态数据融合的多种传感器(毫米波雷达、相机、激光雷达、超声波雷达、惯性传感器IMU、光学计等),综述[4]只关注激光雷达和相机的融合,综述[5]概述了感知任务中的语义分割和目标检测,综述[6]概述了基于相机的多目标检测。相较于上述工作,本文主要总结了驾驶场景下用于多目标检测任务的激光雷达、毫米波雷达和相机融合技术,第1章介绍了多传感器融合的背景,第2章介绍了多传感器融合技术,第3章对多传感器融合技术进行了总结和分析。

1 背 景

1.1 驾驶场景中目标检测的对象与要求

智能汽车在复杂的交通环境下需要对周围环境进行准确的检测,检测的对象可分为静态对象和动态对象,其中静态对象包括车道线、交通信号灯和交通标志牌等,动态对象主要包括交通参与者,如不同类型的汽车、行人、自行车等。图1是典型的城市工况下智能汽车所处的驾驶环境。

可靠的感知系统是智能汽车在复杂交通工况下正常运行的先决条件,主要体现在以下3个方面:1)准确性,是指在复杂的交通场景下,能以高指标完成感知任务(检测、定位、预测、跟踪、分割等)的性能;2)实时性,是指在保证一定感知精度的前提下,尽可能快的完成感知任务,这对自动驾驶汽车尤为重要,因为高延迟的感知系统能会造成车辆决策和控制的迟后,可能导致交通堵塞,甚至是致命的交通事故[7]; 3) 鲁棒性,指的是在感知环境恶劣的情况下,如雨雾天气、弱光环境,感知系统还能正常运行性能。

1.2 车载检测传感器

根据数据来源,车载传感器通常可分为外部传感器和内部传感器[8],内部传感器用于采集智能汽车自身的数据,如车速、车轮转角、加速度等;外部传感器是对智能汽车所处的外部环境进行采集数据,如车载相机、毫米波雷达、激光雷达等;智能汽车的环境感知技术离不开外部传感器,神经网络算法更是需要车载外部传感器采集的数据进行训练,传感器的性能直接影响智能汽车最终的决策。在不同的驾驶环境下,各种传感器的检测性能和鲁棒性不同,多传感器融合可以提高智能汽车的感知能力。本文主要研究的是对周围物体进行检测的外部传感器,主要包括:车载相机、毫米波雷达、激光雷达。表2总结了上述各种传感器的优缺点、用途和成本,图2展示了不同的车载传感器以及检测结果。

表2 不同传感器之间对比

1.2.1 相 机

车载相机主要包括单目相机、双目相机、深度相机(RGB-D)和全景相机。车载相机成本低,是智能汽车感知系统的基础传感器,也是目前工业界和学术界的主要选择。车载相机主要用于多目标检测、跟踪、语义分割、车道线检测等任务,其能捕捉周围环境中目标的颜色、纹理、形状等信息,可以在非极端环境下识别不同的目标,相较于毫米波雷达和激光雷达具有数据稠密、分辨率高等优点[9-10];但其缺点也显而易见:易受天气影响,在雨雾天、夜晚环境下感知性能大幅下降,对光线突变的场景也非常敏感,如智能汽车驶入和驶出隧道,对面车辆突然打开远光灯等。此外单目相机无法提供环境建模所需要的深度和距离原始信息,而双目和深度相机相较于雷达和激光雷达结构复杂,在检测范围和测距精度、分辨率方面,与毫米波雷达和激光雷达仍然存在较大差距。

1.2.2 雷 达

随着3D数据采集技术的飞速发展,雷达等传感器的硬件成本和软件技术也形成了一定的规模,在无人驾驶感知领域逐渐得到应用。雷达相较于相机能够提供物体的3D信息和距离信息等,数据形式更加丰富,这使得智能汽车在理解周围环境时能更容易。雷达主要包括激光雷达、毫米波雷达和超声波雷达。超声波雷达主要感知近距离的环境,比如自动泊车等任务,对于检测任务作用较小。本小节主要来介绍毫米波雷达和激光雷达。

1) 毫米波雷达。发射无线电波后,通过接收天线采集目标散射波,进行一系列信号处理,获取目标信息[11]。根据检测范围的大小可分为远程、中程、短程毫米波雷达。毫米波雷达不仅可以获得多目标的精确距离,还可以利用多普勒频移效应测量相对速度[12],广泛应用于障碍物检测[13]、行人识别和车辆识别[14-15]。与车载相机相比,毫米波雷达受天气影响小,具有较好的防阻隔和抗污染能力。毫米波雷达在视角比较窄的情况下检测效果较为理想,但其不适用于动态物体的检测,易产生误检[16]。与激光雷达相比,毫米波雷达具有更长的波长,可以应对雨雪雾天气和黑暗环境。脉冲雷达在接收回波信号时,要求发射信号严格隔离,而大功率信号在短暂的连续周期内发射,因此对硬件要求高,结构复杂[2]。雷达生成的点云数据包括X,Y坐标雷达反射面积(radar cross section, RCS)和速度(Doppler),与激光雷达的点云数据相比更加稀疏,需要对原始的毫米波点云进行处理。

2) 激光雷达。按有无机械旋转部件,激光雷达可分为固态、机械和混合固态激光雷达。激光雷达的工作原理与毫米波雷达相似,但它发射的是光波而不是无线电波[17],激光雷达可用于定位、障碍物检测和环境重建任务[18-19]。固态激光雷达只能获得一定角度的点云数据,而机械激光雷达和混合固态激光雷达则能获得的智能汽车周围360°的点云数据,点云数据包括点的X,Y,Z坐标和反射强度等,不同的材质反射强度不同,因此点云能区分不同材质的物体。激光雷达在测距方面优势明显,且由于激光雷达是通过发射可见光波长外的光波获得点云数据,故不受光照等条件的限制,能在黑夜工作。其与相机具有相同的缺点,受天气影响大,雨雾天气工作效果差。激光雷达在检测与远距离物体时,点云数据会变得稀疏,这会导致检测效果变差。激光雷达是智能汽车必需的传感器之一,目前随着成本的不断降低,有望大规模部署应用。

采用多传感器组合使用的方式可以互补各个传感器之间的不足,克服单个传感器的局限性,在检测精度方面能够提高冗余性,避免某个传感器误检甚至是停止工作而引起的检测失效,以此提高感知系统的检测精度和鲁棒性[20]。

1.3 基于深度学习的检测算法

物体检测是计算机视觉最基本和最具挑战性的问题之一,作为计算机视觉的基石,是解决复杂或高水平问题的基础化任务,如分割、场景理解、对象跟踪等。基于深度学习的目标检测算法作为计算机视觉领域的后起之秀,随着近几年来数据量的不断提升和硬件水平的突飞猛进,在检测速度上已经能与传统基于手工特征的车辆检测算法相媲美,同时在检测精度上远远超过传统算法。2012年,A.Krizhevsky等提出的AlexNet[21]深度卷积网络在ILSVRC挑战赛取得冠军,自此以后,计算机视觉的绝大多数方向都集中于深度学习神经网路结构的创新,并取得了不错的成绩。近年来,相关检测算法也逐步延伸并拓展到面向激光雷达3D点云本处理中,本节简要介绍基于深度学习的视觉检测算法和点云检测算法。

1.3.1 视 觉

基于视觉的检测算法主要是通过处理由相机采集的图像来感知周围的环境。相比传统方法通过人工提取特征信息、需要领域专家通过多年的积累和经验才能手工设计出来的特征,深度学习方法则是具有通过大量的数据自动学习到能够反应数据差别的特征,从而更具有代表性。同时对于视觉识别来说,卷积神经网络分层提取的特征与人的视觉机理类似,都是进行边缘到部分到全体的过程[22]。而近几年随着数据量的不断扩充和硬件设备更新迭代,深度学习目标检测算法开始得到工业界的认可。在学术界,根据神经网络按照是否生成锚框(anchor),视觉检测算法可分为基于锚框(anchor-based)检测算法和无锚框检测算法(anchor-free)[23-25]。由于对实时性和检测精度的不同侧重,基于锚框的检测算法又可分为2类:一类是侧重于检测精度的2阶段目标检测算法[26-27],这类算法也称为基于区域的方法,其主要思路是先产生一系列稀疏的候选框,然后对这些候选框进行分类与回归;另一类是侧重于检测速度的单阶段目标检测算法[28-32],此类算法没有中间的区域检出过程,直接从图片获得预测结果,其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用卷积神经网络(convolutional neural networks, CNN)提取特征后直接进行分类与回归,整个过程只需要一步。

1.3.2 点 云

目前基于点云的检测算法主要包括基于点的检测算法(point-based)、基于体素的检测算法(voxel-based)和二者结合的检测算法。

PointNet[33]和PointNet++[34]是典型的基于点的3D目标检测算法,其聚集临近点并进行特征提取,获得局部和全局的特征表达。PointRCNN[35]是第1个直接从原始点来预测物体3D边界框的算法,其一阶段利用PointNet++获得逐点的特征,对每个点进行前景点分割并对每个前景点预测3D框作为候选框,在第2阶段运用感兴趣区域池化操作(average pooling)并对边界框进行微调。基于体素的检测算法首先将输入的点云体素化,然后用3D卷积对整个场景的体素进行特征提取。在VoxelNet[36]中,点云首先被等分成大量均匀的体素,然后用体素编码层来编码每个体素的特征,随后根据每个体素的特征生成3D的候选框。SECOND[37]设计了一种高效的体素编码算法:稀疏卷积算法,即只对非空的体素进行特征提取,该方法极大地提高了基于体素的3D目标检测算法的训练和推理速度。基于点的检测算法能够保留目标准确的结构信息和位置信息,但是计算量大,对计算单元算力要求较大,检测实时性差。基于体素的方法可以高效地对点云进行特征提取,但是会损失部分结构信息和精确的位置信息。一些方法充分利用二者的优点对点云进行特征提取。PVRCNN[38]用稀疏卷积对体素进行特征提取并生成候选框,将多尺度的体素特征编码到关键点,第2阶段聚集候选区域中网格点周围的关键点的特征对物体边界框做微调。SA-SSD[39]在训练时设计了辅助网络将体素特征转化成逐点特征进行前景点分割和中心点预测。

1.4 数据集

为了节省开发的成本,保证实验的安全,研究人员往往先将构造好的检测算法用开源的车载数据集进行训练和验证[2]。优秀的数据集往往能训练出速度快精度高的检测算法,有的数据集还提供了较公平的算法评估平台和基准,这有利于研究人员进行横向和纵向的比较,从而研究出更优异的模型。Y. Kang等[40]总结了目前绝大多数的数据集,表3是对KITTI[41]、BDD[42]、nuScenes[43]、Waymo[44]、ONCE[45]几 个 著 名的车载数据集进行的简述与对比。

表3 著名智能汽车数据集简述与对比

1) KITTI数据集,是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是当前最著名的自动驾驶数据集,为立体视觉评估、光流、场景流、视觉测程、同步定位与建图 (simultaneous localization and mapping,SLAM)、目标检测与跟踪、道路车道检测、语义分割提供了许多优秀的基准。KITTI包含市区、乡村和高速公路等,白天和晴天场景的真实图像数据,共约1.5万张图像,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过20万个3D标注物体的图像组成,以10 Hz的频率采样及同步。KITTI数据集的数据采集平台装配有2个灰度摄像机、2个彩色摄像机、一个Velodyne 64线激光雷达、4个光学镜头,以及1个GPS导航系统。

2) BDD数据集,是由伯克利大学AI实验室(BAIR)创办,是由单目RGB相机、GPS、IMU、陀螺仪采集而成。数据集包括10万段高清视频,每个视频约40 s、720P、30 fps,每个视频的第10 s对关键帧进行采样,得到10万张尺寸为1 280 × 720的图片,并进行标注,真值的标签包含10类,分别是公交车、交通标志、行人、自行车、卡车、摩托车、汽车、火车和骑车人。相较于KITTI数据集,BDD数据集包含更多的天气场景:晴天、多云、阴天、雨天、雪天、雾天6种天气,以晴天为主,时间有黎明、黄昏、白天、夜晚4个时间段,其中,白天、夜晚居多,这为研究人员的感知算法带来了更大的挑战。

3) nuScenes数据集,是由Motional团队开发的用于无人驾驶的公共大型数据集,共有1 000个场景,该数据集包括约140万张图像,39万的激光雷达数据,140万毫米波雷达扫描数据和1.4万个对象边界框,该数据集来自自动驾驶车辆的整个传感器套件(6个摄像头、1个激光雷达、5个毫米波雷达、GPS、IMU)的数据。与KITTI相比,nuScenes包含7倍多的对象注释。之前发布的大多数数据集都是基于相机的对象检测(Cityscapes,Mapillary Vistas,Apolloscapes,BDD),而nuScenes数据集提供的是整个传感器套件。

4) Waymo数据集,是由谷歌旗下的无人驾驶公司Waymo在2019年发布的自动驾驶数据集。该数据集由5个激光雷达和5个相机采集而成,其中包括片长为20 s的驾驶画面1 150个,密集的标签信息更是达到1 200万个3D标签和1 000万个2D标签,其中包括行人、汽车、交通标志等信息。Waymo数据集的驾驶环境也多种多样,采集场景包含城市、乡村郊区,天气包括白天、黑夜、黎明、黄昏、雨天和晴天。

5) ONCE数据集,是由华为的诺亚方舟实验室在中国驾驶144 h采集的车载数据集,该数据集是目前最大、最多样化的无人驾数据集。ONCE包含1.6万典型场景,3D标注框有41.7万个,2D标注框有76.9万个,标注类别包括汽车、行人、公交车、卡车、骑车人,采集场景的天气包括晴天、多云和雨天,时间包括上午、中午、下午和晚上。

2 多传感器融合技术

基于以上对各种传感器的分析,不同传感器的工作原理和采集的数据各不相同,对不同的驾驶环境的适应性也各不相同,各种主流的车载传感器有各自的优势与劣势,这使得单一传感器很难满足无人驾驶车辆的感知需求。基于多传感器融合的检测方式能结合各种传感器的优势,打破单一传感器固有的局限,为智能汽车后续的决策规划和车辆控制提供更可靠的信息,提高智能汽车的安全性。例如前面对毫米波雷达和相机的概述,毫米波雷达最大的优势是可以全天候工作,极端天气和恶劣的驾驶环境(如夜晚,雾天等)不影响其正常工作,但是其分辨率低,不能识别物体的种类;相反,相机能捕获物体详细的外观信息,分辨力高,但受外界环境影响大,也就是对工作的环境要求苛刻,若将两者进行传感器融合,将会得到高分辨率、全天候的外界环境信息。基于以上的概述,多传感器融合技术对于无人驾驶技术的实现是至关重要,必不可少的。本节将从融合算法的分类、融合结构以及经典的融合检测算法对多传感器融合技术进行全面的总结。

2.1 融合算法分类

随着传感器的生产成本不断降低,多传感器融合的硬件水平已经满足基本的工业要求,多传感融合算法成为研究的热点。多传感器融合算法大致可分为2类:随机类方法和人工智能方法。随机类方法的代表算法包括:Kalman滤波法(Kalman Filtering)、加权平均法、Bayesian估计法(Bayesian estimation)、DS(Dempster-Shafer)证据理论等;人工智能算法包括专家系统、遗传算法、模糊逻辑理论、人工神经网络等算法。

1) Kalman滤波法,是递归算法的一种,可以通过之前的目标状态估计和当前状态的测量值来估计当前目标的状态,Kalman滤波法具有递推特性,能够估计当前状态,也可以预测未来目标的状态,因此,Kalman滤波法可用于传感器融合跟踪多目标问题。

2) 加权平均法,相较于其他算法,理解起来较简单。首先各种传感器分别进行数据采集工作,将分别采集的数据集按一定的加权规则进行加权并取平均值,得出的结果作为融合的最终结果。加权平均法相较于其他算法计算简单,原理易懂,但是加权规则人为设定,具有较大的主观性,融合效果因加权规则的变化相差很大。

3) Bayesian估计法,基于先验概率,将新的数据信息和先验信息进行融合得到新的概率,以此循环进行多传感器融合感知任务。基于Bayesian估计法的多传感器融合算法缺点明显,即可能需要耗费大量的时间和精力,原因是Bayesian估计法基于先验概率,在没有提供先验概率的情况下,需要大量的数据统计来充当先验概率,这需要大量的时间和精力。

4) DS证据理论,是基于Bayesian估计发展而来的,其克服了Bayesian估计需要先验概率的缺陷,提出了置信区间和不确定区间新概念,DS证据理论实质就是将多个传感器获得的信息按一定的规则进行选择组合,最终对检测目标进行分类和定位。

5) 模糊逻辑理论法,基于多值逻辑但又与传统的二值逻辑不同,其对人的不确定性概念判断和推理思维方式进行模仿。模糊逻辑推理相较于其他的算法,其大大提高了融合的精度,但主观性较大,融合的精度受人为因素影响大。

6) 人工神经网络法,是模拟人的网络神经设计而成。相较于其他的算法,神经网络算法能够从大量的数据集中学习到关键的特征,具有很强的自学习能力,通过手工设计的神经网络可以模拟复杂的非线性映射。神经网络在多传感器融合检测系统中具有很大的优势,当处理带有有害信息的噪声时,神经网络的检测效果比其他方法优秀的多,但是基于监督方式的神经网络算法需要大量的训练数据集,数据集的标签往往需要大量时间和精力去标注。

随着深度学习的不断发展,基于手工设计的神经网络算法在计算机视觉等方向大放异彩,近几年也是受到高校和企业的关注,本文接下来将对基于深度学习的多传感器融合检测技术进行详尽的阐述。

2.2 多传感器融合结构

根据融合网络输入数据的不同可以把基于神经网络的融合算法分为数据级融合,特征级融合和决策级融合。CUI Yaodong等[4]也将这3种融合算法称为低级数据融合、中级数据融合、高级数据融合。之前的研究[46]根据融合网络输入输出的不同将融合网络分为:1) 输入数据输出数据型(Data in, Data out):输入的数据是各个传感器采集的数据,输出则是经过预处理的数据,如数据增强,数据对齐等;2) 输入数据输出特征型(Data in, Feature out):输入的数据是各个传感器采集的数据,输出是从原始数据中提取的特征向量;3) 输入特征输出特征型(Feature in, Feature out):输入和输出是特征向量,这类通常也被称为特征融合、符号融合或信息融合; 4) 输入特征输出决策型(Feature in, Decision out):输入是特征向量,输出是决策; 5) 输入决策输出决策型(Decision in, Decision out):输入和输出都是决策,通常被称为决策融合网络。接下来将对数据融合方式,特征融合方式和结构融合方式进行阐述。

2.2.1 数据融合方式

数据级融合方式是底层的融合方式,其首先将来自相同传感器或不同传感器采集的原始数据先进行数据对齐、数据关联等融合操作,然后将融合后的数据进行数据预处理并送入特征提取算法进行特征提取,最后根据提取的特征得到最后的检测结果。数据级融合的优势是尽可能的保留原始数据中物体的信息,避免信息的丢失,来自多源的数据也会相互补偿,丰富数据信息,捕捉到单一传感器捕捉不到的信息,例如相机和激光雷达的数据融合就能通过激光雷达信息补充物体的深度信息。但是数据级融合也面临着计算量大、数据对齐(时间对齐和空间对齐)等问题,由于原始数据采用不同格式和不同传感器类型,因此在架构中添加新传感器需要对融合模块进行重大更改,对硬件内存和算力要求较高[47]。多源数据的数据信息绝大多数是互补的,但也存在互相矛盾的情况,这种情况下就会引入噪声,影响最终的感知结果,其融合结构见图3(a)。

2.2.2 特征融合方式

特征级融合方式首先将各个传感器采集的数据分别送入对应的特征提取算法,对数据进行特征提取,然后将提取后的特征进行融合,最后得到融合后的检测结果。根据数据的不同,提取的特征也不相同,基于图像数据提取的特征会包含检测物体的边界、尺寸大小、类别等,基于激光雷达数据提取的特征包含物体的3D尺寸数据、物体表面材料、物体距离信息等。大多数基于深度学习的方法利用神经网络提取特征,对不同传感器提出的特征之间做级联或者加权,如RoarNet[48]、AVOD[49]、MV3D[50]、F-PointNet[51]等。特征级融合的主要优点是能够减少传感器数据到融合模块的带宽,特征级融合保留了低级融合的分类和预处理能力,能够将相关数据有效地集成到跟踪算法中[46],并且可以通过提升特征的互补性来提升检测精度。相较于数据级融合方式,由于对各个传感器的原始数据首先进行了特征的提炼,使得传入检测网络的数据量大大减少,故特征级融合方式检测速度快、实时性好,但也会丢失部分细节,检测精度往往不如数据级融合方式高,融合结构见图3(b)。

2.2.3 决策融合方式

决策级融合是对各个传感器采集的信息分别进行特征提取并做出决策,然后对所有的决策信息进行融合,进行相关的处理并作出最终的决策。决策级融合具有2个优势:一是其模块化和传感器特定细节的封装,当某个传感器出现故障不能做出决策时,不影响其他的传感器工作,继而提高了感知系统的鲁棒性,保证了智能汽车感知系统的正常工作; 二是决策级融合方式的数据流在中间没有融合,没有中间的复杂融合过程,因此,速度会更快,融合结构见图3(c)。

2.3 主流的融合算法

不同的传感器组合能互补各自的缺点,扩大智能汽车的使用场景,增加智能汽车的鲁棒性,面对不同的检测任务使用不同的传感器组合方式能充分利用计算资源,达到要求的感知任务。本节将从不同的传感器组合方式角度来概述不同传感器融合之间的优劣。

2.3.1 图像+激光点云

相机和激光雷达融合是目前无人驾驶多目标检测的最热门的多传感器融合模式,相机能够提供高分辨的图像信息,激光雷达提供稠密的点云信息,融合算法也相对简单,检测精度高,但是, 相机和激光雷达在恶劣工况下检测性能差,成本相对较高,实时性较差。基于深度学习的图像和激光点云的融合方式可大致分为:基于视锥体(frustum)的融合方式、基于点的融合方式、基于多视角的融合方式、基于体素的融合方式。基于视锥体的融合方式是先进行图像检测生成2D感兴趣区域,然后将2D的感兴趣区域投影到3D空间,生成视锥体,融合视锥体内的点进行车辆、行人等识别;基于点的融合方式是将图像的高语义特征和对应的点云进行逐点融合,然后将融合后的点云送入3D物体检测网络进行检测;基于多视角的融合方式是在鸟瞰图(bird's eye view,BEV)上先生成3D感兴趣区域,然后利用生1成的感兴趣区域回2归3D检测框;基3于体素的融合方式是将3D空间先分成一个个的体素(voxel)然后用图像和体素中的点云进行融合。

F-PointNet[52]是典型的基于视锥体的融合检测网络,该网络结构主要分为3部分:生成候选视锥体部分(frustum proposal)、3D实例分割部分(3D instance segmentation)和物体3D边界2框回归部分(amo3dal3d boxestimation)。首先使用基于图像的神经网络生成视锥体,后续的定位和分类只需要在视锥体内进行,这大大减少了需要后续处理的数据量。由于相机中心坐标和视锥体中心坐标并不重合,故需要做一次坐标轴的旋转,使融合网络具有更好的平移不变性。接下来在生成的视锥体内使用PointNet进行实例分割,由于视锥体的中心点和物1体的中心点不重合,需要进行一次平移3,使网络具有更好的平移不变性。最后利用T-Net[53]结构细化物体的边界框,通过3D边界框估计模块生成之后的检测结果。F-PointNet是先根据图像生成的检测结果再做后续的操作,故检测性能受图像检测性能的限制,其次F-PointNet并没有充分利用到多传感器融合的冗余性优势,F-PointNet网络结构见图4。

Pointpainting[54]并不是端到端的检测网络,其检测流程主要分为2个阶段,第1个阶段是将图像信息做语义分割,分割出需要检测的目标;第2个阶段是Pointpainting,即将第1阶段生成的语义信息和点云相融合,然后将融合后的信息输入到经典的3D点云检测网络,得到最终的检测结果。将语义信息和点云数据融合是Pointpainting最主要的创新点,首先将图像和点云通过传感器的参数确定位置关系,然后将生成的语义信息和点云数据进行拼接操作(concatenate)。Pointpainting理论上可以应用在任何基于点云检测的网络之前,来提高检测性能,通过将语义信息和点云融合解决了图像信息和深度信息不匹配的问题,但是原始的点云信息没有进行预处理,这需要消耗更多的计算资源;其次,第1阶段的语义分割模型和第2阶段的3D点云检测模型需要高度的耦合性,这会限制该网络结构的适用范围。Pointpainting网络结构图见图5。

MV3D采用的是不同传感器下的多视角的融合方案,其输入是RGB图像和原始激光点云处理成的鸟瞰图和前视图,输出的是目标在三维空间中的中心位置坐标、长宽高以及前进方向。该网络的处理过程可以概括为:首先从点云的鸟瞰图形式中使用一个3D区域建议网络产生3D候选区域,然后将这些候选区域根据坐标变换分别投影到前视图和RGB图像上,从而产生3种形式的候选区域;接着借助由3组全连接层构建的深度特征融合网络,融合来自3种形式数据特征,从而回归出目标的所有待求参数。MV3D在特征融合阶段进行了创新,提出了深度融合方法(deep fusion),该方法是将多视图的特征图进行分层融合,相较于前文提到融合方式,采用深度融合方法检测精度更高。MV3D的检测效果虽然优于同期提出的算法,但是其存在一些弊端,针对小目标,在点云鸟瞰图中经过下采样之后占据像素少,容易产生漏检,MV3D网络结构见图6。

MVX-Net[55]是基于体素进行融合的算法,该网络首先使用Faster-RCNN对图像进行特征提取,将点云通过校正矩阵投影到图像上,然后和Fatster-RCNN生成的最后一层特征图进行特征的匹配,将匹配后的特征进行进一步的特征图提取,同时将点云进行体素化处理和上一步的特征进行逐点拼接(pointwise concatenate),再通过几个VFE模块生成3D候选区域,其中VFE模块是在VoxelNet中提出的特征提取结构,最后进行3D检测。基于体素的融合方式可以和标准的3D卷积操作结合,这拓宽了体素融合方式的适用范围,但是在体素化过程中,点云数据会丢失几何信息,体素越小检测精度越好,但是消耗的计算资源更大,MVXNet结构图见7。

2.3.2 图像+毫米波点云

相机和毫米波雷达已发展多年,二者硬件技术储备足,生产成本也较低,但是用于无人驾驶的图像+毫米波点云的公开数据集很少。图像与毫米波点云融合算法起步较晚,相较于激光点云、毫米波雷达生成的点云较稀疏,捕获的信息较少,近几年这方面的研究才起步。

JIANG Qiuyu等[56]提出了一种基于毫米波雷达和相机融合的车辆周围感知算法,该算法以毫米波雷达为主,以相机为辅。相机模块首先进行视觉检测(基于改进的Faster-RCNN),并将检测结果发送给毫米波雷达,根据马氏距离(Mahalanobis distance)的思想,对检测结果进行融合,该框架属于决策级融合,硬件设备主要有美国德尔福公司生产的德尔福ESR毫米波雷达和德国联合视觉公司的Mako G-192B单目相机。该框架的主要创新点如下:1) 对Faster-RCNN进行改进,为区域建议网络和分类回归网络(classification regression network)分别提供单独的特征,以提高视觉检测的性能,在候选区域生成网络添加一个候选区域优化网络,目的是过滤掉质量差的候选区域,以减少计算并提高检测速度;2) 在融合部分,根据马氏距离的思想,利用2个传感器输出目标序列对观测值进行匹配,利用联合概率数据关联方法(joint probabilistic data association,JPDA)进行融合,建立系统匹配模型和状态模型,其网络结构图见图8。S. Chadwick等[57]设计了一种特征级融合结构,该网络首先使用ResNet[58]网络对图像和毫米波雷达的反射面积和速度信息分别进行特征提取,然后将图像特征和雷达点云特征进行拼接操作,将拼接后的特征继续使用ResNet进行特征提取,生成3个分辨率不同特征图,用于不同感知任务,其网络结构图见图9。V. John等[59]的融合检测网络也提出了类似的检测算法,不同的是在处理融合后的特征时,使用的是一阶段的图像检测算法YOLO。这2种检测算法结构相对简单,没有使用雷达点云的全部数据,检测速度会更快,但是物体定位不是很准确。WANG Xiao等[60]使用单目相机和毫米波雷达进行融合,提出了一种协同的融合方法,以实现车辆检测精度和计算效率之间的最优平衡,整体的检测流程:首先, 毫米波雷达检测车辆以生成感兴趣区域(region of interest, ROI), 然后, 将感兴趣区域送入视觉处理模块来生成边界框,采用主动轮廓法检测边界框内的车辆,如果主动轮廓方法失败,则是毫米波雷达的虚警,视觉处理模块应消除这种检测。WANG Jiangang等[61]提出了一种在雨天车辆检测融合系统,首先对雷达和相机进行地面标定,然后将雷达检测结果投影到相机图像上进行目标尺寸估计,利用雷达提供的精确的纵向距离和方位角,减小由图像模糊引起的车辆宽度误差。

2.3.3 毫米波点云+激光点云

由于激光点云和毫米波点云的数据结构类似,因此, 数据融合相对简单; 由于点云数据提供的数据精确,因此基于毫米波点云和激光点云的融合检测算法精测精度较高; 但是整体成本较高,点云在远处较稀疏,对于检测远处的物体效果不如视觉传感器。

王海等[62]提出了一种基于激光雷达和毫米波雷达融合的车辆目标检测算法。该算法首先采用归一化方法对点云做预处理,并利用预处理后的点云生成特征图,之后融合毫米波雷达数据生成感兴趣区域,最后设计了多任务分类回归网络实现车辆目标检测。该文章的主要创新点有:1) 设计了基于点云鸟瞰图(BEV)视角的目标检测算法;2) 加入毫米波雷达数据设计算法预瞄框,相对于单一点云检测算法检测精度有所提高,网络结构图见图10。

2.3.4 图像+激光点云+毫米波点云

图像、激光点云和毫米波点云三者融合的方式是最理想的结果,检测的鲁棒性最高,检测精度也最好。但是基于三者的融合算法很难设计,难以融合,对车载算力要求也非常高,是多传感器融合方向上的一大难题。

蔡英凤等[63]提出了一种基于相机、毫米波雷达和激光雷达融合用于检测、跟踪、分类的检测模块(FOP模块),激光雷达和相机分别提供原始的点云和图像数据,而雷达提供检测目标的高语义数据。融合方法是基于DS理论,其将所有传感器提供的物体的单独列表作为证据来源。对于每个对象,其完整状态包括其位置、形状、大小和速度的信息,以及单个对象的分类。利用DS理论,可以表示来自不同传感器探测器的关于这些目标特征的证据,并将它们的分类似然化为一个共同的表示。融合过程主要依赖于2个部分:瞬时融合,即单个传感器和单个目标在同一时刻提供的证据相结合; 动态融合则是将以往的证据与瞬时融合结果相结合,具体网络结构图见图11。

3 总结与分析

智能汽车对周围环境的感知能力决定了后续的规划决策和整车控制,是智能汽车安全行驶的前提条件,单传感器本身具有不同的感知缺陷,多传感器融合成为无人驾驶检测技术的重点研究方向,本节对多传感器融合技术进行总结分析,提出了具有挑战性问题和发展趋势。

3.1 分 析

1) 数据集。为了完成车辆、行人、车道线、交通指示灯等目标检测任务,以及面对不同的场景,如高速路、城区、乡间等,融合的算法也层出不穷。不同的算法往往基于不同的开源数据集训练而成,但涵盖所有传感器数据的开源数据集数量较少,不能覆盖所有的驾驶场景。很多算法不能得到充足的训练,所有数据集都存在数据不平衡问题。为了解决这问题,研究人员从算法的角度给出了一定的解决办法(数据增强)[64-66],但是采集更加平衡的数据集才是最根本的解决方式,但数据集的采集和标注极其消耗人力物力;其次数据集的数据质量、数据数量、数据种类和数据采集的场景都各不相同,这很难指定一个衡量标准,来衡量不同融合算法之间的优劣。

2) 评估标准。不同的融合算法一般基于不同的数据集,不同数据集对精度等指标的计算会存在差异,其次绝大多数的融合算法不开源,这就导致不能在相同的硬件环境(相同的相机、激光雷达和毫米波雷达参数、计算单元相同的算力)下进行横向比较,这使得不同算法之间的检测精度和检测速度失去了意义。

3) 工业落地。参考文献中的检测速度和检测精度都是在高算力平台下实现的。多传感器融合算法相较于单一传感器检测算法需要消耗更多的计算资源。在车载计算资源有限的情况下,检测速度会大打折扣,这在高速的无人驾驶环境下是非常危险的,绝大多数算法还没有达到工业落地的程度。

4) 融合深度。虽然基于深度学习的融合网络形式越来越多,但是大多融合操作为了提高平均精度,只是将数据、特征向量等简单的相加、拼接或取平均值,操作单一并没有考虑到数据之间的空间关联等属性,没有充分的考虑融合系统的鲁棒性。在调查过程中不难发现,相机和激光雷达、相机和毫米波雷达的融合算法最多,大多数的融合网络在融合过程中只是用到了单帧的图像与点云进行融合,而没有充分利用图像前后帧的关系进行感知,也就是没有利用时间信息维度,这样会导致在时间上不连续,不同数据在时间上不能实现同步。

3.2 展 望

根据最新的研究进展以及上述分析的所面临的挑战,多任务融合模块[49,67]能充分利用各个传感器捕获的数据,在完成多任务的同时而不增加系统的复杂程度。由于传感器本身检测的距离有限、角度有限、捕捉的物体的属性有限,随着车载传感器在智能汽车上部署的越来越多,相应的算法也越来越复杂,参数也随之增加,加入车载通信技术(vehicle-to-everything,V2X)是一个不错的选择。当智能汽车与周边其他交通参与者建立联系,感知范围将更大、更精确,则遮挡问题、跟踪问题将迎刃而解,数据的共享将大大减小对车载感知系统的依赖,随之对计算资源占用也会降低。

目前绝大多数的融合算法都是基于有监督方式,训练出优秀的融合算法需要优秀的数据集,但是基于上述的讨论,目前的无人驾驶数据集都存在或多或少的缺陷,针对极端场景的数据尤其缺乏。因此,基于无监督的融合算法将成为新的研究方向,这会大大降低对数据集需求,降低训练的成本。

车载计算单元的算力有限,但是需要完成的计算任务却很多。在感知方面,智能汽车往往需要进行多目标检测、跟踪、语义分割、定位等任务同时进行,若每项任务都单独部署一个感知算法,则车载计算单元算力明显不够,若能设计出一种检测算法同时能满足多种感知需求,算力不足问题将会迎刃而解。在2D目标检测方向,CenterNet设计出了可用是用于3D检测、2D检测和人体关键点检测的神经网络;基于图像和激光点云融合算法MMF[68]也实现了同时完成地图绘制、3D检测、2D检测和深度估计(depth completion)任务。之前的研究基本是基于单一融合方式,即数据级融合、特征级融合和决策级融合中的一种,MV3D证明了融合方式不只有3种主流的融合方式,不同融合方式的组合使用可能会带来更好的检测出效果。

3.3 总 结

本文首先对基于深度学习的多传感器融合检测技术的背景做了相关介绍,主要包括主流的车载传感器、视觉和点云的检测算法,对比了各种传感器的优劣势,提出了多传感器融合的必要性;然后对多传感器融合技术进行了深入的探讨,总结了传统融合算法和基于深度学习的融合算法,分析了基于深度学习的融合算法的优势,归纳了3种融合层次(数据级融合、特征及融合以及决策级融合) 的特点、应用场景和优缺点,列举了主流的传感器组合方式以及典型的网络结构,总结了各种组合方式的优缺点和使用场景,最后对现阶段多传感器融合检测技术的研究做出了分析、总结与展望,有望对今后更深入的研究提供了思路。

猜你喜欢

激光雷达雷达传感器
康奈尔大学制造出可拉伸传感器
法雷奥第二代SCALA?激光雷达
基于激光雷达夜间观测提取重力波方法的定量比较
简述传感器在物联网中的应用
DLD-100C型雷达测试方法和应用
雷达欺骗干扰的现状与困惑
跟踪导练(三)2
雷达
基于激光雷达的多旋翼无人机室内定位与避障研究
光电传感器在自动检测和分拣中的应用