APP下载

基于特征融合的多层次多模态目标检测*

2021-12-11侯登超张峻宁

汽车工程 2021年11期
关键词:先验模态特征

程 腾,孙 磊,侯登超,石 琴,张峻宁,陈 炯,黄 鹤

(1.合肥工业大学汽车与交通工程学院,合肥230041;2.国防科技大学电子对抗学院,合肥230037;3.蔚来汽车科技(安徽)有限公司,合肥230071)

前言

随着交通环境日益复杂,在高级驾驶员辅助系统和自动驾驶中,由于单一传感器对目标车辆识别准确率低,不能满足交通安全要求[1]。所以大多数自动驾驶汽车都安装了多种传感器,它们可以提供车辆自身和周边环境的多模态信息。这些信息通常具有一定的互补性和一致性,可以弥补彼此间的缺陷和不足,如RGB相机可以提取稠密的特征信息,但是在光照过暗、过度曝光等情况下效果较差,并且由于相机获取的是二维信息,因此很难捕捉到可靠的距离信息;而雷达可以有效获取到距离信息,且不易受到外部动态环境的影响,但雷达捕捉到的环境信息过于稀疏,难以将点云数据用于高精度的感知任务[2]。因此,多模态数据融合逐渐成为人们不断提升环境感知能力的重要方法。近年来,各国学者通过RGB相机、激光雷达、毫米波雷达、深度相机、高精度地图、道路先验知识等多种模态数据,在数据融合、特征融合、结果融合以及辅助估计方面[3]开展了相应的融合方法研究。

数据融合,指输出数据作为后续模型输入的融合操作。文献[4]中提出一种基于特征的车辆检测方法,在算法中融合了雷达的探测数据。文献[5]中提出了一种激光雷达与相机融合的目标检测及跟踪算法,相对单一传感器检测算法提高了鲁棒性。首先从激光雷达点云数据提取出目标物的位置和大小信息,然后将目标物投影到图像中,确定目标物在图像中的位置,用于下一步的目标跟踪算法。文献[6]中则提出由摄像头与雷达各自完成目标的检测,然后进行数据融合,实现准确的目标识别。

特征融合,指对不同模态数据提取的特征进行融合,并且将输出数据作为模型的特征向量或特征图。文献[7]中提出了一种基于特征融合的RGB图像与红外图像融合的方法,作者基于YOLO V3模型,分别提取了2种模态特征,并设计了4种融合方案,最后实验结果表明在网络中间层进行特征融合效果最好。

结果融合,指对输出数据作为模型的最终目标输出,或输入数据本身是目标输出且融合的结果用于结果修正的融合操作。文献[8]中分别从点云模态和图像模态中得到两个区域建议,并将两个区域建议进行融合,从而得到候选包围盒。

然而,上述的方法都是在某一特定的层融合特征或检测结果,难以考虑多模态数据的所有特征信息。基于上述问题,金彦亮等[9]借鉴FPN[10]的思想,提出融合多模态数据不同尺度、不同感受野的多层次特征,用以提取对感知任务更为鲁棒、更为精确的特征信息。但是研究者仅根据单一感知任务直接将不同层次的特征进行了融合,没有考虑不同的感知任务对各个层次特征是否存在不同的依赖关系。

同时,当前目标检测仍存在如小目标检测等难以解决的问题,根据国际组织SPIE的定义,小目标为在像素为256×256的图像中目标面积小于80个像素,即小于原图尺寸的0.12%可称为小目标[11]。在神经网络的训练过程中,不可避免地会遇到如采样、卷积等操作,使得图片分辨率一再降低,而小目标再送入检测层时可能已经只剩下几个像素,使得图像结构特征丢失。

基于上述问题,本文中提出一种多层次多模态融合策略,分别提取多模态的不同特征,充分利用模态数据的特征信息,并在YOLO V3基础上扩大特征层的尺度,改进特征表示和对小目标的检测效果,然后将不同模态的多层次特征再进行融合,得到鲁棒的多层次多模态特征信息。

1 多层次多模态融合网络

多层次多模态融合的网络结构如图1所示。针对二维RGB图像与三维点云模态数据,本文中通过将点云投影到图像像素的方式[12],得到统一的输入表示,并对训练样本进行了数据增强。在YOLO V3的基础上,先通过ResNet特征提取网络提取出两个模态的对应特征,并引入一个新的特征层以体现模型在小目标物体层次的关注,最后借鉴FPN思想,将多模态的多层次特征分别进行融合,得到更为充分细致的特征表示。

1.1 YOLO V3网络

作为目标检测的经典One-stage框架,YOLO V3在兼顾高检测速度的同时也具有较好的检测准确率[13],在输入图像分辨率为N×N大小时,经过基于ResNet的DrakNet53特征提取网络,可以得到3个大小分别为的特征图,分别对应着图片从低级到高级的不同层次特征信息。在检测层则利用了FPN的思想,充分融合3种层次的信息,具体网络如图1中黑色虚线框所示。

图1 多层次多模态融合网络

ResNet网络[14]采用了一种通用化的方法,针对神经网络在训练过程中会不断丢失信息的现象进行了改进。具体来说就是对每一层神经网络增加了一个输入,这种输入包含了来自上一次Relu(激活)之前的信息,使得网络层数可以进一步加深,获得更高级别的特征表示。

残差单元可以表示为图2的形式。

图2 残差单元

具体表达式如下:

式中:xl为第l个残差单元的输入;xl+1为第l个残差单元的输出;F为残差函数,表示学习到的残差;h(xl)=xl为恒等映射;f为Relu激活函数。

1.2 调整先验框

在One-stage的目标检测中,针对不同特征层预设的先验框起到了重要的作用,以特征层为例,通过检测层可以得到张量:

式中:pre_result为一个[5+class_num]的张量,class_num为要分类的类别数,5代表的是[x,y,w,h,conf]5个维度的参数,x、y为预测目标的中心点,w、h为预测目标的宽高偏移量,conf为预测目标存在物体的概率。

先验框预设的准确程度关系到预测后目标框与实物的匹配程度,会影响最终目标检测效果的评判。

图1 中绿色框代表采用K均值法方式对训练样本的数据进行聚类分析调整的先验框。该算法具体流程如图3所示。

图3 K均值聚类算法框图

各个目标框长宽比到达聚类中心的距离计算公式为

IOU为两个目标框交集与并集的面积比,如图4所示。

图4 IOU的定义

为了评价训练先验框的符合程度,可通过计算平均IOU得到准确率。平均IOU的定义为:针对每个实际目标框,先求与多个先验框中IOU的最大值以判定贴合程度,最后求实际目标的最贴合IOU的均值。

1.3 增大尺度

为了节省显存和除去图片背景信息的干扰,原图在送入到目标检测网络时往往需要重新定义尺寸,缩放成比较合适的大小。但在一些数据集中,有着原图尺寸较大、诸多小目标共存等问题。针对这些目标,在经过缩放处理,提取特征后,往往在最大的特征图上都产生缺失,导致漏检率居高不下。

为此,在YOLO V3的基础上,本文中新增了一种利用ResNet得到的的特征层,用于实现对一张图片中小目标的检测,提取小目标物体层次的特征。并在检测层利用FPN思想与之前的3个特征层进行融合,得到检测范围更广、更细致的检测结果。其主要架构如图1中红色虚线框所示。

同时,在训练过程中仍需考虑训练样本中不同层次的目标的比重,在聚类得到不同层次的特征层先验框后,单纯地认为训练和测试数据中目标分布是均匀的结论是不现实的,扩大层次的等级,往往能使得分布更贴近于实际。

1.4 数据增强

如图1中紫色框所示,训练图像在送入网络之前往往需要采取适当的数据增强措施。在单图多目标训练过程中,经常会存在某些类别的样本数据过少的现象,导致模型学习内容不够充分而引发错检漏检。为了解决该问题,采用数据增强方法。在传统的目标检测中,为了提高模型的鲁棒性,往往采用不同程度的扭曲、裁剪和色域变换。

对于数据量少的样本,这些增强方法并不能得到很好的效果。所以本文中采用了复制粘贴的手段来人为增加样本的数量,在保证不对正常目标造成较大遮挡的前提下,对过少的样本进行了复制多份的操作,具体效果如图5所示。

图5 复制粘贴特定样本

在神经网络中,类似人眼的视觉系统,网络的感受野也至关重要。将图片的输入放大乃至原图理论上能够使网络尽可能学习到完整的信息,但另一方面这样会引入对背景噪声的学习,从而降低模型的泛化程度,同时也会加大网络的负担,提高训练难度与时长。因此合理的选取归一化尺寸可以得到更好的检测效果。

1.5 多模态数据融合

针对不同模态信息所具有的不同特点,可采用将三维信息转化为二维表示的方法,主要包括:点云鸟瞰图、点云前视图等投影视图,使三维数据信息也可以使用二维网络处理方法,在特征提取网络层面得到相同的输入。

本文中将三维点云图投影至前视二维RGB图上,使其获得独有的深度信息,作为网络输入前的数据预处理。根据激光雷达所提供的垂直视野、水平视野、旋转速率及分辨率等信息,利用式(6),将3D空间中的点投影展开为圆柱形表面上,以形成平面。其中:x、y、z分别表示三维点云的空间坐标;r、c表示点云投影到前视图的位置;θ和φ分别表示观察点的方位角和仰角;Δθ和Δφ分别为激光雷达连续射束发射器之间的平均水平和垂直角度分辨率。

随后将三维点云中每个点蕴含的深度的信息映射到RGB空间,具体效果如图6所示。

图6 点云投影至前视图

不同模态的数据侧重点往往不同,在本文中,RGB图像数据获取的是二维信息,而处理后的投影点云数据更侧重于距离以及类似语义的目标信息,在单个目标上的反应为同一深度,即同一色块。

在多模态特征融合模块中,本文中针对蕴含着两种模态信息的图片,采用了基于特征层的融合网络,两种模态的图片经过特征提取网络分别得到相应的特征层,沿通道进行拼接,再利用1×1卷积层调整通道数,得到融合后的新特征层,以特征层为例,具体融合操作如图7所示。

图7 多模态特征融合模块

2 实验分析与结果

2.1 实验数据集及训练参数

本文采用了Waymo数据集和蔚来汽车提供的实车数据集进行训练和测试。具体实验设备为RTX3090+i9-10900K,模型搭建框架采用了主流的Pytorch1.8.1+Cuda11.1,BatchSize设置为4,初始学习率为0.000 1,优化器采用动量Adam算法,学习率衰减策略为每轮将为上一轮的0.92,每轮实验训练30轮。

WOD(waymo open dataset)是最近公开的自动驾驶研究的大规模数据集。数据集共提供1 000个场景用于培训和验证,还有150个测试场景。每个场景包含关于每台相机200帧,有3个分辨率为1280×1920的前部相机和2个分辨率为1040×1920的侧面相机。该数据集包含约115万张图像和99万个车辆、行人和自行车手的2D目标框。蔚来汽车提供的实车数据集共包括2 000张图片和约4万个目标框。本文采用19 300张前视摄像机图像和点云数据作为训练和验证数据,其中训练集17 300张图片,测试集2 000张图片。

2.2 数据集特性分析

本文中采用的数据集以Waymo数据集为主,与常规的目标检测数据集VOC(visual object classes)相比,Waymo具有小目标所占比重较大的特点,如图8所示,图中横坐标反映了目标相对于原图的大小,纵坐标体现了比例小于规定值的目标占总目标的比重。占据Waymo数据集80%以上的都是占原图尺寸10%以下的小目标,而VOC数据集则分布比较均匀。

图8 WOD与VOC数据集对比

同时,若采用经典的预设先验框,会出现大中小目标在不同的尺度中分配不均匀的现象,如图9所示,只有3个特征层时,第1、第2层代表的小、中目标占据了目标总数的约35%和39%。这会导致常规的大中小先验框分布和高宽比不能很好地适应实际数据集,出现目标框契合度不高的情况,直接影响后期计算IOU评判模型的准确度。

图9 先验框分布情况

在对数据集的各类目标数量进行进一步分析后,结果如图10所示,样本数量为汽车远大于行人,行人远大于自行车手。自行车手仅仅只有2319个目标,导致自行车手的特征在模型训练过程得不到充分学习。在深度学习目标检测领域,根据幂次定律,模型的性能会随着训练样本数量的增加而增加。在文献[15]中,作者使用深度学习技术对3亿幅图像进行分类,发现随着训练数据的增加模型性能呈对数增长。

图10 样本分类情况

2.3 实验设计

采用经典的YOLO V3目标检测框架作为实验的基础,考虑到原图尺寸较大,在文献[16]中对于2K图片输入时归一化为640×640大小,图片放大1~2倍。按照1.1~1.5节叙述的顺序,设计安排了如下实验。

实验1:采用经典YOLO V3网络进行检测

实验2:在实验1的基础上针对数据集进行调整先验框

实验3:在实验2的基础上增加特征层尺度

实验4:在实验3的基础上进行特定样本的复制粘贴

实验5:在实验4的基础上扩大输入分辨率

实验6:在实验5的基础上进行多模态融合

2.4 实验分析

2.4.1 调整先验框

如图11左侧所示,在采用经典的预设先验框时,检测出的3辆汽车的目标框尺寸均较大,最近的黑色汽车的车轮甚至没有很好地纳入识别范围。采用1.2节中论述的K均值法重新聚类,得到了更为准确的先验框,之后训练的模型检测效果如图11右侧所示,匹配效果更好。聚类前后先验框与训练集目标的匹配程度的计算结果,预设先验框的准确率为45.49%,而新的先验框准确率为65.62%。

图11 调整先验框前后对比

2.4.2 增大尺度

由于本文采用的数据集中的小目标同时具有数量多、面积小的特点,有些场景中的目标人眼不能达到很好的识别效果。传统的YOLO V3特征提取网络的3个特征层已不能满足检测要求。在引入1.3节新增的针对小目标层次的特征层后,在640×640的输入下,新的多层次模型分别提取出了160×160、80×80、40×40和20×20的特征层,并利用上文提及的K均值法重新得到4个特征层的12个先验框,在进行聚类的同时统计了归属到一个特征层中目标框的数量信息,并与之前3个特征层时进行对比。

如图12所示,更改为4个特征层后,前3个特征层分别占目标总数的约26%、28%和20%,训练样本的分布更为合理。检测效果在图13中得到了验证,新增特征层后识别出了更多的远处车辆。

图12 增大尺度后先验框分布情况

图13 增大尺度前后对比

2.4.3 数据增强

由于自行车手的训练样本数量过少,导致模型的学习能力不佳。针对该问题,本文首先尝试对行人和自行车手都进行数据增强,发现如果对行人也做复制粘贴操作,会使得模型对行人特征学习能力增强,而在面对自行车手时会只识别骑自行车的人,忽略自行车部分。于是选择只对自行车手数据增强,对比结果如图14所示,有效地识别出了自行车手。之后在实验基础上进行了扩大感受野、增大分辨率的操作,对比结果如图15所示,对刚露出的小部分车头做出了有效识别。

图14 数据增强前后对比

图15 增大分辨率前后对比

2.4.4 多模态融合

在融合投影点云数据时,需要保证网络输入和随机增强的一致性。在上述实验的基础上,融合多模态多层次的信息后,模型的鲁棒性进一步得到了提升。如图16所示,在黑夜环境下视觉相机的功能会被削弱,但激光雷达辐射范围内的车辆仍被精准检出;如图17所示,当自行车手处于阴影中时,激光雷达可以将其与身边车辆有效地区分开;如图18和图19所示,在面临人群遮挡情况时,视觉相机可能会把多个行人归属为同一目标,而综合了多模态信息后,模型的分辨能力得到了提高。

图16 融合多模态前后的夜间表现

图17 融合多模态前后的小目标表现

图18 融合多模态前后的目标重叠表现1

图19 融合多模态前后的目标重叠表现2

2.5 实验结果

本文中设计方案的一系列实验结果如表1所示,随着网络的逐步改进,其检测效果也在逐渐增长,进而验证了调整先验框、增大尺度、数据增强、扩大分辩率、多模态融合等操作的有效性。

表1 实验结果

针对不同的目标类型,样本数量较多的值从57.93%上升至67.32%,即便是样本数量稀少的自行车手AP值也从25.11%上升至34.29%。由此可见,对检测效果提升较大的操作是增大尺度和多模态融合。

3 结论

为了提高自动驾驶在复杂环境下的感知能力,实现精准、高效、可靠的目标检测,本文中提出一种多层次多模态特征融合策略,充分挖掘了对于目标检测任务可能需要的不同模态、不同层次的特征,并将其融合,得到多模态多层次特征。从实验结果来看,根据提出的改进策略所提取出的特征能够更加精确详细地描述环境信息,最终的模型在测试中得到了51.79%的MAP值,相较于直接使用传统YOLO V3提升了23.1%。

猜你喜欢

先验模态特征
联合仿真在某车型LGF/PP尾门模态仿真上的应用
康德定言命令的演绎是一种先验演绎吗?——论纯粹知性与实践理性在先天原则证成方面之异同
基于老年驾驶人的多模态集成式交互设计研究
基于暗通道先验的单幅图像去雾算法研究与实现
先验想象力在范畴先验演绎中的定位研究
抓特征解方程组
不忠诚的四个特征
模态可精确化方向的含糊性研究
先验的风
日版《午夜凶铃》多模态隐喻的认知研究