基于GM-APD激光雷达数据融合的小目标检测
2023-03-10杜达宽孙剑峰丁源雪张海龙
杜达宽, 孙剑峰, 丁源雪, 姜 鹏, 张海龙
(1.哈尔滨工业大学 光电子技术研究所可调谐(气体)激光技术重点实验室,黑龙江 哈尔滨 150001;2.复杂系统控制与智能协同技术重点实验室,北京 100074)
1 引 言
激光成像雷达波束窄、方向性好,与二维成像传感器相比,能够获得目标丰富的三维结构信息、位置信息及反射率信息。由于激光雷达可以获取多维数据,快速准确检测远距离弱小目标,在军用与民用领域都有着重要的应用。但受限于像元数与空间分辨率,常用的检测算法对于激光成像雷达图像检测准确率低,且鲁棒性较差。
目前,针对激光雷达数据的弱小目标检测成为研究热点。传统目标检测方法通常采用手工特征。文献[1]使用基于DPM+SVM的多尺度检测方法,在采集的激光雷达行人数据集上得到了61%的检测准确率。文献[2]使用轮廓相似性度量与尺寸相似性度量对仿真生成的点云场景图投影降维后进行目标检测,准确率达到90%。文献[3]使用激光雷达对行车周围的道路标记成像,并利用特征标记和模板匹配对道路标记进行分类,分类准确率达到90%。但手工特征提取到的特征鲁棒性较差,当目标出现光照平移等变化时,提取到的特征会发生改变。
在弱小目标检测中,利用深度学习的方法相对于传统的目标检测方法具有明显的优势[4-7]。相对于两阶段检测算法,单阶段检测算法速度快但准确率低,尤其对于分辨率不高的弱小目标准确率更低,所以不适合对远距离弱小目标进行检测。文献[8]将ModelNet数据集中的点云降维生成灰度图,使用二维卷积进行处理,相对于体素的方法识别准确率从78.5%提升至85.8%。参考文献[9]用激光雷达对附近车辆进行成像,并对得到的距离像使用卷积神经网络进行分类识别,准确率达到了86.3%。
在经过图像重构后[10],激光雷达会生成一一对应的强度像和距离像。这两种数据可以融合为带有强度信息的四维点云,相较于图像可以更全面地描述物体的特征。PointNet网络[11]开创了对原始点云直接处理的先河,但是该网络只考虑了点云的全局特征,忽略了局部点之间的关系。DGCNN网络[12-13]利用动态图卷积的方式提取点云局部特征,占用内存小,鲁棒性好。目前,主要采用三维点云检测[14-15],需要在空间上搜索目标,计算复杂度高,同时标注困难。在二维图像上初筛出候选框后,再对框内目标点云使用点云分类网络进行二次检测。这样既避免直接在三维空间层面对目标进行搜索,降低了算法的复杂度;同时,在二次检测时又利用了目标的三维坐标信息与强度信息,充分合理地使用多维度信息,从而提高整体网络的检测准确率。
强度像描述的是目标的几何信息和纹理信息,距离像描述的是目标的三维坐标信息和结构信息,这些信息可以很好地表达目标特征,具有很强的互补性。本文针对重构后生成的强度像和距离像,提出一种融合两种图像信息的目标检测网络。该网络首先通过融合注意力机制(Con⁃volutional Block Attention Module, CBAM)[16]与感受野模块(Receptive Field Block, RFB)[17]的改进特征金字塔网络(Field Pyramid Network, FPN)在强度像上对目标进行初筛,然后将基于强度像提议的候选框内的目标转化为点云,最后利用点云分类网络进行二次验证。实验表明,对于复杂背景下的道路车辆,该算法的准确率达到98.8%。
2 基于强度像与距离像信息融合的网络模型
基于激光雷达的强度像与距离像信息融合目标检测网络模型如图1所示。整个模型可分为两个阶段,由FPN,RFB,CBAM和DGCNN 4部分组成。Stage1阶段,在FPN网络最顶层的输出(F4)插入CBAM模块,同时对不同尺度的输出插入RFB模块,使其对小目标做初次检测时更多地考虑背景与目标的关系,同时融合通道间的高级语义信息,从而提高目标初筛的准确率。Stage2阶段,使用DGCNN网络对筛选出的目标进一步验证。
图1 目标检测网络框架Fig.1 Framework of target detection network
2.1 特征提取网络
特征提取网络使用以ResNet50为骨干的FPN网络,其结构如图2所示,其中每一个Bot⁃tleneck代表一个残差块。FPN采用先自下而上,后自上而下的连接方式,使得深层信息与浅层信息相融合。整个网络结构在多尺度下进行检测,对于小目标优势明显。
图2 FPN结构Fig.2 Structure of FPN
一张维度为(3,600,600)的输入图像,经过Mod_1后变为(256, 300, 300)维度的特征图,之后每经过一个module,特征图大小变为一半,通道深度变为两倍,从Mod_4输出后,特征图的维度变为(2 048,38,38)。从Input到Mod_4完成了特征金字塔自下而上的部分。之后,从金字塔的最顶端开始进行上采样,通过1×1的卷积核使得上采样后每个尺度下特征图的维度都与原始该尺度下维度相同。这两个特征图融合后同时包含网络的浅层信息与深层信息,有利于后续的目标检测。图2中M1,M2,M3,M4分别为在4个尺度下融合后的特征图,可以基于此在4个尺度下分别对目标进行预测。
2.2 融合注意力机制模块
CBAM可以使FPN在目标检测任务下更加关注有效特征。相比于其他注意力模块,CBAM采用通道注意力模块与空间注意力模块的串联结构,有效地提高了CNN的特征提取能力,具有参数量少,可移植性好的优势。该模块通过联系局部特征的通道与空间的关系,创建具有局部通道与空间响应的特征图,从而使网络更加专注于有用的目标特征。在本文网络结构中,CBAM只插入到FPN的最顶层输出,以突出特征之间的高级语义信息。CBAM网络的具体实现过程如图3所示,对于作为输入的特征F,整个过程可以描述为:
图3 CBAM结构Fig.3 Structure of CBAM
其中:⊗表示矩阵元素按位相乘的运算,F为输入的特征,F′为经过通道注意力模块后的特征,F′′为最终输出的总特征,MC与MS分别为通道注意力模块与空间注意力模块。
2.3 感受野模块
RFB模块受到人眼观看物体的注意力的启发,将感受野分为3个不同的等级,分别使用1×1,3×3,5×5三个卷积来模拟不同的感受野,同时通过空洞卷积的方式扩大感受野。空洞卷积是将一个固定尺寸的卷积核与图像更大范围内的像素进行卷积操作,具有扩大感受野的作用。相较于RFB模块结构[16],RFB-s结构首先使用3×3的卷积核来代替原始5×5的卷积核,以增强小目标的检测能力,其次使用1×3和3×1的卷积相结合的方式来代替3×3的卷积,以减少计算量。其结构如图4所示。
图4 RFB-s结构Fig.4 Structure of RFB-s
RFB插入到FPN可以扩大感受野,有效帮助特征图联系目标与背景间的关系,但插入时要考虑插入的数量与位置。越靠近浅层的特征图经历的降采样次数越少,其感受野本身就会越小,RFB模块的加入可以扩大感受野;靠近深层特征图本身的感受野较大,加入RFB模块后作用不仅没有提升,反而会加大计算量。因此,RFB模块应该插入在网络深度较浅的F1层与F2层。
2.4 动态图卷积神经网络
DGCNN点云分类网络可以较好地利用点云的局部空间关系。其核心为EdgeConv模块,该模块可以描述特征点与其临近点的空间关系。具体实现方法为:对第i个顶点使用k近邻算法找到该顶点周围的k个点,每个点命名为xj,j∈{1,2,...k},之后这k个点之间的边缘关系组成点云第i个顶点的局部特征。此局部特征可以表示为:
其中:x′i是第xi点的点云局部特征,M是对第xi点与周围的k个点之间的边缘特征的总结,hө是xi与xj两点之间的边的特征,一般利用非线性激活函数组来表示。
本文将点云分类网络应用到目标的二次检测中,对于Stage1阶段生成的候选框中的点云,为了使输入到分类网络的点云大小相同,本文采用随机采样法从每个目标点云中选取512个点作为DGCNN的输入,输入网络中点云维度为512×4。取四维点云的原因在于相较于三维点云,四维点云可以同时包含目标的三维坐标信息与强度信息,不仅包含位置信息更能反映目标点云的反射率特征,从而提高分类的准确率。而且,四维点云与三维点云使用相同的网络结构,不会增加模型的复杂度。在特征提取阶段,将该点云生成两个1 024维度的向量,之后将这两个向量拼接成2 048维的向量,并通过此向量完成目标的分类。
DGCNN结构如图5所示,其中特征提取模块用来负责点云的特征提取,分类模块负责对提取到的特征进行分类。
2.5 损失函数
在Stage1,使用分类损失函数和边框回归损失函数进行训练,其公式为:
其中:p,t分别为预测的类别与边框,p*,t*分别为真实的类别与边框;Lcls(p,p*)是分类的损失函数,采用交叉熵损失函数增加训练稳定性;Lloc(t,t*)是边框回归损失函数,采用IoU损失函数可以使边框更加准确。
在Stage2,采用交叉熵损失函数作为点云分类的损失函数,其公式为:
其中:p为预测类别,p*为真实类别。
3 实验和结果分析
实验使用GM-APD激光雷达对远距离车辆弱小目标采集数据并重构生成图像,在GMAPD激光雷达远距离小目标数据集上,验证了本文提出网络的检测效果,并与其他网络进行比较。
3.1 数据集和实验平台搭建
使用64×64面阵GM-APD激光成像雷达对室外道路上远距离车辆目标进行成像。实验采集激光雷达图像的速度为14 frame/s。采集到的原始数据经过图像重构后可以同时生成相同分辨率的强度像和距离像,如图6所示。根据SPIE对于小目标的定义[18],小目标是指所占像素尺寸不超过9×9(即小于80个像素)的目标区域。数据集的统计细节如表1所示。在采集的1 600对强度像和距离像中,随机挑选1 200张图片用于训练,400张用于测试,加入随机噪声,随机裁剪,旋转缩放等数据增强过程。实验配置如表2所示。
表1 数据集细节Tab.1 Details of data set
表2 软件和硬件环境Tab.2 Software and hardware environment
图6 重构生成的强度像与距离像Fig.6 Reconstructed intensity image and range image
3.2 不同方法的实验对比
3.2.1 实验参数设置
本文提出的目标检测网络的训练采用两阶段端到端的训练方式,如图1的Stage1与Stage2所示。首先对改进的FPN网络采用端到端的训练方式,学习率设置为0.005,batchsize设置为4,优化器采用随机梯度下降法(SGD),权重衰减(weight_decay)设为0.000 5。
DGCNN点云分类网络的输入为由强度像与距离像转化成的四维点云,学习率设置为0.001,优化器采用Adam算法,权重衰减(weight_decay)设为0.000 1。
为了验证本文目标检测网络的有效性,实验分别在只使用强度信息与同时使用强度和距离信息的条件下进行。对于只使用强度信息的情况,网络为在强度像上进行检测,不包含后续的点云二次检测,如图1的Stage1所示。对于同时使用强度和距离信息的情况,网络结构即为图1的Stage1和Stage2。
3.2.2 强度像上不同方法的实验对比
使用激光雷达数据集的强度像,将本文网络与Faster RCNN,YOLO系列网络和SSD网络进行对比,实验结果如表3所示。其中,Parms代表每个模型参数量的大小,AP50∶95代表从0.5开始,每隔0.05作为IoU的阈值计算一次AP,最终将所有结果取平均。AP50与AP75分别代表在IoU取得0.5与0.75时计算出的AP,FPS为该算法每秒钟可以检测的图像张数。
分析 设D(x0,y0),当x0=0时,已证明.下面证明x0≠0的情况,设切点Q(x3,y3),P(x4,y4),此时y0y3y4≠0.如图2,直线DQ的斜率一定存在,则直线DQ:y3y=p(x+x3),
由表3可以看出,所有网络的检测速度均大于14 frame/s,可以满足实际场景的实时性需要,且相比已有网络,本文网络在3个AP指标下均获得最佳精度。将本文网络与目前先进的YO⁃LOv5网络和SSD网络等可视化后进行比较,进一步突出这些检测结果的具体差异。可视化结果如图7所示。
表3 不同网络在激光雷达强度像数据集上的准确率Tab.3 Precision of different detection networks on lidar intensity image data set
从图7可以看到,在场景一(第一行)中,相比于SSD网络和YOLOv5网络检测中目标轮廓不完整、远距离目标弱回波的漏检情况,本文提出的网络可以准确地检测此类目标。在场景二(第二行)中,SSD网络检测将道路误检为车辆,而本文提出的网络可以准确地分类目标和车道。在场景三(第三行)中,相比较于YOLOv5网络,本文提出的网络对于强反射的光斑有较好的鲁棒性,YOLOv5将光斑的一部分错检为车辆,而本文网络并没有发生错检。综上所述,本文网络的初筛阶段使用CBAM与RFB,在多尺度特征图中可以同时考虑目标本身与周围的背景信息,面对复杂环境,相对于SSD与YOLOv5网络表现出更好的鲁棒性。
图7 激光雷达数据集上检测结果对比Fig.7 Comparison of detection results on lidar data set
3.2.3 结合强度像与距离像的不同方法实验对比
为了使其余网络也能够利用目标的强度信息与距离信息,比较网络也同时加入目标强度信息与距离信息。分别将强度像与距离像输入到图像不同通道,在输入三通道图像的第一层与第三层输入强度像,第二层输入距离像。实验结果如表4所示。
表4 结合强度与距离信息后不同检测网络的准确性Tab.4 Precision of different detection networks based on intensity and range information
由表4可以看出,所有网络的检测速度均大于14 frame/s,可以满足实际场景的实时性需要。相较于其他网络,本文提出的结合强度像与距离像的网络精度最佳。与表3相比,若强度像与距离像的信息只是输入到图像的不同通道,检测准确率不会有很大提升,目标的距离信息并没有被很好地利用。而本文模型先在强度像上对车辆小目标进行检测,再对检测出的候选框内的目标通过点云进行二次检测,可以将原本错检的与目标相似的背景从结果中剔除,从而提高检测准确率。一些场景二次检测前后的可视化结果如图8所示。
由图8可以看出,对于只基于强度像的目标检测网络表现不佳的场景,基于点云的二次检测结果有较好的提升。其中,对于目标在强度像下回波较弱从而基于强度像生成两个检测框的情况(如图8的左上角所示),可以利用点云将这两个检测框内的目标进行判断,从而保留准确率较高的检测框。对于基于强度像的检测网络中将强反射的光斑局部认为是车辆的情况(如图8左下角所示),通过点云的二次检测可以剔除,原因在于这些光斑的局部在强度像上与一些目标车辆有一定程度的相似性,但是在距离像上具有较为明显的差别。利用强度像初筛与点云二次检测组合的网络结构形式,对车辆结构不完整,弱回波目标,强反射光斑干扰等复杂场景具有更强的鲁棒性。
图8 二次检测前后的结果对比Fig.8 Comparison of results with or without secondary detection
总的来说,相比较于YOLO系列网络与SSD网络,本文网络的检测准确率高,且在复杂场景下不容易发生错检。由于本文使用激光雷达图像的采集速度为14 frame/s,对于算法的实时性要求不高,所以权衡精度与速度,本文网络在实际应用场景中的检测性能更优。
3.3 消融实验
为了验证FPN中RFB与CBAM的有效性,在激光雷达目标强度像数据集上进行了消融实验。共设计7组实验,第一组为不加入任何模块的FPN网络,作为对照组。Im_FPN 1-6分别为在FPN网络的不同Mod输出特征图中添加感受野RFB模块和注意力CBAM模块。这里认为Mod_1与Mod_2输出的是较为浅层的特征图,Mod_3与Mod_4输出的是较为深层的特征图。在不同模块的输出上分别插入RFB模块与CBAM模块来比较目标检测结果。实验结果如表5所示,其中√代表该Mod插入了RFB模块或者使用了CBAM模块。
由表5可以看出,在浅层的特征图中加入RFB模型的效果优于在深层特征图中加入RFB。因为浅层特征图尺度较大,每个特征点的感受野有限,加入RFB模块后可以有效地扩大感受野,而深层的特征图经过多次卷积与下采样后,每个特征点的感受野已经较大,足以包含目标与背景,所以加入RFB模块后准确率提升有限。同时,比较了在4个尺度的特征图都加入RFB模块的情况,发现效果并没有进一步提升。原因在于4个尺度都加入RFB模块导致网络参数增多,收敛困难,检测准确率下降。在最顶层加入CBAM的检测准确率均获得了一定程度的提升。AP在这3种方案下分别提升了0.4%,0.9%,0.1%,验证了CBAM的有效性。
表5 消融实验时不同方法的准确率Tab.5 Precision of different methods in ablation experiment
3.3.2 三维点云和四维点云对检测准确率的影响
为了验证四维点云分类的有效性,对Stage1阶段在强度像上生成的候选框分别使用三维点云(x,y,z)与四维点云(x,y,z,i)作为DGCNN网络的输入进行二次检测,实验结果如表6所示。其中,Parms代表DGCNN模型的参数量,Epochs代表该模型开始训练到收敛所需要的迭代次数。
由表6可知,三维点云和四维点云分别输入网络时,模型的参数量并没有较大变化,四维点云输入模型从开始训练到收敛所需要的迭代次数约为三维点云的1/3。四维点云同时包含了目标点的三维坐标信息与强度信息,丰富了点云特征,能够更好地区分目标与背景,最终目标检测网络的准确率相较于三维点云提高了2.4%。因此,使用四维点云作为输入具有更好的检测性能。
表6 三维点云和四维点云的检测准确率对比Tab.6 Comparison of detection accuracy of 3D point clouds and 4D point clouds
4 结 论
本文提出了一种基于GM-APD激光雷达数据融合的小目标检测算法。该算法分为强度像初筛与点云二次检测两部分。在对于强度像初筛的FPN结构中,将CBAM,RFB引入目标检测网络,可以关注到目标与背景间的关系。在二次检测的DGCNN上,将候选框内的目标转化为点云进行分类。在所采集到的GM-APD激光成像雷达远距离车辆小目标数据集上验证了本文网络的有效性。实验结果表明,该网络可以有效解决车辆结构不完整,远距离车辆回波弱,背景中出现强反射光斑等复杂场景中检测率低下的问题,在激光成像雷达远距离小目标数据集的检测准确率达到98.8%,与现有网络相比精度更高。