APP下载

基于改进无锚框网络的小尺度车辆目标检测方法

2022-10-17刘宏哲李学伟

计算机工程与设计 2022年10期
关键词:中心点特征提取特征

刘 腾,刘宏哲,李学伟+,徐 成

(1.北京联合大学 北京市信息服务工程重点实验室,北京 100101; 2.北京联合大学 机器人学院,北京 100101)

0 引 言

随着智慧城市、智能交通系统、无人驾驶的建设与发展,其中车辆目标检测技术成为了关键。在交通管理、拥堵路段检测等方面应用广泛,深度学习技术不断发展并取得了巨大的突破,通过卷积神经网络目标检测算法的检测准确度大幅提升,并且具有更强的鲁棒性,可以适应更加复杂的识别场景。在车辆检测中,容易出现车辆目标相互遮挡,小尺度车辆目标检测难的问题,导致检测精度有待提高,因此上述问题成为了车辆目标检测中亟待解决的问题。针对上述问题科研人员提出了特征金字塔等特征提取方法和无锚框的目标检测算法。

AlexNet[1]的提出拉开了深度学习的发展大幕,VGGNet的提出使得深度神经网络的实现成为可能。ResNet[2]的提出,通过残差连接的方法解决了梯度爆炸问题,减少了模型收敛时间。现在主流的目标检测算法主要分单阶段和两阶段的方法,其中两阶段方法通过预测候选框,在生成的候选框基础上进行目标的检测,因此在具有较高的检测精度时,检测速度较低。

因此,研究人员提出了单阶段的目标检测算法,直接通过提取的图像特征进行目标检测。YOLO(you only look once)系列算法的提出[3],在保证识别准确率的同时,解决了算法实时性的问题。YOLOv1是一种无锚框检测器,它将特征图划分为14*14个网格,同时预测包围框和物体的中心,直接对每一个网格中的潜在目标进行分类和回归。SSD[4]目标检测算法则通过生成不同尺度的候选框,来实现多尺度目标检测,具有很好的泛化性,文献[5-8]在此基础上进行改进,将其应用于车辆目标的检测。张昭等[9]通过加入ResNet,反卷积等方法改进特征提取网络,增加小目标车辆的检测能力。曹磊等[10]则通过改进RPN网路来改进车辆检测算法。马丽萍等[11]在YOLOv3的基础上改进采样方式并改进训练策略,对道路场景的车辆多目标进行检测。刘洋等[12]通过增加注意力模块的方式改进小目标检测的精度。

近年来出现了无锚框类的方法,直接通过关键点对目标进行检测与定位,极大地减少了网络的参数和计算量,提高了检测速度,其检测精度也高于传统的单阶段和两阶段方法。

1 无锚框目标检测算法

单阶段方法在图像上滑动复杂排列的可能bounding box(锚点),然后直接对框进行分类,而不会指定框中内容。两阶段方法对每个潜在框重新计算图像特征,然后将那些特征进行分类。后处理,即非极大值抑制(non-maximum suppression,NMS),通过计算bounding box间的IOU来删除相同目标的重复检测框。而无锚框目标检测网络的方法不同于其它网络,如ConerNet[13]算法通过两个角点来对目标进行预测,CenterNet[14]则通过目标中心点来呈现目标,需要将图像传入卷积神经网络中,得到一个热力图,热力图的峰值中心点即为中心点。然后在中心点位置回归出目标的尺寸、位置等属性,从而将目标检测问题变成了一个标准的关键点估计问题。

该类算法不同于传统的单阶段方法,CenterNet的锚点是放在位置上,可视为一个形状位置的anchor,不需要人工设置阈值做前后景的区分,因此该网络不需要预先准备anchor。每个目标仅有一个正anchor,因此也不需要NMS操作进行候选框的筛选,极大地减少了网络的参数和计算量。其检测精度也高于传统的单阶段和两阶段方法,检测速度满足实时性检测的要求,但仍存在多尺度特征提取不充分,对小尺度目标、遮挡目标的识别存在不精准,检测时上下文信息不充分导致相邻目标错检漏检的问题。因此本文基于CenterNet网络进行改进,在小尺度车辆检测问题中克服上述问题,提出I-CenterNet车辆目标检测方法。

本文提出一种基于单阶段目标检测算法CenterNet的改进算法。主要采用3种改进方法:①提出自适应特征提取方法;②自适应特征融合结构;③中心点位置特征增强方法。改进的网络I-CenterNet(improved centernet)能充分提取低层网络位置信息,减少特征融合时特征图信息丢失,提高小目标和遮挡目标的检测精度和速度。

2 改进的无锚框目标检测网络

为了解决车辆小目标检测中低纬度特征提取不充分的问题,采用自适应上下文特征提取。为了克服网络对高维特征比低维特征更敏感的问题,改进了特征融合方式,增加小目标特征的权重。对基于无锚框的检测方法中目标中心点位置预测不精准的问题,提出中心点位置增强方法。提高改进网络在车辆小目标检测中的小尺度目标和遮挡目标的检测能力,整体结构如图1所示。

2.1 自适应上下文特征提取

在车辆目标检测的过程中存在目标被遮挡,目标过小的问题,在检测过程中经过卷积和池化操作会丢失大量的特征信息,导致检测精度降低。并且CenterNet仅使用ResNet50/101作为骨干网络进行特征提取,易出现特征提取不充分的问题。

针对上述问题,本文通过自适应上下文特征提取方法,对网络的输入层进行如下改进,如图2所示,将 Conv3-3 层的特征图输入特征图池化到3×3,7×7,9×9,3个不同的尺度,来自不同感受野的上下文信息,每个池化后特征利用1×1卷积进行通道整合,之后分别使用反卷积操作将各个特征图进行上采样到相同的尺寸。

输入的交通场景图片中包含有各种尺度的车辆,不能简单的将上下文特征进行合并,所以在上下文特征提取网络后增加尺度融合单元,将各特征加权相加,增加小尺度目标的权重。并使用跳跃连接的方式将原始特征融合进上采样后的各特征中,操作具体如下式

yff=a·f1+b·f2+c·f3

(1)

其中, yff是自适应上下文特征提取的输出特征,fk(k∈{1,2,3,4}) 代表经过上采样后并使用点乘操作融合原始特征的不同层级提取的上下文特征图,以f1为例公式如下

f1=f2×2·f2

(2)

其中,f1如上所述,f2×2为原始2×2卷积特征,f2为上采样后的特征。

参数a,b,c代表尺度权重,网络可自动学习到这些参数,设置a+b+c=1, 并且a,b,c∈(0,1), 计算公式以a为例,如下所示

(3)

其中,at是平均池化和Sigmoid激活函数组成,通过相同的计算方式可计算得到b,c。

2.2 改进特征融合模块

上下文特征提取后经过1×1卷积进行整合,后接改进的特征融合模块。可以自适应的通过加权的方式从上下文特征提取网络中选取重要的空间位置信息和语义信息,融合各特征后完成信息融合。其中来自底层的特征包含了大量的空间信息,适合进行目标的定位。而高层的特征包含了大量的语义特征,适合进行目标的分类。但是原网络不能有效地运用底层网络的空间信息和高层特征的语义信息,所以本文提出了改进的特征提取模块。

本文提出的改进特征提取模块能自适应的进行特征融合,如图3所示。其中为特征提取的各层基础特征图。由于低和高层特征图具有不同大小的分辨率和通道数,所以采用双线性插值法将其统一到相同大小。其中输入fin为原始输入,然后进入特征选择层,使用1×1卷积继续特征平滑,在经过一个3×3卷积层进行分辨率和通道数的调节,后接Sigmoid激活函数进行输出。其中学习权重参数为a,b,并通过如式(4)所示的方式进行特征融合,由于低维和高维特征主要存在于网络的对底层和最高层,所以本文中简单的只取最底层特征为输入的低维特征,取最高层的输出为高维特征

y=a⊗fl+b⊗fh

(4)

其中,y代表特征融合模块的最终输出特征,fl代表处理后的低层特征,fh代表处理后的高层特征。⊗表示对应位置相乘,⊕代表对应位置相加。改进后的特征融合模块通过学习到的权重进行对不同层的特征进行加权,进行特征信息的筛选和融合,不仅加强了低层特征中的语义特征,还在高层特征中加入了更多的空间位置信息。

2.3 中心点特征增强

为了解决原始网络生成热图后预测目标中心点时,中心点位置与真实中心点位置不匹配的问题,本文通过中心点特征增强的方式解决中心点位置匹配问题。

类似CBAM[15](convolutional block attention module)模块,本文的通道注意力模块结构如图4所示,首先将特征分别通过最大池化和平均池化操作,得到两个一维矢量,再将两个特征进行融合得到特征的通道注意力,这样能减少操作的复杂度,还能保持较高的通道注意力,计算可以用如式(5)所示

Mc(F)=σAvgPool(F)+ωMaxPool(F)

(5)

其中,以F表示输入特征图,AvgPool,MaxPool分别表示平均池化和最大池化,σ、ω表示两个操作的权重,分别取1和0.5。

空间注意力结构如图5所示,首先做将输入特征经过最大池化,然后对池化后的特征进行平均池化,后接卷积核为3×3的卷积操作,并使用跳跃连接,将输入的原始特征,和经过池化后的特征进行融合,以增加空间特征注意力,最后通过Sigmoid函数进行输出,计算公式如下

Ms(F)=∂(f3×3([AvgPool(F);MaxPool(F)])·F)

(6)

其中,∂表示的是Sigmoid激活函数,F表示输入特征图,AvgPool,MaxPool分别表示平均池化和最大池化。

本文将改进后的通道和空间注意力进行串联,由于中心点位置对空间信息敏感,所以增加一路空间注意力模块,如图6所示。

通过引入中心点特征增强模块,增加了中心点预测的准确性,解决了原始网络中预测目标中心点位置与真实中心点不匹配的问题。在车辆检测中增加了对遮挡车辆和远处较小车辆的中心点预测准确度。

总结,本文提出自适应上下文特征提取,不仅能提取多尺度上下文特征,还可以根据输入图片中潜在目标的不同尺度分布自适应进行特征的加权融合,改进的特征融合模块可以将低层和高层的特征进行加权融合,提高小目标的权重。并在此基础上加入中心点特征增强模块,有效提高了目标中心点位置的准确度。综上有效提高了网络对车辆小目标,和遮挡目标的检测能力。

3 实验结果和分析

3.1 实验平台和数据

本文实验平台如下:Intel(R)Xeon E5@1.5 GHz,32 G内存,Ubuntu 18系统,显卡英伟达GTX 1080ti,程序运行python环境为python3.6,使用pytorch 1.5,CUDA 10.1,数据集使用UA-DETRAC数据集,训练时对原始数据采取如下几种数据增强方法,对数据进行扩增,以增加训练样本的多样性,包括随机角度旋转、亮度变化、噪声干扰、适度变换等。

3.2 实验结果分析

本文采用精确率P(precision)、召回率R(recall)和平均精度均值mAP(mean average precision)的指标对模型进行性能测试。

准确率P,实际是正类且被预测为正类的样本占所有预测为正类样本的比例,公式如下

(7)

其中,TP(true positives)指原本为正类且被划分为正类的样本;FP(false positives)指原本为负类但被划分为正类的样本。

召回率R,实际是正类且被预测为正类的样本占所有实际为正类样本的比例,公式如下

(8)

其中,FN(false negative)指原本为正类但被划分为负类的样本。由P-R曲线围成的面积则为平均精度均值mAP。

通过测试集进行测试,最终平均精度均值为92.9%,准确率P为94.3%,召回率R为93.7%。一般检测速度高于30 fps即认为具有实时检测的能力,本文方法的检测速度为59 fps,即满足实时性检测的需求。对主流的检测模型进行了对比,见表1,从表中可以看出,本文提出的方法的平均精度比原有网络提高5.7%,速度几乎相同,并且在检测速度略有减少的情况下精度比YOLOv4更高4%,实验效果比Faster-RCNN有所提高,并且速度更快。

表1 多种检测算法对比

实验效果如图7所示,结果中对比了本文的I-CenterNet和Faster-RCNN、CenterNet。从图中可以看出I-CenterNet对远处较小的车辆进行了有效的识别,并且成功检测出被遮挡车辆。Faster-RCNN、CenterNet则无法精准的识别出远处较小的车辆,并且将遮挡的两个车辆识别成一个目标,还出现个别车辆检测不出来的情况。

3.3 各模块对比

本文对各模块进行了消融实验,检测方法同上。分别对比了原始CenterNet网络,CenterNet+改进的特征提取和特征融合(CenterNet*),CenterNet+中心点特征增强(CenterNet**)和CenterNet+改进的特征提取和特征融合+中心点特征增强(I-CenterNet)。并绘制了Bus,Truck类的P-R曲线,如图8所示,从图中可以看出在该数据集下,“Bus”类别的检测效果有所改善,当R=0.5时,P=0.16,改进后算法的准确率相比CenterNet网络提高了32%。并且从图中可以看出在改进后算法的P-R曲线包围面积更多,其中本文提出的模型(I-CenterNet)在Bus类的识别中AP值为87.6%,相比原始模型增加了1.4%。本文提出的模型在Truck类的识别中AP值为91.5%,相比原始模型增加了0.8%,检测效果更好。

我们还对比了中心点增强的结果,如图9所示,可以看到原始网络中预测的中心点比改进的网络预测的中心点有不同程度的偏移,并且在远景的小车辆中,预测的点靠得很近或没有预测出来,这样会导致预测的目标框不精准,两个距离很近的目标识别成一个。

表2为对比改进各模块的检测效果,从表中可以看出,在该数据集上,改进后的模型相比原始模型在相同类别的检测中,本文提出的方法相比原始网络平均精度提高了5%,仅使用中心点特征增强的网络相比原始网络提升了4%,因此改进后的算法整体表现最好,能够解决车辆检测中的小目标检测和目标遮挡的问题。

表2 对比改进各模块的检测效果

4 结束语

本文针对小目标车辆检测问题,提出一种基于无锚框目标检测网络改进的车辆目标检测算法,提出了自适应上下文特征提取模块,增加对多尺度车辆小目标特征提取能力,改进了原始网络中只是用ResNet作为特征提取网络对目标提取能力的不足。改进了特征融合方法,自适应的将低层特征与高层特征通过加权的方式特征融合,克服了网络对高维特征比低维特征更敏感的问题。提出了中心点特征增强方法,提升中心点位置的预测准确度,并且能提升有效的特征权重并抑制无效权重,解决了原始网络中相近目标中心点位置预测不准确的问题。使用UA-DETRAC数据集对本文算法在进行了训练和测试,实验结果表明:在该数据集上,本文提出的模型,总体性能优于原始的CenterNet网络,平均精度达到92.9%,并且检测速度达到了59 fps。并通过实验验证了各模块的有效性,在保证检测速度的前提下,提高了网络对车辆小目标和遮挡车辆的检测能力,并在实验室环境中达到了车辆检测效果。后续将在此实验的基础上进行研究,提升在复杂背景下的车辆检测能力。

猜你喜欢

中心点特征提取特征
离散型随机变量的分布列与数字特征
一种基于标准差的K-medoids聚类算法
Scratch 3.9更新了什么?
空间目标的ISAR成像及轮廓特征提取
如何设置造型中心点?
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
抓特征解方程组
不忠诚的四个特征
微动目标雷达特征提取、成像与识别研究进展