APP下载

基于可变空间感知的目标检测算法

2023-06-16扬,安

现代电子技术 2023年12期
关键词:步长尺度卷积

高 扬,安 雯

(西安邮电大学,陕西 西安 710121)

0 引 言

当前基于卷积神经网络的目标检测框架,网络模型不断复杂化,增强了目标的特征表达,但是随着网络深度逐步加深,经过多次下采样和池化操作后,网络浅层的目标轮廓信息会大量丢失,使得网络模型无法对目标精确定位。并且,在实际检测场景中,往往目标随机分布,且目标数量和目标尺度差异较大,导致检测算法的精度不理想。为了提高目标检测算法的精度,ATSS(Adaptive Training Sample Selection)[1]通过目标的统计特征自适应地生成训练样本,动态平衡正负样本数量来提升模型效果。文献[2]提出了一种新的三叉戟网络(TridentNet),通过构建一个并行的多分支架构生成具有统一表示能力的特定尺度特征图。文献[3]提出了一种全新的动态检测头结构,将注意力用在不同尺度的特征层之间进行尺度感知、空间感知和任务感知,以提升检测头的预测能力。CIoU Loss[4]考虑了三方面因素:其一是预测框和标签框重叠面积;其二是中心点距离因素;其三是两者之间尺度的纵横比因素,提高了目标的定位准确度。

这些算法分别从不同角度出发,提升了目标检测精度,但是在处理多尺度检测时存在计算量大、鲁棒性差等问题。针对上述问题,本文提出了一种基于可变空间感知的目标检测算法,以适应不同尺度的网络,具体如下:

1)不同于图像金字塔这样的多尺度输入,本文构建了两个能够建模局部几何特征的可变空间感知模块(Variable Spatial Perception Module, VSPM),将可变形卷积和一组并行卷积结构进行级联,创建多个特定比例的特征地图,以充分利用不同特征层的语义和位置信息;并将VSPM1 用于下采样结构中,VSPM2 用于检测头中,用较低开销增强模型的空间感知能力。

2)引入一种新颖的解耦检测头结构,在提高检测网络定位精度的同时,解决分类和回归任务之间的冲突。

3)通过在PASCAL VOC 数据集上进行消融实验,验证所提方法的有效性及鲁棒性。

1 基于可变空间感知的目标检测算法

1.1 可变空间感知模块

为了克服传统卷积采用固定大小卷积核提取图像特征、感受野范围固定的局限性,可变形卷积(Deformable Convolutional Network, DCN)[5]在传统卷积的基础上引入偏移量的概念,卷积核采样点的位置和形状可以根据当前图像中的待检测目标进行自适应调整,使感受野更加聚焦于目标的特征区域,以适应图像中对象的各种几何变换。标准卷积和可变形卷积采样区域对比如图1 所示。

图1 标准卷积和可变形卷积采样区域对比

图1 中对比了标准卷积和可变形卷积的采样方式,其中绿色点代表标准卷积的采样点,蓝色代表相对标准卷积的位置偏移量,蓝色点代表可变形卷积的采样点。由图1 可以看出,可变形卷积的采样点相对比标准卷积位置分布存在不确定性,对应的感受野区域发生了尺度变换以及形变,计算公式如下:

式中:x(p)代表输入特征图;y(p)代表输出特征图;pn为输出特征图任意位置对应的N个采样点;Δp是pn的偏移量,最终采样点位置为pn+Δp;mask 是N个采样点对应的权重因子。其中Δp和mask 是可学习的变量,根据图像内容自适应调整。

基于上述分析,本文设计了两种基于DCNv2 的可变感受野模块,其中VSPM1 这个单独的下采样层用于代替原算法中的下采样操作。VSPM1 整体结构如图2所示,在空间尺度缩减过程中使用两组并行卷积实现,一组是由步长为2 的3×3 卷积、批归一化和Leaky ReLU激活函数三部分组成;另一组是由步长为2 的2×2 卷积和一个层归一化组成。之后将两种下采样方式得到的特征在通道维度进行拼接,降低特征图缩减带来的信息损失;随后经过步长为1 的3×3 的可变形卷积;最后通过步长为1 的3×3 卷积、批归一化和Leaky ReLU 激活函数完成整个下采样过程。上述过程有效地缓解了特征采样过程中的目标信息衰减问题,并同时通过可变形卷积进一步增强了具有不同尺度和外观的目标全局信息。

图2 可变感受野模块1 结构

目前基于CNN 的目标检测算法中,基本都采用堆叠多个3×3 卷积的做法,两个3×3 卷积对应的感受野等于一个5×5 的卷积对应的感受野,但是计算量小。随着计算机硬件的提升,基于Transformers[6]的目标检测算法逐渐出现在人们视野,不同于CNN 架构,Transformers 通过使用non-local self-attention 使得它的每一层都有一个全局感受野,其中窗口大小至少为7×7,明显地超过当前常用卷积核大小3×3。

本文设计了VSPM2 用于检测头部分,通过大核卷积获取全局信息。VSPM2结构如图3所示,首先通过3组并联操作获取3 组特征图:一组是由步长为1 的3×3 卷积、批归一化和Leaky ReLU 激活函数三部分组成;第二组采用残差的方式;最后一组首先采用7×7 的大核卷积,随后通过层归一化操作,再通过两个1×1 卷积,在两个卷积中间采用Swish 激活函数。为了降低因使用7×7 卷积引起的计算量过大的问题,采用DWConv 代替普通卷积来实现,在降低运算量的同时扩大感受野。第三路中的第一个1×1 卷积将输出通道变换为输入通道的4 倍,这种逆瓶颈的设计可以有效减少计算量。本文将3 组特征图进行通道拼接,最后通过步长为1 的3×3可变形卷积、批归一化和Leaky ReLU激活函数进行运算。

图3 可变感受野模块2 结构

1.2 解耦检测头设计

在目标检测领域,目标的坐标回归和分类任务之间存在明显的冲突问题,即两者的目标函数之间的空间错位会损害检测性能,不利于网络收敛。因此,本文引入了一种解耦检测头结构来缓解冲突问题。图4 为解耦检测头的整体架构,首先通过一个由步长为1 的3×3 卷积、批归一化和Leaky ReLU 激活函数组成的CBL 模块;接着通过本文所提的VSPM2 模块,在扩大感受野获取目标全局信息的同时,增强检测头对目标的轮廓感知能力;随后通过两路解耦的卷积,实现坐标和分类回归。第一路首先通过步长为1 的1×1 卷积对通道进行压缩,统一变为251 来降低计算量,随后通过两个步长为1 的CBL 模块,最后通过1×1 卷积进行分类预测,这一分路主要关注获取目标纹理信息;第二路前三部分和第一路一致,最后通过两个不同的1×1 的卷积进行坐标回归和置信度预测,这一分路关键在于获取目标的轮廓信息。本文通过实验证明解耦检测头的有效性。

图4 解耦检测头结构

1.3 网络整体架构

本文提出的检测算法整体架构图如图5 所示,其中基线检测器是YOLOv4,将CSPDarkNet53 作为主干网络,分别将最后三部分的输出特征即相对于原始输入图像的8 倍、16 倍、32 倍下采样处的特征F4、F5、F6作为待处理特征。后续利用在PANet 自顶向下路径通过通道拼接操作进行低层特征增强,得到φ1、φ2、φ3。在自浅向深的路径上,通过可变空间感知模块1 对最浅层特征C1特征再次增强,得到C′1,φ2和C′1又在通道进行拼接得到中间层特征C2;再次通过可变空间感知模块1 对中间层特征C2特征再次增强,得到C′2;最后φ3和C′2在通道进行拼接得到最深层特征C3。在整个检测颈部,主要通过并联的下采样结构减少信息衰减,利用可变形卷积来提高对不同物体外观的建模能力,减少外观差异导致的检测误差。最后基于本文提出的解耦检测头结构,通过单独的三个分支对目标的坐标位置、分类分数和置信度分数三部分进行预测,通过后处理算法得到最终的检测结果。

图5 本文检测算法的整体网络架构图

2 实 验

2.1 实验环境和参数设置

本文所有实验都是基于Ubuntu 系统下YOLOv4 的PyTorch 深度学习框架,在一个GTX 1080Ti 上完成实验和验证。将VSPM1、VSPM2 和解耦检测头加入训练中,在训练过程中,图片分辨率调整到[320,608]内的10 个尺度,以32 为间隔,采取多尺度训练方式,在测试阶段图片分辨率为416×416,本文算法初始学习率设置为10-5;采用SGD 优化器,同时采用余弦退火对周期内的学习率进行调整,并在前2 个epoch 内进行预热。Batch size 设置为4,总训练轮数为100。

2.2 消融实验

具体消融实验由四部分组成,表1 的第1 行表示基准算法YOLOv4 的结果。第2 行表示在基准算法中加入VSPM1 模块,平均精度提升0.3%,表明改进的下采样结构降低特征图尺度会缩小信息损失,同时可变形卷积能够增强网络对目标的空间感知能力。第3 行表示在基准算法中加入解耦检测头结构,平均精度提升1.6%,表明增强网络特征表达能力的同时,通过解耦的检测头可缓解目标坐标回归和分类预测的冲突问题,进一步提升目标检测精度。第4 行表示同时加入两个模块,平均精度提升2%,本文所提方法之间相辅相成,两者组成一种提升目标检测精度更加行之有效的方法,更能有效提升目标检测精度。

表1 本文算法在PASCAL VOC 数据集上的消融实验

2.3 定性分析

图6 所示为本文算法的检测结果与YOLOv4 算法的结果对比,如第1 列可视化对比图所示,本文算法和YOLOv4 算法都检测到了全部的目标,但是YOLOv4 算法产生了误检现象,错误地检测了tvmonitor 目标;在第2 列可视化对比图中,背景和目标本身差异较小的情形下,YOLOv4 算法重复检测了左边的人,而本文算法不仅精确地检测出图像中的所有目标,且在检测相同目标时,可以给出更高的置信度得分,说明通过自适应感受野模块调整卷积点位置可以聚焦于特征关键点位置,增强特征图中目标位置的置信度,从而在后处理过程中准确地定位目标。在第3 列可视化对比图中,YOLOv4 算法重复检测了左侧的人,本文算法未产生重复检测现象;在第4 列可视化对比图中,图像中的对象都属于较小目标,本文算法对目标的位置预测更精准,预测分数高于YOLOv4 算法。

图6 PASCAL VOC 上的实验效果对比

实验结果表明,在普通检测场景和密集场景下,本文所提算法比YOLOv4 算法检测效果好;在检测相同目标时,所提算法可以给出更高的置信度得分,同时改善了目标的漏检和重复检测现象。

2.4 定量分析

本文算法在当前主流算法中具有明显的优势,如表2 所示,整体性能上,算法在检测精度和检测速度方面取得了很好的平衡,最终取得了84%的平均检测精度。 相 比 二 阶 段 检 测 算 法,如Faster - RCNN[7]、CoupleNet[8],本文算法在速度和精度方面都有明显的提升。 对比一阶段的目标检测算法 DSSD513[9]、YOLOv3[10]、 RefineDet512[11]、 RFB300[12]、 FCOS[13]、CenterNet[14]、CenterNet-DHRNet[15]、YOLOv4[16]、YOLOX-S[17]等,本文算法在检测精度方面表现最优。

表2 本文算法和其他算法在PASCAL VOC 上整体性能对比

3 结 语

针对目标尺度多变导致的检测性能不理想的问题,本文提出一种基于可变空间感知的目标检测算法,主要对下采样结构和检测头结构进行改进,通过在数据集上进行大量实验证明算法的有效性。下一步工作将继续基于YOLOv4 目标检测算法进行研究,尝试使用正负样本分配进一步提高对目标检测的性能。

猜你喜欢

步长尺度卷积
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
宇宙的尺度
基于逐维改进的自适应步长布谷鸟搜索算法
9
一种新型光伏系统MPPT变步长滞环比较P&O法
一种基于卷积神经网络的性别识别方法