APP下载

基于分组注意力和高斯多尺度的目标检测方法研究

2024-02-21邓续方周文正

无线电工程 2024年2期
关键词:高斯特征提取尺度

邓续方,吴 强,周文正

(1.河南林业职业学院 信息工程系,河南 洛阳 471002;2.郑州大学 信息工程学院,河南 郑州 450001;3.中国空间技术研究院西安分院,陕西 西安 710100)

0 引言

目标检测作为计算机视觉领域的基础任务,是解决目标跟踪、场景理解、图像描述和事件识别等更高层次视觉任务的基石[1],广泛应用于军工、医疗、工业、交通和安防等领域[2]。目标检测技术主要分为图像分类和目标定位2个子任务,利用图像特征信息计算各目标类别置信度并对其位置进行回归实现检测[3]。随着实际检测场景逐渐复杂,目标在图像中的大小、数量以及姿态等愈发多样化,使得目标检测效果受到了较大的影响[4-5]。因此,如何针对复杂场景下的目标特征,设计一种高性能的目标检测方法,对目标检测的理论丰富以及实际应用都有较大推动作用。

目标检测技术的发展大致分为传统方法和深度学习方法2个阶段[6],传统方法主要通过区域选择、特征提取以及目标分类实现检测,虽然具有较强的可解释性,但鲁棒性较差,仅适用于特定目标和场景[7-8]。深度学习利用海量参数学习提取图像中稳定性且泛化性较高的特征,再结合高性能分类器,使目标检测性能得到了较大突破[9]。文献[10-11]针对目标检测任务提出了基于先验框(Anchor-base)的RCNN系列网络,通过两步走策略先提取目标推荐区域再进行目标分类,虽检测精度高,但所需算力过大,无法较好地应用于边缘设备中。文献[12-13]为缓解RCNN系列网络高计算量的问题,移除了候选区域提取步骤,提出了单阶段端到端训练的YOLO系列网络,虽在一定程度上提升了效率,但其预测方式容易造成小面积目标漏检。Law等[14]将目标检测看作关键点检测问题,提出了无需引入先验框(Anchor-free)的CornerNet网络,进一步提升了检测器速度,但由于解空间过大,使得误检目标较多。可见,现阶段的目标检测方法仍存在一定局限,检测性能仍有较大的提升空间。

针对上述基于深度学习的目标检测算法存在的不足,本文在总结前人研究的基础上,提出了一种基于分组注意力和高斯多尺度的目标检测方法。本文主要工作如下:

① 设计了一种由粗到精的特征提炼结构,以深度可分离卷积、注意力机制以及多维特征交互卷积等方式充分提取目标特征;

② 提出了基于分组卷积的注意力模块,根据通道特征相似性对不同目标特征分组,再分别利用空间注意力机制增强目标位置信息,使网络能更好地聚焦目标相关特征;

③ 引入了高斯多尺度空间特征融合结构,保障网络计算效率的同时提升单阶段网络对不同尺度目标的识别效果。

1 目标检测网络设计

1.1 网络整体结构

所提目标检测网络整体结构如图1所示,网络主要分为特征提取、分组注意力机制以及高斯多尺度融合三部分。特征提取采用由粗到精的提取策略,以深度可分离卷积结合跨层融合方式保障目标信息充分提取;分组注意力机制根据特征相似度对不同目标特征进行分组,再针对每组特征利用空间注意力机制增强各目标所在位置特征的信息;高斯多尺度融合将各维度特征融合后利用高斯模糊算法实现多尺度变换,并结合相应维度特征实现对不同尺度目标的检测。

图1 目标检测网络整体结构Fig.1 Overall structure of object detection network

1.2 特征提取骨干结构

特征提取结构针对目标基础特征和关键特征依次进行提取,其中基础特征主要通过骨干结构进行提取。骨干结构分为输入模块以及多个不同维度的特征提取单元首尾串联构成,输入模块主要考虑到目标所处场景存在较多光线过亮或过暗的图像,若直接基于原图进行卷积计算,容易增加后续特征提取难度。因此,该模块在原始RGB图像基础上设计了如图2(a)所示图像增强过程来突出目标,主要通过灰度化综合RGB三通道信息后再利用直方图均衡化算法提升图像对比度,降低光照对目标的影响;同时,为避免图像增强过程对正常目标的影响,将原图、灰度图以及均衡化后的图像进行拼接后作为后续模块输入,使网络保留原始信息的同时突出复杂环境下的目标特征。特征提取单元串联结构如图2(b)所示,主要由一系列高效率的卷积单元堆叠构成,由浅到深地提取目标特征信息。同时,受文献[15-16]网络结构启发,深层特征采用大卷积核可更好地提升网络性能,故特征提取骨干结构对最深层次的维度特征采用5×5卷积核,其他层次采用3×3卷积核。卷积单元详细结构如图2(c)所示,主要以深度卷积、点卷积结合hard-Swish激活函数构成,使网络保证计算效率的同时尽可能地捕获目标信息。而不同维度的特征提取单元之间采用步长为2的3×3标准卷积来综合所有通道特征进行连接,如图2(c)中虚线所示。

图2 特征提取骨干结构模块Fig.2 Feature extraction backbone structure module

1.3 分组注意力特征提炼

为了更好地突出目标特征,本文设计了如图3所示的分组注意力机制,同时结合跨层特征融合结构进一步提炼目标信息。

图3 分组注意力机制Fig.3 Group attention mechanism

分组注意力机制以每个维度特征提取单元最后一层输出特征作为输入,利用全局平均池化获取通道特征全局信息后,将特征均值进行聚类分组(通常同一目标通道特征均值相似),分组计算方式如式(1)~式(3)所示;然后,针对每组特征,从空间位置角度利用均值、最大值以及标准差分别获取该组特征中每个位置的全局信息,再通过1×1点卷积和K×K标准卷积来综合空间及邻域信息后输出每个位置权重,K值根据当前特征图大小自主调整,计算方式如(4)所示。同时,为提升各维度特征交互,将分组注意力处理后的特征以图1提炼层所示的连接方式对目标信息深入挖掘,使各维度特征充分融合目标全局以及局部信息,进而提升网络表达能力。

式中:X表示输入的特征,Avg表示求均值,Sort表示对值排序,index表示排序后记录对应特征索引,Y表示排序后的特征,式(1)表示计算特征图均值后进行排序并记录对应排序索引供后续分组使用;NX表示输入特征通道数量,NC表示目标总数,NG表示特征分组数量,式(2)表示根据目标类别总数对当前特征通道进行分组;Y[0∶NG]表示对排序后的前NG个通道特征作为一组,以此类推,将特征分为NG组后再分别进行空间位置增强,式(3)表示根据 式(1)的特征排序索引对特征进行分组;d表示特征图长边像素长度,odd表示取奇数,式(4)根据当前特征维度动态调整邻域范围。

1.4 高斯多尺度特征融合

对于网络检测部分,考虑到目标大小、姿态多样化,为保证各个目标都能被准确识别,需要综合不同尺度的目标信息,基于此,本文设计了高斯多尺度融合结构,如图4所示。

图4 高斯多尺度融合结构Fig.4 Gaussian multi-scale fusion structure

所提高斯多尺度结构以注意力机制提炼后的特征为输入,将各尺度特征采样至注意力提炼层3的维度后利用可训练的参数进行自适应加权融合,如图4(a)所示,融合方式如式(5)所示;然后,基于融合后的特征利用高斯模糊算法构建特征金字塔,如图4(b)所示,高斯模糊算法如式(6)和式 (7)所示;最后,将高斯金字塔特征结合对应的提炼层特征进行融合检测。通过高斯金字塔方式虽弱化了部分目标特征,但有效降低了冗余计算且保留了目标多尺度信息。

式中:feature3表示表示提炼层3的维度,i表示除feature3外的其他提炼层,xi→feature3表示将i提炼层维度采样采用至feature3维度,αi、βfeature3表示各维度特征对应的自适应权重,且满足αi、βfeature3∈[0,1],αi+βfeature=1;Ffeature3表示自适应融合后的特征,F(x,y)表示高斯金字塔输入特征,G(x,y,σ)表示高斯函数,σ表示尺度参数。

2 实验与结果分析

为验证所提网络结构的可行性和鲁棒性,本文分别采用ImageNet、PASCAL VOC以及MS COCO 三个主流目标检测标准数据集对网络进行实验。考虑到标准数据集中图像数量过大且存在部分目标不清晰的图像,实验时仅筛选了部分质量较高的图像进行训练测试。实验数据以及环境配置信息如表1所示,同时,为更好地体现所提网络有效性,网络训练时超参数参考了当前主流目标检测网络进行设置,如表2所示。

表1 实验环境配置

表2 超参数设置

对于目标检测性能评估采用均值平均精度(mAP)以及每秒图像处理张数(fps)进行衡量。同时,为评估网络的尺度不变性,实验借鉴COCO数据集中的目标划分策略,根据目标标注框以[大目标>962>中目标>322>小目标]的标准划分大中小目标,并分别以mAPs、mAPm、mAPl来衡量不同大小目标的检测效果。

2.1 可行性实验

针对所提方法的可行性验证,实验主要采用ImageNet数据集,以YOLOv4单阶段目标检测网络为基础,通过依次替换所提各个模块进行测试对比。实验首先针对图像输入模块,分别测试对比了引入前后的检测效果,结果如表3所示。

表3 输入模块测试结果

由对比结果可以看出,在新增灰度化和均衡化的图像后,较好地丰富了输入数据,同时也增强了目标信息,使网络检测精度有较明显的提升。对于特征提取部分,实验依次测试了引入基础特征提取结构和注意力机制特征提炼结构后的网络检测精度与效率的变化,结果如表4所示。

表4 特征提取结构测试对比

根据测试结果可以看出,YOLO网络的特征提取结构中每一层都由稠密的标准卷积进行提取,可以充分利用上一层特征信息,但也引入了过多的参数,且冗余计算较多。所提骨干结构选择相对稀疏的深度可分离卷积,并设置了相对较少的特征通道进行特征提取,有效降低了冗余信息的计算,大幅提升了网络效率,但也导致特征利用不够充分,网络精度也较差。继续引入注意力特征提炼结构后,在基础特征结构上针对目标关键信息进一步提取,使网络更好地专注目标特征,且背景信息的干扰也更少,虽增加了部分计算量,但检测效果得到了较大提升。为进一步验证所提分组注意力机制的优越性,实验与当前主流的注意力机制进行了对比,并提取特征层3信息分别可视化了不同注意力机制下的效果,结果如表5和图5所示。

表5 不同注意力融合对比

图5 特征层3注意力可视化对比Fig.5 Visual contrast of attention in feature layer 3

通过对比不同注意力机制下网络检测性能以及特征可视化效果可以看出,SE和ViT注意力机制分别专注特征通道和特征空间位置特征,虽对目标识别效果虽有一定提升,但相对有限。CBAM和Triplet注意力机制虽同时考虑了特征通道和空间信息,但增强目标特征的同时也增加了噪声信息,容易造成目标误检。而所提分组注意力机制基于全局信息对目标特征进行分组聚类,并利用局部卷积代替全连接降低计算量,使网络在增强特征时更具针对性,更好地提升了网络检测性能。对于多尺度结构验证,实验分别与FPN跳层融合、ASFF自适应融合进行了对比,结果如表6所示。

表6 多尺度模块对比

根据不同特征融合结果可以看出,所提高斯多尺度融合结构利用自适应融合获取各维度特征信息,并结合高斯金字塔完成多尺度检测,虽未达到最优性能,但有效平衡了网络检测精度与效率,可以更好地应用于实际场景中。而对于所提整个网络的有效性测试,实验分别与其他网络结构进行了对比,如表7和图6所示。

表7 不同目标检测网络性能对比

图6 ImageNet数据集目标检测效果对比Fig.6 Comparison of object detection effects in ImageNet dataset

根据上述实验结果可见,所提目标检测网络相对于基于两阶段Anchor-based的Mask R-CNN和基于Anchor-free的CornerNet在计算效率以及检测效果方面得到了更好的平衡。而与同类型的单阶段YOLO网络相比,该结构在目标有效特征提取融合以及网络非线性表达能力等方面都得到较大提升,故检测效果也相对更优。综上实验结果可以看出,所提网络的各个模块以及整体结构对目标检测效果都有一定提升,有效验证了所提方法的可行性。

2.2 鲁棒性实验

为进一步验证网络的鲁棒性,实验利用相对复杂的PASCAL VOC以及MS COCO数据集分别对所提网络以及其他同类深度学习目标检测网络进行测试对比实验,实验结果如表8、表9和图7所示。

表8 PASCAL VOC数据集测试结果

表9 MS COCO数据集测试结果

图7 VOC和COCO数据集检测效果(前两排:VOC;后两排:COCO)Fig.7 Detection effect of VOC and COCO datasets (first two rows:VOC; second two rows:COCO)

根据上述测试结果可见,虽然在复杂场景下,各网络的检测精度都有一定下降,但本文方法相对于其他方法,检测精度受影响程度相对较小。同时,从可视化检测结果也可看出,相比于CornerNet、YOLO网络,本文方法在目标遮挡以及小目标识别上都有较大提升,较好地改善了目标漏检和误检等情况。而相比于Mask R-CNN网络,该方法也在保证高效检测前提下基本达到了与之相近的检测效果。

3 结束语

本文针对现有基于深度学习目标检测方法存在的不足,从图像输入、特征提取、关键信息提炼以及多尺度特征融合等几个部分进行了深入研究,提出了一种基于分组注意力以及高斯多尺度的目标检测网络。网络通过直方图均衡化来降低光照影响,突出过暗或过亮环境下的目标,并采用双阶段特征提取结构来依次提取和提炼目标信息。其次,引入了分组注意力机制,利用通道特征均值对各目标特征聚类分组,通过空间注意力机制分别对各组目标指南针增强,突出目标关键信息的同时避免了背景信息的影响。最后,针对网络尺度不变性,设计了高斯多尺度结构,以多维特征自适应融合结合高斯金字塔方式实现目标多尺度检测。通过在多个标准数据集上的测试结果表明,所提方法可以准确高效地完成目标检测任务,且具有较强的泛化能力。尽管所提方法在一定程度提升了目标检测网络的性能,但仍有较多值得探索的地方,后期将深入研究更优特征选择方式,进一步提升网络检测效果。

猜你喜欢

高斯特征提取尺度
财产的五大尺度和五重应对
数学王子高斯
天才数学家——高斯
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
宇宙的尺度
有限域上高斯正规基的一个注记
基于MED和循环域解调的多故障特征提取
9
Walsh变换在滚动轴承早期故障特征提取中的应用