自适应上下文特征的多尺度目标检测算法

2022-04-21王凤随陈金刚王启胜刘芙蓉

智能系统学报 2022年2期

王凤随，陈金刚，王启胜，刘芙蓉

（1.安徽工程大学电气工程学院，安徽芜湖 241000;2.检测技术与节能装置安徽省重点实验室，安徽芜湖 241000;3.高端装备先进感知与智能控制教育部重点实验室，安徽芜湖 241000）

目标检测作为计算机视觉的一个分支，随着深度学习模型与检测任务的结合以及GPU 计算能力的提升，它在学术和工业界得到广泛的研究和应用，如人脸识别、行人检测、自动驾驶等领域。

目标检测领域，尺度的变化问题一直是个挑战，它直接影响着检测精度。在检测任务中，数据集中目标的尺度范围变化较大。小尺度目标经过卷积神经网络后，由于感受野的增大造成特征的丢失。因此，神经网络需对不同尺度的目标都可以很好地提取特征。Faster-RCNN[1-2]作为两阶段目标检测算法的大成之作，它提出的使用区域建议网络代替选择性搜索(selective-search)提取候选框，多尺度锚框的使用减少了选取候选框的时间，取得更高的精度和更短的训练时间。但Faster-RCNN (faster region convolutional neural network) 只利用神经网络的最后一层特征进行预测，缺乏处理多尺度目标的能力。针对多尺度目标需要多尺度特征预测的问题，SNIP[3-4](scale normalization for image pyramids)使用图像金字塔将原始图直接进行不同尺度的缩放变化，利用不同分辨率的图片来检测不同尺度的物体，在尺度变化的问题上取得不错的成效。这种尺度变化的方式虽然有效，但也大大增加了检测的时间复杂度。另一种尺度变化的思想是利用特征金字塔(feature pyramid)来近似图像金字塔，FPN[5](feature pyramid network)利用对高层语义信息上采样，以自上而下的方式增强低层特征，FPN 在YOLOv3[6]中具有很好的多尺度表现。但FPN 中只是将不同分辨率的特征对齐后堆叠，忽略了低层特征包含较多局部位置信息，高层特征包含更多全局语义信息，而忽略这些特征之间的联系将不可避免影响检测的性能。因此考虑不同分辨率特征之间的相关性，自适应对通道相关性建模，通过在全局语义信息融合局部位置信息来提高检测性能是一个重要问题。同时，从人类视觉出发，对于不同尺度的目标需要不同大小感受野的特征去识别，神经网络的高层特征中包含更丰富的语义信息，YOLOv3-SPP[7](MobileNets based on depthwise separable convolutions)算法中通过对高层语义特征增强感受野，可以加强网络的特征提取能力，虽然其中SPP(spatial pyramid pooling)网络能够捕获上下文信息，但同时破坏了图像中的姿态和空间等信息，造成部分高维特征丢失的问题。

针对目标检测中的多尺度问题，本文提出一种自适应上下文特征的多尺度目标检测算法。首先，基于改进的注意力机制设计了特征融合网络A-PANet(attention-path aggregation network)，自适应地调整通道间的相关性和不同分辨率特征的通道权值，实现局部特征和全局特征的融合，提升检测的精度。其次，设计了多尺度感受野特征金字塔网络MSPNet(multi sensory pyramid network)，利用不同膨胀率的卷积，从高层语义特征中学习到不同大小感受野的特征，识别不同尺度的物体，提高检测的精度。通过对PASCAL VOC[8]数据集上的实验结果进行分析评估，本文的方法相较于其他先进算法的性能有了显著提高。

1 算法原理

1.1 网络结构设计

本文算法从多尺度感受野和自适应特征融合两方面，设计了自适应上下文特征的多尺度目标检测算法。方法的整体框架如图1 所示。具体来说，以Darknet53 作为主干特征提取网络，首先，将图像输入主干特征提取网络，获取高层特征P0、次高层特征P1、浅层特征P2；其次，为了从高层语义特征中挖掘标签中的上下文信息，设计了MSPNet 网络，从高层特征P0中提取多尺度感受野特征，并通过3 次卷积实现上下文信息的融合；最后，基于改进的注意力机制SE*，设计了A-PANet网络，对不同分辨率特征P0、P1、P2进行加权融合，实现局部特征和全局特征的融合，并利用融合后的多尺度特征对不同尺度物体实现分类和回归。

图1 算法框架结构Fig.1 Algorithm framework structure

1.2 多感受野特征提取网络

从人类视觉出发，识别物体的类别，除了当前物体的外观特征，还需要周围环境作为辅助(比如汽车和人通常同时出现，椅子在桌子附近)。如何从高级语义特征中获取不同尺度目标的语义信息，并获取上下文信息辅助识别小目标物体，是提高检测性能的关键问题。针对此问题，本文提出多感受野的特征提取网络MSPNet，利用多分支并行空洞卷积，通过不同大小的感受野，从高层特征P0中挖掘不同尺度目标的语义信息，并通过融合不同尺度的感受野特征从标签中获取上下文信息。

MSPNet 的网络结构如图2 所示。首先，以主干特征提取网络输出的高层语义特征x∈RW×H×C作为输入，其中W、H为特征图的宽高，C为特征维度。其次，将高层语义特征x分别经过3个膨胀系数为 τ 的多感受野特征提取分支，表示每个分支捕获的不同大小感受野以及不同尺度的特征信息。其中W′、H′和输入特征图的宽高W、H保持一致，C′下降为输入通道的1/16。然后，对3个分支进行归一化处理，加快网络的训练以及收敛速度防止梯度爆炸，并使用Leaky_ReLU激活函数增加非线性。最后，使用 1×1 的卷积核对高层语义特征x进行卷积处理，输出特征x4∈RW′×H′×C′并作为残差结构和其他分支获得的特征进行感受野从小到大的堆叠，输出多感受野增强提取特征，再使用3 次卷积进行多感受野特征加强融合。得到最终加强多感受野特征x′∈RW×H×C。

图2 多感受野特征提取网络(MSPNet)结构Fig.2 Stucture of multi-receptive field feature extraction network (MSPNet)

不同尺度的目标需要不同大小感受野的特征识别，YOLOv3-SPP[7]算法中SPP 网络利用多分支池化提取不同大小感受野特征，而池化会造成语义特征的丢失问题。为了获取多尺度的感受野且不造成特征的丢失，本文提出利用膨胀卷积增加感受野，保持特征的尺寸不变化。膨胀卷积[9-10]通过稀疏采样的方式进行卷积，通过在卷积核内部填充权值为0 的参数使得卷积核的感受野增大且不会增加额外参数。膨胀卷积后有效感受野大小如式(1)所示。

式中：k代表原卷积核大小；τ 代表膨胀率；k′表示有效感受野。神经元的感受野越大表示和原始图像的接触范围越大，提取的信息则是更加全局，包含语义层次更高的特征；感受野越小则是提取的特征趋向于局部和细节。本文设计3个膨胀卷积分支，以膨胀率分别为2、3、4 的3×3 卷积核，根据式(1)，每个分支对高层语义特征的有效感受野大小分别是5×5、7×7、9×9。输出x′为以金字塔形式堆叠的多感受野特征，其表达式为

式中：W1、W2、W3为每个分支的学习参数；⊕ 为特征的堆叠；F为三次卷积；x为输入高语义特征；W4为残差边的学习参数；f为非线性激活函数Leaky_ReLu，其表达式为

其中a为超参数，通常取值为0.01，在反向传播过程中，对于Leaky_ReLU 激活函数输入小于零的部分，也可以计算得到梯度，避免梯度消失的问题。

1.3 自适应特征融合网络A-PANet

神经网络的低层特征包含丰富的目标位置信息，高层特征则包含目标的语义信息。考虑不同尺度目标的语义特征出现在不同分辨率特征图中，在全局语义特征中有效地融合局部位置特征，是解决检测中多尺度问题的关键。本文提出一种自适应特征融合网络A-PANet，通过自适应地调整不同分辨率特征间的依赖性，实现语义特征和位置特征的有效融合。

A-PANet 网络结构如图3 所示。其中，C4、C5、C6、C7∈RW×H×C为主干特征提取网络输出的不同分辨率特征，其中W、H、C分别为每个特征的宽度、长度和通道数。⊕ 表示不同分辨率特征自适应融合模块，其具体实现如图4。P5、P6、P7∈RW′×H′×C′为不同分辨率特征自适应融合后的特征，其尺度分别为76×76、38×38、19×19，每个网格点输出3个预测框，分别用于检测不同尺度大小的物体。它每一层预测所用的特征图都融合了不同分辨率、不同语义强度的特征，融合的不同分辨率特征图对应不同大小的物体检测。

通道注意力[11-12]在于分配各个卷积通道之间的资源，可以理解为让神经网络明白在看什么，网络可以有选择性地加强包含重要信息的特征并抑制作用无关或较弱关联的特征。图3 中 ⊕ 为特征自适应融合模块，本文针对通道注意力机制实现以下改进。首先，为了提高通道间的非线性拟合能力，对通道注意力SE[11]的FC 层进行不降维处理，避免降维造成的细节信息损失。其次，针对采用两个不降维FC 会显著增加模型复杂度的问题，本文利用两个不降维的一维卷积代替FC层，降低模型复杂度的同时保持性能增益，具体实现如图4 虚线框所示。

图3 自适应特征融合网络A-PANet 结构Fig.3 Structure of adaptive feature fusion network APANet

图4 特征自适应融合模块结构Fig.4 Structure of feature adaptive fusion module

图4 以C7和C6两个不同的分辨率特征融合为例说明，其余融合方式和此一致。首先，对C7特征进行双线插值上采样，恢复其宽高并和C6层特征图的宽高保持一致。其次，对输入进行压缩，利用全局平均池化，将输入的二维特征图变成单个像素值且通道数不发生变化，输出的每个特征通道上具有全局的感受野；最后，通过两次不降维的一维卷积，并在激活函数前引入BN层加速收敛，增加网络通道间的非线性拟合能力。

特征自适应融合模块如式(4)：

式中：σ 为sigmoid 激活函数；x为输入特征图。g(x)为全局池化函数如式(5)所示，其功能是对输入特征图的每个通道进行全局平均池化(GAP)。其中W、H分别表示输入特征图的宽高。

f{w1,w2} 函数的作用如式(6)：

式中：w1表示第一个卷积层的可学习参数；w2为经过第2个卷积层的可学习参数；*表示为逐元素相乘。这个模块负责构建通道的相关性以及自适应地为不同通道学习到不同的通道注意力权重。通过对特征通道间的相关性进行建模，网络专注于更有用的通道并增强辨别学习能力。

2 实验结果与分析

2.1 数据集和实验环境

本实验所用的数据集为图像识别和分类的标准化数据集PASCAL VOC，数据集标签中包含20个类别，它是常用于目标检测任务的训练和评价的公开数据集。此数据集包含行人、车辆、生活物品等20个语义类别高精度标注图像。本实验使用的训练集是包含VOC2007 的训练和验证集及VOC2012 的训练和验证集的联合训练集一共有16 551 张图，取其中90%为训练集，10%作为验证集。测试集选取VOC2007 的测试集，一共4 952 张图。本实验的环境配置如表1。

表1 实验环境配置Table1 Experimental environment configuration

2.2 实验评价标准

在目标检测任务中，检测精度(average precision,AP) 体现每个物体种类的检测精度，mAP(mean average precision) 是对所有检测种类的AP 进行算数平均，用来衡量整个网络的检测精度，mAP 值越大则检测检测精度越高。AP 是由检测精度(precision) 和召回率(recall) 组成的PR 曲线面积计算得出。精度(P)和召回率(R)的计算方法为

式中：TP 表示为正样本且预测结果为正样本的检测框；FP 表示为负样本但预测结果为正样本的检测框；FN 为负样本且检测结果为负样本的检测框。

2.3 实验参数设置

为了验证改进后的网络模型的检测精度变化，在相同的实验环境以及使用的数据集都为VOC2007+VOC2012 的联合训练，并在VOC2007的测试集上计算每个类的AP 值以及20个类的mAP。整个训练过程中使用了迁移学习的思想，利用在大型数据集上预训练的模型参数对网络进行参数初始化，来加速推理和提高网络收敛速度。实验具体参数设置如表2 所示。

表2 实验参数设置Table2 Experimental parameter setting

训练一共设置50个epoch，训练的前25个epoch 对网络的主干特征提取网络的部分参数进行冻结训练，后25个epoch 解冻后整体训练。网络采用批量随机梯度下降法来优化损失函数，前25个epoch 设置Batch_size 为4，初始学习率为0.001，权重衰减率为0.000 5，解冻训练后继续训练25个epoch，此时网络学习率设定为0.000 1，Batch_size 为2，权重衰减为0.000 5。通过测试loss 的变化情况可以看到网络模型的拟合情况，并选取达到最佳拟合效果的epoch 作为网络的权重。

2.4 PASCL VOC 上的定量评价

Faster-RCNN[1-2]、YOLO[13-14]、SSD[15]、DSSD321[16]等都是目标检测领域常用的几种检测算法，本文将几种算法都在VOC2007+VOC2012的混合数据集上训练以及使用VOC2007 测试集为测试数据，其中分别列举了Faster-RCNN、SSD、R-FCN[17]的实验对比结果。其中SSD321、SSD300 除了输入图片的大小不同其他设置都完全相同，基线模型YOLOv3+来自文献[14]。表3为不同算法在VOC2007 上得到的测试结果。

表3 各种算法在VOC2007 上的测试效果Table3 Test effects of various algorithms on VOC2007

从表3 不同算法测试得到的mAP 的数据对比发现，本文提出的基于自注意力和多尺度特征融合的目标检测方法在检测精度上具有更好的表现。在VOC2007 数据集上的检测精度，相较于双阶段目标检测算法，如以VGG-16 和Residual-101 作为主干提取网络的Faster-RCNN，检测精度分别提升了12.54%和9.34%，相较于单阶段的目标检测算法DSSD321 和YOLOv3，检测精度分别提升7.14% 和5.49%。相较于本文的基线模型YOLOv3+仍有2.06%的提升，

为了验证本文算法在解决目标检测中多尺度问题上的优越性，将本文算法和其他多尺度目标检测算法的检测结果进行比较分析，实验结果如表4 所示。

表4 多尺度目标检测算法在VOC2007 数据集上的测试结果Table4 Test results of multi-scale target detection algorithm on VOC2007 dataset

表4 中SSD 算法是以主干提取网络的不同特征层检测不同尺度物体，解决多尺度目标检测问题；RefineDet512+算法是基于SSD 和FPN 算法的改进，通过不同特征层间的融合检测出不同尺度物体。RFBNet 算法从感受野的角度出发，在SSD 算法基础上对不同特征层使用RFB 网络增加感受野，提升多尺度物体的检测能力。本文算法针对多尺度问题同时从感受野和多尺度特征融合的角度出发，首先，提出多分支的并行空洞卷积网络MSPNet 对不同感受野信息融合，挖掘上下文信息。其次，基于注意力机制提出自适应特征融合网络A-PANet，考虑不同特征层间的相关性实现多尺度特征融合。实验结果证明，本文算法相较于其他多尺度目标检测算法性能上得到显著提升。

检测速度也是衡量检测算法性能的重要指标之一，本文对比不同检测算法在VOC2007 数据集上的测试速度FPS。为了公平比较，在测试阶段，设置批次大小为1，各算法的时间性能对比见表5。

表5 不同算法在VOC2007 数据集上的测试速度Table5 Different algorithms test speeds on the VOC2007 dataset

考虑到平台差异对检测速度的影响，本文在此实验平台上对基线模型进行复现，算法速度达到27.83 f/s。本文算法由于增加额外的计算，相较于基线模型，当输入图片大小为416×416，检测时间多消耗约0.3 s，当输入图片大小为608×608，多消耗17%的时间。但由表5 可以看出，本文算法的检测速度明显高于双阶段目标检测算法，同时，由于硬件平台的限制，检测速度略低于其他单阶段目标检测算法。如图5，综合来看，本文算法综合效率最高，既实现了更高的检测精度，又保持速度上的优势。

图5 VOC 2007 测试集上的time-mAP 对比Fig.5 Time-mAP comparisons on VOC 2007 test set

2.5 消融实验

为了验证本文算法具有更好的检测精度，分别评估了多感受野特征提取网络和自适应特征融合网络，并研究了多感受野特征提取网络的分支数量对实验影响，设定在相同的实验环境和VOC 数据集进行消融实验，并对实验结果进行分析。具体实验分为3 部分：

1)基线模型中单独验证自适应特征融合网络；

2)基线模型中单独验证多感受野特征提取网络；

3)基线模型中同时引入自适应特征融合网络和多感受野特征提取网络。

为了验证本文算法的优越性，实验以在VOC 2007 的测试集上检测结果为基准，独立验证每个模块对模型的检测精度的影响，统计结果如表6所示。由于文献[14]中未公布每个类的AP，为了公平比较，本文复现了每个类的AP，并且mAP 和文献[14]无差距。此外，为了验证多感受野网络的有效性，分别对多感受野特征提取网络MSPNet-T、MSPNet-F(其分支数量为3 和4)进行实验。

表6 在VOC2007 数据集上的消融实验结果Table6 Detection effect of improved algorithm on VOC2007 %

从表6 中的每个类的AP 数据得到以下结果：特征融合网络在全局语义特征中融合了局部位置特征，相较于基线模型，在大目标物体上的性能有显著提升，如Boat(船)、Cow(牛)、Sheep(羊)等，尤其是在羊和船的AP 值提升接近10%。得到这样的实验结果是合理的，因为大目标物体通常在图片中占有较多像素，因此在卷积神经网络的高层特征中包含丰富的语义信息，识别精度高。但同时因为物体较大，在卷积神经网络下采样时造成位置信息的偏移，影响回归精度。本文提出的特征融合网络，通过注意力模块可以自适应地调整各通道的特征响应值，通过学习参数的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去改变不同分辨率特征的通道权重。有效地为大目标物体在语义信息中融合了位置信息，进一步提升大目标物体的检测能力，展示了本文特征融合网络的优越性。

多感受野特征提取网络从高层语义特征中挖掘标签中相互依赖的全局语义信息。多感受野特征提取网络的性能相较于基线模型提高了1.70%，同时对于bike(自行车) 和person(人) 的AP 有3.5%和1.5%的提升。因为客观世界中这类目标通常具有很强的依赖关系，它们往往同时出现，进一步说明，本文提出的多感受野特征提取网络能有效地聚集上下文信息，提升检测精度。

从最终的实验结果中可以看出，相较于基线模型，本文算法有效地提升了不同尺度物体的检测精度，如小目标物体cat(猫)和dog(狗)的AP 值有1%左右的提升，大目标物体bike(自行车)和bus(公交车)有4%左右的提升。在VOC2007 数据集上的可视化测试结果如图6 所示，从定量实验结果来看，本文算法在处理不同尺度物体问题上的合理性和有效性得到充分证明。图6 中包括每一个类的AP 以及20个类的mAP，其中图6(a)为基线模型的mAP，图6(b)为本文算法的mAP。从mAP 的对比可以发现改进后的网络在多个种类的物体的检测精度上都相较于原始网络具有不错的提升效果。

图6 在VOC 2007 数据集上的测试结果Fig.6 Test results on VOC 2007 datasets

2.6 定性评价结果

为了更加直观地评价本文算法，图7 给出了在VOC2007 的测试集上的实验结果对比。其中1、3 列为基线模型的测试结果，第2、4 列为本文算法的测试结果。

图7 基线模型和本文算法在VOC 数据集上实验结果Fig.7 Experimental results of baseline model and algorithm in this paper on VOC dataset

对图7 的可视化检测结果中进行定性分析：图7(a)、(d)为从VOC2007 数据集中随机选取室内图片，原算法存在对椅子的漏检问题，而本文算法利用多感受野特征提取网络，聚集上下文信息，通过挖掘标签中的关系(如桌椅通常同时出现)，减少物体的漏检；针对一幅图片中需要检测不同尺度物体的问题，如图7(b)中杂志上的人和图7(g)中远处的马，原算法在小目标物体上存在漏检以及误检的问题，本文算法通过自适应特征融合网络，在语义信息中融合位置信息，有效改善了不同尺度物体检测问题；虽然本文算法比原始算法检测精度更高，但仍存在当目标和背景特征相似时(图7(f)中的黄羊)，网络无法识别出物体的问题。综合来看，本文算法的检测性能更优异。

3 结束语

本文提出一种结合上下文特征和自适应特征融合的目标检测算法。首先利用主干特征提取网络Darknet53 获取不同尺度的特征图，接着构建一种多感受野特征提取网络，从高层语义特征中聚集上下文特征，挖掘标签中隐含的全局知识。最后构建一种自适应特征融合网络，结合通道注意力机制，实现不同分辨率特征的融合，在不同尺度的特征图中融合全局语义信息和局部位置信息。在PASCAL VOC 数据集上的实验结果表明，本文算法既能保持速度的优势，同时有效地提升了不同尺度物体的检测精度，更具有实用价值。在下一步的工作中，将继续改进模型，探索解决物体和背景特征相似不易识别的问题。