基于Involution Prediction Head 的小目标检测算法

2022-11-28安鹤男邓武才管聪姜邦彦

电子技术应用 2022年11期

安鹤男，邓武才，管聪，姜邦彦

(1.深圳大学电子与信息工程学院，广东深圳 518000；2.深圳大学微纳光电子学研究院，广东深圳 518000)

0 引言

目标检测是计算机视觉领域的一项基本任务。随着硬件GPU 以及卷积神经网络(Convolution Neural Networks，CNN)的不断发展，目标检测取得了显著的发展，已广泛应用于自动驾驶、视觉搜索、虚拟现实、增强现实等许多应用领域[1]。目前大多数最先进的目标检测深度学习算法都是基于CNN，主要分为两大类：两阶段(Two-stage)目标检测器和单阶段(One-stage)目标检测器。Two-stage检测器的典型网络有fast R-CNN[2]、mask R-CNN[3]和faster R-CNN[4]。卷积神经网络将目标检测的过程分为两个步骤，先使用区域生成网络(Region Proposal Networks，RPN)生成稀疏的候选锚框，然后检测对象的位置和类别。而One-stage 算法则是端到端的目标检测方法，这类算法直接用一个CNN 网络预测目标的位置和类别，不需要RPN 网络来生成锚框，因而检测速度更快。Onestage 检测器的典型网络有SSD[5]和YOLO[6-9]系列模型。

小目标检测广泛存在于目标密集图像和远距离成像目标图像中，作为目标检测的一部分，在现实中有着同样重要的需求。无论是车牌号检测、焊缝图像检测，还是无人机航拍图像，许多场景中都有小目标的存在。但由于小目标像素信息占比小、纹理特征不明显，小目标的检测比大中型目标的检测更为困难。由此可知，小目标检测是目标检测研究领域中具有重要性和挑战性的研究方向。

1 相关工作

小目标检测任务不仅要对对象实例进行正确分类，还需要准确定位，这时局部细粒度信息起到十分重要的作用。一些工作显示了结合不同特征层的重要性，而另一些研究显示了上下文信息是非常有用的。在Onestage 检测器中YOLOv4 和YOLOv5 网络凭借着高精度和检测速度快的优点而被广泛应用。YOLOv4 和YOLOv5是在YOLOv3 的基础之上不断优化和改进的版本，它们结合了大量前人的研究，在主干特征提取网络、特征金字塔、数据增强和激活函数等方面进行了改进，通过适当组合这些技巧的消融研究，证明无论是速度还是精度上都有所提升，可以在传统的GPU 上进行训练和测试，获得实时的高精度结果。

尽管YOLOv4 和YOLOv5 在许多应用中已经实现了对大中型物体的精准检测，但对于小目标检测效果不佳，仍有提升的空间。特征提取过程中多次进行下采样操作，图像分辨率会逐渐降低，导致小物体的消失和边缘信息变得粗糙，不利于小目标的检测。再加上小目标本身特征难以区分、分辨率低、背景复杂、上下文信息有限等原因，目前包括YOLOv4 和YOLOv5 在内的通用目标检测算法对小目标的检测效果都很差。

针对通用目标检测算法在检测小目标时检测精度低，存在错检和漏检等问题，本文在相关文献[10-14]的基础上，基于Involution[14]算子和SimAM[13]注意力机制，提出了一种新型的小目标检测头IPH(Involution Prediction Head)模型，并将其运用到YOLOv4 和YOLOv5 网络的检测头部分。为了防止下采样导致特征信息丢失，还对PANet 上下文特征融合结构进行修改，去除部分下采样操作。在VOC2007 数据集和智能交通检测数据集上进行了实验，证明本文所提方法均能提高小目标检测的APs，有效减少YOLOv4 和YOLOv5 错检漏检的情况。

2 提出方法

本文基于YOLOv4 检测头，融合了新型Involution 算子和SimAM 无参注意力机制，提出了一种新型的小目标检测头IPH 模型。将本文提出的IPH 算法分别运用到YOLOv4 和YOLOv5 网络的检测头部分，与现有的YOLOv4、YOLOv5 以及Retinanet[15]的性能指标进行了对比。同时，为了防止下采样导致小目标边缘信息丢失，在YOLOv4网络的基础上，去除PANet 网络的两层下采样操作。在VOC 公共数据集与智能交通检测数据集上进行实验,验证所提算法的可行性。

2.1 新型小目标检测头IPH 模型

目前大多数目标检测算法都是基于CNN，用卷积来对图像进行特征提取。文献[14]提出来的Involution 新型算子参考卷积算子，设计一种与常规卷积核性质相反的算子，该算子的示意图如图1 所示。跟卷积的空间权值共享和通道特异性的性质不同，Involution 具有通道权值共享和空间特异性的特点。在特征层进入检测头后，先用一层Involution 操作进行加强特征提取再进行后面的卷积操作。Involution 层的操作如图1 所示，利用特征图中当前位置的1×1×C 向量与K2个1×1×C 的卷积核进行卷积操作，经过变换得到图1 中K×K 的Involution 核的权重矩阵，每个像素点对应的Involution 权重都是不同的，接着使用这些Involution 核对特征图进行卷积，经过Involution 层后，特征图的尺寸保持不变。为了平衡精度和参数量，选择K 为7 的Involution 核。

图1 Involution 示意图

除了使用Involution 算子，还在检测头部分融合了注意力机制。现有的注意力机制往往是通过子网络来生成注意力权重，中山大学[13]从神经科学理论出发，提出了一种概念简单且十分有效的注意力模块SimAM。该模块根据空域抑制的原理，即激活的神经元通常会抑制周围神经元，通过一个能量函数就能为特征图推导出三维注意力权值，能量函数如式(1)所示。

式(1)表明，当神经元与周围神经元的区别越大时能量越低，故每个神经元的重要程度可以通过1/e*t 来获得。该模块仅通过一个能量函数就能为三维的每一个像素点都产生一个对应的权值，属于轻量型的无参注意力模块。将这一注意力模块集成到小目标检测头第一层卷积之后，批量归一化(Batch Normalization，BN)层之前，形成最终的IPH 小目标检测头模型，结构如图2 所示。将激活函数换成了SiLU，SiLU 函数如式(2)所示，曲线如图3所示。SiLU 是Sigmoid 和ReLU 的改进版，具有无上界有下界、平滑且非单调的特性。SiLU 可看做是平滑的ReLU 激活函数，在深层模型上的效果要优于ReLU。

图2 新型小目标检测头IPH 结构图

图3 SiLU 激活函数

f(x)=x·sigmoid(x)(2)

2.2 去下采样

以公共数据集COCO 的物体定义为例，小目标是指小于32×32 个像素点的物体。小目标相比于大目标分辨率低，难以提取到有鉴别力的特征，导致误检率高；小目标在图像中的位置过小，网络预测时偏移一个像素则对小目标影响巨大；小目标更容易出现聚集的情况，导致模型漏检严重。现在检测网络一般都是使用CNN 作为特征提取工具，为了增大网络的感受野，特征图尺寸不断缩小，面积较小的信息在下采样过程中逐渐丢失，传递不到后面的检测器中。

由于小目标图像信息在整张图片中的占比低，纹理特征不明显，连续进行下采样容易丢失小物体的特征信息，且在之后的特征提取中无法找回。考虑到下采样操作对小目标检测的影响，去除了YOLOv4 和YOLOv5中PANet 网络部分的两层下采样操作和特征融合过程，并在VOC2007 和智能交通检测数据集上进行实验，验证了该改进方案的有效性。从图4 中可以看出，改进后的特征提取网络相较于YOLOv4 原始网络少了PANet 右边的两层下采样操作。

图4 改进后的YOLOv4 网络框架图

3 实验分析

3.1 训练配置

为了评估网络性能，本文将使用新型IPH 检测头的网络和原始网络在同一数据集上进行训练，评价指标包括交并比(Intersection of Union，IoU)为0.5～0.95、0.5 和0.75 时的精度均值(Average Precision，AP)以及大、中、小物体的精度均值APl、APm、APs。训练所使用的服务器配置如表1 所示，实验中所有模型都从头开始训练，Batch size 设置为8，初始学习率设为0.001，优化器使用Adam，总共进行300 轮迭代。

表1 服务器配置

3.2 训练数据集

VOC2007 数据集训练集总共5 011 张图片，测试集4 952 张图片，总共有20 种常见的类别，无论是从目标的类别上还是数据量的规模上都能满足大部分模型的训练要求。智能交通电子提示装置检测数据集是“先导杯”智能交通检测竞赛中新提出的目标检测数据集。该数据集分为三个类，分别为rect_eye、sphere_eye 和box_eye三种类型的摄像头装置，大部分都小于32×32 像素，信息占比低，且特征不明显，适合用于小目标检测的研究。

3.3 实验结果

3.3.1 VOC2007 数据集结果

使用本文提出的IPH 网络结构对YOLOv4 以及YOLOv5 的检测头进行了更改，在VOC2007 数据集上进行了实验，不使用预训练模型，从头开始训练300轮，最终的结果如表2 所示，训练过程损失曲线如图5 所示。由表2 的结果可知，本文提出的IPH 网络结构可以直接替换传统的目标检测头，提升通用目标检测网络的小目标检测精度。现有的YOLOv4 和Retinanet 网络小目标检测精度APs 只有7%左右，而加了IPH 的YOLOv4 小目标检测精度比原网络提升了1.1%。YOLOv5 使用了Anchor Free 等技巧，对小物体比较友好，原网络APs 达到了13.4%，在YOLOv5 上使用IPH 后APs 达到了19.3%，相较于原始网络的APs 提升了5.9%，可知本文提出的IPH 结构适合用于小目标检测，可以有效提升小目标检测的精度。由损失曲线可知，IPH 模型并没有影响网络的收敛速度，Loss 值反而比原模型更小，说明IPH 模型具有更好的鲁棒性与识别精度，更少出现误检和漏检的情况。对YOLOv4 和YOLOv5 进行了去下采样操作，在VOC2007 数据集上进行了消融实验，从表2 中的结果可知，去下采样操作同样可以有效提升小目标检测的精度。

图5 VOC 数据集训练损失曲线

表2 不同网络在VOC2007 测试集上的结果

3.3.2 智能交通检测数据集结果

表3 列出了在智能交通电子提示装置检测数据集中IPH 和去下采样改进对精度均值影响的消融研究结果。通过表3 的实验结果表明，本文提出的新型YOLO小目标检测头在YOLOv4 原网络的基础上提升了小目标检测的精度。在使用去下采样操作后，小目标检测的精度再一次得到提升，最终网络为YOLOv4+IPH+去下采样，APs 值比原始YOLOv4 提升了2.8%。

表3 不同网络在智能交通检测数据集上的结果

分别使用最终改进的网络和原始YOLOv4 算法对数据集图片进行检测，对比结果如图6 所示。第一排为YOLOv4 算法的检测结果，第二排为本文最终改进算法的检测结果，可以看到本文提出的网络找出了许多YOLOv4原方法漏检的目标。从两组对比图可知，YOLOv4 无法检测出远处的摄像头目标，而本文提出的网络则能将原网络漏框的目标检测出来，且检测框的置信度较高。对于第二组图片左上角的rect_eye 摄像头，原方法将摄像头的支架错误地检测成了sphere_eye 摄像头，而改进的方法则没有出现这种情况。由图6 的检测结果可知，改进后的算法可以有效地改善小目标漏检以及错检的情况。

图6 不同方法检测效果对比

4 结论

在基于深度学习的目标检测任务中，小目标由于像素信息占比小、特征不明显，很难被检测到。为了提高通用目标检测器在小目标检测上的精度，本文基于YOLOv4模型，融合Involution 算子和SimAM 注意力机制，提出了一种新型的小目标检测头IPH 模型，并去除PANet 网络的下采样操作，在VOC2007 数据集上的结果表明本文算法对比目前主流的目标检测算法能有效提升小目标检测精度，比传统检测头更适合用于小目标检测。通过在智能交通检测数据集上的进一步消融实验，证明了IPH算法和去下采样两种改进方案均能提升小目标检测的精度，解决原方法错检及漏检严重的问题。