APP下载

融合注意力机制下的弱监督目标检测①

2024-01-06杨振文郑海君

关键词:集上分支实例

杨振文, 葛 斌, 郑海君, 邬 成

(安徽理工大学计算机科学与工程学院,安徽 淮南 232001)

0 引 言

由于弱监督目标检测算法仅使用图像级标签训练目标检测器的弱监督目标检测可以大大节约数据标注成本,具有重要的研究价值与实际意义[15]。但是,由于缺乏精确标注的监督,在进行检测任务时,检测器往往倾向于将最具辨别力的部分(如一张图像中动物的头部)作为目标对象,造成了检测目标信息的不完整性,形成局部最优问题。

目前的弱监督目标检测算法通常将弱监督目标检测看做多实例学习(Multiple Instance Learning,MIL)任务[1-3],Bilen等[4]提出了一种双流弱监督深度检测网络(Weakly Supervised Deep Detection Networks,WSDDN),网络通过汇总分类流和检测流的得分来选择阳性样本;Tang等人[5]在此基础上提出使用在线实例分类细化(Online Instance Classifier Refinement,OICR)算法来缓解局部最优问题;刘,Gu等人[6,13]提出了一个集上下文感知和自适应多实例细化为一体的弱监督目标检测算法,利用提出的全局上下文注意力模块以及参数化空间丢失模块对上下文特征进行充分利用,缓解局部最优问题;Wan等人[7]通过在空间图和外观图上引入标签传播,挖掘了更多潜在对象来生成伪标签。

然而,这些方法对图像中目标信息检测不够充分,容易缺失图像的边缘纹理信息而忽略其他潜在对象,导致检测缺失,同时由于缺乏准确的实例级注释,难以确定一个边界框是否包含一个完整的对象,局部最优的问题仍然存在。

为了解决上述问题,提出一种基于通道-空间全局注意力改进的弱监督目标检测算法,引入注意分支充分考虑了目标的全局特征,提高了网络的判别能力和检测精度。同时,采用端到端的方式进行模型的训练[14],具体框架流程如图1所示。

1 基本原理

1.1 弱监督目标检测算法流程

与传统目标检测算法流程不同,弱监督目标检测旨在使用图像级的标签完成检测任务,主要流程如图2所示。对于输入图像,采用多实例学习(Multiple Instance Learning, MIL)的方法[8-10],利用cnn进行特征提取完成对MIL检测器的训练,将MIL检测器选择的建议作为同阶段边界盒回归器的监督,以端到端的方式联合训练[11]。

图1 方法的总体框架

图2 弱监督目标检测算法流程

1.2 多实例网络

多实例网络由多实例分支、多任务分支和回归分支组成,具体网络架构如图3所示。将特征提取网络生成的区域特征向量通过基础多实例网络选择生成置信分数最高的候选框作为初始伪真值标签,并用于监督后续多任务分支的训练,多任务对输入的特征向量进行优化处理生成伪真值注释,经回归分支后生成优质的目标定位检测结果。

首先使用选择性搜索算法为每幅输入图像生成提案,然后将提案输入到预训练的卷积网络中生成每个提案的特征图,获得特征图后,采用多实例分支来初始化伪真值标签。

(1)

图3 多实例网络

多任务分支中每个分支由一个全连接层和一个Softmax 层组成,所有分支使用相同的特征,第K-1级优化器的输出作为第K级的监督信息:

(2)

本文在候选框筛选中通过引入自适应函数进行动态阈值调整,避免模型的优化从一开始便陷入局部最优,选择高质量的候选框作为最终的检测结果,同时使用优化损失来指导优化器的训练:

(3)

2 基于融合注意力机制下的弱监督目标检测

注意力模块由卷积层、非线性激活层和空间归一化组成:

zi,j=F(wTxi,j+b)

(4)

图4 注意力模块

(5)

(6)

通过加入分类损失来指导注意力权重的学习,生成注意力图A∈RH×W×C。注意力模块形式化为:

(7)

(8)

(9)

通过在权重学习中引入分类监督,将注意图A输入到另一个卷积层和全局平均池化(GAP)层,得到分类评分向量。然后通过标准的多标签分类损失对注意图进行监督。将增强后的特征映射组件馈送到后续组件进行检测。

使用随机梯度下降法从四个分量中优化以下复合损失函数来训练整个网络:

(10)

3 实验验证与分析

3.1 实验设置

选择在目标检测任务中常见的PASCAL VOC 2007和VOC 2012数据集上对本文的网络结构进行了评估,使用由选择性搜索窗口生成约2000个提案,使用5个图像尺度(480,576,688,864,1200)来进行数据增强,采用在ImageNet[12]上预训练的VGG16作为网络的主干,对于测试,选用平均精度均值(mean of Average Precision,mAP)和正确定位率(Correct Localization, CorLoc)作为评价指标,均遵循 PASCAL VOC的计算标准,CorLoc计算了真实值与预测框大于等于0.5 IoU的比例。

3.2 消融实验

在PASCAL VOC 2007上进行了消融实验,基础网络由单一的多实例分支(Multiinstance branch,MIL)承担,验证了包括多任务分支(Multitask branch,MB)、回归分支(Regression branch,REG)、融合注意力机制(Integrative attention mechanism,IAM)各个模块的有效性,结果如表1所示。

表1 在Pascal VOC2007 数据集上的消融实验(%)

由表1可得,相比于单一的多实例检测网络,融入多任务分支后,mAP提高了2.2%,CorLoc提高了2.1%,而融合注意力机制的加入,mAP提升了5.1%,CorLoc提升了4.1%;通过构造回归分支,检测精度达到了48.8%,定位精度达到了66.6%,引入引导注意力机制后,检测精度达到了53.0%,定位精度达到了69.4%。

3.3 对比实验

算法模型分别在PASCAL VOC2007、2012数据集的不同数据类别上对比了8种近几年主流的弱监督目标检测算法,其中,表2和表3 展示了在PASCAL VOC 2007 数据集上的实验结果,表4展示了在PASCAL VOC 2012数据集上的实验结果。从以上表看出,提出模型取得了不错的性能, 进一步证明本文提出的网络的有效性。

表2 VOC 2007测试集上不同算法的定位精度(%)

表3 VOC 2007训练验证集上不同算法的检测精度(%)

方法在PASCAL VOC 2012数据集上也得到了很好的验证,如表4所示,本文算法在PASCAL VOC 2012上取得了46.9%的mAP和66.2%的CorLoc,明显优于OICR,PCL,WSCL,B-OICR等近年主流的弱监督目标检测算法。

表4 VOC 2012 数据集上与主流方法的比较

3.4 可视化结果

为了更直观地观察到本文算法的有效性,展示了部分在 PASCAL VOC 2007 数据集上与OICR的预测结果,如图5所示,图中蓝色框表示真实边界框(Ground Truth),绿色表示预测结果正确的边界框(与Ground Truth的IoU大于等于0.5),黄色框表示没有检测结果相交的真值标签,红色表示预测错误的结果。同时,在预测框左上方给出了图像的预测类别及置信度。可以观察到,在第一行中的1,3,5列,传统的OICR方法容易陷入局部最优解,只检测到物体的显著特征部分,仅定位到了狗、猫等动物的头部,提出的方法有效地解决了局部定位问题(第2,4,6列所示)。此外,算法也解决了检测时预测框过小或过大的问题,如图5第二行所示,能得到更精确的检测结果。从图5中可视化结果的第三行来看,对于图像中出现多个类别的物体时,所提方法均能检测到,展示了良好的有效性与鲁棒性。

图5 部分可视化结果

4 结 语

针对弱监督目标检测中存在的局部定位与进行特征提取时丢失了大量语义信息的问题,提出了一个基于融合注意力机制下的弱监督目标检测,通过引入自适应监督的策略以端到端的方式共同优化了多实例检测与回归。同时,在模型里增加融合注意力机制,充分考虑了全局特征,增强了特征学习的定位能力,在PASCAL VOC 2007 和VOC 2012 数据集上均取得优异的结果,有效地缓解了局部定位的问题,提升了特征提取等多个方面的综合性能。

猜你喜欢

集上分支实例
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
巧分支与枝
一类拟齐次多项式中心的极限环分支
复扇形指标集上的分布混沌
完形填空Ⅱ
完形填空Ⅰ
生成分支q-矩阵的零流出性
几道导数题引发的解题思考
硕果累累