APP下载

基于双重特征注意力的多标签图像分类模型

2024-01-21邱凯星

计算机与现代化 2023年12期
关键词:注意力标签语义

邱凯星,冯 广

(广东工业大学计算机学院,广东 广州 510006)

0 引 言

在图像分类发展初期,大部分研究都是围绕着单标签图像分类任务进行开展,基于卷积神经网络(Convolutional Neural Network, CNN)的各类骨干网络在众多大型单标签图像数据集上已经达到较高的分类准确率,如AlexNet[1]、VGG[2]、GoogLeNet[3]和ResNet[4]等。而现实生活中的图像往往具有丰富的语义信息,无法使用单一标签对应图像中的所有实体、背景或属性,因此标签对于图像区域的关注程度是不一致的,而CNN 具有卷积核参数共享的特性,图像中的欧氏空间信息在CNN 进行特征提取时便难以与现实生活中不规则的语义拓扑结构所对应。

近年来,多标签图像分类的研究开始成为热点之一,同时也是一项具有挑战性的研究任务。多标签图像分类并不是单标签图像分类工作的简单叠加[5],图像的多标签可以在多个语义维度上对图片的内容和属性进行表达与概括,且标签与标签之间的语义通常具有一定的关联性,其丰富程度与完整性是单标签所不能比拟的。在具体应用上,多标签图像分类能够打破以往单标签图像分类的局限性,使计算机对图像的处理能够融入具体的语义空间。

1 相关工作

在多标签图像分类的相关研究中,传统的解决思路是基于卷积神经网络进行改进[6],从而使整体网络能够进行图像特征提取与标签语义关联的工作。针对图像标签间的依赖性与共现关系问题,Wang 等[7]利用循环神经网络(Recurrent Neural Network,RNN)对标签进行了处理,提出了CNN-RNN 框架用于学习联合图像标签嵌入;Zhang 等[8]使用完全卷积的定位架构,提出了区域潜在语义依赖模型RLSD,在识别小物体方面有突出的性能。随着图卷积网络(Graph Convolutional Networks, GCN)[9]的提出,许多学者开始陆续研究GCN 在多标签图像分类中的应用效果,通过建立标签的词嵌入表示以辅助分类。Chen 等[10]提出用于多标签图像分类的ML-GCN 模型,在标签上建立有向图,从而能够得到相应的语义拓扑分类。此外,为有效融合图像与标签的特征信息,Wang 等[11]引入了多模态分解双线性池化作为组件,提出了一种基于快速图卷积网络模型F-GCN,对多标签图像有较好的分类效果。

现阶段部分研究工作使用注意力机制[12]作为提升模型性能的有效手段,如Wang 等[13]通过堆叠注意力模块构建残差注意力网络(Residual Attention Network),从而使模块的注意力感知特征随层数的深入而自适应变化;Yan等[14]提出包含特征细化网络和相关性学习网络的特征注意网络(Feature Attention Network,FAN),构建自顶向下的特征融合机制来细化更重要的特征;Guo等[15]基于人类视觉感知的一致性,提出了原始图像与转换后图像作为输入的双分支网络,从而使网络获得注意力的一致性,还有CTran[16]和Q2L[17]等模型都有不错的性能表现。这些方法都能够有效地对标签信息进行建模,但在分类的泛化能力上仍有待提升。

关于多标签图像分类的相关工作大多聚焦于标签与标签之间特征的相关性研究,容易忽略图像多区域特征信息提取、图像实例特征区域与标签语义关系构建等重点问题[18]。为解决上述2 个多标签图像分类中的重点问题,本文提出基于双重特征注意力的多标签图像分类模型(Dual Feature Attention, DFA),主要工作如下:

1)构建图像特征注意力模块,提高模型对图像多区域特征信息的提取能力。

2)构建联合特征注意力模块,对图像特征与标签嵌入进行跨模态特征融合,提高模型对图像实例特征区域与标签语义的相关性学习能力。

2 模型与方法

2.1 模型结构

本文所提出的基于双重特征注意力的多标签图像分类模型如图1所示,主要由4个部分组成,分别是骨干网络、图像特征注意力模块(Image Feature Attention Block,IFAB)、联合特征注意力模块(Combined Feature Attention Block,CFAB)和分类器。

图1 基于双重特征注意力的多标签图像分类模型结构

首先,使用ResNet101[4]作为骨干网络对图像I进行特征提取,使用conv4输出,得到图像特征F∈RC′×H′×W′,其中C′为通道数,H′为特征图的高,W′为特征图的宽;然后,图像特征注意力模块将图像特征F进行空间注意力加权表征,得到带有多区域注意力信息的图像特征F′∈RC′×H′×W′;接着,将标签嵌入L∈RN×C′与图像特征F′输入到联合特征注意力模块中,得到带有图像特征联合标签语义注意力信息的标签嵌入L′∈RN×C′,其中N为多标签类别数,C′为标签特征维度,与特征图通道数相同;最后,把标签嵌入L′={l′1,l′2,…,l′N}输入到多通道独立分类器fpred={f1,f2,…,fN}中,得到结果P={p1,p2,…,pN},其中li∈R1×C′,pi∈R。具体过程可表示为:

2.2 图像特征注意力模块

图像特征注意力模块的目的是加强图像空间多区域特征信息的利用,在学习过程中增加网络对感兴趣区域特征的关注,以重点学习与标签对应的图像区域特征,其结构如图2所示。

图2 图像特征注意力模块

注意力机制提出之初多应用于自然语言处理领域中,利用多头自注意力模块使句子中的每一个单词都能够获取自身与该句子其它词汇之间的特征相关性。同样地,注意力机制应用于图像处理领域中,由于图像像素与句子单词的自然一维顺序不同,因此需要对图像像素添加位置编码,使注意力机制能够关注到图像的空间区域特征。

对图像特征注意力模块输入的图像特征图F添加位置编码PE ∈RC′×H′×W′,得到带位置编码的特征图FP∈RC′×H′×W′:

特征图经过Flatten 展平后输入Transformer Encoder 层学习图像多区域注意力信息,得到带注意力信息的特征图Fattn∈R(H′×W′)×C′:

其中,h是注意力头的数量,WO∈Rhdv×C′是多头注意力中的可学习权重参数,为缩放因子,和分别是对于给定输入FP的线性映射可学习权重参数。

可知,Fattn的每个特征信息都是通过注意力权重对FP加权求和得出,即:

此外,为加强该模块的学习泛化能力,避免网络性能退化,增强数据特征分布稳定性,添加Dropout、Residual和LayerNorm结构,具体地:

经过上述处理后,图像特征注意力模块可表示为:

2.3 联合特征注意力模块

图像特征与标签嵌入特征二者之间是属于跨模态特征,而在本文所研究的多标签图像分类任务中,图像特征实例区域与标签语义的相关性学习是影响模型分类效果的重要环节。联合特征注意力模块的目的是加强模型对图像特征与标签嵌入联合特征的利用,在学习过程中构建图像特征区域与对应标签嵌入的关联关系,其结构如图3所示。

图3 联合特征注意力模块

在2.2 节中,本文介绍了使用注意力机制对图像多区域特征进行关联性学习。同样地,在联合特征注意力模块中,使用注意力机制对图像特征信息与标签嵌入进行跨模态相关性学习,把图像多区域特征信息深度融合于标签嵌入中。在此过程,该模块也同样进行标签间的语义共现性学习,以增强多标签图像的分类效果。

图像特征与标签嵌入的数据分布不一致,进行注意力学习前需要对联合跨模态特征表征A进行标准化处理,以增强数据特征的稳定性。随后经过注意力学习可得到带有跨模态注意力信息的联合特征

在带有跨模态注意力信息的联合特征A′中,包含了图像特征与标签嵌入特征,且其中的标签嵌入特征已经学到了全局的关联关系,包括图像特征与标签嵌入的关联关系和各标签嵌入之间的特征语义共现关系。该部分标签嵌入特征用于后续分类器进行多标签分类预测。因此,带有图像特征联合标签语义注意力信息的标签嵌入L′∈RN×C′可由联合特征A′切片求得:

经过上述处理后,联合特征注意力模块可表示为:

2.4 损失函数

二值交叉熵(Binary Cross Entropy, BCE)损失函数是多标签分类任务中最常用的损失函数,在本文提出的模型中也同样适用。该损失函数衡量预测值与真实标签之间的差距,但在样本标签分布不均衡的情况下,BCE无法准确地表征模型的真实性能。为使模型能够更好地学习与收敛,本文模型使用非对称损失函数(Asymmetric Loss,ASL)[19],以提高多标签图像分类任务中正负样本不均衡情况下模型的性能表现:

式中,yk为真实标签值,pk为预测值,K为总类别数,γ+和γ-分别为正负样本损失对总体损失贡献的调节指数,在本文模型中设置γ+=0、γ-=4 以增强负样本对总体损失的贡献;pm,k称为概率转移,用于清除或减轻简单负样本对总体损失的贡献,使网络模型更关注于困难负样本,m为概率转移的调节参数,用于调节上述概率转移中清除或减轻贡献的程度,在本文模型中设置m=0.05。

3 实验与分析

3.1 数据集

为验证本文所提出模型的有效性,在多标签图像分类公开数据集PASCAL VOC 2007[20]和MS COCO 2014[21]上进行相关实验。

1)VOC 2007 数据集一共包含9963 张图片,其中训练集5011 张,测试集4952 张,分为20 个标签类别,各标签类别涵盖生活中常见的物体,例如飞机、汽车、猫、房子、人和沙发等,是用于评价多标签图像分类性能的基准数据集。

2)COCO 2014 数据集是一个大型图像数据集,包含82783 张训练图片和40775 张测试图片,共有80个标签类别,每张图片的平均标签类别为2.9个,常用于目标检测、语义分割和多标签图像分类等领域,能有效地验证模型的泛化性能。

3.2 评价指标

衡量多标签图像分类性能的好坏,最常用的评价指标是平均精度均值(mean Average Precision,mAP)。该评价指标是由数据集中各类的平均精度(Average Precision,AP)取平均求得:

其中,K为总类别数,APk是评价第k类数据在不同召回率r下模型精度pk(r)的性能表现,即:

此外,在多标签图像分类中也常使用类平均精度(Class Precision,CP)、类平均召回率(Class Recall,CR)、类平均F1 值(Class F1,CF1)和全局平均精度(Overall Precision,OP)、全局平均召回率(Overall Recall,OR)、全局平均F1 值(Overall F1,OF1)作为辅助评价指标:

3.3 实验环境与参数

3.3.1 实验环境

本文实验平台为Ubuntu 18.04 系统,处理器为48 核 Intel(R) Xeon(R) Platinum 8255C CPU @2.50 GHz,内存为172 GB,使用4 块NVIDIA Ge-Force RTX 3090 显卡加速训练,编程语言为Python 3,使用深度学习框架Pytorch进行相关实验。

3.3.2 实验参数

本文实验使用ResNet101 的预训练权重参数并在训练过程中对其进行微调。对于输入的训练图像先把分辨率统一调整为576×576,随后使用RandAugment[22]与随机水平翻转进行数据增强,最后进行标准化处理后输入骨干网络。在实验过程中,本文使用指数滑动平均策略(Exponential Moving Average,EMA)辅助模型训练,衰减参数设置为0.9;使用梯度累积增加批处理大小,其他实验参数及超参数的设置如表1所示。

表1 实验参数

3.4 结果分析

3.4.1 对比分析

为验证本文提出模型的有效性,选取相关主流模型进行对比实验分析。由于不同模型采用的评价数据集不完全一致,为避免实验误差,对于不同的数据集将选用不同的模型进行对比,以保证对比公平性。

在PASCAL VOC 2007 数据集中,本文模型将与RLSD[8]、HCP[6]、FAN[14]、SSGRL[24]、LDR[25]、MLGCN[9]、F-GCN[11]和P-GCN[26]进行对比,详细实验结果如表2所示。

表2 PASCAL VOC 2007数据集实验结果单位:%

本文所提出模型DFA 在VOC 2007 数据集上的mAP 达到了94.6%,超越主流算法模型。在各项标签类别的平均精度AP中,部分类别达到了较高的水平,例如Aero、Train 和Person 标签,分别为99.8%、99.3%和99.0%;此外本文模型DFA 共有12 项达到了最优,其中部分类别有较大的提升,例如Bottle、Table 和Cow 标签,相比最近提出的LDR 模型分别提升了6.4、3.6和2.6个百分点;其余未达最优的类别也能达到较高的平均精度。

在MS COCO 2014 数据集中,本文模型将与SRN[27]、FAN、ML-GCN、P-GCN、F-GCN、SSGRL、MCAR[28]、C-Tran、TDRG[29]和Q2L 进行对比。为准确对比各模型结构性能上的优异程度,此处所选对比模型的评价指标结果均以ResNet101 作为骨干网络得出,详细实验结果如表3所示。

表3 MS COCO 2014数据集实验结果单位:%

由表3 可知,本文模型DFA 在mAP、CF1 和OF1等主要评估指标上超越了现行主流的算法模型,相比基线方法C-Tran 分别提升1.6、1.4 和1.4 个百分点。基线方法C-Tran 的思想是使用注意力机制对图像特征与标签特征进行关联学习,搭建分类Transformer对跨模态特征进行融合,通过对输入的训练标签添加状态嵌入并进行掩码处理以提升模型泛化能力,但在图像特征提取中直接使用骨干网络输出的特征信息,缺乏对高阶图像特征的注意力关注。Q2L 模型的思想同样是使用注意力机制加强图像特征与标签特征的信息交互,通过Transformer Decoder 的交叉注意力把骨干网络输出的图像高阶特征指导标签的学习,但在一定程度上同样忽略了对图像多区域特征信息的提取,对于部分标签容易漏检或错检。本文所提模型的思路是通过注意力机制,构建图像特征注意力模块对图像多区域特征进行自注意力提取,加强对图像特征的学习,并构建联合特征注意力模块,使图像多区域特征与标签语义嵌入能够相互关联并融合。实验结果表明,本文所提模型更能有效地对图像多区域特征信息进行提取并与标签信息进行融合,分类平均精度均值达到了86.7%,相比同样使用注意力机制的C-Tran 和Q2L 有较大的提升,在整体性能表现与召回率上均取得最优结果。

3.4.2 结构参数分析

从本文模型与其他主流模型在2 个多标签图像分类数据集上的对比结果可以看出,本文模型已达到SOTA 性能。为研究本文模型中2 种特征注意力模块中层数的敏感性,探究最优的模型结构参数,设置2项对比实验。首先把联合特征注意力模块中Encoder的层数n设定为3,分别验证图像特征注意力模块中Encoder的层数m从1~4时的性能表现,结果如图4所示。

图4 mAP在不同图像特征注意力模块层数中的性能变化

可以看出,当图像特征注意力模块中Encoder 的层数m=3时,模型的性能表现最好。而在设置不同层数时,模型的性能表现波动不大,差距较小,表明该模型结构参数灵敏度较低,具有较好的健壮性。

同样地,把图像特征注意力模块中Encoder 的层数m设定为3,分别验证联合特征注意力模块中Encoder 的层数n从1~4 时的性能表现,结果如图5 所示。联合特征注意力模块中Encoder 的层数n=3 时,模型性能也取得最大值,各层值间表现相当。

图5 mAP在不同联合特征注意力模块层数中的性能变化

综上,本文模型在图像特征注意力模块和联合特征注意力模块层数均为3 时取得最优结果,各结构参数宽容度高,表现出较好的鲁棒性。

4 结束语

多标签图像分类是一项具有挑战性的任务,本文提出了一种基于双重特征注意力的多标签图像分类模型,通过构建图像特征注意力模块和联合特征注意力模块,解决现行算法中过度关注标签依赖性和图像多区域特征与标签语义难融合等问题。在公共数据集PASCAL VOC 2007 和COCO 2014 上的实验表明,本文模型性能优于现有方法,注意力机制对图像区域特征与跨模态特征的关系构建融合行之有效。但本文模型对多标签图像分类中存在的正负样本不均衡问题仍然考虑不足。标签样本不均衡会影响模型的学习能力,对学习过程造成干扰。下一步将对此问题进行深入研究,如改进注意力模块或重构损失函数等。

猜你喜欢

注意力标签语义
让注意力“飞”回来
语言与语义
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
“上”与“下”语义的不对称性及其认知阐释
标签化伤害了谁
基于多进制查询树的多标签识别方法
认知范畴模糊与语义模糊