APP下载

全局跨层交互网络学习细粒度图像特征表示

2024-04-29张高义

计算机与现代化 2024年3期
关键词:细粒度池化集上

张高义,徐 杨,2,曹 斌,2,石 进

(1.贵州大学大数据与信息工程学院,贵州 贵阳 550025;2.贵阳铝镁设计研究院有限公司,贵州 贵阳 550009)

0 引 言

学习鲁棒的特征是细粒度图像识别任务的关键,设计识别细粒度图像中差异性特征是提高鲁棒性的核心[1]。到目前为止,出现了许多优秀的方法来解决这个困难的问题:定位-识别框架[2]、端到端特征编码[3]和外部信息辅助[4]等。尽管这些方法都取得了一定的成效,促使细粒度图像识别也被用于生产实践中,如商品识别[5]和植物病害识别[6],但是由于细粒度图像的视觉相似性高和领域特异性高使得开发鲁棒的分类模型仍然具有挑战性。

本文通过对以往高阶编码系统分析,发现这类方法具有2 个关键特性:1)模型基于端到端[7]策略,且只使用容易标注的类别标签(弱监督),而不使用那些难以标注的边框标签;2)模型基于高阶特征编码,即通过端到端学习高维度向量以存储、表示细粒度图像特征。

Lin 等人[8]设计的双线性卷积神经网络(Bilinear Convolutional Neural Networks,B-CNN)提出将端到端高阶特征编码应用于FGVC 任务,且由于B-CNN具有结构简单、性能优异的优点,被更广泛地使用和拓展。具体来说,B-CNN通过对2个独立的卷积神经网络的最后卷积层上的特征以外积运算相互作用,进行成对的聚合,以发现细粒度图像中不同的关键区域;然而,B-CNN 忽略了中间卷积层特征,容易导致信息丢失,并且由于B-CNN 将2 个不同视觉特征进行聚合,导致学习到的图像特征十分复杂,在分类层需要优化大量的参数,这也是模型收敛慢、且易出现过拟合的主要原因。综上所述,B-CNN至少存在3个缺点:1)关键信息易丢失;2)训练过程收敛慢;3)易过拟合。其中缺点2和缺点3可以归结于编码特征冗余问题。

为了解决关键信息易丢失问题,Yu 等人[9]提出了分层双线性池化(Hierarchical Bilinear Pooling,HBP)框架,将额外的中间卷积层与最后一层卷积层特征通过简单的哈达码积计算层间特征交互。本文通过大量的实验发现,HBP这种哈达码积交互方式能够抑制大量冗余信息,使同一张细粒度图像特征矩阵(向量)是稀疏的,稀疏性能够缓解过拟合、加快收敛速度[10],因此HBP 一定程度上一并解决了B-CNN 存在的过拟合和收敛慢的问题。此外,为了进一步抑制冗余的出现,Tan等人[11]构建的HBPASM 通过在HBP基础上构建掩码模型学习感兴趣区域特征表示。虽然HBPASM 通过进一步抑制干扰信息在分类精度上获得了更好的提升,但遗憾的是HBPASM 并没有考虑将掩码机制应用于B-CNN,以消除B-CNN 中的特征冗余。

尽管HBP 是有效的,但现有的HBP 及其变体至少还存在3 点局限性:1)在卷积激活上只进行层间特征交互,这种交互方式不仅忽略了有价值的层内特征相关性,而且还涉及不可靠的部分响应[12];2)单一的3层中2层特征层间交互不足以最大化抑制掉冗余信息,即HBP 仍会存在很多干扰,这也是为什么HBPASM 取得更好效果的原因;3)HBP没有考虑将这种交互与现有的注意力机制结合,以抑制中间卷积层的干扰信息。

最新的研究包括Tan 等人[12]提出的HQP 模型将层间特征交互,取得了一定的效果,但是由于其是基于HBP 的,冗余现象仍存在。为了解决这些挑战性问题,本文从提高模型鲁棒性、增强抑制背景信息的能力出发,开发一个通用、端到端和仅使用类别标签的细粒度特征学习框架[13]用于FGVC 任务。表1 列出了与本文相关的一些池化方法之间的对比,进一步说明本文研究的必要性。表1 中Top-1 准确率一栏,除B-CNN 使用的骨干网络为VGG-D 外,其余均为ResNet-34。

表1 本文相关的池化结构对比

具体来说,本文提出一种新的分层双三次池化(Hierarchical Bicubic Pooling,HCP)[14]方法用于FGVC 任务。该方法结合分层双二次池化(Hierarchical Biquadratic Pooling,HQP)[15]的思想,并将HQP中的HBP 模块用分层三线性池化(Hierarchical Trilinear Pooling,HTP)[16]模块代替;由于HTP 在HBP的基础上加了一层,使得干扰信息进一步被抑制,定位关键区域的能力更强。但是HTP 并没有考虑到层内特征交互,分层双三次池化进一步实现了HTP 与层内交互的聚合,实现了抑制冗余和对学习到的关键信息充分使用的目的。并且通过实验发现,HCP能够达到抑制背景信息的同时实现了稀疏编码,解决了B-CNN存在的3个问题。另外,考虑到层间交互的有效性,本文将哈达码积这种简单有效的交互方法与现有的通道注意力机制有效结合,并嵌入到端到端残差学习框架中,解决了2 个关键问题:1)粗粒度领域的通道注意力机制无法应用于FGVC 任务中;2)提升特征提取能力。

1 全局跨层池化模型

由于本文研究基于HBP 和HTP,因此本章首先简要回顾HBP 和HTP,并讨论几个与本文相关的模型,以阐明:1)如何构建分层双三次池化及其计算公式;2)如何将HBP 中的跨层双线性池化融入到现有的注意力机制中。图1 展示了提出的融合HCP 和将HBP 与现有注意力机制结合形成的全局跨层(Global Cross-layer Interaction,GCI)网络结构[17]。

图1 提出的全局跨层交互网络计算流图

1.1 分层池化模型

1.1.1 分层双线性池化

HBP 由多个卷积层的激活特征相互交互构造而成,其输出o定义为:

式中,o表示输出向量,P表示分类矩阵。x、y和z是从多层卷积层提取的特定空间位置定义的c维描述符。C定义为特征拼接操作。是跨层双线性池化(Cross-layer Bilinear Pooling,CBP)[9]操作,如果x=y,定义为因子双线性池化(Factorized Bilinear Pooling,FBP)[9],FBP输出定义为:

式中,x⊗x=xxT,用F(·)表示,定义为传统双线性操作[8],由此可以推导出跨层双线性池化CBP的计算公式为:

式中,⊙和⊗分别表示哈达码积(Hadamard Product)和外积(Outer Product)。U∈ℝc×d和V∈ℝc×d是用于获得d维池化特征的投影矩阵(Projection Matrix)。

HBP 的设计理念:假设使用ResNet[18]作为骨干网络,x和y定义为倒数第二层和最后一层的特征描述符,并且它们的维度均相等。由残差定义y=R(x) +x,R(·)表示由卷积层、归一化层和激活层组成的权重层(weight layer),因此,y有着比x更大的感受野,哈达码积的计算公式为:

式中,元素yi,j是由多个xi,j计算得来的,因此计算不同层之间的哈达码积其实是不同感受野的特征的交互;另外由式(4)可以看出,2 个矩阵中若其中一个矩阵的一个位置上的元素为0,那么交互后这个位置上的特征就为0,这种机制能够有效抑制干扰信息。

1.1.2 分层三线性池化

HBP 效果好的原因在于:1)不同感受野信息融合;2)不同特征间计算哈达码积抑制了冗余信息。Wang等人[16]通过对比双线性池化和三线性池化[1]结构,提出了HTP,事实证明,HTP 对FGVC 任务更有效。分层三线性交互公式为:

式中,表示因子三线性池化(Factorized Trilinear Pooling,FTP),输出定义为:

式中,x⊗x⊗x=xxTx,用T(·)表示,定义为传统三线性操作[1],S∈ℝc×d为投影矩阵。

由公式(6)可以看出,HTP 在HBP 的基础上,参照传统的三线性池化,构建一个比HBP 多一层的分层三线性交互层,进一步将不同感受野的特征融合,在FGVC 领域取得了更好的分类效果。尽管HTP 是有效的,但是HTP 至少存在2 点局限性:1)过多抑制信息,使关键信息也被抑制;2)无法将同一个特征的层内交互信息有效应用。

本文在系统分析了这些交互方式后,结合HQP的思想,对不同交互模型做了一系列对比,提出一种平衡提取鉴别信息和过滤冗余信息能力交互方式,即HCP,实现了稳健的交互。

1.2 分层双三次池化

1.2.1 层内层间交互模型

分层混合池化(Hierarchical Hybrid Pooling,HHP)[12]将相同的几层特征对应的FBP和CBP的输出串联,直观地集成层内和层间交互,HHP的输出定义为:

尽管HHP 是有效的,但HHP 的层间交互和层内交互是相互独立的,不能做到相互关联和加强。为此,Tan 等人[12]在HHP 的基础上进一步改进,提出分层双二次池化HQP,合理地整合了层间交互和层内交互,使层间交互和层内交互强关联。HQP 首先计算不同层特征的哈达码积实现层间交互,接着计算层间交互输出的外积实现层内交互,其输出表达式为:

HQP 比HBP 具有更好的分类性能,但它仅利用从高卷积层提取的多个高阶单尺度特征进行交互。但是这些单尺度特征的感受野差别不大,通常在视觉上彼此相似,包含的互补信息很少,仍然包含大量冗余信息。为此,本文构建了一种能够平衡提取鉴别信息和过滤冗余信息的交互方式。

1.2.2 HCP公式

首先考虑构建HFP(Hierarchical Factorized Pooling),HFP将HTP和FBP的输出串联,其输出定义为:

虽然HFP 是高效的,但仍然存在独立交互问题。层内和层间特征的相互作用是相互关联、相互加强的。为此,本文提出一种统一的特征交互方式,即分层双三次交互池化HCP,HCP输出定义为:

式(10)称为分层双三次池化操作。图2 为不同的池化模型,与其他算法相比,本文提出的HCP 能更好地捕获特征相关性,至少有2 个原因:1)双三次池化从每个特征图中提取三阶交互信息,这种高阶池化利用更充分、更稳定的交互方式发现了更好的特征相关性;2)三阶池化在二阶池化的基础上增加了一层,使交互包含更广泛的感受野特征,平衡了提取鉴别信息和过滤冗余信息的能力,这对FGVC是有利的。

图2 HCP与其他池化结构的对比

1.3 分层双三次池化合理性分析

HBP 用哈达码积计算图像不同特征层之间的交互,在FGVC领域取得了成效。1.1.1节对HBP原理及其有效性进行了分析,本节将在此基础上分析本文设计的HCP的合理性。

首先,B-CNN 及其变体将同一个或参数共享的深度卷积神经网络的输出做外积,实现了层内交互,乃至基于二阶协方差的iSQRT-COV[19]工作,也是层内交互的。HBP 认为B-CNN 这种只使用顶层特征的方式不足以包含所有的信息,于是将同一个深度卷积神经网络的不同层的输出之间用简单的哈达码计算模拟交互过程,实现了层间交互。HQP 认为,单一的层间或层内交互存在信息交互不完全的缺点,于是将HBP 与FBP 相结合,实现了层间层内交互。因此,可以得出层内交互、层间交互、和两者结合之间的有效性是递增的,但是HQP、HBP 都只是在2 个层之间做交互,且都是弱交互的。原因如下:

1)表1 对比分析了不同池化结构的抑制干扰能力,事实表明,在交互层数为1~3 层时,层数越多,抑制效果越好;但是Wang等人[16]验证了4层交互,发现效果与3层几乎一致,这表明,3层交互已经达到最佳抑制效果,继续增加交互层已然无法进一步增加效果,也即跨层交互中HTP 是上限,无法再通过增加层的方式实现更优性能。

2)在图3 中HCP-1 表示交互前的单层特征图,HCP-2 表示2 层交互特征图,HCP 表示3 层交互特征图,HCP-4表示4层交互特征图,能够发现:①单层特征图(类比B-CNN、FBP)含有大量的冗余信息;②2层交互(类比HBP、HQP、CBP 等)仍然存在干扰信息,这对FGVC 往往是不利的;③3 层交互几乎能够完全抑制干扰信息,并保留关键区域;④4 层交互由于需要5 层特征之间交互,因此会带来计算量大幅增加和过度抑制的问题,为了权衡计算量与分类精度,本文采用3层交互HTP作为交互框架。

图3 HCP不同交互方式的特征图可视化

1.4 交互注意力机制

在复杂的场景中,人类能够自然而有效地找到引人注目的地方。受此观察的启发,注意力机制被引入到计算机视觉领域[20]。分层双线性池化HBP 构造的思想是通过不同感受野的特征相互作用以抑制背景干扰。因此,本文考虑将HBP与现有的注意机制相结合。

在ResNet 中,前一个特征感受野较小,后一个特征感受野较大的特点可以通过将HBP 与注意力机制相结合并嵌入ResNet 以增强注意力机制定位和抑制干扰能力。图4 展示了如何将HBP 这种交互的思想引入到通道注意力机制这一过程,右图的特征提取网络(Feature Extraction Network,FEN)[21]描述了如何将SENet 与交互思想结合并嵌入到ResNet-34 中,当然注意力机制的选择还可以包括但不限于SENet[20]、GSoP-Net[22]和ECA-Net[23]等。

图4 提出的IAM与SENet融合结构图

假设使用的通道注意力机制计算过程用符号CA表示,以ResNet[18]作为骨干网络,由残差对应的输入输出关系定义y=R(x)+x,那么将HBP 模块与通道注意力机制融合后输出变为:

2 实 验

本章对GCI 及其包含的2 个模块进行广泛的验证。首先,介绍参数设置;其次,重点评估不同的设置对模型的影响以及几种常见池化方式的对比,以选择合适的模型;最后,将GCI与最先进的方法进行比较,并对模型可解释性进行分析。实验在配置为Intel(R) Xeon(R) Gold 6330 CPU@2.00 GHz 和单个RTX 3090 GPU 的服务器上进行,使用的深度学习框架为Pytorch1.9.0。

2.1 数据集及参数设置

2.1.1 数据集

在3 个细粒度基准数据集上,即CUB-200-2011[24]、Stanford-Cars[25]和FGVC-Aircraft[26],评估本文提出的模型。表2统计了数据集的信息。

表2 实验使用的细粒度基准数据集

CUB-200-2011 由加州理工学院于2010 年发布,是细粒度图像识别研究领域的基准数据集。数据集中有11788张鸟的图像,包括200个子类,将其划分为训练集5994张和测试集5794张。每张图像都提供了图像类别标签。另外2 个数据集由不同的机构发布,也是细粒度基准数据集。

由于数据集归一化尺寸不同会给实验结果带来不同的影响,因此本文研究与HBP[9]和HQP[12]做类似的归一化处理,将每个数据集对应的图像归一化为固定大小,即对于CUB-200-2011、Stanford-Cars 和FGVC-Aircraft 中图像分别归一化为600×600、500×500和500×480。

2.1.2 参数设置

本文研究使用ResNet 作为骨干网络,并在ImageNet上进行预训练,删除原始的全连接层,并将全局平均池化层用HCP 替代。值得注意的是,在ResNet中间加入交互注意力机制的位置与SENet[20]一致。训练采用先冻结骨干网络参数训练池化层和分类层,最后微调全部参数。即:1)冻结阶段,初始学习率为1.0,使用动量参数为0.9、权值衰减为1E-5 的SGD 优化算法优化池化层和分类层参数,训练80 个周期,每40 个周期学习率衰减10 倍;2)微调阶段,特征提取层初始学习率为0.01,池化层初始学习率为0.1,使用动量参数为0.9、权值衰减为1E-5 的SGD 优化全部层参数,训练160 个周期,且每40 个周期学习率衰减10 倍。使用FGVC 任务最常用的准确率作为评价指标。

2.2 HCP池化模块评估

为了简单、清晰地展示HCP 池化结构的有效性,本文研究在3 个细粒度基准数据集CUB-200-2011、Stanford-Cars 和FGVC-Aircraft 上进行对比实验,以评估HCP 的有效性。主要从2 个角度分析HCP 的有效性:1)比较HCP和其他池化结构在3个基准数据集上的准确率、在数据集FGVC-Aircraft 上单次训练耗费的时间(Tr-Time);2)将本文研究衍生模型与HCP对比,一方面是为了说明HCP 的有效性,另一个方面是分析为什么选择HCP的原因。

2.2.1 HCP和其他池化结构对比

表3 对比不同池化结构的结果及在FGVCAircraft 数据集上训练时间。其中FBP 使用conv5_3层;mFBP(m=4)将conv4_6、conv5_1、conv5_2 和conv5_3 这4 层特征的层内交互的拼接作为细粒度图像的特征;CBP 使用conv5_3 和conv5_2 做层间交互计算得到细粒度图像特征;HBP 使用conv5_3、conv5_2 和conv5_1 两两交互后拼接作为细粒度图像特征;HQP 使用conv5_3、conv5_2 和conv5_1,先计算HBP层间交互,再计算FBP 层内交互;HTP 使用conv5_3、conv5_2 和conv5_1 这3 层交互作为细粒度图像特征;mHTP 使用conv5_3、conv5_2、conv5_1 和conv4_6 每3层交互并拼接作为细粒度图像特征;HCP使用conv5_3、conv5_2、conv5_1 和conv4_6 这4 层先计算HTP 层间交互,再分别计算输出的FBP交互。

表3 不同池化模型的Top-1准确率和模型单个训练周期耗费时间对比

1)HCP性能定量分析。

表3 比较了基本的分层双三次池化HCP 与其它池化结构(FBP、mFBP、CBP、HBP、HQP 和HTP)的有效性和计算效率。表3 中所有池化结构均采用ResNet-34作为骨干网络。

最后,HCP 使用的计算方式为2 个特征之间的点乘,其输出与输入维度一致,均为2048,因此HCP 的维度是8192,而B-CNN 的维度是256×103,相比之下,HCP 维度更低,能够有效避免过拟合和收敛慢的问题。

通过观察表3 前4 列有效性对比,可以得出以下几点结论:1)mFBP的性能优于FBP,说明了中间层具有互补作用,互补功能能够帮助模型提升分类效果;2)CBP略优于mFBP和FBP,说明层间交互有效;3)在3 个数据集上,HQP 比FBP 和HBP 分别高出约2 和1个百分点,这说明层间层内交互结合优于层内交互和层间交互单独使用;4)mHTP 优于HTP,说明多层交互并拼接比单独的3 层间交互更有效;5)mHTP 优于HQP,但是HTP 精度略低于HQP,再结合图3,可以发现聚合3 层交互抑制效果更好。另外,通过观察HCP的3 层交互的输出特征,发现输出大多是稀疏的,在输入到分类层时,稀疏往往能够缓解过拟合[10]。鉴于这些结论,HCP取得最优的效果是合理的。

通过观察表3 最后一列的统计结果,说明尽管HCP 在HQP 和HBP 的基础上增加了一层进行交互,但是计算效率受影响并不是很明显,也进一步说明了HCP可用性。

2)可视化分析。

本文研究将HTP 和HCP 模型中外积之前的交互特征图可视化。如图5 所示,2 个特征差异并不是很明显,因此,本文任务造成2 个模型效果存在差异的原因在于是否使用层内交互。

图5 HCP与HTP的特征图对比

2.2.2 本文设计思路衍生模型的结果对比

在设计HCP时,本文研究分析了不同的融合方式以获得最好的效果,图6 描述了本文研究构建的一个衍生模型,名为H(B+T)P,探索全层间交互是否有效。表4 列出了几个池化结构在数据集FGVC-Aircraft 上的分类结果。从表4 可以看出,H(B+T)P 以2 次交互获得比HTP和HBP更好的分类效果,但是增加并不明显,进一步说明了在HTP 中加入层内交互是必要的。表4中所有模型的骨干网络均为ResNet-34。

图6 HBP+HTP池化结构图

表4 本文研究设计的衍生模型效果对比

2.3 IAM评估

为评估IAM的有效性,本文进行一系列的消融实验,并将结果汇总至表5。由于注意力机制SENet 在常规分类任务中一般使用的是ResNet-50 作为骨干网络,因此,表5中所有实验结果均采用的是ResNet-50,数据集使用FGVC-Aircraft。其中SENet表示骨干网络为SENet[20],池化层为全局平均池化;HCP 表示骨干网络为ResNet-50,池化层为HCP;HSENet(HCP+SENet)表示骨干网络为SENet,池化层为HCP;IAM-SE 表示骨干网络为融入IAM 的SENet,池化层为全局平均池化;最后,GCI50 表示骨干网络为IAM-SE,池化层为HCP。

表5 IAM效果评估对比

由表5 可以看出,SENet 应用于FGVC 任务并不能实现很好的效果,将SENet 的平均池化层改为HCP,精度能够提高7.3 个百分点,将IAM 融入SENet能够提高2.5 个百分点,将2 种融合能够实现最好效果93.6%,GCI50 相比SENet、HSENet 和IAM-SE 精度分别提升了8.4、5.1 和5.9 个百分点,效果提升显著,说明将IAM-SE与HCP融合是有效的。

图7 为GCI 和HCP 特征可视化对比图,进一步说明HCP 融入IAM-SE 后能够识别到更多具有鉴别性的特征。

图7 GCI和HCP特征可视化对比

2.4 GCI评估

2.4.1 GCI使用不同骨干网络效果评估

表6 统计了GCI 使用不同骨干网络的效果,可以看出,不同的骨干网络对模型精度影响较大,在FGVC-Aircraft 数据集上,使用ResNet-34 时,GCI 较HCP 仅提升了0.2 个百分点,提升不明显;当使用ResNet-50 作为骨干网络,由表5 可以看出,HCP 的准确率为92.5%,加入IAM-SE 后,提升至93.6%,获得了1.1 个百分点的改进。造成这种差距的原因在于注意力机制在通道数较少时,效果并不显著[20],而ResNet-101 的最大通道数与ResNet-50 一致,故将骨干网络改为ResNet-101 并不会继续获得很大提升。鉴于计算效率考虑,使用ResNet-50 是合理的选择。

表6 GCI使用不同骨干网络效果评估

2.4.2 GCI与相关模型及最新模型结果对比

本文对比与本文研究相关的一些模型,包含:1)层内交互的B-CNN[8]、iSQRT-COV[19];2)基于层间交互的HBP[9]、HBPASM[11]、HTP[16];3)融入层间层内交互的HQP[12]和MSHQP[12];4)基于用于FGVC 的特定注意力机制AC-Net[27]、TASN[1]和AP-CNN[28]。注意,表7 中用Birds 表示CUB-200-2011,Cars 表示Stanford-Cars,Aircrafts 表示FGVC-Aircraft,如无特殊说明,均按此顺序排列。

表7 不同方法在3个实验数据集上的结果对比

首先是与基于双线性池化的方法进行比较,这类模型是层内交互的。GCI50 较B-CNN 在3 个数据集上分别提升了4.1、4.1 和9.5 个百分点,提升非常明显,较iSQRT-COV 而言,Birds 数据集上精度一致,在Cars数据集和Aircrafts数据集上分别提升了1.9和3.6个百分点,说明GCI这种融入交互注意力机制和层间层内交互的架构是有效的,能够取得比单一的层内交互更好的效果。

其次是与基于层间交互的模型比较。GCI50在3个数据集获得相比HBP50 分别提升了2.1、1.8 和2.5个百分点,相比HBPASM 分别提升了0.9、0.5和1.2个百分点,相比HTP(ResNet-34)分别提升了2.0、2.4 和2.9个百分点。

然后是与基于层间层内交互的模型比较。GCI50 较双二次池化HQP 在3 个数据集上分别提升了1.6、1.8 和2.5 个百分点,与融入特征选择的双二次池化MSHQP 在Birds数据集上获得几乎一致的精度,在Cars 和Aircrafts 数据集上分别提升了0.4 和0.9 个百分点,说明交互注意力机制有效。

最后是与基于注意力机制的模型比较。GCI50在Birds 和Cars 数据集上与AC-Net 实现了几乎一样的效果,但是在Aircrafts 数据集上,提升了1.2 个百分点;较TASN在Birds和Cars上分别提升了0.2和0.9个百分点;与AP-CNN 相比,在Birds 数据集上低了0.3个百分点,但是在另外2 个数据集(Cars 和Aircrafts)上分别提升了1.1 和1.4 个百分点,说明在Birds 数据集上,GCI 并不是绝对有效的,这跟Birds 这个数据集太过复杂有一定关系,但是GCI101 与AP-CNN 在Birds上结果对比,能够实现几乎一致的精度。

综上所述,本文提出的GCI 能够有助于找到那些相似子类别间细微的差异区域;此外,跨层交互注意力机制能够帮助改善常规通道注意力机制在FGVC 领域的全局建模能力,有利于学习到更有效的鉴别特征。

3 结束语

本文提出了一种新的全局跨层交互网络,即GCI,用于细粒度图像分类。其中包含一个双三次池化发现更好的特征相关性,一定程度上解决了双二次池化背景复杂、尺度小的问题。交互注意力机制将SENet 这类通道注意力机制成功用于细粒度图像分类任务,并将双三次池化与交互注意力机制有效融合,在3 个细粒度基准数据集上评估了设计的网络,并与一些相关的池化结构和相关的模型进行了对比,GCI 实现了同类模型的最优效果。今后,将集中分析几个有待解决的问题:1)利用更大的数据集(如ImageNet)预训练本文模型,并在细粒度图像分类任务上进行微调;2)利用多模态数据集提高性能;3)应用于其他领域,如语义分割、小样本图像识别和对比学习等。

猜你喜欢

细粒度池化集上
面向神经网络池化层的灵活高效硬件设计
基于Sobel算子的池化算法设计
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
卷积神经网络中的自适应加权池化
细粒度的流计算执行效率优化方法
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
基于卷积神经网络和池化算法的表情识别研究
基于双线性卷积网络的细粒度图像定位
复扇形指标集上的分布混沌