融合自注意力和卷积的图像检索技术

2023-07-21曾凡锋

计算机技术与发展 2023年7期

曾凡锋,王祺

(1.北方工业大学,北京 100144;2.北方工业大学信息学院,北京 100144)

0 引言

最近,Transformer已成功用于许多自然语言处理(Natural Language Processing,NLP)任务,还用于图像分类的核心计算机视觉任务。自注意力模型是Transformer中的一个标准工具,能在长序列中学习丰富的关联特征层次,构成全局表示,但忽略了局部特征细节。尽管取得了显著的成功,卷积运算和自注意力仍然有其不足之处。为了解决卷积神经网络(Convolutional Neural Network,CNN)存在建立长距离依赖关系的问题,一种简单的方法是将CNN中最后一层卷积用自注意力层来取代,学习数据中关键信息,使得模型能够更加准确地判断。目前已经有一些基于注意力的图像检索和基于视觉Transformer的图像检索,该文是将Transformer中的自注意力模块融合到卷积神经网络,提高图像检索的精度。

该文提出一种卷积与自注意力相融合的网络结构,将基于CNN的局部特征与自注意力相融合,提取图像特征,以增强图像检索效果。考虑到CNN和自注意力之间的特征错位,将利用1×1卷积对齐通道尺寸,利用向下、向上采样策略对齐特征分辨率,利用Layer Norm和Batch Norm模块对特征进行正则化,这种融合过程可以极大增强局部特征的全局能力和全局表示的局部细节,以提高检索精度。

综上所述,该文的贡献主要有以下两点:

(1)将自注意力模块与卷积模块相融合应用于图像检索任务中,使各个特征与相邻的局部特征进行交互,以改善基于CNN的图像检索方法中存在的问题。

(2)在自注意力与卷积连接处,设置一个单元消除它们之间失调的问题,更好地将局部特征与全局表示进行耦合。在保证特征提取能力的情况下,尽量减少模型的计算量,增加模型的鲁棒性。

1 相关工作

1.1 卷积神经网络

基于内容的图像检索(Content Based Image Retrieval,CBIR)方法通常利用CNN提取图像特征,进而计算特征之间的相似度。由于CNN可以利用大量训练数据学习到特征,大多数基于CNN的图像检索方法利用最后一层卷积层输出的特征图生成图像特征进行检索。在深度学习时代,CNN可以接收不同领域的特征的分层集合,但是,大多数CNN[1-4]擅长提取局部特征,难以获取全局线索。

为了解决这个问题,一种解决方案是通过引入更深层次的体系结构或者更多的池化操作。扩张卷积方法增加了采样步长,而变形卷积学习采样位置。SENet[5]和GENet[6]提出使用全局平均池化层聚合全局上下文,然后重新加权特征通道,而CBAM[7]分别使用全局最大池化和全局平均池化在空间和通道维度上细化特征。

外国语学院在第二课堂育人体系建设方面统一规划，围绕社会的需求和人才培养目标设计第二课堂的具体内容，积极营造英语学习氛围，开展外语第二课堂活动（英语综合技能大赛、英语角、英文歌曲大赛、英文话剧大赛、“校长杯”英语演讲大赛等），引导学生参加各类校园文化活动和社会实践，发挥第二课堂的育人功能，培养学生的专业实践技能和创新精神，切实提高学生的语言实际应用能力和创新能力。

在这里,介绍一下Transformer的自注意力的一般公式,如图2(a)所示。自注意力模块输入的张量为X∈RC×H×W,其中C是通道数量。对于X,自注意力模块通过以下公式计算,得到相应的新特征:

另一种解决方案是自注意力模型,它在NLP中捕获长距离特征方面显示出巨大的优势。自注意力增强网络[8]将卷积特征映射与自我注意特征映射串联起来,增强卷积运算以捕捉远程交互。BoTNet网络[9]是一种简单且功能强大的backbone,该架构将自注意力纳入了多种计算机视觉任务,包括图像分类、目标检测和实例分割。通过仅在ResNet的最后三个bottleneck blocks中用全局自注意力替换空间卷积,并且不进行其他任何更改,同时还减少了参数,从而使延迟最小化。Conformer网络[10]做了两个分支,分别是卷积分支和Transformer分支,在并行的同时还互相补充。

2)以风力为动力来源的纯机械式提水设备，由于只进行一次能量转换，在当前离网牧区具有很强的竞争力。而以风电、光电为动力来源的电动提水设备，因采用储能设施，按每两年更换一次铅酸蓄电池计，使用后期的投入加大，若无财政补贴，牧民用户负担加重。由此相比较，风力提水设备的性价比较高。

尽管取得了进展,但向CNN引入全局线索仍然存在缺点。对于第一种解决方案,更大的感受野需要更密集的池化操作。对于第二种解决方案,如果卷积运算没有与自注意力机制正确的融合,很难获取更细节的局部特征。

将人类与自然、当下与未来都包含在自身之内的“天下”观是传统儒家天下思想的现代形态，这种新的天下观将赋予了人类新的情怀和使命，要求我们超越狭隘的自我，超越当下，以一种悲悯的忧患意识和智慧的理性自觉构筑起防范技术风险的“围墙”，以“所有存在的善好与共生”为目的，承担起人类因自己的行为而可能产生的道德责任。

1.2 自注意力模型

自注意力源于NLP是一种特殊的注意机制。由于它能有效地捕捉长距离依赖性和适应性,因此在计算机视觉中发挥着越来越重要的作用。各种深度自注意力网络[11-14]在不同的视觉任务上取得了比主流CNN更好的性能,显出基于自注意力模型的巨大潜力。Vaswani等人为机器学习翻译引入了Transformer架构[15],它完全依赖于自注意力和多层感知机(Multilayer Perceptron,MLP),它为几个NLP任务提供了最先进的性能[16-17]。在计算机视觉领域,已经有几次尝试将各种形式的注意力与卷积融合,例如与卷积结合[18]或替代卷积[19],其他方法在卷积主干顶部利用Transformer进行检测[20]。

从Transformer的自注意力中得到启发,在各种NLP任务中不断取得令人印象深刻的表现,在视觉场景中自注意力也被广泛应用。

1.3 基于Transformer的图像检索

Transformer在自然语言处理以及最近的图像分类方面成果显著。IRT[23]提出了一种基于视觉Transformer的图像检索方法,与基于卷积的方法相比,视觉Transformer具有显著的改进,在特定的对象检索方面具有竞争力,尤其是在短矢量表示和低分辨率图像的情况下。Transhash[24]提出了一个纯粹的基于Transformer的图像检索框架。为了学习细粒度特征,在Transformer的基础上创新了双流特征学习,以学习有区别的全局和局部特征,此外,采用动态构造相似矩阵的贝叶斯学习方案来学习紧凑的二进制哈希码,整个框架以端到端的方式进行联合训练。

上文提及的基于视觉Transformer的图像检索方法已经获得了一定的图像检索效果,但Transformer的复杂度较高,计算量较大。

第三，服务与品牌管理。在中小零售企业电子商务商业运营模式建立和运行过程中，要想维持企业和客户之间的关系，就要突出企业的竞争优势，并且企业要在设计实际运行体系的过程中充分考量服务结构，提高品牌的社会市场辨识度，从而提升客户的忠诚度，促进企业利润的全面优化。

2 文中方法

2.1 模型网络结构

该文将Transformer中的自注意力应用在图像检索方法上,通过训练模型结构,使得模型能够提取到更加有效的特征图。在卷积神经网络的卷积层之后添加自注意力模块。当图像输入到模型时,首先经过卷积得到局部特征,再将特征输入到自注意力模块中,自注意力模块再对其特征获取全局信息,得到一个新的特征图,最后将新特征图展平输入到全连接层中,再对该特征进行相似度计算即可得到最终的检索结果。所采用的网络结构如图1所示。

图1 网络结构

2.2 改进的自注意力模型

Dosovitskiy等人[21]提出的视觉Transformer模型是基于Transformer方法在图像分类任务上匹配甚至超越最先进卷积模型的第一个例子。之后,进一步改进是Swin Transformer[22],引入CNN中常用层次化构建方式构建层次化Transformer,设置了窗口内的自注意力,可以减少计算复杂度,但限制了窗口之间的交互。大量的将之前运用在CNN网络结构上的思路引入Transformer结构中,这是现在Transformer工作的一个思路。

(3)完善保险业服务体系建设。坚持高标准保险机构布局，保险机构应加大网点建设力度，密切关注恩施州经济社会发展需求和地方特色，将与旅游业紧密相关的土特产，如茶叶、药材、魔芋等纳入保险范围，建立特色产品的价格保险，促进产业发展，将保险资金投入到债券投资计划、股权投资计划，为恩施州旅游休闲产业、基础设施建设提供资金支持。

(a)常规的自注意力模型

(b)改进的自注意力模型图2 自注意力模型

Q=WQX

“狗日的，不要命啊，都给老子滚回去。”夏国忠的吼声未落，刚才慌忙飞走的飞机又折了回来，几颗炸弹扔在阵地上，轰隆隆一阵爆炸，几个还没来得及躲进防空洞的战士被炸得身首分离，鲜血染红了泥土。

内部控制制度是企业经营活动的有效保证，内部控制活动作用于企业的所有职能之中，因此，也是内部控制制度奠定了企业内部审计工作的基础性内容。企业内部制度与内部审计制度是相互依存的，实施内部控制制度可以更好地帮助企业实现风险管理措施，降低风险的存活性。内部控制制度是内部审计工作的直接接触对象，可以通过对内部审计的监督检查，进而促进内控制度的完善，把企业的风险减到最低。也就是说，内部控制的整个步骤都要收到内部审计工作的配合，不管是高层领导者还是监督管理人员，都要做到对企业的风险进行良好的评估，以便强化自身的内控责任。

(1)

attention=V·A+K

(2)

其中,·表示矩阵乘法运算,该乘法运算描述了特征的注意程度,再对局部关系矩阵R进行归一化,并对每个通道维度进行Softmax操作,Softmax输出与V向量相乘,以突出图像中重要的特征向量。自注意力模块的输出计算为:

(3)

其中,Q、K、V是自注意力模型三个可学习的组件,WQ、WK、WV分别为三个全连接层的参数。将K、Q之间做矩阵乘法运算得到局部关系R:

说真的，一个品牌的成功，因素肯定是多方面的，从品质到坚持，从外部环境到历史的机遇，从优秀的团队到强大的执行力，从策略到战略……如果作为一个商业案例来分析，没有个几十页，根本无法稍微深入点讲清楚。但有时候，一些细节和侧面也可见一斑。

R=Q·K

(4)

V=WVX

(5)

特征提取是图像检索的重要环节,每一种图片经过训练的模型提取,再进行特征匹配,所以好的网络结构使得模型更加完善。自卷积神经网络出现后,其表现就很优秀,可作为提高检索识别的模型。该文将改进的自注意力和卷积相融合,迁移学习其网络结构,由于卷积运算在局部特征提取方面具有优势,但在捕获全局表示(例如远距离)时仍存在困难,然而自注意力结构能在长序列中学习丰富的关联特征层次,构成全局表示,但忽略了局部特征细节,于是将二者有效融合在一起,所以使用的模型在卷积神经网络上做出了以下改进。一是替换第一个7×7、步长为2的卷积,改为3×3、步长为4的卷积。二是在Stage4将改进的自注意力替代空间卷积。三是在CNN与自注意力连接处,设置一个单元消除它们之间失调的一个问题,更好地将局部特征与全局表示进行耦合。CNN与自注意力的特征维度是不一致的。CNN特征图的维数为C×H×W(C、H、W分别为通道、高度和宽度),而自注意力的维数为(K+1)×E,其中K、1和E分别表示图像路径的数量、类别标记和嵌入维度。当CNN特征映射到自注意力时,使用1×1卷积进行下采样来完成尺寸对齐。当自注意力特征映射到CNN时,使用1×1卷积进行上采样来完成尺寸对齐。同时,使用Layer Norm和Batch Norm模块对特征进行正则化。自注意力模型与卷积相融合如图3所示。利用自注意力模型去捕获全局的依赖以及利用卷积去提取局部的细节信息,然后将二者结合起来,得到泛化性更强的图像特征。在保证特征提取能力的情况下,尽量减少模型的计算量,避免过拟合问题,增加模型的鲁棒性。

首先通过3×3的卷积得到特征K值,将其与Q值进行拼接到两个连续的1×1卷积,生成注意力矩阵:

A=Q+K

(6)

注意力矩阵A是每个空间位置的局部注意矩阵,而不是孤立的键值对。接下来,将注意力矩阵A与V值进行聚合,计算出的注意力特征与特征K值拼接起来,作为自注意力模块的最终输出:

earthquake. LIU Guo ZHANG You-yi ZHANG Shan-shan et al.(1)

K=WKX

(7)

对自注意力模型的改进,输入特征X通过三个不同的权重矩阵进行线性变换转化为Q、K、V,Q与K之间不做点积运算,将两者做拼接的操作,再通过两个1×1卷积做归一化处理,与values做相关性操作,从values库中去取相关性最大的那些位置的值,得到的特征值再与K值做一个残差操作,移除传统自注意力模型的最后一个Softmax层,借鉴了残差网络的设计,输入的特征K值与后者输出的注意力矩阵相融合,获得最终的特征值。这样改进可以减少计算量,增加上下文信息的学习,增强局部特征之间的联系,剔除冗余的信息,增强视觉表征能力。

2.3 融合自注意力和卷积的图像检索

该文提出一种自注意力模型与卷积相融合的网络结构应用于图像检索。该网络的特点是将自注意力机制替代卷积层的最后一层,能够充分获取图像的特征表达。这种融合过程可以极大增强局部特征的全局能力和全局特征的局部细节,以提高检索精度。

Transformer中传统的自注意力模型很好地将不同空间位置的特征进行交互,这取决于输入本身。其中成对的K、Q特征都是独立学习的,而不需要探索其间的联系。这严重限制了视觉表征学习中二维特征图的自我注意学习能力。为了缓解这个问题,对自注意力模块进行改进,如图2(b)所示,将K、Q特征进行了拼接操作,其出发点是充分利用K、Q特征之间的信息,有效促进自我注意学习,增强输出聚合特征图的代表能力。

图3 自注意力与卷积相融合

3 实验

3.1 数据集

该文使用了在图像检索领域应用广泛的公开数据集CUB-200-2011和CARS196进行模型训练和评估。数据集的部分图像如图4所示。

(a)CUB-200-2011数据集

(b)CARS196数据集图4 部分数据集的图像

CUB-200-2011数据集一共有11 788张鸟类图像,包含200种鸟类类别,将该数据集分为两个不相交集,每个类有100个类别用于训练和测试。CARS196数据集一共有16 185张汽车图像,包含196类汽车类子类。两个数据集的相关信息见表1。

表1 数据集的相关信息

3.2 训练细节

所有实验通过Pytorch框架实现。在卷积神经网络的卷积层之后添加自注意力模块,将其作为主干。在训练阶段,输入图像进行数据增强,包括随机裁剪、混类增强、随机水平翻转,使用损失函数为常用的交叉熵损失函数,Adam方法用于对模型进行优化,学习率为0.001,batchsize为32,训练周期为100,将输入图像均归一化到224×224尺寸。在所有实验中,将模型预训练好的网络参数加载到网络中,提取图像特征,计算相似度进行对比,得到图像检索结果。

3.3 实验结果及分析

为了验证自注意力模型的效果,将文中网络与ResNet50网络在两个数据集上进行对比。将每个输入图像裁剪为224×224,并且仅仅执行标准的数据扩充(随机裁剪和水平翻转),没有额外的调整。两者不同之处是在S4阶段增加了自注意力模型与卷积融合,迭代次数100,学习率0.001,batchsize为32。训练过程中验证集的准确率如图5所示。与ResNet50网络相比,文中网络在CARS196数据集和CUB-200-2011数据集上准确率都有所提高。然而,这种改进确实增加了计算量,将自注意力模型与卷积相融合的方式提取图像特征,相比纯卷积的模型准确率有所提高,为后面的检索提供了更有效的图像特征。

(a)CUB200-2011数据集

(b)CARS196数据集图5 训练过程中准确率变化

在图6中可视化了最后一层的特征热力图。从热力图中可以看出,前期卷积提供了精细的局部特征,最后一层融合自注意力模型增强了长距离特征的依赖性,同时也保留了重要的详细局部特征。背景特征被明显抑制,注意区域更完整,这意味着学习特征表示更具有辨别能力。

图6 特征热力图

在CUB-200-2011及CARS196数据集上将所提方法与目前表现较好的图像检索方法进行比较,根据Recall@K评价指标评估检索性能。所提方法与其他方法在数据集上的精度对比见表2、表3。为了公平比较,所有方法用于检索的图像特征都是512维。在CUB-200-2011及CARS196数据集上,所提方法对K的所有值都有所提升。将自注意力模型和卷积相融合提取的特征对于检索性能有所提升,因此,利用所提方法可以找出相似度比较高的图像。

红色文化是马克思主义指导下的先进的精神文化。它形成于历史进程中的革命斗争时期，并在社会主义建设时期赋予新的内容而发展起来。它始终存在于民族文化和民族精神之中，成为共产党人永恒的精神信仰，并已成为当代中国先进文化的重要内容。中国社会变革中存在的独有的红色文化，决定了红色文化是马克思主义大众化和马克思主义在中国传播的重要载体。

表2 在CUB-200-2011数据集上的精度对比

表3 在CARS196数据集上的精度对比

对于CUB-200-2011数据集,在表2中可以看到,所提方法使用改进的自注意力和卷积相融合的主干网在所有K值下都取得了不错的结果,在Recall@1相比ProxyNCA++方法提高了2.6百分点。对于CARS196数据集,在表3中可以看出,对K的所有值都有一定提高,从上述表中,证明所提方法可以应用到细粒度图像检索。细粒度图像类别差别较小,需要提取不同区域的特征,主干网先通过卷积提取图像的局部细节特征,再通过自注意力模型捕获图像的全局信息。

当前，消费者对于产品品质的要求、品牌的要求、审美的要求，都跟以往明显不一样。行业在这种情况下必须创新，要给消费者提供更好的产品、服务和体验。

将所提方法与GoogleNet和ResNet50模型在不同特征维度下进行了对比。在CUB-200-2011数据集上的对比表明,所提方法在短矢量方面具有竞争力,降维到384,图像检索的效果有所提升,如表4所示。在降低特征维度检索的精度相比卷积神经网络取得不错的结果,主干网最后将自注意力模型和卷积相融合提取的特征向量,对于相似度的计算起到了关键作用,从而提高了检索精度。

表4 不同模型方法实验对比结果

为了进一步验证所提方法的有效性,在CARS196数据集上测试了所提方法与其它方法的MAP、召回率和精确度。实验结果如图7所示,对于CUB-200-2011数据集上的MAP、召回率和精确度,所提方法比Alexnet和ResNet模型都有明显的提升,证明算法改进的有效性。所提方法将改进的自注意力模块融合到卷积神经网络,提高了图像检索的精度。

图7 MAP、召回率和精确率实验对比

4 结束语

将自注意力模型和卷积相融合应用在图像检索算法上,提出一种融合自注意力和卷积的图像检索方法,通过对自注意力和卷积相融合模型的训练,使得网络能够学习到特征图的不同区域,进一步学习到局部特征。通过在CUB-200-2011及CARS196数据集上的实验结果表明,将自注意力模型和卷积相融合可以生成更加有效的图像全局-局部特征。虽然该方法能有效对细粒度图像进行检索,但是检索的精度和召回率有待进一步的提高。后续工作可以对自注意力模型进行进一步改进,设计更好的网络模型,提高图像检索的准确率。