APP下载

基于卷积神经网络和注意力机制的图像检索*

2021-04-25秦姣华黄家华向旭宇

电讯技术 2021年3期
关键词:度量注意力检索

秦姣华,黄家华,向旭宇,谭 云

(中南林业科技大学 计算机与信息工程学院,长沙 410004)

0 引 言

时代在高速发展,图片、视频等包含大量信息的数据也在不断增长,正因如此,高效、快速的图像检索方法成为了当前的研究热门。

近年来,随着ImageNet[1]等大规模并被标记的数据集出现,卷积神经网络在深度学习中得到了广泛的应用。为了进一步解决卷积神经网络中存在的过拟合等问题,各种不同的卷积神经网络也被相继提出,如AlexNet、VGGNet、GoogleNet和ResNet等,并且在图像分类[2]、目标检测[3]、图像信息隐藏[4]、无载体隐写[5]、验证码识别[6]等多个领域都取得了良好的效果。任夏荔等[7]使用卷积神经网络提取特征进行图像检索,得到了良好的检索效果。牛亚茜等[8]利用卷积神经网络端到端的结构,并同时学习图像和特征之间的语义相似性,提高了检索效率。

而提取有效的特征是提高图像检索正确率至关重要的因素。但是,现有的大多数图像检索方法都是对整张图像进行特征提取,不能区分图像中的突出部分,且背景噪声会产生一定的干扰。因此,对图像中不同区域的特征进行权重的分配或在分析出图像的突出部分后对突出部分进行特征提取,能够使特征更加有效。并且,将不同的特征进行融合可以使特征之间优势互补,融合后的特征也包含更多的信息,能够提高图像检索的正确率。

因此,本文将注意力机制应用于图像检索中,通过用在ImageNet上预训练的50层残差网络对图像的特征进行提取用作局部特征,将全局平均池化层应用于局部特征,输出的特征作为全局特征。同时将局部特征分别输入到卷积块注意模块[9](Convolutional Block Attention Module,CBAM)和瓶颈注意模块[10](Bottleneck Attention Module,BAM)中后将输出进行融合,最后将经过处理后的局部特征和全局特征进行融合,通过计算图像之间的曼哈顿距离度量图像的相似性。

1 相关工作

1.1 特征融合

之前常用的特征融合是将尺度不变特征变换(Scale Invariant Feature Transform,SIFT)特征等浅层特征进行融合[11],但是这些底层特征不能很好地表示图像,其性能还有很大的改进空间。近年来,基于卷积神经网络的图像特征的提取和生成得到了广泛的研究[12]。但是,基于卷积神经网络提取的图像特征比较单一,单独用这个特征来进行检索往往达不到较好的效果。因此,研究者们将不同类型的特征融合在一起,构建出一个包含更多信息的描述符。Liu等[13]将低层特征与微调后的卷积神经网络提取的特征进行融合,检索精确率得到了有效提升。

除了融合不同特征外,现有的特征融合方法还可以融合卷积神经网络不同层的特征进行检索。侯媛媛等[14]充分利用了卷积神经网络提取特征的有效性和层次性,通过融合图像多种层次的特征来提高检索的准确率。王志明等[15]提出了一种结合卷积神经网络和深度哈希的方法,先融合卷积神经网络不同层的特征,然后通过深度哈希的方法生成哈希码,提高准确率的同时缩短了检索时间。

1.2 残差网络

近年来,卷积神经网络成为了深度学习的代表算法之一,并在计算机视觉中也得到了广泛的应用。一般情况下,随着网络宽度和深度的增加,网络的性能能够得到一定的提升。但是,在深度学习中,网络层数增多会带来模型过拟合、梯度爆炸和梯度消失等问题,导致训练时误差增加和引起的测试误差也增加。2016年,He等人[16]提出的残差网络(ResNet)很好地解决了上述问题,成为目前在图像领域使用最多的模型。残差网络的主要构成是残差块,将多个残差块堆积在一起就可以构建不同深度的残差网络。两层残差块构成的是ResNet-34,而三层残差块构成ResNet-50/101/152,分别如图1(a)、(b)所示。

图1 残差网络构建块

1.3 注意力机制

注意力机制借鉴了人的注意力机制,能够让模型对重要信息更为关注并进行不断的学习,能够作用于任何序列模型中。它能够将有限的精力集中在一些重点信息上,合理分配图像中不同部位的关注度,不仅减小了计算量,也节约了成本。注意力机制近几年来在深度学习中得到了广泛的应用,无论是用于图像处理、语音识别还是自然语言处理都取得了很好的效果。

彭晏飞等[17]通过训练卷积神经网络和区域注意力网络提取图像特征来对遥感图像进行检索。他们通过区域卷积最大激活(Regional Maximum Activation of Convolutions,R-MAC)在特征图上进行滑动采样得到区域特征向量时,每个采样区域会有40%的重叠,增加了信息的冗余,并且会导致后续计算量增大。因此与文献[17]相比,本文方法存在的信息冗余更少,且计算量更小,在匹配时更易于计算特征之间的相似性。

Ng等[18]结合二阶损失和二阶空间注意力对特征重新加权,从而进行图像的匹配。文献[18]主要使用的是空间注意力,而本文方法使用了空间和通道两种注意力机制,能够更好对图像中的突出部分进行加权。由于只使用空间注意力会忽略通道域中的信息,而本文方法结合了空间注意力和通道注意力,能够使最终特征的信息更加完整。

2 基于卷积神经网络和注意力机制的图像检索方法

本节将详细介绍基于卷积神经网络和注意力机制的图像检索方法,整体框架如图2所示。在该方法中,首先通过卷积神经网络提取图像的特征作为局部特征α,并将全局平均池化层应用于局部特征,输出的特征作为全局特征β。同时利用CBAM和BAM 对局部特征进行处理,融合后得到局部融合特征γ。最后将局部融合特征γ和全局特征β进行融合,得到最终特征。为了与文献[19]进行比较,使用曼哈顿距离度量查询图像与数据库图像的相似性。

图2 基于卷积神经网络和注意力机制的图像检索方法

2.1 特征提取

通过卷积神经网络提取的特征包含了图像的高级语义信息,可以有效解决许多计算机视觉问题,并且性能优于其他低层特征[20]。

卷积神经网络由一系列卷积层、池化层、全连接层构成,其激活被馈送到激活器中。浅层的卷积层更多关注的是低级的局部特征,并且通过最大池化改进其旋转、平移等小尺度变换,而更深层次的全连接层则关注于高级视觉抽象。本文使用ResNet50对图像进行特征提取,将ResNet50提取的特征作为局部特征α;随后将局部特征输送到一个全局平均池化层中,其输出作为全局特征β。

2.2 局部特征处理

局部特征的处理是通过将经ResNet50提取的图像特征进行进一步的转化,得到更加精细化的特征,这有利于提高检索结果精确率。通过将提取的原始图像特征进行细化,能够得到对图像更加精细的描述。我们使用CBAM和BAM两个模块分别对局部特征进行细化后再进行融合,得到局部融合特征。

α′CBAM=MC(α)⊗α,

(1)

αCBAM=MS(α′CBAM)⊗α′CBAM。

(2)

式中:α′CBAM为通道注意力模块输出的结果,⊗为数组元素依次相乘。

BAM[10]则是由通道注意力模块MC′和空间注意力模块MS′并行构成。与CBAM类似,通道注意力模块利用特征通道间的关系得到其特定的响应,然后通过空间注意力模块选择增强还是减弱处于不同空间位置的特征。将局部特征α输入到BAM模块中,得到αBAM:

αBAM=α+α⊗M(α) 。

(3)

式中:M(α)=σ(MC′(α)+MS′(α)),σ是sigmoid函数。

最后,将经两个模块处理后的特征αCBAM、αBAM进行融合,得到局部融合特征γ:

γ=αCBAM+αBAM。

(4)

2.3 特征融合及检索

本节将局部融合特征γ和全局特征β进行融合来获得最终的图像特征。在这里,我们简单地将两个特征连接在一起,最终的融合特征ε为

ε=γ+β。

(5)

得到查询图像与数据库图像的最终的融合特征ε后,计算查询图像与数据库中每张图像的特征之间的曼哈顿距离,计算公式如下:

(6)

式中:pi为数据库图像的特征;qi为查询图像的特征;n为特征的维度,在这里,n=2 048。计算出查询图像与数据库图像的曼哈顿距离后进行排序,得到匹配的结果。距离越小,图像之间的相似性越高。

3 实验与讨论

3.1 数据集

本文选用了在图像检索领域运用广泛的三个数据集:corel1k、corel5k和corel10k。corel1k数据集包含建筑、人脸、大象等10个类别的图像,每个类别100张共计1 000张图像。corel5k中包含50个类别的图像,分别为蝴蝶、水果、小汽车等。与corel1k数据集相同,每个类别包含100张图像,一共包含5 000张图像。与前两个数据集类似,corel10k中包含热气球、猫、鲜花等100个类的图像,每个类别包含100张图像,一共包含10 000张图像。corel5k中的所有类别都是从corel10k中抽取的,因此,corel5k可以看作是corel10k的子集。在实验中,我们随机从每类图像中抽取20张图像作为查询图像,其余的作为训练集实验时,将corel1k中的图像大小调整为384×384,corel5k和corel10k中的图像大小调整为192×192。

3.2 评价指标

基于内容的图像检索一般使用精确率(precision)和召回率(recall)来评价系统性能的好坏。因此,本文使用这两种评价指标。精确率计算公式如下:

(7)

式中:IN为查询某张图像时返回的前IN张图像的数量,IB为实际返回的IN张图像中正确图像数量。

召回率计算公式如下:

(8)

式中:IC是查询图像对应的类别中图像的数量,对于不同的数据集,IC的值不同。在我们所使用的corel1k、corel5k和corel10k数据集中,IC=100。

对于每个类别的平均准确率(PC)和平均召回率(RC)的计算公式如下:

(9)

(10)

式中:M表示每个类别中的图像总数,C代表数据集中的每个类别。接着,计算平均精确率(APC)和平均召回率(ARC):

(11)

(12)

式中:NT为数据集中的类别总数,对于corel1k、corel5k和corel10k数据集,NT分别等于10、50、100。

3.3 性能评估

3.3.1 性能比较

表1显示了本文方法在corel1k、corel5k和corel10k数据集上的平均精确率和平均召回率与文献[19]的比较结果,表中文献[19]的结果是使用作者提供代码复现的结果。为了公平比较,我们在实验时使用了复现文献[19]时相同的测试集。从表中可以看出,在三个数据集上,本文方法都优于文献[19]方法,精确率都在90%以上且在corel1k数据集上达到99.38%;在corel1k和corel5k中,精确率分别提高了22.09%和33.73%;特别是在corel10k中,精确率提高了43.81%。由此可见,基于卷积神经网络的特征提取与注意力机制的结合能够很好地提升检索效果。

表1 本文方法与文献[19]在corel1k、corel5k、corel10k数据集中的检索性能比较

3.3.2 参数分析

表2展示了本文方法使用不同的距离度量图像相似性的比较结果。如表2所示,在corel1k中使用表中四种距离度量时精确率都达到了98%以上。在corel5k中使用曼哈顿距离进行度量时得到的平均精确率是最高的,为97.16%;与使用堪培拉距离度量时得到的最低平均检索精确率相比,仅相差0.56%。在corel10k中,使用余弦距离和欧式距离进行度量时效果最好,平均检索精确率为94.52%;使用堪培拉距离进行度量时,平均检索精确率最低,为93.8%,与使用余弦距离和欧式距离进行度量时相差0.72%。显然,使用不同距离进行度量时对精确率和召回率的影响很小。在实验中,我们使用与文献[19]相同的距离——曼哈顿距离度量图像间的相似性。

表2 不同距离度量下的平均精确率和平均召回率

研究表明,随着检索返回的前k张图像数量(top-k)的增加,查询IN张图像时返回的不相关的图像也随之增加,会导致平均精确率降低。因此,我们还在三个数据集上与文献[19]在改变k时的平均精确率进行了比较,结果如图3所示。可以看出,与文献[19]相比,本文方法在k增加的同时依然返回了较多的正确图像。随着k的增加,本文方法的平均精确率只有很小的下降幅度,整体趋于平稳,这表示本文方法是有效且稳定的。

(a)corel1k

我们分别从三个数据集的建筑、水果、羊类别的测试图像中选取一张样本图像进行检索,图4~6展示了样本图像及其检索返回的前12个结果。从图中可以看出,检索结果与样本图像都包含相似的内容,属于同一类别,证明本文方法是有效的。

图4 corel1k样本图及检索返回前12个结果

图5 corel5k样本图及检索返回前12个结果

图6 corel10k样本图及检索返回的前12个结果

3.3.3 检索效率比较

在图像检索中,检索效率也是一项重要的评价指标。本节比较了文献[19]与本文方法的特征提取消耗的时间和检索消耗的时间,结果如表3和表4所示。

表3 特征提取消耗时间比较

表4 检索消耗时间比较

表3中消耗的时间为提取数据库图像和所有查询图像特征消耗的时间总和,为3次实验的平均值。可以看出,本文方法在三个数据集上都比文献[19]消耗的时间少。这是因为文献[19]在提取特征时需要提取三种特征,并且需要对三种特征分别进行处理,而本文方法直接将图像输入到训练好的网络中提取特征,因此消耗的时间较短。

表4中的结果为检索一张图像平均消耗的时间,表中结果为3次实验的平均值。从表中可以看出,检索时本文方法比文献[19]的方法消耗的时间多,因为本文方法的特征维度较大,为2 048维,故在计算相似度时需要消耗更多时间。

4 结束语

本文提出了一种基于卷积神经网络和注意力机制的图像检索方法,通过卷积神经网络提取特征,然后使用注意力机制处理特征,最后使用特征融合来进行图像检索。在corel1k、corel5k和corel10k三个数据集上进行了实验,结果表明所提方法能够获得更高的精确率和召回率,在top-k增加时仍能保持较好的精确率,且使用不同距离度量图像之间的相似性对精确率的计算影响很小。其中corel1k和corel5k可以看作是corel10k的子集。由实验结果可以看出,在图像数量增加时检索精确率有一定的下降。这是因为图像数量增加时相似但不是同一类别的图像的数量也在增加,在计算图像相似度时会造成误判,从而导致检索精确率降低。

由于本文所使用的特征维度较大,在今后的工作中,我们将进一步考虑降维或使用较小维度的特征进行检索。

猜你喜欢

度量注意力检索
鲍文慧《度量空间之一》
让注意力“飞”回来
模糊度量空间的强嵌入
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
专利检索中“语义”的表现
地质异常的奇异性度量与隐伏源致矿异常识别
国际标准检索
国际标准检索