物体显著性排名感知网络用于高效图像检索
2023-10-17李林峰陈程立诏王恒森
李林峰 陈程立诏 王恒森
摘 要:针对目前图像检索领域主要依靠语义相似性检索图片而忽略了场景中物体重要性关系问题,提出了一种基于场景感知的物体显著性排名算法SASR,使图像检索更关注场景中物体的相互关系。SASR分为两个阶段,在第一阶段,提出了基于视点数据的“组合阈值”物体级显著性排名真值标签标注方法,該方法简化了排名标签的标注;在第二阶段,提出了基于图卷积网络的物体级显著性排序网络,该网络解决了多个在物体级排序问题中存在的特异性难点。该算法改善了目前显著性排名标签生成方式并进行了大量对比实验,在现有SALICON数据集上的实验结果表明,其提升了显著性排名的性能,在NUS-WIDE数据集上的实验结果表明在该算法的支撑下,图像检索性能平均提升了2%,证明了其有效性。
关键词:显著性排名;场景感知;图卷积网络;图像检索
中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2023)10-047-3186-08
doi:10.19734/j.issn.1001-3695.2023.01.0028
Object saliency ranking awareness network for efficient image retrieval
Li Linfeng1,Chen Chenglizhao2,Wang Hengsen1
(1.College of Computer Science & Technology,Qingdao University,Qingdao Shandong 266071,China;2.College of Computer Science & Technology,China Petroleum University,Qingdao Shandong 266580,China)
Abstract:This paper introduced a novel approach for image retrieval,the scene-aware object saliency ranking algorithm(SASR),which addressed the issue of traditional image retrieval techniques relying on semantic similarity and neglecting the crucial importance of object relationships within a scene.SASR consisted of two stages.In the first stage,this paper proposed a viewpoint data-based method called the “combined threshold” to annotate true value labels for object-level saliency ranking,simplifying the annotation of ranking labels.In the second stage,this paper presented an object-level saliency ranking network based on graph convolutional networks that resolved several specific difficulties encountered in sorting objects.The proposed algorithm improved on the current saliency ranking label generation methods and was tested via a large number of comparative experiments.The experimental results on the SALICON dataset show that the SASR algorithm enhances saliency ranking perfor-mance significantly.Moreover,the results from the NUS-WIDE dataset indicate that,when supported by the proposed algorithm,image retrieval performance increases by an average of 2%,which solidifies the efficacy of the proposed algorithm.
Key words:saliency ranking;scene perception;graph convolutional network;image retrieval
0 引言
图像检索是计算机视觉领域的一项基本任务,旨在通过图像间的内容语义相似性检索图像。现有检索方法[1,2]主要利用图像的空间拓扑结构、内嵌语义分布等信息进行图像的检索。一般而言,现有检索方法大多可以获得较为理想的检索结果,但其检索得到的相似性图像和输入图像并不完全一致。
如图1(a)所示,输入图像中,人的重要性要比马更高,而大多数检索得到的图像中的马比人的重要性更高。尽管现有的这些方法可以根据输入图像(人和马)检索得到大量相似的图像场景(人和马),但检索得到图像场景中的物体重要性排名并不和输入图像中的物体重要性排名一致。导致这一现象的原因在于:现有图像检索方法大多忽略了输入场景中的各物体间的重要性排序。
图像检索可以从一个大规模的图像集合中找到与被检索图像最相似的图像,而物体排名关系是指图像中不同物体之间的重要程度区别,例如物体的相对位置、大小和姿态等。在图像检索中,物体关系丢失可能会导致检索结果的误差增加。因此,在设计检索算法时,通常会考虑如何保留物体之间的关系信息,例如,Ji等人[3]设计了一种利用显著特征信息来突出图像中显著物体位置的视觉注意力模块,该显著性模块为图文提供了视觉上的先验知识,从而提高了图文匹配算法的性能。
受该思想启发,本文提出了一种能够对场景中各物体进行重要性排名的全新方法,使用显著性方法解决图像检索方法
中物体关系缺失的问题。显著性方法和图像检索方法在视觉注意力和图像特征两个方面相互关联,其中,显著性检测算法旨在识别图像中最具有显著性的物体,这些物体通常与人类视觉注意力紧密相关;而图像检索的目标是通过查询图像库来寻找与查询图像相似的图像,这需要考虑到人类对图像的视觉注意力,因此显著性方法可以为图像检索提供图像中重要物体的先验知识。同时,显著性检测算法通常使用各种视觉特征来描述物体的显著性,例如颜色、纹理、边缘等;而图像检索也需要使用视觉特征描述图像内容,以便于比较不同图像之间的相似度。因此,基于这两个方面,本文将显著性物体排名算法和图像检索联系起来,利用显著性算法提取图像中最具有显著性的物体作为检索的关键词,通过物体的显著性来优化图像检索的性能。
如图1(b)所示,新方法能够对输入图像中的各物体重要性进行感知,从而能够作为一个辅助模块来提升现有的图像检索方法,提升现有图像检索方法的检索粒度。如图1所示,在本文提出的图像物体重要性排序感知模块的辅助下,对原输入图像进行检索得到的图像中的马的重要性要低于人(参见重要性排序真值,即图1(b)最后一行)。值得一提的是,目前在计算机视觉领域内,显著性检测方法(包括视点预测[4,5]和显著性物体检测[6]两个分支)可以在一定程度上对输入图像进行物体级重要性感知,即显著性检测方法可以自动定位输入图像中最显著的图像区域。然而,图像显著性检测与本文关注的图像内物体间重要性排序并不一致。
一方面,从输出结果来看,显著性检测方法通常仅能定位场景中最显著的物体,并不能提供其他非显著性物体间的重要性排序,而本文期望得到的是一种能够涵盖所有物体的重要性排序。
另一方面,从计算原理来看,显著性检测通常表征场景中最吸引人类视觉注意力的图像区域,属于人类观察给定场景时所展示出的第一反应;而本文所关注的重要性排序偏重于语义层面,表征人类观察给定场景时,经过一定的主被动思考权衡后得出的物体级排序结果,是一种视觉注意力的第二反应。
综上,本文关注的物体级重要性排名是有别于传统显著性检测问题的一个全新问题,是一种偏向于语义层面且粒度更细的全新任务。
为实现物体级重要性排名,存在两大技术难点尚待攻关。其一,场景物体重要性排序真值数据(GT)如何获取?如果重新以人工标注的方式进行大规模数据标注,代价太高。其二,本文定义的物体级重要性排序的问题复杂度要远高于显著性检测,如何设计一种合理的网络结构来实现这一复杂任务,非常具有挑战。针对上述问题,本文在下列三个方面作出实质性贡献:
a)基于现有的视点真值数据,本文提出了一种能够很好表征物体级显著性的评价方法,从而在数据层面保障了后续的物体级显著性排序网络的训练可行性。
b)针对本文关注的物体级显著性排序这一全新问题,设计了一种能够以物体语义为主要表征的逻辑推理网络,达成高质量的物体级显著性排名。
c)提出一种新的图像检索策略,在现有基于语义的图像检索方法的基础上通过显著性物体排名算法提高检索粒度。
1 相关工作
1.1 显著性排名
显著性排名(SR)是显著性检测任务的一个分支任务,其目的是对图像中显著性物体进行排序。Islam等人[7]首次提出不同显著性对象之间存在相对排名,采用全卷积结构的网络预测相对排名并分阶段优化网络。Siris等人[8]采用人类注意力转移来定义对象的显著性排名,并提出了第一个SR数据集,认为利用注意机制可以推断观察者的注意力转移。Lyu等人[9]提出了一种新的伪装目标检测模型来对伪装目标进行排序,他们采用计算实例上的注视点数目来标记实例的排名信息。Tian等人[10]提出了一个对象—上下文反映模块,利用对象上下文交互信息对显著对象进行排序。Fang等人[11]提出了端到端SR模型,并引入了位置保留注意模块,该模块保留了图像中物体的位置关系。Liu等人[12]提出了一个新的图推理模块,以学习具有局部和全局对比度的实例关系,该方法主要预测人与人的相互关系。同时,Liu等人将该方法与人眼注意点预测方法在显著性排名上进行比较。但本文认为文献[12]的比较方式并不公平,因为获取人眼注意点预测模型的显著性排名性能需要对显著图进行二值化处理,然而实验证明在不同的二值化阈值下,人眼注意点预测模型的性能也会发生改变。因此,本文认为显著性排名方法与人眼注意点预测方法在进行比较时,应该选取人眼注意点预测方法在多个二值化阈值下的最佳性能。
1.2 人眼注意点预测
人眼注视点预测(EFP)旨在预测人们在自然场景中的兴趣位置。早期的EFP模型[13]通常使用低层特征(如局部/全局对比度、颜色、方向、亮度等)来预测固定映射,这是一种自下而上的方法。近年来,深度神经网络被用于学习高层次、自顶向下的特征,并取得了显著的性能。此外,Jiang等人[5]收集了一个大规模的EFP数据集SALICON,其包含了大量真实人眼观测点。Pan等人[14]将生成式对抗网络引入EFP领域并使用了新的评估指标。Droste等人[4]提出了域适应网络,将图像和视频任务通过递归神经网络以统一的方式建模。Ding等人[15]提出了一种反馈递归卷积框架来学习丰富的上下文表示。
1.3 图像检索
基于内容的图像检索(CBIR)近年来取得了长足的发展。它的目的是根据内容返回与查询相似的图像集合。传统的CBIR方法首先提取图像特征,然后根据图像特征向量的距离(如余弦距离和欧氏距离)返回相似图像。然而,由于高昂的计算成本,它们对于现实世界的数据库是不切实际的。另一种方法是近似最近邻(ANN),它以速度换取检索精度,其中,哈希方法就是一种有效的图像检索ANN方法。传统的监督哈希方法包括核监督哈希、潜在因子哈希、快速监督哈希等。除了使用手工特征的传统哈希方法外,最近提出了一些深度哈希监督方法利用深度神经网络以获得更强大的特征表示。例如,传统神经网络哈希(CNNH)[16]是独立学习哈希函数和特征表示的,哈希函数学习不能反馈到特征学习中;为了解决这一问题,Lai等人[17]使用基于三组图像的排序損失来联合学习哈希码和特征表示(NINH),使哈希函数学习可以向特征学习提供反馈。深度监督哈希(DSH)[18]是一种基于两两的哈希来生成判别哈希码。鉴别深度哈希(DDH)[19]提供了一个分割编码模块,以最大限度地提高哈希码的可鉴别性。WMRDH[20]给出了一种顺序感知的排序损失,并采用加权方案生成相似度保持哈希码。Ji等人[21]提出了一种异构记忆增强图推理网络HMGR来连接视觉和语言之间的语义相关性,通过提取实例特征并利用图卷积网络生成关系增强的特征表示,挖掘图像中实例间的拓扑依赖关系,将联合异构记忆网络集成到一个统一的视觉语义嵌入模型中,通过外部记忆存储对视觉知识和文字进行读写操作,利用实例间的相互关系作为附加信息来学习更有区分度的特征。
虽然之前的工作取得了稳定的性能,但这些方法都是基于内容语义相似性检索图像,会使场景中的物体相互关系丢失,从而导致检索图像场景中物体重要性关系与被检索图像不同。然而,实验证明在物体级显著性排名算法的支撑下,通过物体重要关系相似性可以提升现有图像检索的性能。
2 研究方法
2.1 整体结构
本文所提出的SASR整体框架包括两个主要阶段。第一阶段为基于视点数据的“组合阈值”物体级显著性排名真值标签制作方法(2.2节);第二阶段为基于图卷积神经网络所开发的物体级显著性排序网络(2.3节),该网络解决了多个在物体级排序问题中存在的特异性难点。
2.2 物体级显著性排名真值数据获取
如图2所示,原始排名标签制作方法主要通过计算平滑后的显著图中的平均像素值、最大像素值或者注视点个数作为排名先后的依据。然而,这几种方法在某些场景中往往会与人工排序的结果不一致,这是因为使用平均值法或者其他方法计算排名会使排名更关注局部物体,忽视了物体在整张图像的比例。针对这一问题,本文提出了一种新的标签制定方案,该方案可以使显著性排名标签在接近人类视觉系统的基础上简化排名标签的制定。如图2所示,该图片经过人工排序后“母亲”会被认为是最显著的,但是通过平均值法或Fixation法计算物体框中的平均像素值或平均注视点后,“母亲”的排名信息比重被稀释了,孩子成为最显著的物体,当通过最大值法计算物体框中的最大像素值时,图像中最不显著的披萨反而成为较显著的,与人工排序不一致。本文与其他方法不同,提出了一種新的排名制定方案,利用组合阈值使排名更符合人类视觉系统。现有SALICON数据集中提供了大量基于鼠标轨迹的注视点信息,使用该注视点信息可以降低标注数据集的成本。首先,计算物体框中的注视点数量占整张图像总视点数的比重(局部信息);然后,计算该物体框占整张图像的比重(全局信息);最终,设置组合阈值通过改变局部信息和全局信息的比重来定义图片中物体的显著性程度分数。对象的排名由显著性程度分数决定,分数越高表示对象越显著,具体公式可表示为
其中:fixi表示图像中第i个物体归一化后的注视信息分数;Si表示归一化后的尺寸信息分数;Rscorei表示显著性程度分数;γ是组合阈值,目的是为了控制视点信息和尺寸信息的比重,γ对显著性程度分数的影响将会在式(2)和3.4节用户研究中进行说明。对尺寸信息Si做指数运算的目的是为了让尺寸信息的变化更加平滑,并通过β控制尺寸信息的上限,使尺寸信息eβ×Si介于归一化的注视信息分数fixi附近,防止尺寸信息过大导致显著性程度分数完全由物体尺寸决定,此处本文将β设定为0.75,具体消融实验可以见3.6.3节。
接下来,为了验证组合阈值γ对显著性排名分数的影响,本文从数据集中随机挑选了3 000张图片,并在不同组合阈值下对3 000张图片中的物体按照本文方案进行排名。最终,计算在相邻阈值下图像中物体排名的偏移量,偏移量是通过对相邻组合阈值下所有图像中对象的排名变化进行求和计算得出的,该偏移量公式为
其中:OF表示偏移量;N表示图片中物体总数;γ是组合阈值,0.1≤γ≤1;Rankγi,j和Rankγ-0.1i,j表示相邻组合阈值下物体排名。如图3所示,在组合阈值为0.1时,物体偏移量最大,在0.2~0.6和0.7~1.0,物体排名偏移变化较小,因此,本文选择了在这三个阈值区间的平均值{0.1,0.4,0.8}进行实验。
2.3 物体级显著性排序网络
显著性排序网络由物体位置信息获取、显著性感知特征编码和关系推理模块三个模块组成,如图4所示。
2.3.1 物体位置信息获取
现有显著性排名方法都是基于多任务的,网络由分割任务和排名任务构成,需要生成颇具挑战性的像素级掩码,并且显著性排名性能与实例掩码的质量高度相关,如果实例掩码质量较差,排名可能不准确。同时,目前尚未确定分割任务和排名任务能否互相促进,而且分割任务比检测任务更复杂,前者为像素级别,后者为物体级别。因此,本文没有采用像素级实例分割,而是直接采用现有的目标检测网络,这可以在简化模型的同时有效地获取图像中的物体。本文采用EfficientDet[22]高效目标检测网络检测给定的图像并且每张图像至少需要获得2个目标检测框(假设一张图片至少有2个物体)。为了使检测的物体更加准确,需要过滤掉重叠较大的目标候选框。首先,计算任意两个候选框之间的交并比(IoU)并设置IoU阈值为0.4,删除IoU大于0.4的重叠目标候选框;接下来,删除了占图片总面积过大(目标检测框面积大于图像总面积的60%)和占图片总面积过小(目标检测框面积不超过50)的目标候选框。
2.3.2 显著性位置感知特征编码
显著性位置感知特征编码(SPFE)的目的是为了尽可能增大特征提取感受野并实现多尺度特征融合,同时,将物体位置信息特征嵌入多尺度融合特征中,从而获得一组包含丰富局部和全局信息的物体编码特征。SPFE中的显著性编码器(SE)可以采用任何现有鲁棒性强的模型,本文采用了UNISAL模型(详细架构见文献[4])。使用UNISAL有两个原因:a)UNISAL网络将高斯先验图加入网络中,这会给网络提供一个显著性物体位置的先验知识;b)UNISAL网络的输出特征维数较低,减少了网络的学习参数。UNISAL模型骨干网络由MobileNet编码器与高斯先验映射连接,解码器网络与编码器残差特征连接,本文只选择解码器us2中间层平滑后的特征fu作为物体编码特征,输出形状为(192,48,36)。由于单个物体特征被送入网络中,物体相对于整幅图像的全局信息会丢失,同时物体间的空间关系也会丢失,本文采用多尺度特征融合解决全局信息丢失的问题,每个物体框的深度特征都包含两个尺度(局部物体框和全局物体框),两者唯一的区别是全局物体框的尺寸比局部物体框大50%。全局物体框将从图像中带来更多的全局信息,这会使物体特征更加丰富。如图4所示,获取整张图片的特征fu后根据局部物体框坐标和全局物体框坐标使用RoI-align获得物体的局部编码特征ful和全局编码特征fug,每个物体框特征的输出形状是(192,7,7),为了保留物体之间的位置信息,本文对物体在图像的坐标信息进行位置编码。首先,将物体框的中心坐标调整为ful中的位置坐标;然后,将该坐标送入1×1卷积中
获得位置编码fpe。最终的物体编码特征可以通过融合两个维度为192的物体局部—全局特征,然后将物体位置编码和局部—全局特征进行融合,融合后的物体特征的维度是192+192+2=386,具体公式可表示为
2.3.3 关系推理
由于图像中的物体不是孤立存在的,往往具有某些联系,所以在获得物体编码特征后,需要构建关系推理学习模块探索物体特征间的语义关系。众所周知,图卷积网络(GCN)在描述物体之间的相互关系上具有显著的效果,在GCN中,图像中的每个物体对应图网络的一个图节点,为了获取多个物体特征编码之间的语义关系,可以通过构造一个邻接关系矩阵学习物体间的关系,该矩阵测量了任意两个物体之间的相关程度。本文假设所有的物体都是相互关联的,该邻接矩阵可以通过一个形状为386×N和一个形状为N×386的1×1卷积层组成,其中N表示图像中物体的个数,全连接层构成的全连接邻接矩阵的形状是N×N。GCN训练完成后,可以得到和输入形状相同的形状为N×386的推理特征。本文采用堆叠多个GCN层来获得增强的特征表示,具体公式可以表示为
Euclid Math TwoRAp(n×n)表示权重参数关系矩阵;R表示邻接关系矩阵;l表示GCN层数,共使用了三个GCN层,最终产生一组语义关系丰富的深度物体特征编码节点。本文将fl送入形状为N×1的线性层,得到预测的物体显著性分数。
2.3.4 将SASR算法应用于图像检索
本文提出了一种新的检索策略,旨在基于训练好的SASR算法提高图像检索的细粒度,具体检索流程如图5所示,其中灰色阴影部分为现有图像检索模型流程,检索流程的概述如算法1所示。首先,设置最小关系相似性阈值ω,并将图像检索测试集X输入到现有训练好的图像检索模型获得原始的检索结果,表示为O。然后,采用显著性排名网络SASR计算原始检索图像O与被检索图像X中的物体之间的重要关系相似性(SRCC)。最后,过滤掉具有低重要关系相似性(SRCC<ω)的检索图像,获得最终检索预测结果F。
2.3.5 损失函数
本文提出的显著性排名网络解决了一个排名问题,针对该问题,本文采用均方误差和排序损失共同优化网络模型,损失函数公式如下:
对于均方误差式(6):y是实际显著程度分数;是预测显著程度分数;N表示一张图像中物体的数量。对于排序损失式(7):i和j是两个图像中预测的物体显著性分数;z是图像中任意两个物体的真实标签,可以是{1,-1}中的一个,其中,标签1表示j的真实排名高于i,标签-1表示j的真实排名低于i;m是一张图像中物体排名差异的最小值,此处,m被设置为0。在排序损失中,如果i和j被正确排序,且不等式-z×(j-i)+m>0成立,则排序损失被设置为0,否则,排序损失为-z×(j-i)+m,总排序损失为图像中任意两个物体的排序损失之和。最终,总损失由均方误差和排名损失相加计算得出,权重α设置为0.001。
3 实验及结果分析
3.1 实现细节
1)数据集 为了有效验证所提排序算法对显著性排名和图像检索性能的提升,本文同时在显著性排名数据集和图像检索数据集上进行了实验。由于所提算法是基于多物体标签的任务,所以在显著性排名任务上采用SALICON数据集,在图像检索任务上采用NUS-WIDE数据集[23]。
SALICON数据集包含20 000幅图像,是从COCO数据集中挑选出的图片,并使用鼠标轨迹记录人眼看到的物体位置,总共20 000幅图像。由于SALICON的测试集没有人工注释数据,所以本文将SALICON的验证集重新划分成验证集和测试集,最终,显著性排名数据集按照10 000/1 200/3 800的训练/验证/测试集进行划分。
NUS-WIDE包含81个類别、269 648幅图像、多标签、彩色图像数据集,本文选取最常用的21个类别,每个类别均超过50幅图像,共计195 834幅图像。随机选取10 000幅图像用做测试集和验证集,其余用做训练集。
2)参数设置 本文算法在一台具有GeForce RTX 2080显卡的计算机上使用Python在PyTorch深度学习框架中实现,其中,PyTorch版本号为1.2,CUDA版本号为9.1,选择Adam算法优化网络,动量为0.9,权重衰减为10-4,学习率为0.000 1,在每10个迭代后以0.1倍的指数衰减。batchsize为3,UNISAL权重被冻结,模型在200个epoch左右收敛。
3.2 评价指标
为了全面评估排序网络的性能,本文采用斯皮尔曼等级相关系数(SRCC,越高越好)、F1-score(F1,越高越好)评估本方法的性能。为了验证排序网络对图像检索方法性能的提升,本文采用平均精度均值(MAP,越高越好)指标对图像检索精度进行评估。SRCC是用来反映两个随机变量间的线性相关程度,可以定义为
其中:di表示第i个物体预测排名和真实排名的差异程度;N表示图片中物体的个数。
3.3 实验结果和分析
本文和其他排名方法类似,与七种最新的EFP算法进行了比较,分别是UNISAL[4]、SalGAN[14]、SalFBNet[15]、TranSalNet[24]、EML-Net[25]、ML-Net[26]和SALICON[27],为了客观比较,所有定量评价都使用本文提供的显著图或由参数不变的可执行代码得到的显著图。
由于EFP方法只能生成显著图,为了计算EFP方法的排名性能,本文和其他显著性排名算法一样,将图像中物体对应的显著图区域灰度化和二值化处理后,通过计算物体区域中的白色点像素点数量,进一步得到其他方法的显著性排序。然而,在常规显著性排名方法中,二值化阈值是通过计算整张显著图的灰度化平均值获得的,这将导致其他方法的排序性能会随着二值化阈值的改变而改变。因此,为了进行公平的比较,本文提出了一种新的评估方案可以获得更精确的二值化阈值以让其他显著性方法的性能达到最佳。首先,将每个物体框对应的显著图进行灰度化(θ);然后,分别计算图像中的对应物体显著图的灰度值的总和与物体面积的比例,得到图像中每个物体的平均灰度值;最后,本文的二值化阈值T由该平均值和二值化权重决定,整个过程可由式(9)表示。
其中:Pi是第i个物体对应的显著图;N是一张图像中的物体数量;Ai是第i个物体的面积;sum表示计算灰度图的像素值之和;λ是0-1的二值化阈值权重,用于控制二值化阈值的变化,以确保能够寻找其他方法的最佳性能。
本文在表1展示了不同方法在多个组合阈值(γ)下的显著性排名性能,其他方法在当前组合阈值下的最佳性能已用黑色粗体标记出来。当组合阈值γ=0.1时,本文方法优于其他模型的性能;当组合阈值γ=0.4时,本文方法的SRCC优于其他模型,F1略低于其他模型最佳性能;当组合阈值γ=0.8时,本文方法的SRCC和F1指标略低于其他模型的最佳性能。在组合阈值固定时,其他模型的性能随着二值化阈值权重λ的增大而降低,本文方法性能不随着λ的改变而改变,这是因为本文生成的GT标签没有涉及对显著图的二值化操作。当λ固定,组合阈值增高时,在排名标签中,物体尺寸因素占据的比重增大,人眼注意信息比重降低,本文模型性能下降,而其他模型的性能上升,这说明EFP模型在预测物体排名时更注重物体尺寸信息,本文方法更注重视点信息,实验结果体现了所提方法的优势。
为了验证所提显著性排名网络不仅仅在本文所提标签标定方法上能够带来排名性能的提升,本文选择在其他标签制定方法上进行验证,如表2所示。这是在平均值法标签下排名网络的性能,在多个二值化阈值权重下,本文算法性能皆超过了其他显著性方法,证明所提算法不受标签制定方案的制约。
本文将影响显著性排名效果的问题分为相似物体类和物体交叉类两类。在不同场景下,图6比较了本文算法与其他算法的可视化显著性排名结果,在第一和二行可视化结果中,图片中物体形状和尺寸都较为相似,同时存在距离镜头较远的物体和靠近镜头的物体,本文算法仍能给出合理的排名预测结果。在第三行对比图中,图片中物体较为紧密,多个物体之间有一定交叉,本文算法也可以合理的预测多个交叉物体间的排名信息。由此可见,本文方法在多种复杂场景下均取得了较合理的效果,而其他算法在面对这两类问题时排名结果不够合理。
为了验证SASR能够提升图像检索方法的检索粒度,本文将SASR作为一个辅助模块对现有的图像检索方法进行验证(在组合阈值为0.1下实验)。参与对比方法有CNNH[16]、NINH[17]、DSH[18]、DDH[19]、LSH[28]、DSRH[29]和MLSH[30]。操作流程如图1(b)所示。首先使用现有图像检索方法获取检索结果;接下来,使用排名网络计算检索图像与被检索图像中物体的重要关系相似度;最后,筛除重要关系相似度较低的检索图片(SRCC低于ω,将会在消融实验进行说明)。表3给出了不同方法在不同哈希码码长对应的MAP值,其中右上角带星号的方法为当前图像检索方法在SASR的辅助下的性能。在SASR网络的支撑下,场景中物体间的重要关系得以获取,排除与被检索图像重要关系相似程度较低的图像,使图像检索方法的性能得到提升,从而证明了所提算法能夠提升图像检索的检索粒度。
为了进一步说明所提方法的优越性,本文在NUS-WIDE数据上48 bit条件下绘制了PR曲线,如图7所示,PR曲线与坐标轴围成的面积越大,则表示该方法性能越好。从图7可以看出,在显著性排名网络的辅助下,所有现有监督哈希图像检索算法的性能得到了提升。
3.4 用户研究与分析
由于显著性排名本身是带有较大主观性的行为,本文选择通过用户研究来验证提出的排名方案的合理性。首先,从SALICON数据集中挑选了500张图片进行人工注释,给定一张图像,观测者对图像中的物体进行排名注释,将第一眼看到的物体视做最显著的,最后注意到的物体视为最不显著的。本文共邀请了45位用户(年龄层次位于20~25岁,男性占24位,女性占21位)进行研究,每位用户需要重复三轮人工注释,尽可能地消除注释过程中的疲劳损失,最后对所有观测者的排名注释进行平均作为最终排名结果。接下来,为了证明本文基于视点数据的组合阈值物体级显著性排名真值标签制作方法的有效性并消除归纳偏差,将本文方法(组合阈值0.1下)与其他排名标签制定方法做了对比,即本文方法、平均值法、最大值法和Fixation法,具体可视化对比结果如图8所示。在多个场景下,本文方法在组合阈值的约束下,排名结果不再仅仅局限于局部区域,同时关注物体占场景的比重,使排名结果更接近人类视觉系统。本文计算了四种排名方案(本文方法在三个组合阈值下)产生的排名结果中与人工注释的排名相同的图像数量,定量数据如表4所示。本文方案生成的显著性排名在多个组合阈值下与人工注释的图像相同排名的图片数量都超过其他方法,说明本文排名方法更接近人类真实视觉系统。
3.5 算法复杂度分析
本文所提出的显著性排序算法采用了现有的目标检测模型生成物体框,而非使用像素级分割任务;在获取显著性编码特征方面,采用了现有权重固定的显著性模型。因此,本文算法的主要复杂度消耗在图卷积网络组的训练上。具体的效率对比数据如表5所示,相较于其他显著性方法,本文算法的模型参数量更低,效率更高。除了EML-Net,本文算法的运行时间和参数量均优于其他方法,能够保证在排名性能提高的同时,不增加算法复杂度。
3.6 消融分析
3.6.1 SPFE模块的有效性
为了验证所提SPFE模块的有效性,本文比较了两种特征编码方法(ResNet50编码特征、VGG16编码特征),实验结果如表6所示(所有消融实验都在组合阈值为0.1下进行)。使用SPFE模块的性能均远远高于另外两种特征编码方式。其中,在SALICON数据集上SRCC指标分别增加了3.9%和5.2%,F1指标分别增加了1.7%和3.0%。实验结果表明,使用单一局部特征编码效果有限,SPFE模块可以更好地识别图像中的显著物体。
3.6.2 图卷积网络的有效性
为了验证GCN能够学习物体间的相互关系,本文将GCN替换成线性层。结果如表7所示,使用GCN的性能高于不使用GCN的性能,原因在于图卷积网络模块考虑了物体编码特征的差异性问题,允许物体之间的特征相互联系,不重要的物体特征分配较小的权重,使得对更重要特征融合的更加充分。其中,在SALICON数据集上SRCC和F1指标分别增加了8.2%和7.2%。由于本文算法通过堆叠多个GCN层来稳定学习过程和丰富图关系矩阵,所以探索GCN层数对网络模型的影响也十分重要。具体消融实验如表8所示。当GCN层数改变时,显著性排名性能会发生变化,并且,当层数等于3时,显著性排名性能达到最高,因此,在本网络中,将GCN层数设置成3以达到最佳性能。
3.6.3 超参数β对显著性排名标签的影响
为了验证式(1)中超参数β对显著性排名真值的影响,本文使用3.4节用户研究中获得的500张人工注释的显著性物体排名真值数据对β进行消融分析。具体操作流程如下:首先,为了控制变量,本文固定组合阈值γ为0.1,接下来,计算不同β下显著性排名标签与人工手动注释标签的物体排名标签偏移量,具体结果如图9所示。随着β的升高,排名偏移量变化较大,位于0.6~0.9,排名偏移量几乎不变。但随着β的继续升高,排名偏移量又开始增高。这是因为当β较小时,式(1)中物体显著性排名主要由人眼注视点决定,导致物体尺寸信息对显著性排名的贡献相对于人眼注视信息过小,进而导致显著性排名只关注人眼局部注视信息。当位于0.6~0.9时,排名偏移量变化较小,这是因为此时注视点信息和物体尺寸信息贡献相当,显著性排名更加稳定。当β过大时,显著性排名中注视点信息对排名标签的贡献相较于尺寸信息过小,使显著性排名过分关注全局信息而忽略了局部物体,从而导致了排名偏移量增高。综上,本文将β设定为0.6~0.9内的平均值,以促使注视点信息和物体尺寸信息对显著性排名贡献相当。
3.6.4 最小关系相似性阈值ω对图像检索性能的影响
为了研究最小关系相似性阈值(ω)对图像检索性能的影响,本文计算了不同相似性阈值下的图像检索性能,并绘制了性能曲线,如图10所示。随着ω的增加,图像检索方法的平均精度(MAP)一开始会提高,然后会下降。MAP的初始增加归因于现有图像检索结果与检索到的图像中的对象具有不同的相似关系,所提出的SASR算法可以过滤出相似度差异显著的检索结果,从而提高了性能。但是,当将ω提高到一定范围时,原本正确的检索结果也被过滤掉,导致精确率上升,召回率下降,最终导致MAP下降,因此,根据消融分析将阈值设为0.25。
4 结束语
本文提出一种新的图像检索策略,能够在现有基于语义的图像检索方法的基础上通过显著性物体排名算法提高检索粒度;阐述了显著性算法和图像检索算法的内在关联;提出了一种基于视点数据的组合阈值物体级显著性排名真值标签制作方法,简化了排名标签的标注;提出了一种基于图卷积神经网络的物体级显著性排序网络,在现有数据集上的实验结果表明,本文方法优于当前其他显著性方法,并能提升图像检索方法的性能,证明了其有效性。后续将对特征融合编码方式做进一步研究,在确保不降低算法性能的前提下,尽可能降低模型的参数量;此外,会进一步研究GCN对模型性能的影响,探讨如何更有效地构建邻接矩阵来学习物体间的语义关系。
参考文献:
[1]Li Xiaoqing,Yang Jiansheng,Ma Jinwen.Recent developments of content-based image retrieval(CBIR)[J].Neurocomputing,2021,452:675-689.
[2]赵昕昕,李阳,苗壮,等.贪心非对称深度有监督哈希图像检索方法[J].计算机应用研究,2022,39(10):3156-3160.(Zhao Xinxin,Li Yang,Miao Zhuang,et al.Greedy-asymmetric deep supervised ha-shing for image retrieval[J].Application Research of Computers,2022,39(10):3156-3160.)
[3]Ji Zhong,Wang Haoran,Han Jungong,et al.Saliency-guided attention network for image-sentence matching[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:5753-5762.
[4]Droste R,Jiao Jianbo,Noble J A.Unified image and video saliency modeling[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer,2020:419-435.
[5]Jiang Ming,Huang Shengsheng,Duan Juanyong,et al.Salicon:saliency in context[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1072-1080.
[6]王蕓,尹来国,宋梦柯.基于视觉信息补偿的多流音视显著性检测[J].计算机应用研究,2022,39(7):2230-2235.(Wang Yun,Yin Laiguo,Song Mengke.Multi-stream audio-visual saliency detection of visual information compensation[J].Application Research of Computers,2022,39(7):2230-2235.)
[7]Islam M A,Kalash M,Bruce N D B.Revisiting salient object detection:simultaneous detection,ranking,and subitizing of multiple salient objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7142-7150.
[8]Siris A,Jiao Jianbo,Tam G K L,et al.Inferring attention shift ranks of objects for image saliency[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:12130-12140.
[9]Lyu Yunqiu,Zhang Jing,Dai Yuchao,et al.Simultaneously localize,segment and rank the camouflaged objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:11586-11596.
[10]Tian Xin,Xu Ke,Yang Xin,et al.Bi-directional object-context prioritization learning for saliency ranking[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:5872-5881.
[11]Fang Hao,Zhang Daoxin,Zhang Yi,et al.Salient object ranking with position-preserved attention[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:16311-16321.
[12]Liu Nian,Li Long,Zhao Wangbo,et al.Instance-level relative saliency ranking with graph reasoning[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(11):8321-8337.
[13]Erdem E,Erdem A.Visual saliency estimation by nonlinearly integrating features using region covariances[J].Journal of Vision,2013,13(4):11.
[14]Pan Junting,Ferrer C C,Mcguinness K,et al.SalGAN:visual saliency prediction with generative adversarial networks[EB/OL].(2018-07-01).https://arxiv.org/abs/1701.01081.
[15]Ding G,I·mamogˇlu N,Caglayan A,et al.SalFBNet:learning pseudo-saliency distribution via feedback convolutional networks[J].Image and Vision Computing,2022,120:104395.
[16]Xia Rongkai,Pan Yan,Lai Hanjiang,et al.Supervised hashing for image retrieval via image representation learning[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2156-2162.
[17]Lai Hanjiang,Pan Yan,Ye Liu,et al.Simultaneous feature learning and hash coding with deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3270-3278.
[18]Liu Haomiao,Wang Ruiping,Shan Shiguang,et al.Deep supervised hashing for fast image retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2064-2072.
[19]Lin Jie,Li Zechao,Tang Jinhui.Discriminative deep hashing for scalable face image retrieval[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:2266-2272.
[20]Li Jiayong,Ng W W Y,Tian Xing,et al.Weighted multi-deep ranking supervised hashing for efficient image retrieval[J].International Journal of Machine Learning and Cybernetics,2020,11:883-897.
[21]Ji Zhong,Chen Kexin,He Yuqing,et al.Heterogeneous memory enhanced graph reasoning network for cross-modal retrieval[J].Science China Information Sciences,2022,65(7):article No.172104.
[22]Tan Mingxing,Pang Ruoming,Le Q V.EfficientDet:scalable and efficient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10778-10787.
[23]Chua T S,Tang Jinhui,Hong Richang,et al.NUS-WIDE:a real-world web image database from National University of Singapore[C]//Proc of ACM International Conference on Image and Video Retrieval.New York:ACM Press,2009:article No.48.
[24]Lou Jianxun,Lin Hanhe,Marshall D,et al.TranSalNet:visual saliency prediction using transformers[J].Neurocomputing,2022,494:45-467.
[25]Jia Sen,Bruce N D B.EML-Net:an expandable multi-layer network for saliency prediction[J].Image and Vision Computing,2020,95:103887.
[26]Cornia M,Baraldi L,Serra G,et al.A deep multi-level network for saliency prediction[C]//Proc of the 23rd International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3488-3493.
[27]Huang Xun,Shen Chengyao,Boix X,et al.SALICON:reducing the semantic gap in saliency prediction by adapting deep neural networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:262-270.
[28]Datar M,Immorlica N,Indyk P,et al.Locality-sensitive hashing scheme based on p-stable distributions[C]//Proc of the 20th Annual Symposium on Computational Geometry.New York:ACM Press,2004:253-262.
[29]Yao Ting,Long Fuchen,Mei Tao,et al.Deep semantic-preserving and ranking-based hashing for image retrieval[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:3931-3937.
[30]Ng W W Y,Li Jiayong,Tian Xing,et al.Multi-level supervised hashing with deep features for efficient image retrieval[J].Neurocomputing,2020,399:171-182.
收稿日期:2023-01-31;修回日期:2023-03-14 基金項目:山东省高等学校青创科技计划创新团队资助项目(2021KJ062);国家自然科学基金资助项目(61802215)
作者简介:李林峰(1998-),男(通信作者),山东青岛人,硕士,主要研究方向为显著性物体排名、计算机视觉(2736093676@qq.com);陈程立诏(1988-),男,江西萍乡人,教授,博导,博士,主要研究方向为显著性物体检测、虚拟现实数据挖掘、模式识别;王恒森(1996-),男,山东日照人,硕士,主要研究方向为显著性物体检测.