APP下载

基于多中心卷积特征加权的图像检索方法

2018-11-22张俊三吴树芳董宇坤

计算机应用 2018年10期
关键词:响应值检索卷积

朱 杰,张俊三,吴树芳,董宇坤,吕 琳

(1.中央司法警官学院 信息管理系,河北 保定 071000; 2.中国石油大学 (华东) 计算机与通信工程学院,山东 青岛 266580;3.河北大学 管理学院,河北 保定 071000)(*通信作者电子邮箱shufang_44@126.com)

0 引言

在互联网技术高速发展的今天,基于内容的图像检索越来越受到人们的关注。图像检索过程主要分为图像表示阶段、过滤阶段和二次重排序阶段[1-2]。图像表示阶段主要通过对图像的局部或者全局特征的加工生成代表图像内容的向量;过滤阶段用于计算待查询图像与图像库中所有图像的相似度,并按照相似度排序返回查询结果;二次重排序阶段主要用于对返回的相似度高的结果再次提纯。图像内容表示的优劣直接决定着图像检索的性能,因此长久以来为研究者所重视[3]。

词袋模型(Bag of Words, BoW)[4]在相当长的一段时间内成为了图像检索问题的主流算法,其成功主要取决于局部不变性特征[5]与大规模的字典训练[6]。在随后的工作中,局部特征匹配、空间特征的引入以及局部特征描述子的选择成为了图像检索领域的热点问题。

随着深度学习算法在ImageNet挑战赛图像分类任务中取得了优秀的结果[7-8],以深度学习为基础的算法在对象识别[9]、语义分割[10]等众多计算机视觉领域得到了广泛的应用。利用卷积神经网络(Convolutional Neural Network, CNN)提取多层次特征,并用激活特征向量作为图像表示的方法在图像检索领域逐渐成为主流[11-12]。与图像分类任务不同,图像检索没有训练集的参与,所以通常情况下直接采用预训练网络对图像特征进行提取。一些算法尝试通过对象区域的发现,从而生成有针对性的图像表示。Tolias等[11]提出了通过图像子区域对图像进行编码的方法,由于激活映射中的最大值位置通常对应着对象区域,所以算法将不同尺度的图像子区域特征用该区域在不同特征映射内的极大值池化结果来表示。卷积特征映射中,响应值高的区域更有可能是对象区域,所以,依据响应值对卷积层激活加权的方式可以在图像表示的过程中更加突出对象内容;但是,极大池化的方法无法准确刻画出对象区域。Babenko等[13]提出的跨维度加权(Cross-dimensional Weighting, CroW)算法利用对象通常出现在图像几何中心的特点,将靠近中心的局部特征赋予较高权值,并将加权的局部特征进行聚合用于生成压缩的图像特征;但是,这种方法并没有选择出对象的特征,生成的图像表示仍然是全局表示方法。Wei等[14]首先发现对象的粗略区域,并将区域内深度特征进行聚合用于图像的细粒度检索问题,此方法将激活映射响应的均值作为图像区域的判断标准,所以,无法准确发现对象区域;其次,该方法将激活映射内大于均值位置在不同特征映射中的响应当作对象特征描述子,并没有尝试区分不同响应在对象描述中的重要性。

卷积层激活特征的池化可以将局部特征进行有效合并,生成较低维度的图像表示,一些算法从图像的全局表示出发,尝试利用不同的特征聚合方式进行图像表示。 Azizpour等[15]提出卷积层的激活在极大池化后的结果能够生成非常有效的图像表示。在随后的工作中,Babenko等[13]提出对于经过白化的图像进行表示,使用卷积特征的和池化(sum pooling)比极大池化(max pooling)有更好的检索效果。

与以上方法不同,Kalatidis等[16]提出的跨维度(CroW)算法利用卷积层激活的空间权重和通道权重为可能出现的对象区域赋予高权值。然而,空间权重的计算方式只考虑了激活映射中不同位置响应的重要性,没有考虑到不同位置特征映射之间的关系。图像中的对象通常是多个位置组成的连续区域,将不同位置之间的近邻关系融入到权重的计算中,对于图像内容的合理表示有着重要的意义。卷积特征的高响应值位置在这些工作中用于发现原图像中的对象区域,但是如何将多个高响应值位置之间的关系融入到对象的深度特征加权中仍然没有得到解决。

本文提出了基于多中心的卷积特征加权(Multi-center based Convolutional Feature Weighting, MCFW)方法,这种方法根据对象区域的连续性特点,从激活映射中选取一些高响应值位置作为中心,通过计算其他位置与中心点的距离来给所有位置的深度特征描述子赋权值。图像表示的流程如图1所示,首先,提取出最后一个卷积层的激活;其次,对激活内不同通道的特征映射进行求和获得激活映射;然后,从激活映射中选择出响应值高的一些位置作为中心,将不同位置的高斯权重与尺度权重作为激活中对应位置描述子的权重;最后,通过加权特征的池化生成图像表示。

图1 图像表示流程Fig. 1 Flowchart of image representation

1 多中心特征加权

由于深层卷积特征拥有更接近于语义的特征描述,所以利用最后一个卷积层特征进行图像表示的方法在图像检索中得到了广泛的应用。图像I通过预训练卷积神经网络,在最后一个卷积层生成了C个高和宽分别是H和W的特征映射S,对应卷积层的激活为三维张量T,其包含H×W×C个元素。描述子d是特征映射中任意位置在T中对应的C维向量。

不同通道卷积特征映射的叠加对于发现对象区域有着重要的作用[14],将C个卷积特征映射S叠加后生成T的激活映射A为:

(1)

其中:A∈R(W×H)。在A中任意位置的响应值越大,此位置对应的图像I中的区域越有可能是对象的区域。

为了在激活映射中突出对象所在的位置,算法在A中选择了前N个响应值最大的位置P={p1,p2,…,pN}作为中心,其中pk位置在A中对应的坐标为(xk,yk),则A中任意位置(x,y)对应pk的高斯权重为:

(2)

其中:βkN为pk响应值在A中归一化后的结果。与文献[13]相同,σ的值为中心点到激活映射最近边界的1/3。计算任意位置相对于所有中心的权重,并选择其中的最大值作为N中心情况下,则当前位置对应描述子的权重为αkN(x,y)。

空间金字塔[17]将图像划分为大小相同的细胞单元(cell),并对不同尺度细胞单元内的特征进行表示,从而给图像表示提供多尺度的空间信息,空间金字塔的层次越高,对应的特征权重越大。受此方法启示,将中心的数量N作为划分尺度的标准,那些在较少中心情况下获得高权值的位置更有可能对应着对象区域,则尺度权重表示为:

LN=exp(-N)

(3)

最终,N中心情况下的特征加权为:

wN(x,y)=akN(x,y)LN

(4)

2 图像表示

通过使用wN(x,y)对T中描述子d(x,y)加权,可以反映出当前位置的描述子对于描述对象特征的重要性。与文献[14]相同,本文通过设置阈值的方法选择一些描述子用于图像表示:

(5)

其中:阈值γ为A中所有位置权重的平均值。在N中心情况下的图像表示为加权描述子的和池化,如式(6)所示:

(6)

最终的图像表示为不同中心数量情况下图像表示的连接。假设选择了M组不同的最大激活中心数量,则最终图像表示的维度为MC。

3 实验与分析

3.1 实验数据

图像集1是INRIA Holiday图像集[18],此图像集主要由一些私人的假期照片组成,共包含500种场景或物体,共1 491幅图像,其中每组图像的第一个作为查询,其他的作为查询结果。

图像集2是Oxford图像集[6]。本文选择Oxford 5K、Oxford 100K、Oxford 105K作为实验用数据集。其中:Oxford 5K包含从Flickr上找到的5062幅共11种牛津地标性建筑的图像,并从每种地标中选出5个作为查询;Oxford 105K是由Oxford 5K加上干扰图像图像集Oxford 100K(共100071幅图像)形成。

图像集3是Paris图像集[19],共收集了Flickr中6 412幅巴黎地标性的建筑,如凯旋门和卢浮宫等。需要注意的是建筑物可能出现在图像的任意位置。

表1 MCFW与其他算法的mAP比较Tab.1 mAP comparison between MCFW and other algorithms

3.2 实验设计

在Oxford 5K、Oxford 105K与Paris图像集中,查询图像的对象区域已经给定,实验中采用标准的方法,即把裁剪后的图像作为神经网络的输入用于提取特征。对于Holiday、Oxford 5K、Oxford 105K和Paris图像集,实验采用平均精度均值(mean Average Precision, mAP)来衡量检索的性能。与文献[13,16]相同,本文以预训练VGG16模型为基础,用于提取图像深度特征。随着模型层次的深入,卷积层特征拥有更好的语义表示能力,所以实验选择最后一个卷积层的激活用于特征加权以及图像表示。实验中,选择的划分尺度及中心数量分别为1、2和3三种尺度。图像表示的维度为1 536,MCFW算法采用欧氏距离衡量图像之间的相似性。查询扩展(Query Expansion, QE)能够有效地提高检索性能,对于查询图像按照MCFW方法进行检索,将第一次查询的结果按照相似性从高到低排序,将最相似的前5个查询结果的图像表示进行平均池化与L2归一化,并将其作为二次查询的输入,与所有图像进行相似度计算,并按照相似性进行排序。

图2为Paris图像集中不同最大激活组数M对应的mAP,从中可以发现,随着最大激活组数的增加,平均精度均值也随之增加,当组数为4时mAP达到最大值。此外,图中不同曲线对应着VGG16模型中不同卷积层特征通过MCFW方法得到的mAP,由于深层次的卷积层特征拥有对图像更好的语义描述,利用conv5-3层的特征得到了最好的检索结果。

图2 不同最大激活组数下Paris图像集mAP的比较Fig. 2 mAP comparison for different groups of maximum activations in Paris

表1为MCFW与其他算法在图像库中检索结果的mAP值比较。可以发现在不采用QE的情况下,MCFW在所有图像库中都取得了令人满意的检索效果。和池化卷积(Sum-Pooled Convolutional, SPoC)[20]利用对象通常情况下出现在图像几何中心的特点,将高权值赋予几何中心的特征,远离中心的特征则赋予了较低的权值。图像中对象位置的不确定性导致其检索性能低于MCFW。与MCFW相似,CroW[16]通过发现卷积层激活映射的响应值大小来确定对象位置,但是,这种方法没有考虑到对象区域的连续性特点,所以,单纯依靠响应值的Crow方法无法给对象区域赋予合理权值。由于CroW考虑到了同层次中不同特征映射在求和过程中的重要性比对,所以仍然取得了优秀的结果。增加QE可以显著提高检索性能,通过实验比对可以发现,在同时增加QE的情况下,MCFW的结果仍然优于CroW。

图3为MCFW在Paris图像集中不同查询对应的前5的检索结果,图像查询中的对象区域用绑定框标出。从检索结果中可以发现,MCFW提取出的图像特征对于不同角度和光照下的图像表示有较好的鲁棒性,此外,由于MCFW对象的中心选择不依赖于图像的几何中心,所以检索结果中许多对象的中心点并不在图像的中心。

4 结语

本文基于卷积层激活映射的特点,提出了基于多中心的卷积特征加权方法MCFW。本文方法将激活映射中较大响应个数定义为尺度,并将这些响应的位置作为中心点,通过高斯加权的方式对激活中的描述子进行重要性分析,最后,通过特征聚合生成图像表示,用于图像检索。本文方法在一些图像检索任务中取得了令人满意的结果。在未来的工作中,将设计将基于特征加权的图像表示方法融入图像哈希算法中,用于提高检索性能与速度。

图3 MCFW在Paris图像集中的检索结果对比Fig. 3 Retrieval results of MCFW in dataset Paris

猜你喜欢

响应值检索卷积
紫外荧光法测定醇基液体燃料中的总硫含量
基于程序性知识学习的项目状态转移函数与多分知识结构
基于3D-Winograd的快速卷积算法设计及FPGA实现
气相色谱法测定蔬菜中常见有机磷农药响应值变化规律
卷积神经网络的分析与设计
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
从滤波器理解卷积
提高环境监测数据准确性初探