基于多特征非线性融合的草图-图像检索方法
2022-07-06苏亮亮
苏亮亮,李 惠
(1.智能建筑与建筑节能安徽省重点实验室,安徽 合肥 230022;2.安徽省建设领域碳达峰碳中和战略研究院,安徽 合肥 230601;3.安徽建筑大学 电子与信息工程学院,安徽 合肥 230022)
近年来,随着触屏技术的蓬勃发展,手机、平板电脑等可触屏电子设备逐渐成为人们生活中不可或缺的部分,人们可以用手绘草图的形式在移动终端便捷地绘制出物体的外观轮廓,于是基于手绘草图的图像检索技术(Sketch-Based Image Retrieval,SBIR)[1]逐渐引起了学者们的注意,成为当前计算机视觉跨域检索领域的研究热点之一。由于自然图像蕴含丰富的纹理信息和色彩信息,而手绘草图仅包含简单的线条信息,因此如何有效地缩小草图与自然图像之间的域间差异,是目前研究的难点问题。
早前应用于SBIR 领域的方法主要是基于颜色、形状、纹理等视觉传统手工特征,如Canny 边缘检测[2]、尺度不变特征变换(scale invariant feature transform,SIFT)[3]、方 向 梯 度 直 方 图(histogram of oriented gradient,HOG)[4]特征、局部二值模式(local binary pattern,LBP)[5]和颜色直方图[6]等,这些特征虽然在不同的应用场景下取得了不错效果,但是受限于其反映图像的特定方面信息,泛化性能较差。为了缓解该问题,部分学者将不同手工特征进行了融合,以此实现检索性能的提升,例如Mehmood 等人将加速鲁棒特征(speeded up robust features,SURF)与HOG 特征融合,提升了检索的准确率和检索效率[7];郭元晨等人提出了一种基于空间注意力的边缘图融合模型,将自然图像和对应的边缘图编码到各自的特征空间,然后由空间注意力掩膜进行加权融合得到图像向量表征,从而实现草图-图像的检索[8]。然而手工特征存在的“语义鸿沟”问题仍然没有得到很好的解决。近年来,随着深度神经网络技术的快速发展,不少学者开始基于深度学习方法提取草图、图像的特征,典型深度学习网络结构有LeNet[9]、AlexNet[10]、VGG[11]等,通过端到端的学习方式,其获得的特征能够有效缓解语义信息的不足,使得基于深度学习的方法逐渐成为获取图像特征的主流方法。
综上所述,手绘草图线条轮廓简单、抽象,但缺乏颜色和纹理信息,而深度特征往往能够获得更加接近语义层面的信息,于是本文将采用一种非线性特征融合方法来综合传统手工特征与深度特征的优势,选取有代表性的、适合表达边缘信息的HOG特征与深度特征进行融合,以此克服手绘草图与自然图像之间的域间差异。通过公开数据集上的实验与对比分析,结果显示本文提出的多特征融合方法进行草图-图像检索是有效的。
1 相关工作
1.1 形状特征
图像特征主要分为颜色特征、纹理特征以及形状特征。由于草图是由简单的线条构成,缺乏颜色和纹理信息,因此本文提取形状特征HOG 作为草图特征。HOG 特征最早应用于行人检测,后来被广泛应用于人脸检测等领域。它通过计算图像的梯度方向与大小,从而获得关于梯度的统计描述。该算法忽略图像中颜色信息的影响,具有光照不变性、平移不变性和旋转不变性,适用于无色彩信息的草图特征提取。如图1 所示为自然图像与其对应手绘草图的HOG 特征。
图1 自然图像与其对应手绘草图的梯度直方图
HOG 特征获取步骤如下:
(1)图像灰度化。
(2)图像归一化。通常使用gamma 校正法,可以有效降低图像局部的阴影和光照变化所造成的影响,以及抑制噪声的干扰,归一化计算公式如(1)所示。
其中,gamma 通常取值为0.5。
(3)计算图像中每个像素的梯度。对每个像素的梯度大小和方向进行计算。计算公式如(2)和(3)所示。
其中,Gx(x,y)、Gy(x,y)分别表示水平方向梯度和垂直方向梯度。
(4)统计每个胞元(cell)的梯度方向直方图。将检测窗口(block)划分为多个cell,每个cell 的360°梯度方向平均分成若干个方向块(bin),对cell 内每个像素沿着梯度方向在直方图上加权投影,计算出每个cell 的梯度方向直方图。
(5)生成block 特征描述符。将若干个cell 合并成一个block,并将block 内所有cell 的梯度方向直方图进行归一化串联处理,生成该block 的特征描述符。
(6)生成HOG 特征描述符。将目标图像作为滑动窗在检测窗口进行扫描,滑动步长为一个cell,则一个cell 的特征会出现在若干block 中。最后将检测窗口所有block 特征描述符串联处理得到该图像的HOG 特征描述符。
1.2 深度特征
不同于手工特征需要层层设计,基于卷积神经网络(Convolutional Neural Network,CNN)提取的深度特征[12]能够根据特定的任务自动对手绘草图与自然图像分别进行高、中、低多层次的深度特征学习,并且网络的深度和广度可根据需要调整。典型CNN结构主要由输入层、卷积层、池化层、激活层、全连接层及输出层构成,其提取的深度特征可分为深度卷积特征和深度全局特征两类。如图2 所示,深度卷积特征提取自卷积层,倾向于图像的细节与结构信息。深度全局特征从全连接层提取,以向量化形式呈现,便于后续相似度计算处理,同时其特征包含了更高层次的语义信息。因此,鉴于草图-图像检索更倾向于语义层面对比,所以本文选取基于全连接层的深度全局特征作为草图、图像的特征表示。
图2 深度特征提取示意图
1.3 特征融合
当前,常见的特征融合方式有串联融合和权重融合[13]。下面以两个特征向量feature1=(x1,x2,…,xn)和feature2=(y1,y2,…,yn)为例进行详细描述:
(1)串联融合,就是将两个不同的特征向量串联起来,得到新的特征表示。如公式(4)所示:
(2)权重融合,就是将两个不同的特征向量按照一定的比例进行融合,得到新的特征表示。如公式(5)所示:
其中,p1与p2分别表示两个特征向量对应的权重系数,和为1。当两个权重系数相等均为0.5 时,此时为均值融合,均值融合可以看成是权重融合的特例。
2 基于多特征非线性的特征融合
传统手工特征具有明确的设计目的,能够有效刻画图像特定方面的信息,并且计算速度快;而基于神经网络的深度特征具有更好的语义信息,对图像形变和旋转不敏感。于是结合两类特征的优势,同时考虑到手绘草图线条轮廓简单与语义较抽象的特点,采用基于AlexNet 的深度特征与传统手工特征HOG 作为草图、图像的特征表示,提出一种基于全连接非线性特征融合的草图-图像检索方法。该方法的主要思想是将两种不同图像特征作为输入,经过全连接层进行非线性融合,得到最终的特征表示进行草图检索。如图3 所示为全连接非线性融合网络模型。
根据图3,基于全连接非线性的特征融合主要包含以下部分:
图3 全连接非线性融合网络模型
(1)自然图像草图化
由于手绘草图与自然图像之间存在巨大差异,使得检索任务难以实现,因此本文将数据集中自然图像经过Canny 边缘提取,转化为草图形式,以此缩小草图与自然图像的域间差异。
(2)HOG 特征提取模块
HOG 特征的提取涉及block 大小、cell 大小、bin 数目等参数,而这些参数决定着HOG 的效果,所以如何调整相关参数以获得较优的HOG 特征是需要考虑的。于是本文利用支持向量机(Support Vector Machine,SVM)分类器,即libsvm 默认参数,对降维后的HOG 特征进行分类。其中,降维采用经典的主成分分析法(Principal Component Analysis,PCA)[14],通过分类结果调整HOG 参数,最后经过训练获得较好的分类准确率时停止,确定HOG 特征的相关参数。
(3)深度特征提取模块
本文基于AlexNet 网络提取深度特征,需要先对AlexNet 网络进行训练,在草图化的数据集上进行多次迭代,使得网络趋于收敛后,保存训练过程中最优的网络参数。最后获取倒数第2 个全连接层输出的向量作为图像的深度特征。
(4)全连接融合模块
全连接融合模块融合HOG 降维特征和深度特征,该模块由若干全连接层组成,实现不同类型特征的融合。
3 实验
3.1 数据集
实验数据集选用草图检索领域常用的两个公 开 数 据 集Flickr15k[4]与TU-Berlin[1]。 其 中Flickr15k 数据集由Hu 等人构建,是草图检索任务的常用数据集之一,包含33 个类别共10 244 张自然图像。数据集中每个类别图像的数量不一、大小不一,大部分尺寸约为1 000×1 000,并且各类别图像的复杂程度也不尽相同。此外,该数据集的查询草图包含与之对应的33 个类别,每类10 张。不同于Flickr15k 数据集,TU-Berlin 数据集为第一个大型草图数据集,相对简单。TU-Berlin 数据集涵盖书桌、斑马、手表、网球拍等在内的总共250 个不同的常见物体的图像类别,其中每类80 张尺寸均为1 111×1 111 的手绘草图。图4 给出了两个数据集的部分图像示例。
图4 数据集部分图像类别示例
3.2 评价指标
在草图检索领域,常用的评价指标有查准率(Precision)、召回率(Recall)、平均检索精度(mean Average Precision,mAP)等。一次检索后,与待检测图像相似的图像数量占检测出图像总数量的比值即为检索准确率,多次检索准确率的均值即为mAP;与待检测图像相似的图像数量占该类别图像数量的比值即为召回率。计算公式分别如(6)、(7)、(8)所示。
其中,Precision 表示检索准确率,TP 表示应检索的图像数量,FN 表示不应检索的图像数量,FP 表示错检测的图像数量,n 表示检索次数。
3.3 实验流程
本文主要基于Flickr15k 数据集对HOG 特征、AlexNet 网络模型和全连接融合模块的参数进行优化,待得到优化后的模型后,对Flickr15k 与TUBerlin 两类数据进行检索实验。整个实验流程如下:
(1)自然图像草图化
采用Canny 算子对Flickr15k 数据集中的自然图像进行草图化,其中本文Canny 算子参的高低阈值分别设置为150 和50。
(2)HOG 特征获取
将Flickr15k 数据集中草图化的自然图像作为训练集,草图作为测试集,分别提取出HOG 特征,利用PCA 降维到4096 维,通过SVM 分类器的分类结果调整HOG 参数。由于本文重点不是获取最优HOG 特征,因此在获得有效的分类结果时即可停止,即在本文中,分类结果达到84.71%时停止,此时获得HOG 参数为block(16,16)、cell(8,8)、bin 数目为9。
(3)深度特征获取
基于原始的AlexNet 网络模型,类似于流程(2),将Flickr15k 数据集中草图化的自然图像作为训练集,草图作为测试集,训练和优化AlexNet网络,如图5 所示。在大约50 次迭代后网络分类准确率稳定在90%以上;在大约150 次迭代后,训练损失稳定在0.2 以下,网络最终趋于收敛。本文将获取倒数第2 个全连接层输出的4096 维向量作为图像的深度特征。
图5 AlexNet 网络训练过程
(4)全连接非线性融合
将HOG 降维特征和深度特征作为全连接融合模块的输入,该模块由若干全连接层组成。本文为了简化分析,全连接融合模块分别设置为单层全连接层、两层全连接层和三层全连接层,最后连接到分类层,以获取分类结果,数据集类似于流程(2),优化全连接融合模块,将其获得的输出作为最终的图像特征表示。
(5)相似性度量
利用余弦距离,计算出待检索草图与数据集中图像的相似性大小,并按照从大到小的顺序排序输出,得到草图检索结果。
3.4 实验结果与分析
实验一:基于不同全连接融合模块的草图检索对比
首先设置不同的全连接融合模块结构进行对比实验,以mAP、recall 作为评价指标,找出最有的全连接模块结构。
设置单层全连接层、两层全连接层和三层全连接层,记为FC1、FC2、FC3,作为三种不同的全连接融合模块结构,每个全连接层的神经元数量如表1所示,第一个全连接层输入的神经元数量为降维后的HOG 特征与深度特征的维度之和8192,经过若干个全连接层最后连接到分类层。在不同的实验数据集上全连接层神经元数量通用。
表1 不同全连接层神经元数量
其中,激活函数均选用ReLU 函数,batch_size设置为32,epoch 为200,使用交叉熵损失函数。最后分类层神经元数量根据数据集类别数设定,对于Flickr15k 数据集,分类层神经元数目为33。图6为不同全连接层融合模块结构图。
图6 不同全连接融合模块结构示意图
在Flickr15k 和TU-Berlin 两个公开数据集上来进行草图检索,其中Flickr15k 数据的测试集为33 类×10 张草图/类=330 张,如实验流程(2)和(3)所述;TU-Berlin 数据的测试集为250 类×随机选取10 张/类=2 500 张,首先计算基于不同全连接层融合特征得到的mAP 值,结果如表2 所示。
表2 不同全连接层融合特征的mAP 值
由表2 可知,在两个数据集上,使用三个全连接层作为全连接融合模块进行特征融合,最终得到的草图检索的mAP 最高。
接着分别绘制出基于FC1、FC2、FC3 的召回率曲线,如图7 所示。其中横坐标表示返回图像数量number,纵坐标表示召回率recall。由图7 可知,FC3 方法进行检索时的曲线上升速度最快,FC2 次之,FC1 最慢。
图7 不同全连接层融合特征的召回率曲线
结合表2 以及图7 可知,使用三个全连接层进行特征融合得到的结果对草图的表征效果最好。默认以下实验中的全连接融合为基于三个全连接层融合特征的草图检索。
实验二:基于单一特征与融合特征的草图检索对比
将基于HOG 特征的草图检索、基于AlexNet深度特征的草图检索与基于两种特征全连接融合的草图检索作为对比实验,分别记为HOG、AlexNet、HOG+AlexNet,在Flickr15k 和TU-Berlin数据集上的实验结果如表3 所示。
表3 不同方法下草图检索的mAP 值
由表3 可知,在两个数据集上,使用本文全连接特征融合方法进行草图检索,得到的mAP 最高。
接着绘制出基于HOG、基于AlexNet、基于本文全连接融合的草图检索得到的召回率曲线,如图8 所示。其中横坐标表示返回图像数量,纵坐标表示召回率。由图8 可知,本文方法进行检索时的曲线上升速度最快。
图8 单一特征与融合特征的召回率曲线
综合表3 和图8 可知,本文全连接特征融合的草图检索效果优于单一特征提取的草图检索效果。
实验三:基于不同特征融合方法的草图检索对比
为找出效果最好的特征融合方法,本文将HOG 特征作为传统手工特征,与基于AlexNet 的深度特征分别进行级联融合、权重融合以及全连接融合共3 种融合方法作为对比,如图9 所示为不同特征融合方法对比。
图9 不同特征融合方法
在Flickr15k 和TU-Berlin 两个公开数据集上来进行草图检索,比较3 种方法得到的mAP 值,从而得出最优的特征融合方法,结果如表4 所示。其中,通过设置不同比例进行实验,发现在HOG 特征与基于AlexNet 的深度特征以0.6 与0.4 的比例进行融合时,得到的mAP 值最高。因此,在作为对比实验的权重融合中,默认选用两者比例为0.6∶0.4。
表4 不同特征融合算法的mAP 值
由表4 可知,无论是Flickr15k 还是TUBerlin,在两个数据集上采用基于全连接层的非线性融合方法进行草图检索时,得到的mAP 均高于其他三种特征融合方法。
综合以上实验可知,本文基于全连接非线性融合的草图检索优于单一特征的草图检索,优于其他特征融合方法的草图检索,证实了本文方法的有效性。另外,图10 给出了本文方法在Flickr15k 数据集上进行草图检索的部分结果,其中红色框标记为错误的检索结果,其错误的可能原因是数据集部分类别图像数量过少,导致训练不充分;或是本文得到的无论是手工特征还是深度特征,均是基于草图或草图化的自然图像,所以不同类型的对象其轮廓信息可能相似。
图10 全连接融合在Flickr15k 上部分类别的检索结果
4 结束语
本文尝试一种新的特征融合方法,将传统手工特征HOG 与基于AlexNet 的深度特征进行全连接非线性融合,形成新的特征表示。该种方法综合了传统手工特征与深度特征的优点,不仅能够有效刻画出图像的边缘轮廓信息,还能够获得更加接近语义层面的特征,并且通过基于全连接层的非线性融合,使得草图检索的性能得到了提高。与其他几种典型特征融合方法,以及基于单一特征的草图检索方法进行对比实验,实验结果表明本文特征融合方式得到的检索结果最优。
下一步工作主要分为两部分:一是在图像预处理阶段如何将自然图像草图化,以缩小自然图像与草图的域间差异;二是进一步考虑将不同类型特征分布信息融合到策略中,以提高不同特征互补性效果。