双分支网络架构下的图像相似度学习
2020-01-03马成贤周嫣然
卢 健,马成贤,周嫣然,李 哲
(西安工程大学电子信息学报,陕西 西安 710048)
图像相似度学习作为计算机视觉基础研究问题,被广泛应用于图像质量评估、图像检索、行人再识别、人脸识别任务研究中。由于不同场景下图像特征信息量和复杂度差异较大,并且图像易受光线变化、局部遮挡等外部因素影响,如何准确、快速地判别两幅图像是否相似极具挑战性[1]。
传统机器学习方法主要基于人为设定的特征描述子来判别图像相似度。例如,在不变特征提取中SIFT(scale-invariant feature transform)[2]占据着重要地位,但对于边缘光滑的目标特征提取,特征点捕捉准确率较低,实时性差。SURF(speed up robust features)[3]通过检测特征兴趣点和关键点描述两步进行相似度判别。近年来为了符合人类视觉判断机制,通过一种感知距离(perceptual distance)来衡量两张图像的相似性[4],如SSIM(structural similarity index)[5]、FSIM(feature similarity index)[6]、MSSIM(mean structural similarity)[7]和GSSIM(grid scheduling simulator)[8]等方法研究取得了很好的效果,但是由于过于依赖人工提取特征和参数设定,没有直接利用图像特征信息,实现过程复杂、耗时;提取特征少,容易导致图像匹配不足[9]。
随着深度学习方法的不断应用,图像相似度学习的主要研究方向有:①采用深度学习网络以驱动迭代优化估计图像对的相似性;②直接利用深度回归网络预测转换参数[10]。如文献[11]将AlexNet第1层卷积核作为特征描述符计算图像数据集的局部特征,相比人工提取的描述符效果更佳;文献[12]针对不同任务研究和数据集,设计和训练了不同卷积神经网络模型,以学习图像块之间的相似度,取得了很好效果,但网络训练比较耗时;文献[13]提出一种归一化的连体网络,测试阶段将特征提取网络和度量网络分开进行,以避免图像匹配时特征提取的重复计算;文献[14]设计的连体网络,用欧氏距离计算相似度,采用快速近似最近邻算法使得匹配过程更快;文献[15—16]中提出的一种基于卷积神经网络(convolutional neural networks,CNN)结构的孪生网络(siamese net),利用权值共享的左右分支网络来提取图像特征,通过计算欧氏距离度量图像相似度,但由于提取特征信息单一,准确率较低;文献[17]利用多种局部特征描述子进行相似度判别,在KITTI数据集上取得了很好的效果,但仅局限于窄基线变化范围较小的场景下;2015年提出的基于Siamese网络改进的双通道(two-channel)网络[18],通过将双分支合并,将合并后的双通道图像由CNN提取融合特征来提升准确率。此外,为了有效挖掘图像内容信息来表征图像间的相似性,基于CNN结构基础上进行不断改进的模型还有SimNet(stepwise image-topic merging network)[19]、NCC-Net(normalized cross correlation-net)[20]等。
综上所述,图像相似度学习研究的关键在于提取特征。本文采用深度学习网络以驱动迭代优化估计图像对的相似度,在Siamese网络结构基础上借鉴双通道网络的双通道图像输入,设计了一种双分支(two-branch)网络。网络输入采用Central-surround方法将双通道图像数据进行裁剪,由权值不共享的左右分支网络提取单通道图像特征,经过特征融合后直接输入全连接层进行相似度学习。该网络具有以下优点:①可以直接从图像数据中学习图像的相似性(即没有人为设计的特征描述子);②双分支网络结构提取的单通道特征改善了网络提取特征多样性,在全连接层直接学习图像相似度加快了网络训练速度。
1 相关工作
图像相似度学习被认为是判断两张图片是否匹配,而不是计算相似度数值。因此在网络训练时,数据标注方式为:如果两张图片相似,对应输出为1;不相似则对应输出为-1。
1.1 Siamese网络
Siamese网络原理类似于提取图像的描述子[14,21],网络结构为左右分支结构相同且权值共享。该网络首先将图片对(X1,X2)作为网络输入数据,然后X1和X2分别通过左右分支网络提取特征向量,以欧氏距离作为损失函数来判断图像对是否相似。图1所示为Siamese网络结构。
图1中,GW(X1)为网络左分支提取的特征向量;GW(X2)为网络右分支提取的特征向量;EW(X1,X2)表示网络输出结果。当输入图片对相似时,EW(X1,X2)值接近1;否则接近0。损失函数如下
EW(X1,X2)=‖GW(X1)-GW(X2)‖
(1)
相比传统CNN模型[22-23],Siamese网络的主要优势在于:①淡化了标签,使得网络扩展性强,可以对未训练数据直接进行分类任务;②采用网络多输入方法,变相地增加了整个数据集大小,可适用于小样本数据。由于该网络左右分支网络权值共享,导致提取图像特征信息单一,对图像局部差异较小的图像识别效果较差。
1.2 双通道网络
与Siamese网络结构不同,双通道网络输入为双通道图像输入,通过卷积神经网络来提取双通道图像融合特征后,直接输入全连接层进行相似度学习。图2所示为双通道网络结构。
图2中,网络输入为直接将双通道图像(图像对),通过CNN提取双通道图像融合特征后,直接由全连接层进行图像相似度学习,最后决策层采用Softmax分类器。同时该网络直接处理图片对数据,网络灵活性强,模型训练及测试速度比较快,但由于提取的融合特征信息单一,一定程度上影响了图像相似度学习,导致准确率受到影响。
2 双分支网络
2.1 网络结构设计
本文基于Siamese网络结构,借鉴双通道网络提取双通道图像融合特征后,直接在全连接层进行相似度学习的过程,提出了一种基于卷积神经网络结构的双分支网络。左右分支网络结构为相同的浅层CNN网络,用于提取浅层特征来提高相似度学习准确率[24],与Siamese网络不同的是该网络左右分支网络权值不共享,由融合层对提取单通道图像特征进行融合后直接输入全连接层进行相似度学习,如图3所示。
图3中双分支网络结构设计为:权值不共享的双分支结构+融合层(merge layer)+全连接+Softmax分类器。首先将网络输入图像对(X1,X2),采用Central-surround方法将图像对(2,32,32)进行中心裁剪;然后并行输入左右分支CNN网络,分别提取单通道图像特征;最后直接输入全连接层进行相似度学习。
2.2 模型训练
在监督学习模式下,为了量化模型性能和优化模型,目标函数采用L2正则化和铰链(hinge-based)损失函数
(2)
3 试验设计与结果分析
3.1 试验数据集
试验数据集由实验室工业相机拍摄的芯片卡槽图像构成,图像大小为32×32,图像共计16 800张。根据图像相似度数据标注方式,将图像分别按相似与不相似组成图片对,如图4所示。网络训练时,训练数据集和测试数据集划分见表1。
数据集相似/对不相似/对训练集41803820测试集235165
为了评估数据图像对组合的合理性,本文采用哈希算法分别评估数据集相似对和不相似对中2个图像的相似度。图5为对应图4的数据图像对评估样例图(即2个图像每一行像素值平均值的对比曲线图)。
图5(a)为对应图4(a)随机图像对的2张图像(X1,X2)相似度评估样例图,其2张图像积间的方差差值为10.69;图5(b)为对应图4(b)不相似图像对的2张图像(X1,X2)的相似度评估样例图,其2张图像间的方差差值为326.54。方差差值越小,说明2张图像越相似,也验证了组合图像对的可靠性。
3.2 试验环境及参数设置
试验环境:Windows10系统,内存4 GB,显卡为1060 ti;API为Keras;后端深度学习框架为Tensorflow;编程语言为Python。
Siamese、双通道、双分支3种网络结构参数设置:卷积核大小设定为3×3;采用最大值池化(max-pooling),其核大小为2×2;网络对应每层输出的特征图大小分别为16、16、32、32;全连接层参数分别为1024、512、2。
3.3 试验结果分析
为了保证数据评估效果与在真实场景下模型对未知数据预判的结果相近,在模型训练时,数据集划分了训练集和测试集[26]。如图6所示,网络训练批次周期为10,图6(a)、(b)、(c)分别为Siamese、双通道、双分支模型训练时,训练集和验证集的损失(loss)和准确率(accuracy)随批次周期(epoch)的变化曲线。3种模型相似度学习性能对比见表2。
模型训练时间/s测试时间/s训练准确率/(%)测试准确率/(%)孪生网络1540.1769.0953.08双通道网络1000.1199.8892.19双分支网络1500.1599.8097.96
图6中,3种模型在训练过程中,损失函数收敛所需批次周期分别为8、6、4。由Siamese、双通道和双分支3种网络的预测准确率与训练准确率变化曲线可以看出,Siamese网络loss值较大,且loss曲线变化值较小;双通道网络loss值变化范围较小,波动较大;因此,二者模型收敛所需批次周期较大。相比之下,在批次周期为4时,本文双分支网络loss值快速下降,并逐渐趋于0,而准确率变化曲线平滑程度较为明显。由此证明,双分支模型的网络学习能力(准确率达97.96%)和模型的范化能力(训练准确率曲线和预测准确率曲线基本持平)明显占据优势。
由表2可以看出,由于Siamese网络权值共享,模型提取图像特征单一,导致识别率较低;双通道网络通过CNN直接处理双通道图像,减少了网络训练时间,由于网络提取双通道图像融合特征单一,导致准确率较低;双分支网络将左右分支提取的单通道图像特征融合后,直接输入全连接层进行相似度学习,改善了网络提取特征多样性,相对双通道网络准确率提升了5个百分点。但由于权值不共享,依赖参数较多,相比双通道网络训练时间较长。
4 结 语
本文提出了一种权值不共享的双分支(Two-branch)网络。试验结果表明,该网络在提取图像特征信息时,由左右分支网络提取单一图像特征向量后,对单一图像特征向量进行融合,然后直接学习图片对的相似度,从而一方面改善了提取的图像特征多样性,有效提升了准确率;另一方面加快了模型训练速度,增强了网络学习能力和模型泛化能力。其网络结构设计对计算机视觉任务研究具有重要的应用推广价值。但是,在试验过程中发现由于左右分支网络权值不共享,网络训练受限于数据量,在数据不足时,易产生过拟合,从而影响图像相似度学习准确率。因此以后工作中有待研究的问题如下:①以数据增强和特征提取多样性为研究点,改进网络结构,不断优化相似度学习效率;②对网络结构进行推广应用,进一步验证网络的有效性,并挖掘其可能的改进方案。