APP下载

基于注意力双分支网络的跨模态足迹检索

2021-10-21鲍文霞茅丽丽杨先军瞿金杰

关键词:采集器足迹均值

鲍文霞 茅丽丽 王 年 杨先军 刘 晋 瞿金杰

(1安徽大学电子信息工程学院, 合肥 230601)(2中国科学院合肥物质科学研究院, 合肥 230031)(3公安部物证鉴定中心, 北京 100038)

足迹指的是人体在站立或行走条件下,脚掌通过体重压力作用在承痕体所形成的痕迹[1].医学研究表明,足迹数据具有唯一性和独特性[2-3],反映了对象的生理特征和行为特征.在侦查犯罪案件中,足迹特征相对于人体的其他特征,更加不易伪装,刑侦人员可以从中挖掘到更多有效的信息.因此,国内外研究人员开展了形式多样的足迹方面的研究.例如,Osisanwo等[4]使用捺印技术获取足迹图像,比较分割后各区域的压力面积和压力值标准偏差,并进行图像匹配.Khokher等[5]通过平板扫描仪获取了21人足底图像,使用主成分分析(PCA)和独立成分分析(ICA)线性投影技术提取足底的纹理和形状特征来进行足迹识别.Heydarzadeh等[6]使用压力传感器平面板采集35人足迹数据,将每帧图像叠加合成一张融合图像,使用支持向量机(SVM)对足迹图像进行分类识别.

从以上研究可看出,目前还没有公共的足迹图像数据集,并且足迹图像采集规范和采集设备多样化,在不同采集设备下获取的多模态足迹图像包含的信息既有共性,又有各自的独特性,通过一种模态定向检索到另一种模态的足迹图像在足迹的鉴定比对、识别中有着重要的应用.对多模态数据的处理属于多视图学习(multi-view learning)问题,通过利用数据在不同视图学习的难易程度不同来实现视图之间的协同学习.例如,Sun等[7]提出8个PAC-贝叶斯边界来分析和比较多视图分类器的泛化性能,并验证了多视图边界的有效性.Xie等[8]提出多视图拉普拉斯支持向量机的方法,在图像和文本的多模态分类任务中具有较好的效果.跨模态图像检索是多视图学习方法的一个具体应用,其难点在于需要克服不同模态间的“语义鸿沟”.

目前基于图像的跨模态检索方法主要有子空间方法[9]、主题模型方法[10]、哈希变换方法[11]和深度学习方法[12].深度学习方法能够利用神经网络构造一个多模态公共空间,从而减小跨模态的异构性.

现有的足迹研究受到数据样本的限制,关于跨模态足迹检索研究还很少.因此,本文首先利用光学足迹采集器和压力足迹采集器,采集并建立了一个包含138人的跨模态足迹数据集.然后根据足迹图像的特点,设计了一种基于空间注意力机制的双分支网络用于跨模态足迹检索.该网络采用了双分支结构,并引入了空间注意力机制和双约束损失,以学习到更有效的多模态共享特征表示.

1 足迹图像获取和预处理

1.1 光学足迹图像采集器

本文采集光学足迹图像所使用的仪器为杭州创恒电子技术开发有限公司所研制的光学足迹采集器,如图1(a)所示.该采集器由正面为脚踏面的等腰三棱镜、均匀直流光源、拍摄装置组成,采集时不需要在足底涂抹油墨,而是利用棱镜全反射原理形成足迹图像并由拍摄装置获取.光学足迹采集时的软件界面如图1(b)所示,采集图像的分辨率为1 362×2 871 dpi.

(a) 光学足迹采集器(单位:mm)

1.2 压力足迹图像采集器

本文采集压力足迹图像所使用的仪器是杭州创恒电子技术开发有限公司提供的单板压力足迹采集器,如图2(a)所示.采集的软件界面如图2(b)所示,采集图像分辨率为250×150 dpi.

(a) 压力足迹采集器

从生物力学角度来看,足迹采集器可以获取采集者自然行走过程中的压力变化以及足迹特征等数据信息.该采集器的性能稳定,能够较好地保证采集图像的质量,表1给出了采集器的主要技术参数.其中采集频率达到100 Hz,可以满足人体行走时正常实现图像采集的要求;传感器密度达到25点/cm2,幅面达到50 cm×30 cm的有效区域,便于清晰地观察到采集的压力图像.

表1 压力采集器主要参数

1.3 足迹数据采集流程

数据采集前,首先在系统录入被采集人员的身高、体重等基本信息.表2给出了被采集人员的基本信息分布.在图像采集过程中,可能会受到光照、灰尘、被采集人员的脚部施力状态和行走姿势、仪器噪声等因素的不同程度的影响.为了提高采集的规范性,要求采集仪器表面保持一定的清洁和一致的光照条件.足迹是体现人体心理的重要载体,心理活动与足迹之间有着必然的联系[13],因此被采集人员的心理活动也会影响采集数据的质量,故要求被采集人员在行走过程中尽量放松自然,同时要求脚印落在采集仪器的中心位置,以避免不必要的噪声干扰.同时在正式采集前,被采集人员需要事先经过采集器来回行走10趟.

表2 被采集人员的信息分布

正式采集时,被采集人员在赤足条件下自然行走过采集器,采集器自动采集行走时留下的左右脚各10幅足迹图像.最终共采集5 520幅足迹图像,其中光学赤足图像和压力赤足图像各有2 760幅,表3统计了采集图像的数量分布.图3展示了不同被采集人员在每种模态下的6幅足迹图像,其中左脚图像和右脚图像各3幅.同一个人的光学图像和压力图像在形态、图像分布位置等方面存在很大差异,同时在单模态内同一个人以及不同人之间的图像也存在一定差异,例如在光学图像的纹理、形态等方面和压力图像的重压面等方面.

(a) 被采集人员1的足迹图像

表3 采集图像的数量统计

1.4 足迹数据预处理

足迹图像采集易受光线、灰尘及仪器噪声等因素影响,本文采用了中值滤波对光学足迹图像和压力足迹图像进行去噪.如图3所示,采集的光学足迹图像中含有标尺部分,因此需要对图像进行去标尺操作.光学赤足图像的预处理如图4所示,压力赤足图像的预处理如图5所示.为了提升网络模型的泛化能力和鲁棒性,本文对采集图像进行垂直翻转、水平翻转、逆时针旋转10°和顺时针旋转10°的数据增广.光学足迹图像和压力足迹图像的增广操作如图6和图7所示.经扩充后,每个人的光学足迹图像和压力足迹图像分别扩展为100幅.

(a) 原图

(a) 原图

(a) 滤波

2 基于空间注意力机制的双分支网络

2.1 双分支网络结构

不同模态足迹图像的特征既有共性,又有各自的特点,并且不同个体的足迹图像特征差异小,同一个体的足迹图像特征差异大.因此,为了获取具有同一个体稳定性、不同个体高区分性的特征,本文设计了一个既能充分学习每个模态中具有辨别性的固有特征又能获取不同模态足迹的共享特征空间的双分支网络.该网络结构包含特征提取模块、特征嵌入和双约束损失3个模块,如图8所示,该网络结构以端到端的方式学习特征表示并进行距离度量.

图8 跨模态足迹检索的网络结构

在深度学习中,随着网络深度的增加,可能会伴随着梯度消失或梯度爆炸等问题,不利于网络的收敛优化.常用的ResNet50[14]通过短接操作构建了恒等映射,使得原始粗略的特征和训练后得到的精细化特征之间相互补充,以增强有用的特征,过滤掉一些无用特征.同时,ResNet50网络的学习过程是去拟合残差,不是直接拟合输入和输出,优化更简单,不仅能学习充分的足迹信息,还使得梯度反向传播时不容易出现梯度消失等问题.因此,本文在特征提取模块中,采用经过预训练的ResNet50网络作为双分支结构中的每个单分支的基础网络,提取足迹特征,ResNet50的网络结构图如9所示.考虑到各模态中细粒度足迹图像的类内特征不易学习,本文在各分支的ResNet50网络的Layer3和Layer4层后引入空间注意力模块,从而学习到各模态中更有辨别性的固有特征;在特征嵌入模块中通过部分参数共享构建一个模态共享空间;为了增大模态内的类间差异和减小跨模态中同类别之间的差异[15],本文应用了双约束损失,即交叉熵损失和异质中心损失.

图9 ResNet50的网络结构

2.2 空间注意力机制

细粒度足迹图像存在较大的类内差距和较小的类间差距,增加了各模态类内和类间特征学习的难度.为了使网络关注到各模态内不同类别图像的关键区域,学习到更有辨别性的特征,本文在ResNet50基础网络的Layer3和Layer4层后引入了1×1的空间注意力机制,空间注意力结构图如图10所示.该注意力主要包括一个1×1的卷积操作和一个Sigmoid激活操作,具体实现是将ResNet50网络的Layer3和Layer4层后输出的尺寸为b×c×h×w的特征图通过一个1×1的卷积和Sigmoid激活操作,得到一个注意力掩图,再将注意力掩图与输入特征图进行对应元素相乘操作,以得到可以突出关键区域的特征向量,其中b表示超参数batch size,c为通道数,h和w分别为高度和宽度;Sigmoid激活函数可以增加神经网络模型的非线性,以便增加对样本非线性关系的拟合能力.考虑到学习到的凸显关键区域的特征向量可能具有局限性,再将其和原始输入特征向量进行对应元素相加的操作,以学习到更为全面的特征,即图10中的输出特征图.

图10 1×1的空间注意力模块

2.3 损失函数

为了能同时考虑到模态内和模态间的差异,本文采用双约束损失对网络进行约束.损失函数结构如图11所示,通过将图8中双分支网络输出的2个模态的特征向量在第一维度上拼接后再训练,实现特征嵌入模块中的参数共享,以此来构建一个模态共享空间,再将拼接的特征向量经过全连接层FC1、BN层得到降维特征向量,最后经过2种不同的处理分别得到交叉熵损失和异质中心损失.本文总的损失函数如下:

图11 损失函数结构图

LZ=LID+LHC

(1)

式中,LID为交叉熵损失;LHC为异质中心损失.

交叉熵损失是利用特定模态信息来学习类别特征,并对各模态的类内特征进行约束,使类间差异增大,同时也有助于增大跨模态样本的相关性.如图11所示,全连接层FC1、BN层后得到的降维特征向量,经过LeakyRelu激活函数和Dropout丢弃训练策略的处理后,再经过全连接层FC2、Softmax函数后结合标签计算可得到交叉熵损失.其中,BN可以在一定程度上提升网络训练速度,加快收敛过程;Dropout操作则是为了防止过拟合.交叉熵损失计算公式如下:

(2)

式中,i表示每个训练样本;K表示2倍的batch size,本文中batch size为32;j表示每个类别;n为总的类别数,本文中n设置为82;xi为第i个样本的特征向量;yi为样本i的真实类别;wj表示第j列的权重,wyi表示第yi列的权重.

异质中心损失可以通过降低跨模态同类别样本的中心距离来减小跨模态的类内差异[16].如图11所示,全连接层FC1、BN层后得到的降维特征向量,经过L2正则化处理后,再将每个模态的特征向量结合每个模态的标签计算可得到异质中心损失.异质中心损失计算公式如下:

(3)

3 实验

3.1 实验环境

实验所用计算机带有2块NVIDIA 2070ti显卡,采用Linux操作系统.网络模型均在PyTorch中搭建,使用随机梯度下降(SGD)优化器进行训练,损失函数为交叉熵损失和异质中心损失,经过200次迭代后完成训练.本文将前100次迭代的网络学习率设置为0.01,后100次迭代的网络学习率设置为0.001,每次迭代的批处理大小设置为32.

3.2 评价指标

本文采用文献[17-18]中的评价指标来评估细粒度跨模态检索的性能,即平均精度均值(mAP)和CMC曲线中的Rank1、Rank5、Rank10.其中RankK值表示检索集中前K个检索结果中出现正确匹配的概率.本文基于跨模态足迹图像的互检索问题开展研究,为了充分体现本文方法的互检索性能,将2种检索模式下mAP均值和Rank1均值作为本文的评价指标.

3.3 数据集划分

将实验数据集划分为训练集、验证集和测试集,其中训练集含82人的光学和压力足迹图像,验证集含28人的光学和压力足迹图像,测试集也含28人的光学和压力足迹图像.为了保证实验的科学性,确保训练集、验证集和测试集的类别和图像互不交叉重叠,本文采用2种检索模式:① 根据光学图像检索压力图像;② 根据压力图像检索光学图像.为了提高检索的可靠性,将验证集和测试集中查询库和检索库的数据量比例设置为1∶2,即查询库中每人50幅图像,检索库中每人100幅图像.在每次迭代中进行训练后都在验证集上进行测试,得到mAP和Rank值,并且将Rank1取得最高值的模型保存为最优模型.为了证明模型的有效性,最后在测试集中运用保存的最优模型进行验证,记录和保存最后的实验结果.

3.4 实验结果及分析

本文提出了基于空间注意力机制的双分支网络结构,为了验证该结构的检索性能,从5个方面进行对比实验.

3.4.1 图像预处理对检索性能的影响

为了证明本文采用的去标尺、滤波和数据增强等预处理方法对跨模态足迹检索的实用性,在预处理前和预处理后的数据集上进行了实验效果对比,如表4所示.由表可知,在光学到压力检索模式下的mAP值和Rank1值达到70.17%和90.64%,在压力到光学检索模式下的mAP值和Rank1值达到71.49%和84.36%,预处理之后的mAP均值和Rank1均值分别为70.83%和87.50%,相较于预处理之前的检索精度分别高出7.52%和11.43%,进一步提高了跨模态足迹检索的精度.滤波能够去除一定的噪声,提高采集图像的质量,有利于卷积神经网络的特征学习和网络的训练优化,并且通过数据增广的操作,能够增强网络的泛化性,提高跨模态足迹图像的检索精度.

表4 预处理前后的跨模态足迹检索效果图 %

3.4.2 消融实验

为了验证本文设计的双分支网络中引入空间注意力机制及双约束损失在跨模态足迹检索中的有效性,进行了消融实验.实验结果如表5所示,表中CBAM(convolutional block attention module)是一种结合了通道注意力和空间注意力的注意力机制,可以与一些前馈卷积神经网络集成[19].

表5中还比较了不同双约束损失下的检索结果.当只采用交叉熵损失时,mAP均值为51.18%,Rank1均值为75.11%.若采用交叉熵损失和中心损失时,mAP均值为46.46%,Rank1均值为69.47%,相较于仅使用交叉熵损失时的实验效果,分别降低了4.72%和5.64%,表明中心损失[20]不利于本文的跨模态足迹检索研究.若采用中心损失和异质中心损失时,实验效果最好,mAP均值为67.99%,Rank1均值为85.15%,不仅优于采用交叉熵损失和中心损失时的mAP均值和Rank1均值,相较于仅使用交叉熵损失时的实验效果,mAP均值和Rank1均值也分别提高了16.81%和10.04%.这不仅说明了异质中心损失的实验效果优于中心损失,而且本文采用的交叉熵和异质中心损失的双约束损失也明显优于单个交叉熵损失,大大提升了实验效果.由表5可知,在采用交叉熵损失基础上,在网络的Layer3和Layer4层引入空间注意力机制的检索效果,相较于引入CBAM注意力机制,mAP均值和Rank1均值分别提高了1.05%和1.14%;同时本文在双约束损失的基础上,引入空间注意力机制的检索效果也明显优于CBAM注意力机制,其中mAP均值和Rank1均值分别提高了2.85%和3%.实验结果表明,在网络的Layer3和Layer4层引入空间注意力机制有助于学习到可辨别性特征,进一步提升跨模态检索性能.

表5 本文方法的消融实验结果 %

3.4.3 特征提取模块对比实验

为了验证本文特征提取模块的有效性,分别与AlnexNet、Vgg19、ResNet18、ResNet34、ResNet50、InceptionV4、InceptionResNetV2、MobileNet、ShuffleNetV2这9种特征提取网络进行了对比实验,不同特征提取模块的效果如图12所示.从图中可以观察到,ResNet网络相较于其他网络,能够取得较好的实验效果.AlexNet网络出现时间最早,只包含8层;Vgg19网络采用连续的几个3×3的卷积核代替AlexNet中的较大卷积核,增加了网络的深度,但参数量远远多于AlnexNet网络;InceptionV4采用了不同Inception模块的连接,并使用全局平均池化代替全连接层,减少参数量;InceptionResNetV2在InceptionV4的基础上引用ResNet网络中残差连接操作,以训练更深的网络;MobileNet和ShuffleNetV2这2种轻量级网络能够较好地实现计算速度与准确度之间的平衡.

图12 不同特征提取模块的mAP均值和Rank1均值

如图12所示,ResNet50的检索精度最高,其中mAP均值和Rank1均值相较于Vgg19,分别提高了64.06%和81.50%;相较于AlnexNet,分别提高了33.57%和31.93%;而InceptionResNetV2下的mAP均值和Rank1均值比InceptionV4下的分别高出21.99%和25.32%,也说明了这种残差连接操作的有效性,但相比较于ResNet50,仍分别降低了8.97%和3.54%,考虑到InceptionResNetV2相对于ResNet50的网络结构复杂性更大,因此不利于跨模态足迹检索的研究;而 MobileNet和ShuffleNetV2这2种轻量级网络的检索效果均低于ResNet50.从以上数据分析可以看出ResNet50网络相较于其他网络的有效性,由于网络设计的高效和残差模块的引入,可以学习到更加深层的语义信息.为了使网络提取到更具有辨别性的特征,本文在ResNet50的Layer3和Layer4层引入了1×1的空间注意力机制,其中mAP均值和Rank1均值比ResNet50下的分别提高了2.84%和2.35%,进一步提升了实验效果,也验证了本文引入的空间注意力机制对跨模态足迹检索中特征学习的有效性.

3.4.4 空间注意力机制位置的对比实验

本文将1×1的空间注意力机制应用在ResNet50的Layer3和Layer4层.为了证明实验的合理性,本文将该空间注意力机制应用在ResNet50的不同Layer层间的实验效果进行了对比,结果如图13所示.当空间注意力机制应用在ResNet50的Layer1、Layer2、Layer3和Layer4时的mAP均值分别为68.82%、69.53%、70.46%、68.57%,而应用在Layer1和Layer2层、Layer2和Layer3层以及Layer3和Layer4层的mAP均值分别为69.84%、70.82%和70.83%,基本优于注意力机制应用在单层时的实验效果,而应用在Layer2和Layer3层以及Layer3和Layer4层的mAP均值相较于Layer1和Layer2层的实验效果,分别提升了0.98%和0.99%,也说明在ResNet50网络的后几层应用空间注意力能够进一步提升跨模态检索精度.

图13 空间注意力机制在不同Layer层间的mAP值

3.4.5 与其他跨模态检索方法的比较

为了进一步验证本文跨模态足迹检索算法的有效性,在本文采用的足迹数据集上,与常用的跨模态检索方法FGC[21]、BDTR[22]、HC[16]进行对比实验.FGC的研究对象是包含图像、文本、声音以及视频的多模态数据,提升了细粒度检索效果;BDTR和HC的研究对象是行人重识别中的可见光和红外光行人图像,在跨模态行人重识别领域取得较好的检索效果.表6中显示了不同方法下的mAP均值和Rank均值的对比实验结果.由表可知,本文方法取得最优效果,其中mAP均值、Rank1均值、Rank5均值、Rank10均值和Rank20均值分别达到70.83%、87.50%、94.07%、96.22%和97.83%,相较于FGC,分别高出26.28%、30%、21.42%、15.97%和11.47%;相较于HC,分别高出12.95%、10.32%、6.07%、4.29%和2.72%;相较于BDTR,分别高出64.49%、74.82%、62.78%、51.47%和37%.

表6 不同方法的结果对比 %

FGC方法是将各模态输入样本在第一维度上进行拼接后再经过一个单分支的ResNet50网络进行多模态的学习,损失函数包括交叉熵损失和中心损失,其中交叉熵损失是为了实现各模态类别的分类以及确保多模态中同类别特征的紧致性,中心损失是为了实现各模态类别的分类以及确保多模态中同类别特征的紧致性,但是该中心损失仅有益于减小同模态的类内特征距离,忽略了跨模态的类内之间的距离.BDTR方法以AlexNet为基础网络构建了双分支网络结构,设计了双向双重约束损失,而AlexNet属于浅层网络,在特征学习阶段无法学习到每个模态的固有特征,不利于网络的整体优化.HC方法中采用了类似BDTR中的双分支网络结构,损失函数和本文的双约束损失相同,但由于该方法对网络输出特征向量进行多次分割后再分别计算损失值,使得网络难以有效地学习跨模态足迹特征.而本文设计的跨模态足迹检索算法,不仅采用了有效的双分支网络学习各模态的固有特征,并在网络的Layer3和Layer4层引入空间注意力机制,有助于获取更有辨别性的足迹特征.同时还采用了双约束损失来优化网络,考虑到了模态内和模态间的特征差异,其中异质中心损失计算中没有对输出特征向量进行分割,增强了足迹特征的相关性.

4 结论

1) 该网络在特征提取模块的各分支中分别采用ResNet50作为基础网络,并为了学习到更有辨别性的固有特征,在Layer3和Layer4层还引入空间注意力机制.

2) 为了减小跨模态的异构性,在特征嵌入模块通过部分参数共享学习一个多模态的公共空间.

3) 为了同时对模态内和模态间的特征学习进行约束,本文采用了交叉熵损失和异质中心损失的双约束损失.最后在所构建的138人数据集上进行消融以及对比实验,结果表明:在光学到压力检索模式下的mAP值和Rank1值达到70.17%和90.64%,在压力到光学检索模式下的mAP值和Rank1值达到71.49%和84.36%.这2种检索模式下的mAP均值和Rank1均值分别达到70.83%和87.50%,优于常用的FGC、BDTR、HC等跨模态检索方法.

猜你喜欢

采集器足迹均值
COVID-19大便标本采集器的设计及应用
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
成长足迹
足迹
基于ZigBee的大型公共建筑能耗采集器设计
基于LabVIEW的多数据采集器自动监控软件设计与开发
关于均值有界变差函数的重要不等式
春的足迹
关于广义Dedekind和与Kloosterman和的混合均值