APP下载

基于互信息解耦表示的跨域压力足迹图像检索

2023-06-30张艳许昌康曹丽青王年吴梦炎夏懿

关键词:跨域互信息足迹

张艳 许昌康 曹丽青 王年† 吴梦炎 夏懿

基于互信息解耦表示的跨域压力足迹图像检索

张艳1许昌康1曹丽青1王年1†吴梦炎1夏懿2

(1. 安徽大学 电子信息工程学院,安徽 合肥 230601;2. 安徽大学 电气工程与自动化学院,安徽 合肥 230601)

足迹作为人体生物特征之一,在生物识别领域具有重要意义,而同一对象的不同鞋型压力足迹图像在足迹轮廓特征上具有显著性差异,导致其类内差异大。针对压力足迹图像的跨域检索,文中提出了一种基于互信息解耦表示的跨域压力足迹图像检索方法。首先,构建了一个包含200人足迹图像的多域压力足迹数据集,从定性和定量两个角度分析跨域压力足迹图像的特点;其次,采用两个独立的编码器实现图像解耦模块,该模块将压力足迹图像解耦为域特定表示和域共享表示,通过域分类法保证域特定表示包含更多域相关的信息;然后,通过最小化互信息损失扩大域特定表示和域共享表示之间的距离,同时,为避免解耦过程中信息的丢失,基于域特定表示和域共享表示重构原始压力足迹图像;最后,通过特征提取模块进一步提取域共享表示的深层卷积特征,经过度量模块计算不同特征间的关联度,从而实现跨域压力足迹图像检索。对比及消融实验结果表明,该方法的解耦模块具有一定的有效性,在多域压力足迹数据集上的性能表现良好,首位查询结果的检索准确率达到79.83%,平均准确率达到65.48%。

图像检索;跨域压力足迹;解耦表示;域共享表示;互信息

足迹作为犯罪现场遗留率最高的生物特征之一,在刑事侦查领域占据重要的地位[1]。近些年来,众多高校和科研机构开展关于足迹学的研究,使得足迹学研究发展迅速。足迹是人类在社会生产、生活活动中,足或穿着鞋、袜的足作为造痕体在与地面等承痕客体接触时留下的痕迹[2]。在足迹学研究的早期,根据足长与身高的生物学相关性,Kanchan等[3]在足长基础上引入足宽特征,构建多元回归方程以预测身高。随着机器学习的兴起,Keatsamarn等[4]使用一个简单的深度学习模型进行足迹识别。陈杨等[5]基于卷积神经网络构建了一个足迹图像检索模型,使用VGG16提取足迹图像的特征,并针对检索结果设置不同的检索区。随后,鲍文霞等[6]在卷积神经网络的基础上引入注意力机制,提出了一种基于空间聚合加权注意力机制的足迹识别方法,使用空间注意力获取压力足迹特征图中的感兴趣区域。张艳等[7]提出了一种基于多模块关系网络的二维(2D)足迹分类方法,通过在关系网络的嵌入单元和关系单元之间使用多个模块来提高网络的特征提取能力与特征度量能力,并结合空间注意力与通道注意力增强提取出足迹特征的区分度。这些研究虽然在一定程度上实现足迹的智能识别,但均针对同域足迹图像进行训练,在实际应用中约束条件较为苛刻,很难广泛推广。最近,鲍文霞等[8]提出了一种基于注意力双分支网络的跨模态足迹检索方法,引入空间注意力机制,采用双分支结构分别提取赤足的光学足迹和压力足迹特征,并通过交叉熵损失和异质中心损失减小多模态足迹特征的类内差异,增大类间差异。该研究不再局限于同域足迹图像,针对光学足迹和压力足迹实现足迹图像的跨模态检索,拓展了足迹学研究的应用范围。

大数据时代下,不同域的图像日益增多,仅研究同域图像检索已无法满足当下不同域图像检索的需求,因此,跨域图像检索研究逐步展开。当源域图像与目标域图像来自不同的域,由于图像分布差异较大,导致两个域的图像嵌入到同一个空间内时出现不对齐现象,影响了两个域之间的跨域检索。跨域图像检索的关键挑战是如何解决图像视觉域鸿沟问题[9],即不同视觉域图像的成像表达方式不同且特征存在的空间也不同。为了解决该问题,很多学者开展相关研究。Liu等[10]利用不同的编码器分别提取跨域图像的共享特征和特定特征,并使用最大均值差异来约束共享特征的分布。Paul等[11]提出了一种语义邻域和混合预测网络,在输入到特征提取网络前,通过一个融合模块将不同域的图像融合为一幅图像,并使用语义邻域损失和混合预测损失来训练网络。Yu等[12]在跨域图像检索任务中引入空间注意力,在每个卷积神经网络的每个分支中加入注意力模块,使其关注于具有显著性特点的局部区域而不是全局的特征。Chen等[13]采用空间注意力、通道注意力和自注意力机制挖掘不同维度上的细粒度细节特征,实现了草图到图像的跨域检索。

在足迹学研究中,如果足迹成像方式不同或造痕客体不同,会产生不同领域的足迹图像[2],文中针对后者展开研究。由于鞋型的差异,同一对象穿着不同鞋型时,其产生足迹的造痕体有所差异,导致生成的足迹图像在轮廓上具有较大的差异,形成类内差异大的特点。文中从特征分解角度分析如何从较大差异的跨域压力足迹图像中分离出具有显著判别性的特征,鉴于解耦表示作为特征分解的一种方法,在图像转换[14]和域自适应[15]领域取得了卓越的效果,文中将解耦表示方法引入跨域足迹图像检索任务中。解耦表示观点最早于2013年被提出,Bengio等[16]在研究中发现,表征向量中某些维度的取值只会随着与之对应的隐因子的变化而变化,并不会受其他隐因子的影响。因此,可将数据内多个潜在变化因子分解出来,通过相互独立的潜在变量表示。每个潜在变量表示包含特定的语义信息且相互独立,改变单个因子的变量表示不会受到其他因子的影响,具有更好的可解释性和鲁棒性。

现有的足迹检索、识别研究缺少相关的跨域足迹数据集,因此文中首先构建了一个包含200人布鞋和运动鞋压力足迹图像的多域压力足迹数据集;然后基于该数据集,提出了一种基于互信息解耦表示的跨域压力足迹图像检索方法。根据不同鞋型压力足迹图像在轮廓特征上具有显著性差异的特点,文中构建了一个图像解耦模块,将压力足迹图像分解为两种不同的特征表示,即域特定表示(DSpR)和域共享表示(DShR),域特定表示旨在提取属于不同鞋型的各自足迹特征,域共享表示旨在提取表征不同鞋型同一对象的共有足迹特征;然后,采用域共享表示进行跨域压力足迹图像检索,以弱化不同域压力足迹图像差异性较大的影响。

1 网络结构

针对跨域压力足迹图像检索,文中提出了一种基于互信息解耦表示(MI-DR)的方法,其结构如图1所示,该网络模型主要由图像解耦模块、图像重构模块和特征提取模块组成。

图1 MI-DR的网络结构示意图

1.1 图像解耦模块

通过最小化互信息损失,可以减少域特定表示和域共享表示包含的共有信息,增大二者之间的距离。对于跨域压力足迹图像,由于不同鞋底花纹差异性较大,导致同一个人穿不同鞋采集的足迹图像差异性较大,这些域中特定的信息在跨域检索中易对结果造成误导。因此,文中将这些域相关信息从原始输入中分离,分离后的域共享表示输入到特征提取模块,以进一步提取类别相关的特征。

1.2 图像重构模块

1.3 损失函数

2 实验及结果分析

2.1 多域压力足迹数据集的构建

文中依托安徽大学足迹感知与分析实验室采集相关压力足迹图像,构建了一个包含多个域压力足迹图像的数据集——多域压力足迹(MDPF-200)数据集。该数据集中的压力足迹图像通过杭州创恒电子技术开发有限公司提供的足迹压力采集系统采集得到,具体采集设备如图2(a)所示,该系统采用国际上先进的纳米力敏材料压阻式传感器,传感器密度可达25个/cm2。在采集过程中,被采集对象分别穿着布鞋和运动鞋,从采集点出发,正常行走至足迹采集板上,自然站立2 s后离开采集板,完成一次压力足迹图像采集,采集结果如图2(b)所示。

图2 压力足迹图像采集设备和生成的图像示例

MDPF-200数据集由200人的布鞋和运动鞋的压力足迹图像组成,文中按7∶3的比例随机选取训练集和测试集,即训练集包含140类足迹图像,测试集包含60类足迹图像,每类足迹图像含有10幅布鞋压力足迹图像和10幅运动鞋压力足迹图像。由于每类足迹图像数量较少,文中对训练集进行数据增广,将每幅图像分别顺时针旋转90°、180°和270°,使训练集中图像数量扩增为原来的4倍,因此,MDPF-200数据集中的训练集每类布鞋和运动鞋足迹图像各40幅,具体情况如表1所示。

表1 MDPF-200数据集介绍

Table 1 Introduction of MDPF-200 dataset

鞋型类别总数图像总数 训练集测试集训练集测试集 布鞋140605 600600 运动鞋140605 600600

由于风格的差异,不同鞋型的底部花纹往往差异较大,导致同一个人穿不同类型鞋采集到的压力足迹图像产生较大的变化,如图3所示。布鞋和运动鞋具有不同的鞋底花纹,同一对象穿不同鞋采集到的压力足迹图像在轮廓信息上具有显著性差异,为足迹图像的跨域检索带来难度。

图3 跨域压力足迹图像示意图

为了定量分析不同域压力足迹图像之间存在的差异性,文中引入结构相似性(SSIM)分析不同域图像之间的数据分布。某对象的同域和跨域压力足迹图像的结构相似性分别如表2和表3所示,其中1-4和1-4分别为该对象不同域的4幅不同的压力足迹图像。对比表2和表3可知,压力足迹图像在同一个域内的差异性较小,而在不同域内的差异性较大。与上述的定性分析结果一致,由于鞋型的差异,导致跨域压力足迹图像之间的差异性显著增大。

表2 某对象的同域压力足迹图像结构相似性

Table 2 Structural similarity of pressure footprint images of one object in the same domain

图像SSIM a1a2a3a4均值 a1 0.897 40.884 90.891 70.891 3 a20.897 4 0.888 30.885 10.890 3 a30.884 90.888 3 0.882 70.885 3 a40.891 70.885 10.882 7 0.886 5 均值0.891 30.890 30.885 30.886 50.888 4

表3 某对象的跨域压力足迹图像结构相似性

Table 3 Structural similarity of cross-domain pressure footprint images of one object

图像SSIM b1b2b3b4均值 a10.872 30.873 60.871 00.870 50.871 9 a20.871 20.869 50.868 50.872 20.870 3 a30.867 10.872 30.878 60.874 60.873 1 a40.876 50.877 60.871 00.869 20.873 6 均值0.871 80.873 30.872 30.871 60.872 2

2.2 实验设备及相关参数

文中采用Rank1、Rank5、Rank10准确率和平均准确率(mAP)4种评价指标来衡量跨域压力足迹图像检索的性能,其中Rank准确率为前个查询结果中含有正确检索结果的概率,mAP为不同类别检索平均准确率的均值。

2.3 不同检索方法的性能对比

为了评估文中提出的MI-DR方法的有效性,在多域压力足迹数据集MDPF-200上进行了相关实验,并与现有的一些图像检索方法进行了对比。同时,为验证图像解耦模块分离的域特定表示和域共享表示包含图像不同的信息,文中分别使用域特定表示和域共享表示进行检索实验,结果如表4和图4所示。文中方法的Rank1准确率、Rank5准确率和mAP分别为79.83%、93.22%和65.48%,相较于只采用ResNet152的方法分别提高了12.71、6.61和7.95个百分点,较其他解耦表示方法IIAE[19]提高了5.55、3.29和3.72个百分点。从表4可知,与域共享表示的结果相比,使用域特定表示检索的Rank1准确率和mAP分别降至8.48%和6.50%,表明域特定表示包含的信息很难分辨图像的标签信息。在训练过程中,当仅使用源域足迹图像时,网络模型仅能学习到源域足迹特征,无法保证目标域足迹特征的有效提取。由表4和图4可知,当从同域检索跳转到跨域检索时,Rank1准确率从97.71%降到9.32%。

表4 不同检索方法的实验结果

Table 4 Experimental results of different retrieval methods %

方法Rank1Rank5Rank10mAP ResNet15267.1286.6192.3757.53 IIAE74.2889.9394.7961.76 MI-DR(仅源域)9.3216.4422.379.09 MI-DR(DSpR)8.4825.0937.296.50 MI-DR(DShR)79.8393.2296.7865.48

图4 同域足迹图像检索结果

2.4 骨干网络的影响

考虑特征提取模块中不同骨干网络对网络模型的影响,文中针对骨干网络进行了进一步的探讨,分别以AlexNet、VGG19以及ResNet系列作为骨干网络进行跨域压力足迹图像检索实验,结果如表5所示。表5表明,使用ResNet152作为骨干网络,可以显著提高该网络模型的性能。分析数据集MDPF-200可知,不同域的压力足迹图像之间存在较大的差异性,而通过图3的跨域压力足迹图像示意图可知,该差异性主要体现在压力足迹图像的轮廓信息上。因此,当骨干网络的卷积层数较低时,提取的特征更加关注于图像空间特征,无法很好地提取出域共享表示中深层的语义信息,导致检索精度降低。

表5 不同骨干网络的检索结果

Table 5 Retrieval results of different backbone networks %

骨干网络Rank1Rank5Rank10mAP AlexNet62.9383.3289.4150.56 VGG1966.2386.8990.9553.14 ResNet1867.8087.2992.5453.84 ResNet3474.5889.4993.5659.60 ResNet5074.5892.5496.1060.32 ResNet10171.5388.1494.2460.65 ResNet15279.8393.2296.7865.48

2.5 超参数的影响

图5 超参数对网络模型性能的影响

2.6 消融实验

为了讨论组合损失函数中各个损失函数对整体网络模型的影响,文中对域分类损失、互信息损失和重构损失进行了消融实验,结果如表6所示。由表中可知:除去互信息损失对整体网络模型性能的影响最大,相较于MI-DR,Rank1准确率和mAP分别降低了9.15和6.87个百分点,由此可见,互信息损失在图像解耦模块中起着重要的作用,对其优化的过程中可以有效地分离域特定表示和域共享表示,提高图像解耦模块的解耦能力;仅采用互信息损失和域分类损失或重构损失,也会对模型的性能造成影响,mAP相比于MI-DR分别降低了4.45和2.72个百分点,这表明,互信息损失、域分类损失、重构损失对整体网络模型均具有重要的作用,如果只使用其中部分损失函数,会对网络模型性能造成一定的影响。

表6 损失函数的消融实验结果

Table 6 Ablation experimental results of loss function %

域分类损失互信息损失重构损失Rank1Rank5Rank10mAP √√74.7591.8695.4262.76 √ √70.6891.0295.9358.61 √√ 73.3991.0295.2561.03 √√√79.8393.2296.7865.48

3 结论

针对跨域压力足迹图像检索,文中提出了一种基于互信息解耦表示的方法。鉴于跨域足迹数据集的匮乏,文中首先构建了一个多域压力足迹数据集MDPF-200。该数据集由200人的布鞋和运动鞋的压力足迹图像组成,其中布鞋压力足迹图像和运动鞋压力足迹图像均为6 200幅。定性和定量分析表明,鞋型风格的差异导致了跨域压力足迹图像之间具有较大的差异性。为了降低跨域压力足迹图像较大类内差异性的影响,文中构建了一个图像解耦模块,嵌入到图像输入与特征提取模块之间,采用两个独立的编码器将压力足迹图像解耦为域特定表示和域共享表示,并通过最小化互信息损失来扩大二者之间的距离。在数据集MDPF-200上的实验结果表明,文中方法的Rank1准确率和mAP分别达到了79.83%和65.48%。未来研究拟继续优化解耦模块的解耦能力,以分离出具有更好鲁棒性和可解释性的域特定表示和域共享表示,同时将提高模型的泛化能力,实现域自适应的跨域压力足迹图像检索。

[1] 金益锋,白艳平,刘寰.全国16个省份足迹自动识别系统应用情况分析[J].刑事技术,2017,42(6):504-507.

JIN Yifeng,BAI Yanping,LIU Huan.Application analysis on shoeprint automatic identification system from China’s 16 provinces[J].Forensic Science and Technology,2017,42(6):504-507.

[2] 史力民,马建平.足迹学[M].北京:中国人民公安大学出版社,2014:1-12.

[3] KANCHAN T,MENEZES R G,MOUDGIL R,et al.Stature estimation from foot dimensions[J].Forensic Science International,2008,179(2/3):241.e1-241.e5.

[4] KEATSAMARN T,PINTAVIROOJ C.Footprint identification using deep learning[C]∥ Proceedings of 2018 the 11th Biomedical Engineering International Conference.Chiang Mai:IEEE,2018:1-4.

[5] 陈杨,曾诚,程成,等.一种基于CNN的足迹图像检索与匹配方法[J].南京师范大学学报(工程技术版),2018,18(3):39-45.

CHEN Yang,ZENG Cheng,CHENG Cheng,et al.A CNN-based approach to footprint image retrieval and matching[J].Journal of Nanjing Normal University (Engineering and Technology Edition),2018,18(3):39-45.

[6] 鲍文霞,瞿金杰,王年,等.基于空间聚合加权卷积神经网络的力触觉足迹识别[J].东南大学学报(自然科学版),2020,50(5):959-964.

BAO Wenxia,QU Jinjie,WANG Nian,et al.Force-tactile footprint recognition based on spatial aggregation weighted convolutional neural network[J].Journal of Southeast University (Natural Science Edition),2020,50(5):959-964.

[7] 张艳,吴洛天,王年,等.基于多模块关系网络的2D足迹分类[J].华南理工大学学报(自然科学版),2021,49(6):66-76.

ZHANG Yan,WU Luotian,WANG Nian,et al.2D footprint classification based on multiple-module relation network[J].Journal of South China University of Technology (Natural Science Edition),2021,49(6):66-76.

[8] 鲍文霞,茅丽丽,王年,等.基于注意力双分支网络的跨模态足迹检索[J].东南大学学报(自然科学版),2021,51(5):914-922.

BAO Wenxia,MAO Lili,WANG Nian,et al.Cross-modal footprint retrieval based on the two-branch CNN with attention[J].Journal of Southeast University (Natural Science Edition),2021,51(5):914-922.

[9] 李浩然,周小平,王佳.跨域图像检索综述[J].计算机工程与应用,2022,58(15):18-36.

LI Haoran,ZHOU Xiaoping,WANG Jia.Review of cross-domain image retrieval[J].Computer Engineering and Applications,2022,58(15):18-36.

[10] LIU F C,GAO C Q,SUN Y Q,et al.Infrared and visible cross-modal image retrieval through shared features[J].IEEE Transactions on Circuits and Systems for Video Technology,2021,31(11):4485-4496.

[11] PAUL S,DUTTA T,BISWAS S.Universal cross-domain retrieval:generalizing across classes and domains[C]∥ Proceedings of 2021 IEEE/CVF International Conference on Computer Vision.Montreal:IEEE,2021:12036-12044.

[12] YU Q,SONG J,SONG Y Z,et al.Fine-grained instance-level sketch-based image retrieval [J].International Journal of Computer Vision,2021,129(2):484-500.

[13] CHEN Y D,ZHANG Z L,WANG Y F,et al.AE-Net:fine-grained sketch-based image retrieval via attention-enhanced network[J].Pattern Recognition,2022,122:108291/1-15.

[14] LEE H Y,TSENG H Y,MAO Q,et al.DRIT++:diverse image-to-image translation via disentangled representations[J].International Journal of Computer Vision,2020,128:2402-2417.

[15] WU A,HAN Y H,ZHU L,et al.Instance-invariant domain adaptive object detection via progressive disentanglement [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(8):4178-4193.

[16] BENGIO Y,COURVILLE A,VINCENT P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.

[17] BELGHAZI M I,BARATIN A,RAJESWAR S,et al.Mutual information neural estimation[C]∥ Proceedings of the 35th International Conference on Machine Learning.Stockholm:IMLS,2018:864-873.

[18] PENG X,HUANG Z,ZHU Y,et al.Federated adversarial domain adaptation[C]∥ Proceedings of the Eighth International Conference on Learning Representations.Ethiopia:ICLR,2020:1-19.

[19] HWANG H J,KIM G H,HONG S,et al.Variational interaction information maximization for cross-domain disentanglement[C]∥ Proceedings of the 34th Conference on Neural Information Processing Systems.Vancouver:NIPS Foundation,2020:1-26.

Cross-Domain Pressure Footprint Images Retrieval Based on Mutual Information Disentangled Representations

111112

(1. School of Electronic and Information Engineering,Anhui University,Hefei 230601,Anhui,China;2. School of Electrical Engineering and Automation,Anhui University,Hefei 230601,Anhui,China)

As one of human biometric features, footprint is of great significance in the field of biometric identification. However, the pressure footprint images of different shoe types for the same person have significant differences in the footprint contour features, leading to large intra-class differences. For cross-domain retrieval of pressure footprint images, this paper proposed a cross-domain pressure footprint images retrieval method based on mutual information disentangled representations. Firstly, a multi-domain pressure footprint dataset containing 200 people’s footprint images was constructed and the characteristics of cross-domain pressure footprint images were analyzed from qualitative and quantitative perspectives. Secondly, two independent encoders were used to construct an image disentanglement module, which disentangles the pressure footprint images into a domain-specific representation and a domain-shared representation, and ensures that the domain-specific representation contains more domain-related information through domain classification. Then, the distance between the domain-specific representation and the domain-shared representation was enlarged by minimizing mutual information loss. At the same time, in order to avoid the loss of information in the disentangled process, the original pressure footprint image was reconstructed based on the domain-specific representation and the domain-shared representation. Finally, the deep convolution features of the domain-shared representation were further extracted by feature extraction module and the cross-domain pressure footprint images retrieval was realized through the metric module which calculates the correlation degree between different features. The results of comparison and ablation experiments show that the disentanglement module of this method is effective and performs well on multi-domain pressure footprint dataset. The retrieval accuracy of the first query result reached 79.83%, and the average accuracy reached 65.48%.

image retrieval;cross-domain pressure footprint;disentangled representation;domain-shared representation;mutual information

Supported by the Key R&D Program of Anhui Province (2022k07020006),the University Natural Science Research Major Program of Anhui Province (KJ2021ZD0004) and the Natural Science Foundation of Anhui Province (2108085MF232)

10.12141/j.issn.1000-565X.220572

2022⁃09⁃02

安徽省重点研发计划项目(2022k07020006);安徽省高校自然科学研究重大项目(KJ2021ZD0004);安徽省自然科学基金资助项目(2108085MF232);公安部重点实验室开放课题(2017FMKFKT08)

张艳(1982-),女,博士,副教授,主要从事图像和视频的智能分析与处理研究。E-mail:zhangyan@ahu.edu.cn

王年(1966-),男,博士,教授,主要从事计算机视觉与模式识别研究。E-mail:wnianahu@163.com

TP391

1000-565X(2023)05-0078-08

猜你喜欢

跨域互信息足迹
跨域异构体系对抗联合仿真试验平台
基于多标签协同学习的跨域行人重识别
为群众办实事,崂山区打出“跨域通办”组合拳
G-SRv6 Policy在跨域端到端组网中的应用
成长足迹
足迹
足迹
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
改进的互信息最小化非线性盲源分离算法