基于深度学习跨清晰度的鞋面检索<br/>——从足迹图像到视频中锁定犯罪嫌疑人的应用

基于深度学习跨清晰度的鞋面检索
——从足迹图像到视频中锁定犯罪嫌疑人的应用

2022-08-05金益锋孙晰锐吴文达李岱熹蒋雪梅耿小鹏

科学技术与工程 2022年19期

金益锋, 孙晰锐, 吴文达, 李岱熹, 蒋雪梅, 耿小鹏

(1.中国人民公安大学侦查学院，北京 100038； 2.公安部物证鉴定中心，北京 100038； 3.大连恒锐科技股份有限公司，大连 116085； 4.甘肃省公安厅刑事警察总队，兰州 730030)

目前，中国的智慧安防系统建设日趋完善，视频信息在案件侦破过程中正发挥出越来越大的作用。国内外的主流视频应用主要集中在视频中的人脸检测与跟踪技术，该技术近年来越来越受到研究人员的广泛关注。就视频监控领域而言，人脸检测与跟踪的研究大大提高了视频监控系统的智能化，使得系统能够在不需要人为干预的情况下锁定目标，实现对监控场景中的目标检测与跟踪。然而视频人脸的检测跟踪往往由于背景干扰和面部遮挡而变得非常困难，所以需要新的技术手段来应对复杂场景下的公安视频监控应用。足迹是犯罪现场遗留率最高的痕迹物证之一，通过“全国公安机关鞋样本数据库应用系统”可以快速获取到鞋子种类、样式等信息[1]。利用获取到的鞋样本信息锁定关联视频中穿用与该鞋样本相似鞋子的嫌疑人，与此同时进一步结合视频的动态行人分析，完成从足迹到嫌疑人的快速锁定，可为案件的侦破节省大量的时间。人工智能的突破式发展，图像、视频等相关领域焕然一新，直接推动了智能化刑侦技术发展。

VGG[2]、LE-NET等基于深度学习的分类网络将物体识别技术提升到新的高度，训练完毕的网络不仅可以完成分类和识别的任务。其顶层top(n)层输出亦可作为图像的特征参与特征比对。如史文韬等[3]提出了基于VGG-16网络及选择性卷积特征描述子融合的鞋印检索算法以提升现场残缺鞋印的检索精度。

近几年，深度视觉以目标不同产生了不同的技术分支。例如，以Yolo[4]、Faster RCNN[5]为代表的目标检测算法，以Unet等编码解码思路的语义分割算法，以孪生网络Siamese Network为代表的度量学习更好地支持多类别小样本识别，以Cycle GAN[6]为代表的生成网络可以生成各种风格的新数据。得益于此，图片检索方向近年来也在飞速发展之中。如以孪生网络为基础的全局表征检索网络[7]，依托对抗网络思想的深度对抗度量学习网络[8]，基于定位优化思想的行人检索网络[9]。

虽然行人等的大目标、高清晰度图片的检索得到了充分的研究，但对于鞋这样的小目标同时涉及高清-低清的跨域检索的研究较为少见。姜衡等[10]提出了一种针对低分辨率情境基于深度学习的鞋类识别网络模型。Zhan等[11]基于相似度学习的思想，利用RP-CNN+WI-CNN的双网络模型完成了街景鞋图片到高清鞋样的检索任务。

基于深度学习跨清晰度的鞋面检索算法，依靠深度学习强大的表达能力，在跨域检索的网络框架加入适合跨清晰度的特征描述方法，结合全局特征和局部特征分支的单独处理再整合的思想，提出了适合高清到低清跨清晰度的鞋面检索网络。结合后处理重排序，完成算法。实验结果显示，算法克服了高清到低清跨清晰度的难点，在更高难度、更大数据量的测试数据集上取得了大幅优于RP-CNN+WI-CNN[11]的表现，实现了由高清鞋样到低清视频鞋的准确检索，进而使得“现场足迹-鞋样-视频鞋-视频嫌疑人”的自动快速锁定成为可能，推动智能化刑侦技术的发展。

1 数据集制备

算法所在的检索流程如图1所示，虚线部分为数据预处理部分，其中B鞋样数据处理部分中的足迹图片指现场提取的足迹图片，如图2所示；实线部分(C检索算法流程)为重点研究内容。

数据从来源上分为两部分：①从分辨率为400万像素的摄像头采集的视频帧中截取的低清鞋图片； ②手机、相机、采集设备近距离拍摄的高清鞋面照片以及人工从网络获取的高清鞋面照片。数据示例如图3所示，同一双鞋的低清图与高清图从属于同一类别，具有同样的类别标签。

数据集从用途上分为训练集与测试集两部分。每类包含一款独有的、跟其他类别均不同的鞋子型号(如某品牌2021款轻运动黄白相间男款鞋)的高清和低清鞋面。数据集情况如表1所示。

图1 跨清晰度的鞋面检索流程Fig.1 Cross-resolution retrieval flow diagram

图3 高清鞋面图和低清鞋面图Fig.3 High & low resolution vamps

表1 数据集信息

2 算法解析

网络结构如图4所示，每个部分对应其专属功能。其中实线部分为模型训练与推理共用流程，虚线箭头为模型训练流程。

2.1 网络整体结构

2.1.1 骨干网络

ResNet[12]网络又名残差网络，2015年提出时将ImageNet的识别错误率降低到3.57%，其主要网络结构如图5所示，残差模块有效避免了反向传播计算时梯度消失。在此基础上，ResNet-IBN[13]探索了实例归一化(instance norm)和批归一化(batch norm)，提升了模型对图像外观变化的适应能力。其细节对比如图5所示。

2.1.2 广义池化层

如图4中特征提取网络的部分所示，在网络结构中均使用了广义平均池化层(generalized mean pooling，GeM)替换了平均池化层(average pooling，AP)。广义最大池化层不仅有效保留纹理，选择性降低冗余的作用，同时还可有效学习到不同分辨率下图像的通用特征。公式为

(1)

式(1)中：ω为当前特征图的尺寸；C表示通道数；p为超参，p>0。当p>1时强制增加池化后的特征对比，突出激活视觉显著区域；当p=1时，即为平均池化层；p=∞时变为空间最大池化层。本文设定p=2。

2.1.3 全局特征描述分支

图4 网络结构图Fig.4 The structure of model

全局特征主要提取轮廓、颜色、方向信息，屏蔽背景信息。输入的特征图为骨干网络的GeM广义池化层输出，经卷积-归一化-ReLU激活模块生成2 048维的全局特征。在模型训练过程中，该特征除直接用于计算circle loss(见2.1.5节)外，还作为输入，经归一化-全连接层生成分类特征用于交叉熵损失函数(cross entropy loss)的计算，如图4所示。

图5 ResNet与ResNet-IBN对比Fig.5 Comparison between ResNet and ResNet-IBN

2.1.4 局部特征描述分支

局部特征部分主要作用是提取纹理细节信息。本文参考BFENET[14]，训练时输入的特征图会随机擦除0～25%的特征区域，提高局部特征对鞋面的表征能力以及遮挡情况的适应能力，这里为了方便计算，擦除区域设定为随机位置矩形覆盖。后边连接的全局最大池化层增加局部突出的信息的表达。之后经卷积-归一化-ReLU激活模块生成2 048维的局部特征，该特征与2.1.3节所述全局特征拼接形成2 048+2 048=4 096维的检索特征用于最终的比对检索环节，如图4所示。

2.1.5 损失函数

算法的损失函数部分如图4中特征融合部分区域所示，本文中采用的损失函数被用于训练过程中，指导模型收敛的方向，进而影响整个模型的训练速度和精度。本文中采用如下损失函数。triplet loss[15]解决困难样本的度量学习，拉大相似样本的特征距离，让相似不同类的特征更容易区分。center loss[16]计算样本经过推理后特征空间与类中心的距离约束，同时兼顾到同类聚集和不同类的相互区分。circle loss[17]通过平均不同类别的分类角度距离，平均化各个类别的相似性差异。

2.1.6 数据增广

为了防止训练过拟合，训练时输入图像采用-5°～5°随机旋转、HSV色彩模型编码中-10°～10°的颜色随机变化、-5%～5%的饱和度随机变化、-1%～1%随机平移的数据增广方式，以满足不同场景下算法的适应能力，如图6所示。推理测试时需保证数据真实性，此时不需要图像的随机变化过程。

图6 数据增广示例Fig.6 Samples of data augment

2.1.7 特征融合和比对方法

图像经过网络映射(推理)，全局特征和局图特征两个分支的特征各2 048维，以向量形式链接，形成4 096维特征，如图4所示。

特征比对方法采用欧式距离判定。假设图像I1、I2经过模型M映射后，产生特征F1、F2。F1包含为全局特征F1_global和局部特征F1_local，同理特征F2包含F2_global和F2_local。则比较方法为

F1=M(I1),F2=M(I2)

(2)

n=4 096

(3)

式中：Dist表示两个向量的距离度量，其值越小，表示两个向量越相近。

2.2 检索评估方法

采用累计查中率(cumulative match characteristic, CMC)作为评价指标。CMC表示返回的前m个结果中正例的概率。无论数据库中实际有多少匹配，计算中只计算第一个查中项。CMC曲线是一种细粒度度量，显示了精度随等级的变化。通常情况下，检索排名越靠前，效果越好，CMC的曲线下面积(area under curve, AUC)越大。

查中：假设现有库中有5枚图片，分别属于(“苹果”“香蕉”“橘子”“西瓜”“芒果”)。现有一枚待查“芒果”，算法提取特征并比对后根据距离度量，得到如下排序[“香蕉”“橘子”“西瓜”“芒果”“苹果”]。即认为，查询的图与“香蕉”最像，“橘子”次之，在第4位查中“芒果”。

3 实验

3.1 训练细节

实验的机器硬件为CPU i9 9900K，内存容量64 G，固态硬盘1 T存储空间，GTX 1080Ti 11 G显存显卡1片，850 W供电电源。软件方面采用docker container+pytorch1.7+Cuda8.0深度学习框架搭建网络并训练，训练时单次批量输入32枚图像，3 000次全数据集迭代。学习率(learning rate)在前1 000次训练迭代设置为0.01，以达到快速收敛的目的，之后固定学习率为0.000 1，通过学习过程微调和优化网络参数。推理测试时，单次批量输入若干枚图像，不进行数据扩增步骤，不进行损失函数计算。

3.2 推理性能

推理测试检索性能时采用与训练相同的硬件环境。测试推理平均耗时，如表2所示。

表2 推理测试时间

实验说明，平均单次推理大致时间是60 ms/枚。1 h可提取6万枚图像特征。特征比对可达到实时响应的效果。

3.3 检索性能

测试数据集1 172类检索测试，CMC评价方法评估检索效果，如表3所示。

实验1和实验2对比了不同骨干网络的检索效果。通过实验证明，ResNet-IBN优于ResNet。实验3～实验5进行了若干技巧的消融实验，图7所示为几组实验所对应的曲线。曲线与表3数据对应。从图7的实验结果可见Res-IBN-ACG曲线所代表的ResNet-IBN+DA+GeM+Circle Loss的组合最优，Top1达到66.2%，top5达到了85.8%，Top10达到90.8%。

表3 检索性能实验

图7 几组实验对应的CMC曲线Fig.7 CMC curve of experiments

图8 检索结果示例Fig.8 Retrieval results

3.4 实验可视化结果

高清-低清鞋检索结果如图8所示，待查鞋样001类中的RANK1和待查鞋样012类中的RANK2表示查中的低清鞋样图。可见算法有效学习到了鞋子图片的轮廓、颜色、纹理信息，对彩色鞋与纯色鞋的检索都有较好的主观效果。

4 总结与展望

针对从高清鞋面到视频中行人的低清鞋面的跨域匹配查找问题，提出了基于深度学习跨清晰度的鞋面检索算法，以解决视频提取的低清鞋子信息与高清鞋面信息比对检索的难题，从而打通从现场足迹到视频中锁定嫌疑人的通路。算法中的网络采用了全局和局部特征融合的方式，加上广义池化、数据增广等技巧，实现高效检索。该算法在实现过程中，加入了网络分支、特定损失函数、随机变换等手段。在1 172组样本检索测试中累计查中率首位达到66.2%，前5达到85.8%，虽然该算法在客观指标和主观验证上均达到较高的应用级别水准，但仍需在更大的数据集上进行验证优化。未来的工作将围绕以下几个方面展开：①结合视频与鞋样数据中鞋子的朝向角度信息进行检索算法的改进；②扩充多场景数据进一步测试算法的泛用性。

当前随着大数据、深度学习、视频检索等新技术的高速发展，为刑事技术突破式、跨越式发展创造了有利条件，同时各地天网工程以及雪亮工程等的建设也为视频应用提供了数据基础。在公安部智慧新刑技快速发展的新形势下，基于深度学习跨清晰度的鞋面检索算法为刑事技术融合应用奠定了技术基础，有效实现了足迹+视频一体化融合应用，实现了从“室内到室外，从痕迹到人”的创新应用，有效提升了公安机关刑事技术一体化作战能力。

4.1 鞋样自动化检索比对

通过现场足迹查询鞋样信息，再结合周边监控等视频信息，检索到其中穿着同类鞋样信息的人员，进而锁定嫌疑人的技战法已在公安基层实战中得到了广泛应用。然而，从海量的视频数据中检索目标人员这一过程异常繁杂，通常需要耗费大量的人、财、物，其投入与产出往往难成正比，而且也严重影响了案件的侦破效率。

利用基于深度学习跨清晰度的鞋面检索算法，通过现场足迹查询到的鞋样，对案件现场周边视频进行自动分析、检索嫌疑目标，并将目标的鞋样、人身图像以及目标出现的时空信息等线索实时推送，可以实现足迹视频追踪的自动检索和融合应用。

4.2 视频高效化识别追踪

近年来，随着社会经济的快速发展，刑事犯罪专业化、团伙化、流动化等特点日益明显，案发后通过视频监控等传统方式查找线索工作量巨大、效率不高，且难以有效依托视频图像实现对重点关注目标和异常情况的预知、预测、预警。基于深度学习跨清晰度的鞋面检索算法，密切结合公安实战应用需求，充分运用鞋样识别技术、高清监控技术、视频分析技术、业务系统集成技术等先进技术，未来可以实现在海量视频信息中有目的地提取有效信息，对目标人员的动态活动轨迹进行分析。

4.3 刑侦一体化协同作战

应用基于深度学习跨清晰度的鞋面检索算法，可以实现智能化快速反馈与现场足迹关联鞋样的视频目标人员轨迹、目标人员鞋样信息，通过视频鞋样检索的远距离、跨视角、非受控等优势，打通专业壁垒，有效提升刑事技术一体化作战能力，为公安部门实战提供高效的技术支撑，为案件的快速侦破提供方向，从而大幅提升含足迹案件的破案率，最终实现刑事技术数据“强度整合、高度共享、深度应用”的要求。