APP下载

基于JetsonTX2 的无感式行人重识别特征提取系统∗

2023-10-20赵嘉靖

计算机与数字工程 2023年7期
关键词:行人摄像头梯度

赵嘉靖 黎 曙

(江苏大学 镇江 212013)

1 引言

行人重识别技术可分为基于视频序列的行人重识别[1~5]和基于单帧图像的行人重识别[6~10]。主流方法还是基于单帧的重识别,因为基于单帧的行人重识别技术需求数据集较小,训练时间较短,在工程上有较高的可实现性。基于单帧的行人重识别技术框架可分为目标检测[11]和行人的再识别两步来实现。首先在监控摄像头中,每一帧画面都由我们感兴趣的前景和不感兴趣的背景组成,其中目标检测作为第一步的作用就是提取一系列视频图像中我们感兴趣的行人图像,也就是解决视频图像中哪些是人的问题。而行人的再识别技术作为第二步则是针对将提取的同一行人的不同图像进行分类和聚类,解决这些人是谁的问题。

但是在大多数现存的基于生物特征的单帧数行人重识别系统中,每个个体的基样本都需要提前获得的,而在查询的过程中也通常采用N:N的方式进行查询。使用系统用户和待登记录入信息的ID则需要从两方面进行“有感操作”。一方面是在录入新的样本的特征时候,待登记录入信息的ID 通常需要在特定的摄像头或者登记处对人体整体进行一个全面的扫描和采样,而且不能群体性的进行批量登记;另一方面,对于系统的使用方,在登记录入ID 的信息时候也通常需要专门的人员进行确认、辅助操作以及引导待登记录入ID 信息的人员进行正确的登记程序;这无疑既浪费了待录入信息方的时间也浪费了使用系统方的人力和财力。

本文基于Jetson TX2,在Jetson TX2 上移植了目标检测算法MobilenetV2-YOLOV3[12~13]和改进的BOT[14]行人重识别算法。之后利用了KM算法[15]对相邻帧中的行人特征进行匹配和关联,再使用基于梯度下降算法计算每个身份的特征中心[16],利用跟新后的特征中心代替查找集G 中的特征。最后上传服务器实现无感式的行人特征提取。

2 基于KM 算法和梯度下降的特征融合

“有感式”的行人重识别系统所谓“有感”其实有两方面原因。一是群体的行人特征对齐问题。基于度量学习的身份ID 的重识别方法,会把某身份ID 的映射到特征空间中成为特征空间中某一系列子空间中的点,不同身份ID 的特征通过一定的度量方式进行比对。如果有数个人同时需要进行身份ID 的比对,由于网络的限制则会造成同一身份ID 对应多个样本的问题,如图1;二是基于帧的行人检测技术会产生大量的同一身份ID 的行人图片,大量的重复的同一身份ID 导致系统使用前必须有一段“筛选融合”的过程。

图1 相邻帧的行人特征匹配

2.1 KM算法简介

KM 算法,即kuhn munkres算法,是一种用来求赋权二分图最大或者最小权匹配的算法。

KM 算法的基本思想是,把权值转化为可行顶标通过给每一个顶点建立可行的顶点标号来把求最大匹配问题转化为完备匹配问题。其算法思想为首先给出一个赋权的二分图G 的任意一个顶点的可行顶点标号(比如平凡顶点标号),然后决定相等子图Gl,在Gl中执行不带权的匈牙利算法,若其中找到完美匹配,他就是G 的最大权完美匹配。否则,匈牙利算法终止于S∊X,T∊Y且此时有Ngl=T,之后进行修改标号αl,并计算G 的新的可行顶点标号l',并用其代替原来,在Gl'中继续迭代执行不带权的匈牙利算法。

2.2 基于KM算法的行人特征匹配

使用KM算法进行特征匹配的基本流程如下。

Step1:初始化目标检测网络ModelD,行人重识别网络ModelR。视频流输入Input(img1,img2,…imgt)。初始化查询特征表G(g1,g2…gn),待查询表Q(q1,q2…qm)。

Step2:在t时刻,获取视频流图片imgt,通过目标检测网络ModelD,获取行人图片集Pt(p1,p2,…pk) 。并将行人图片集P 通过行人重识别网络ModelR提取对应特征集Qt(q1,q2,…qk),其中:

Step3:计算t 时刻查询集集合合Gt和待查询集集合Qt距离矩阵D(d(0,0),d(0,1),…d(n,k),…) ,其中:

Step4:对距离矩阵D按行求最小值得到向量Vmin,并根据阈值θnew建立新身份集。(这里的依据为当Q 中某一个身份和G 中所有身份的距离特征显著远远大于其他距离,则可认为此Q中的身份为G 中所没有的身份)。跟新距离矩阵从距离矩阵中移除包含Q'项。

Step5:补全距离矩阵,使得距离矩阵成为一个方阵,填充值为一个极大值。(视为距离无穷),之后使用KM 算法求得匹配矩阵Mt(m(0,0),m(0,1),…m(n,n),…)。

Step6:检查匹配矩阵Mt,去除掉不可能的明显不匹配的值。同时跟新查询G 中的元素使之成为Gt+1,转到Step2读取下一帧图片信息。

2.3 基于梯度下降的特征中心融合

基于梯度下降的计算特征中心公式为

其中fit为身份ID 和Cit身份一致的特征向量。α为学习率,控制特征中心的学习速度和对负样本抗干扰的能力。在本文的项目背景下使用基于梯度下降的特征中心代替查询集gallery。在行人重识别网络中,使用了联合损失函数对网络特征进行了约束,其中在度量损失函数中使用了三元组损失加中心损失对特征空间进行了约束。使用了中心损失后行人特征趋向聚集于某个点,于是基于梯度下降的特征融合具体应用为式(5)中,将式(5)修改为

2.4 整体框架和流程

在JetsonTX2 平台上首先使用MobilnetV2-YOLOV3 目标检测框架获取行人框,再将检测框通过一种改进的BOT 行人重识别网络将行人图片映射到特征空间中建立检索集Q,和查找集G 计算距离矩阵。之后根据距离矩阵进行是否有未知身份的行人出现的判断,并将未知行人加入查找集。之后再使用KM 算法进行特征匹配。得到对应匹配索引后计算相应身份ID 的特征中心,跟新查找集。最后根据需要将特征上传到向量搜素引擎Milvus。其基本流程图如图2所示。

图2 基于KM算法和梯度下降算法的特征融合提取过程

3 实验与分析

本文算法主要分为两部分,基于KM 算法的特征匹配和基于梯度下降的特征中心融合,为了验证这两部分的有效性,分别在公开数据集上进行了不同的实验。

实验环境:本文实验采用第八代酷睿智能英特尔处理器i7-8700k处理器,3.7GHz、32G内存,256G固态硬盘,显卡配置为英伟达RTX 2080s,显存8GB;操作系统为64 位Ubuntu 18.04,使用的深度学习框架为基于Python3.7的TensorFlow2深度学习框架下完成的。实验中使用的权重文件为在maket1501 数据集上评价指标分数为(rank1 91.8%mAP 80),在dukemtmc 数据集上评价指标为(rank1 84%mAP 68.4)。

实验一目的:验证使用基于KM 算法的行人特征匹配的有效性。

实验一设计:在数据集中随机抽取N个行人身份和其分属不同摄像头下的行人图片进行N:N的匹配,具体准确度计算公式为

实验二目的:验证使用基于梯度下降的行人特征中心融合在行人重识别中的有效性。

实验二设计:实验数据集使用公开数据集market1501 和dukemtmc。具体实验流程以market1501数据集为例:

在数据集中抽取原本作为gallery 集中所有行人矩形框,记为集合G1。原作为query 集文件夹记为集合Q1。调换两个集合的身份,使用原本query集中样本图片作为新的gallery 集合,记为G2。原gallery 中的样本图片经过一定的条件融合后作为新的query 记为Q2。对G2 中所有身份ID,将属于同以摄像头编号下的样本图片进行融合,每次融合图片数量PN,融合后在只包含属于同一身份ID 但不属于同一摄像头编号的Q2内进行查找。同时为了研究最佳的学习率α,分别计算了不同PN 数量和学习率之间的关系。评价指标为rank1和mAP。

3.1 实验结果和定量分析

在表1 和表2 中,我们可以看到在匹配人数较少时使用最小邻近法(NN)和使用KM 算法进行匹配时差距不是很大,但是随着匹配人数的增多,使用最小邻近法进行特征匹配的准确率大幅度下降。综合以上得知,使用KM 算法进行特征匹配从宏观上对这种错误进行一定的修正,即使发生错误的ID 判断,也能从全局考量方面对此进行修正,降低精确率的下降。

表1 Market1501数据集上不同算法准确度指标(percision)结果对比

表2 Duke数据集上不同算法准确度指标(percision)结果对比

在图3中,当融合次数PN等于0时候表示不使用基于梯度下降的特征中心融合对Q2 检索集在G2 中进行查找,此时由于Q2 中单个身份在单个摄像头下仅有一个样本,所以此时Q2 中构成的特征空间较为稀疏,匹配正确率较低。但在PN=1时,即加入同身份同摄像头的另外一张样本,评价分数都有了显著的提升,并且之后随着PN数量增加,即融合次数提升,Rank1和mAP都有着稳步的提升。表3中可以得到当学习率alpha在0.3左右学习效果最好。同时学习率设置应该较小,较小的学习率还可以防止干扰项对特征的错误修正。

表3 alpha=0.3时融合图片数量和评价指标关系

图3 不同alpha和特征融合次在不同数据集上的关系

综上可知,在对检索集Q 进行查找时,使用基于梯度下降特征融合方式能显著提高查找的准确度。即使只进行一次的特征融合也能极大提高查找的准确度。并且随着融合的样本数越多,查找的精度精确度会进一步的上升。经过数次融合后rank1的分数甚至超过了使用Q1检索G1的分数。

3.2 效果展示

行人特征提取的输入为任意实时视频流或者视频文件,演示中文件为一段包含290 帧的视频录像,在此视频中包括13个不同的行人。如图4。

图4 行人流视频

为了效果的可视化,当算法运行时,若是开始跟新特征,则会在跟新特征后,保存当前帧下该行人的图片并保存到对应身份的文件夹下,以显示对同一身份的连续识别效果,如图5。

图5 提取到同一行人的矩形框

4 结语

本文设计并开发了基于JetsonTX2平台的无感行人特征提取算法,该系统能实现对监控区域的行人目标实时的无感自动提取特征,其中利用JetsonTX2 平台小巧便捷和高性能的特点,结合目标检测算法MobilenetV2-YOLOV3,和改进的BOT 行人重识别算法获取单人的行人特征,再利用KM 算法和基于梯度下降的特征中心融合获得每个ID 的高质量特征上传到服务器。实验表明,基于JetsonTX2 平台的无感行人特征提取算法,具有较好的实时性和扩展性,基于这个系统,对经过特定摄像头的行人或者人脸进行跨摄像头识别和追踪,具有较大应用意义。

猜你喜欢

行人摄像头梯度
浙江首试公路非现场执法新型摄像头
摄像头连接器可提供360°视角图像
一个改进的WYL型三项共轭梯度法
毒舌出没,行人避让
一种自适应Dai-Liao共轭梯度法
路不为寻找者而设
一类扭积形式的梯度近Ricci孤立子
基于太赫兹技术的新一代摄像头及其在安防领域的应用探讨
我是行人
奔驰360°摄像头系统介绍