局部特征引导标签平滑与优化的井下弱特征人员重识别
2024-03-15张杰缪小然赵作鹏胡建峰闵冰冰高宇蒙
张杰, 缪小然, 赵作鹏, 胡建峰, 闵冰冰, 高宇蒙
(1.冀中能源股份有限公司邢东矿,河北 邢台 054000;2.中国矿业大学 计算机科学与技术学院,江苏 徐州 221006)
0 引言
目前井下人员监控的研究大多止步于检测阶段[1],以区间定位为主,缺乏对区间群体人员个人身份的分类和识别。人员重识别技术作为一种基于人体特征(如服装颜色、体型、走姿)的计算机视觉技术,能够跨时间和视角准确识别和追踪个体[2-3],可与人员检测、跟踪技术相结合,应用于视频监控、智能安防等领域,对于有效预警人员违章行为、遏制井下超员生产具有重要意义。
煤矿井下低照度、强光线干扰、高浓度粉尘等特殊环境条件,以及井下人员服装的高度相似性和脸部落煤现象,使得井下人员图像在对比度和清晰度上较弱,导致井下弱特征人员重识别的难度增加。早期的人员重识别方法需要先手动提取图像特征[4-6],再利用跨视图二次判别分析(Cross-view Quadratic Discriminant Analysis,XQDA)等方法来学习最佳的相似性度量[7]。然而,手动提取特征的能力有限,导致人员重识别精度较低。随着深度学习的发展,以卷积神经网络为代表的深度学习网络能够自动学习图像的层次化特征表示,从大量数据中提取出关键特征,从而提高人员重识别准确率[8-11]。孙彦景等[12]采用双鉴别式生成对抗网络对井下图像进行增强与复原,设计了一种基于全局特征描述的重识别网络,以解决井下作业人员身份识别问题。丁嘉婕[13]将卷积神经网络与注意力机制融合,设计了一种基于质量增强和解耦非局部注意力的井下人员重识别算法,在获得高精度结果的同时具有较低的复杂度。张立亚等[14]提出了基于改进度量学习的井下人员重识别方法,通过改进的三重损失函数解决度量学习中梯度消失或梯度弥散的问题。然而,上述研究在提取井下人员图像特征时仅集中于全局特征的提取,未充分考虑局部特征,导致细粒度信息遗失,在一定程度上制约了井下人员重识别准确率的提升。
针对上述问题,本文提出了一种局部特征引导标签平滑与优化的井下弱特征人员重识别方法。该方法根据全局特征和局部特征之间的k最近邻相似性来计算图像的特征互补性得分,并基于特征互补性得分进行标签平滑与标签优化,从而提高井下弱特征人员重识别准确率。
1 方法原理
局部特征引导标签平滑与优化的井下弱特征人员重识别方法原理如图1所示。首先,通过卷积神经网络提取井下人员的深度特征,得到特征图。其次,对特征图分别进行区域均值池化与全局均值池化,得到对应的局部特征与全局特征。接着,分类器根据不同的输入特征进行预测,得到初步预测结果。然后,通过计算全局特征和局部特征的k最近邻相似性获得特征互补性得分,来衡量全局特征和局部特征的相似程度。最后,基于特征互补性得分进行标签平滑与标签优化,以更新预测结果。
图1 局部特征引导标签平滑与优化的井下弱特征人员重识别方法原理Fig.1 Principle of local feature-guided label smoothing and optimization for re-identification of underground personnel with weak features
1.1 特征提取与结果预测
假设数据集D={xi},其中xi为第i(i=1,2,···,ND,ND为图像数量)个图像。通过卷积神经网络提取特征图F(xi)∈RC×H×W,其中C,H,W分别为特征图的通道数、高度和宽度。对特征图进行广义均值池化,获得全局特征;同时将特征图均匀划分成NP个区域RC×(H/NP)×W,并在每个区域上进行均值池化,获得第n(n=1,2,···,NP)个局部特征。
分别计算全局特征的交叉熵损失Lg和局部特征的交叉熵损失Lp:
式中:yi为真实标签;为由全局特征预测得到的预测向量;为第n个局部特征的预测向量;hφg(·),hφpn(·)分别为由全连接层和softmax函数组成的特征分类器。
计算softmax-triplet损失:
式中:∥·∥为L2范数;分别为最难正样本和负样本的全局特征。
总的损失为
1.2 特征互补性得分
鉴于全局特征与局部特征之间具有不同的结构相似性,常存在不可靠的互补信息。因此,确定互补信息的可靠性十分重要。为解决该问题,引入特征互补性得分,通过计算全局特征和局部特征的k最近邻相似性来衡量这2种特征的相似程度。首先,对全局特征和每个局部特征分别进行k最近邻搜索,在每个图像上生成(1+NP)个排名列表。然后,计算图像xi的全局特征和第n个局部特征之间的特征互补性得分:
式中:Ri(fig,k),Ri(fipn,k)分别为根据和计算出的排名列表中前k个样本的索引集合;|·|为集合的基数。
较高的特征互补性得分表示全局特征和局部特征具有较强的关联性,并能提供可靠的互补信息;较低的特征互补性得分表示两者的关联性较低,会提供不可靠的互补信息。
1.3 标签平滑与标签优化
由于全局特征聚类的标签不适合每个局部特征,局部特征的预测也不完全适合全局特征的标签,基于特征互补性得分进行标签平滑与优化来减少噪声。
1) 标签平滑。通常通过相同的全局标签来学习特征,这样往往忽略了局部上下文联系,不利于训练。例如,有些局部特征包含与人无关的提示(如遮挡物),应将其从训练中排除。因此,利用标签平滑法[15],根据相应的特征互补性得分动态调整每个局部特征的权重,以优化每个局部特征的标签。
给定图像xi的标签yi,局部特征的标签平滑的表达式为
将平滑标签代入式(2),并用 Kullback-Leibler(KL)散度[16]重新计算交叉熵损失:
式中dKL(·)为KL散度运算函数。
2) 标签优化。全局特征聚类通常会忽略细粒度信息,而局部特征具有丰富的上下文特征信息,可解决全局特征聚类过程中的标签噪声问题。由于区分度较低的局部特征可能会提供误导性信息,根据每个特征互补性得分,以不同权重对局部特征的预测结果进行汇总,从而利用更可靠的信息来完善标签,以作为全局特征的标签。具体来说,使用优化后的标签作为全局特征的标签:
与仅捕捉整体信息的全局特征不同,式(10)中的标签优化还考虑了来自局部细粒度信息预测的可靠性,该可靠性由特征互补性得分获得。
将优化标签代入式(1)来训练全局特征:
通过局部特征引导的标签优化,全局特征可从集成的局部特征预测中学习到更丰富的细粒度信息。
总的损失为
通过标签平滑与标签优化能有效降低噪声带来的影响,具有较低特征互补性得分的局部特征通过式(9)使用接近均匀分布的标签进行训练,而通过式(12)训练的全局特征则从局部特征中捕捉可靠的细粒度信息。此外,当所有局部特征预测的特征互补性得分较低时,优化标签中的集成预测最终会由于标签平滑坍缩为均匀向量,从而提供无意义的训练信号,进一步削弱噪声标签的影响,使网络实现更好的学习。
2 实验结果与分析
2.1 实验条件
由于煤矿场景的特殊性,现有的公开行人重识别数据集(如Market1501和MSMT17)无法满足井下人员重识别的需求。在现有公开数据集的基础上,筛选出与井下人员图像较为类似的行人图像,并在此基础上添加大量井下人员图像,构建数据集CoalReID,共计3 139个身份的92 876张人员图像,其中包含公开数据集896个身份的25 894张行人图像及2 243个身份的66 982张井下人员图像。训练集与测试集分别为1 126个身份的29 356张人员图像和2 013个身份的63 520张人员图像。
采用在ImageNet[17]上预训练的ResNet-50[18]作为主干,删除第4层之后的所有层,并添加平均池化层,使用批归一化瓶颈(Batch Normalization Neck,BNNeck)[6]进行全连接分类。在测试过程中,只使用全局特征进行检索。图像大小调整为384×128,通过随机翻转、裁剪和擦除实现数据增强[19]。训练采用Adam[20],权重衰减为5×10-4。设置初始学习率为3.5×10-4,每20个epoch后衰减为原来的1/10;局部特征数量为3;权重参数为0.5;计算特征互补性得分时的样本数量为20。
选取平均精度均值(mean Average Precision,mAP)、平均逆置负样本惩罚率(mean Inverse Negative Penalty,mINP)和累计匹配特征(Cumulative Matching Characteristics,CMC)的第一匹配正确率Rank-1作为评价指标。mAP综合考虑了查准率与查全率,能够反映方法在召回率和准确率上的整体表现性能;mINP能够衡量方法找到最难匹配样本所需要的代价,反映了检索到所有正样本的能力;Rank-1表示检索结果中置信度最高的人员图像概率,能直观反映即时检索能力。
2.2 消融实验
为验证基于特征互补性得分进行标签平滑与标签优化的有效性,使用AGW[11]作为基准方法,在自建数据集CoalReID、公开数据集Market1501和MSMT17上进行消融实验,结果见表1。可看出同时添加标签优化与标签平滑后,各项评价指标均最优。
表1 消融实验结果Table 1 Ablation experimental results %
2.3 不同方法对比实验
将本文方法与目前主流人员重识别方法AGW,RGT&RGPG[21],SOLIDER[22],BPBreID[23],UniHCP[24],st-ReID[25],LDS[26]分别在自建数据集CoalReID、公开数据集Market1501和MSMT17上进行性能对比,结果见表2。
表2 不同方法在各数据集上的性能对比Table 2 Performance comparison of different methods on various datasets %
从表2可看出,本文方法在自建数据集CoalReID上的mAP,Rank-1,mINP均最优,在公开数据集Market1501和MSMT17上的各项性能也较均衡,表明本文方法具有很好的泛化性能。
为进一步证明本文方法在井下人员重识别上的优越性,在自建数据集CoalReID中剔除公开行人图像,仅对井下人员图像进行实验,结果见表3。
表3 不同方法在仅包含井下人员图像的自建数据集CoalReID上的性能对比Table 3 Performance comparison of different methods on self-built CoalReID dataset containing only underground personnel images %
对比表2和表3可知,当自建数据集CoalReID仅包含井下人员图像时,在公开数据集表现较好的主流人员重识别方法性能下降明显,而本文方法的mAP,Rank-1,mINP相比其他方法表现出了明显的优越性,表明本文方法具有很好的鲁棒性。
2.4 可视化结果
为直观观察本文方法的井下人员重识别结果,从自建数据集CoalReID中随机选取4张井下人员图像进行查询,可视化结果如图2所示。
图2 井下人员重识别可视化结果Fig.2 Visualization results of underground personnel re-identification
图2中,图像上的数字1-10表示预测结果与查询图像中人员相似性由高到低的排序序号;如果数字的颜色为绿色,表示预测结果与查询图像中人员为同一身份,为红色则表示为不同身份。可看出本文方法能有效实现井下人员正确重识别。
2.5 实际场景检测效果
为验证本文方法在实际场景中的有效性,选取在煤矿候车室、行人下山平台及副井底候罐室3个不同场景实地拍摄的若干组视频用于验证,结果如图3所示。图中黄色矩形框表示需要查询的目标人员,红色矩形框表示重识别定位的目标人员,绿色矩形框表示与查询人员对应的正确人员。从图3可看出,本文方法在多数情况下能准确识别目标人员,但在人员密集的场景下会出现识别错误的情况,这是由于受到人员遮挡的影响,识别性能受到一定限制。
图3 实际场景下人员重识别结果Fig.3 Result of personnel re-identification in actual scenarios
3 结论
1) 提出了一种局部特征引导标签平滑与优化的井下弱特征人员重识别方法。首先,通过卷积神经网络提取人员图像的全局特征与局部特征。然后根据全局特征与局部特征之间的k最近邻相似性来计算特征互补性得分。最后,基于特征互补性得分,对局部特征进行标签平滑及对全局特征进行标签优化,解决噪声问题,从而提高井下弱特征人员重识别的准确性。
2) 实验结果表明,该方法在公开数据集Market1501、MSMT17和自建数据集CoalReID上的mAP,Rank-1,mINP总体优于主流人员重识别方法,具有良好的泛化性和鲁棒性,适用于井下弱特征人员重识别。
3) 未来的研究中可考虑引入更先进的特征提取和匹配技术,以提高该方法在人员密集复杂场景中的准确率。