利用混合双通路神经网络的跨模态行人重识别
2021-11-12周靖宇王楠楠高新波
程 德,郝 毅,周靖宇,王楠楠,高新波
(1.西安电子科技大学 通信工程学院,陕西 西安 710071;2.重庆邮电大学,重庆 400065)
行人重识别是指给定某监控场景下的特定行人图像,运用计算机视觉和机器学习等方法来检索跨摄像头或跨时间域下的具有相同身份的行人图像,被广泛应用于智能视频监控领域,解决了复杂监控场景中感兴趣目标识别、长时跟踪等问题,回答了智能视频监控领域“感兴趣目标是谁?”这一关键问题[1]。行人重识别技术近年来引起了学术界和工业界的广泛关注,迫切的工业应用需求催生了学术界极大的研究热情,在该领域涌现出了众多研究成果,很多方法在现有公开标准数据集上甚至超越了人类的识别精度。但是,目前该技术依旧远远没有达到落地应用的技术要求。其中一项最主要的原因是:真实监控场景中的数据类型和质量极其复杂多样,仅仅研究理想光照条件下的单一可见光模态行人重识别技术,已经远远不能支撑实际监控场景的应用需求。针对多模态数据的行人重识别亟待深入研究。
当前行人重识别方面的研究主要是针对可见光数据,并且这些数据均是在理想光照条件下收集到的高分辨率图像。然而,实际监控场景面临室内/室外、白天/黑夜、阴雨等变化多端的自然光照条件,而可见光成像固有原理导致可见光传感器对光照条件非常敏感,微弱的光照变化往往会引起极大的视觉差异,导致弱光照条件下模型识别性能严重降低。图1给出了部分可见光—红外图像行人重识别数据示例。为了弥补可见光数据在弱光照条件下的不足,构建了一个支撑全天候、全场景智能视频监控需求的行人重识别系统,笔者将研究可见光—红外图像行人重识别技术。红外摄像机的优势是其成像原理不依赖于人体对可见光的反射,因此在低照度条件下红外图像行人重识别可以作为可见光行人重识别技术的有力补充。
图1 可见光—红外图像示例
可见光—红外图像行人重识别,是指利用可见光/红外图像行人数据匹配红外/可见光图像行人数据。这是一种异质行人图像数据之间的检索问题,其核心问题是构建跨模态数据间的统一共享特征表达,主要技术难点在于如何有效区分跨模态数据中的模态共享和模态特有特征信息。在跨模态图像识别任务中,期望跨模态共享特征信息学习到更多与身份判别相关联的信息。因此,如果所学共享特征信息混有比较多的与模态特有特征相关的信息,则会降低统一特征表达下的身份判别能力。同时,跨模态数据之间的非线性映射比单一类型数据在低维空间上的非线性映射更加复杂,这将会对模型结构设计提出更高的要求,模型架构也会更加复杂。在现有跨模态行人重识别研究中,最主要的研究方法是基于双通路神经网络的特征提取模型。其中一类方法称为双通路共享神经网络架构,该结构直接采用骨干网络整体参数共享的方式获得跨模态数据间的共享特征表示;另一类方法称为双通路混合神经网络结构,该结构首先采用非共享参数的双通路神经网络分别捕获不同模态图像的特有信息,然后在此基础上采用共享参数的网络结构将不同模态特征信息嵌入到统一的共享特征空间中。在上述神经网络架构设计的基础上,相对于单一可见光模态行人重识别任务,大量方法研究了跨模态数据特征之间的约束关系,设计了不同模态数据之间的信息传递机制和样本特征间近邻关系的一致性约束准则,挖掘不同模态数据间的特征互补学习策略,最终结合上述两种方法建立跨模态数据之间的共享特征表达。众所周知,神经网络架构往往对模型的特征表达能力起到决定性的作用,因此将重点针对双通路混合神经网络的结构进行分析,寻找更优的双通路混合神经网络架构,平衡模型针对不同模态数据特有特征和共享特征的表达学习能力,有效地提升多模态数据之间的匹配能力。同时,针对整个神经网络架构的特性,采用学习率分级自适应调整策略,有效地提升了模型的特征学习能力。
笔者的创新点和贡献包括:(1)提出了一种基于混合双通路神经网络的跨模态行人重识别方法,利用该方法深入分析了混合双通路神经网络中模态共享参数层和模态独有参数层的设计对跨模态行人重识别模型的影响,同时针对模型嵌入层,在设计损失函数的时候充分考虑了不同模态数据类内特征分布的一致性约束和类间相关性约束准则;(2)针对整个神经网络架构的优化,采用了学习率自适应分级调整策略来提升模型的特征学习能力;(3)通过大量实验,验证了所提出方法在当前红外—可见光行人重识别标准数据集(SYSU-MM01和RegDB)上获得了非常高的识别精度。
1 相关研究工作
行人重识别研究是面向监控视频的行人图像检索。由于真实监控场景中的视频数据类型和质量极其复杂多样,导致行人重识别面临如下技术挑战[2]:(1)大规模复杂监控场景中摄像头安装角度的多样性导致行人图像在二维图像空间中的视角变化巨大;(2)由于不同监控场景中摄像头与行人距离的差异,导致行人图像的分辨率变化多样;(3)受监控场景(如室内/室外)、天气变化等因素影响,导致同一行人在不同摄像头或不同时段的图像视觉特征差异非常大;(4)复杂监控场景中遮挡问题导致难以获得完整的行人图像;(5)受行人姿态和监控视角的影响,导致不同监控场景中同一行人图像之间的类内差异往往大于不同行人图像之间的差异。现有大量可见光行人重识别研究工作主要解决以上技术挑战,而跨模态“可见光—红外”行人重识别主要解决的是不同模态数据之间的特征对齐和数据映射等问题。因此,将分别从单一模态下的可见光行人重识别和跨模态行人重识别这两方面探讨相关研究工作。
单一模态下的可见光行人重识别算法可以分为3类:第1类是基于手工设计行人图像描述子的方法。这类方法主要结合了图像特征描述子和行人图像本身所特有的形状和属性信息,设计了专门针对行人图像的特征描述子[3]。第2类方法是基于距离度量损失函数的方法[4]。此类方法的核心思想是最小化相同类别样本之间的距离,同时最大化不同类样本之间的距离。这种距离度量的方法都是与基于特征的表示方法相结合使用的。第3类方法是基于深度学习的端到端模型,也是近年来在行人重识别领域取得突破性进展的一类方法。此类基于深度学习的行人重识别方法按照研究侧重点不同,笔者将主要从神经网络架构的设计和距离度量损失函数的设计两个层面进行探讨。其中在神经网络设计方面,除了使用基准的图像分类模型外,很多代表性的方法设计了基于部件结构的行人重识别网络模型[5],或者基于姿态估计方法的网络结构[6]。还有其他一些基于注意力机制的网络模型,如基于图神经网络[7]和对抗神经网络结构的深度学习模型等[8]。笔者所设计的“红外—可见光”行人重识别方法,采用基础网络架构,利用部件分割的策略来提升行人图像间的空间匹配度和模型判别力。在距离度量损失函数的设计方面,近年来被广泛使用的损失函数包括Triplet Loss[5]、Contrastive Loss[9]、Quadruplet Loss[10]、Large Margin Cosine Loss[11]以及这些距离度量损失函数的多个变种等。近年来所提出来的众多行人重识别方法在多个标准数据集,如Market 1501[12]、MARS[13]等数据集上甚至获得了超越人眼的识别精度,并且在相关理论和方法上也取得了比较多的技术突破。但是,受限于监控场景中存在大量弱光照的情景,导致仅仅使用可见光数据难以完成全天候智能视频监控的要求。
“可见光—红外”行人重识别弥补了单一可见光数据在弱光照条件下的不足,但是该类跨模态行人重识别问题不仅要面临单一模态下的图像间的对齐匹配问题,同时也将面临不同模态数据之间的模态漂移问题。目前跨模态行人重识别方面的研究工作相对可见光行人重识别还比较少,并未形成统一的研究体系。当前代表性的研究工作有:WU等[14]首先提出用于“可见光—红外”跨模态行人重识别的数据集SYSU-MM01,利用“零填充”的网络输入形式弥补跨模态数据之间的对齐问题,以此取得了比较好的识别精度,并被后续工作广泛引用;YE等[15]先通过双通路神经网络分别提取可见光和红外图像特征,然后将两个不同模态之间的特征映射到同一特征空间中,整个神经网络的训练采用对比损失函数来约束不同模态数据分布之间的一致性;HAO等[16]提出使用生成对抗网络来学习红外和可见光图像下的共享特征表示,其中生成网络用来学习图像的特征表示,判别网络用来区分所生成的特征属于哪种模态;CHOI等[17]提出了一种针对多模态数据进行特征解离的方法,将跨模态数据特征解离为与身份信息识别相关和无关的数据特征表达,并通过身份信息约束网络来强化特征解离模型的正确性;LI等[18]提出利用一种交叉辅助模态来降低跨模态数据间直接映射所面临的模型非线性程度过高和模型收敛困难的问题;FU等[19]提出了基于神经网络架构搜索的方法,该研究为跨模态多源数据共享特征学习搜索到了更优的网络基础架构;HAO等[20]重点分析了跨模态数据的类内一致性分布和类间相关性约束准则来进一步提升跨模态行人重识别的性能。笔者所提出的方法也是在文献[20]中算法的基础上,进一步将其拓展到混合双通路神经网络结构,并深入分析该结构中模态共享参数层和模态独有参数层对跨模态行人重识别模型的影响,针对该网络结构采用了混合自适应学习率调整策略来提升模型的特征学习能力,最终在标准数据集SYSU-MM01和RegDB上分别在基线模型[20]Top-1评价指标上识别精度提升5.5%和12.4%,在mAP评价指标上平均精度分别超出基线模型[20]2.0%、8.8%。
2 基于混合双通路神经网络的跨模态行人重识别算法
2.1 混合双通路神经网络整体结构
“可见光—红外”行人重识别数据集可以表示为D={V,I},其中V表示可见光(RGB)数据,I表示红外图像数据。图2为笔者所提出的混合双通路神经网络架构,包含了骨干神经网络和特征嵌入网络。
图2 笔者所提算法框图
采用ResNet50[21]作为骨干网络层,其最后一个池化层之前的输出作为输入图像的特征表示。由于跨模态数据间包含模态共享和模态特有特征信息,跨模态识别任务期望模态共享特征信息学习到更多与身份判别相关联的特征。如果共享特征信息中混有比较多的与模态特有特征相关的信息,则会降低统一特征表达下的身份识别能力。众所周知,神经网络的高层特征输出更能表达高层语义,其特征的身份判别能力更强。因此,笔者所设计的神经网络架构在高层网络空间中采用参数共享的神经网络结构,提取与身份判别相关的模态共享特征信息,这也是跨模态行人重识别特征学习的最终目的。鉴于不同模态的数据具有其特异性,针对“可见光—红外”行人重识别任务,文中方法在骨干网络的低层采用参数非共享的网络结构,提取模态特有和共享的底层图像特征表达。
如何设定骨干网络中的参数共享/非共享状态信息,将作为实验部分重点讨论的问题之一。在表1中给出了ResNet50网络结构的命名及对应层参数说明。该表中的具体参数解释可以参考文献[21]。该主干网络在最后一个Softmax层之前的设置与原始ResNet50[21]完全一样,表1中的名称也与其一致,只是为了简化表格,合并了第一个卷积层和池化层,将其称为Conv0。针对主干网络各层Conv0、Conv1_x、Conv2_x、Conv3_x、Conv4_x逐步设置双路网络参数共享/非共享来进行实验验证,最终为混合双通路神经网络搜索到更优的基础网络架构。通过实验,最终确认Conv0、Conv1_x和Conv2_x作为参数不共享层,而Conv3_x和Conv4_x作为基础网络架构中的参数共享层,具体如图2所示。
表1 ResNet50神经网络结构命名及参数说明
(1)
其中,yi表示第i个输入图像Vi或Ii的真实标签,即每张输入图像的K个部件特征共用该图像的标签信息。
2.2 跨模态数据特征间的约束准则构建
在目标函数构建方面,采用多目标联合优化的方式进行[9],包括用于样本身份鉴别的交叉熵损失ce、跨模态样本类内特征分布的一致性约束损失d,以及类间相关性约束损失co。
total=ce+αd+βco,
(2)
2.3 模型优化策略
学习率对训练一个深度神经网络往往也起到非常重要的作用。针对图2所示混合双通路神经网络架构,其包含由ResNet50构成的骨干神经网络和特征嵌入神经网络层。采用混合自适应学习率调整的策略对该双通路神经网络进行优化。首先,在模型初始训练阶段(10 epoch以内),采用逐步线性增长的学习率,这样相比于使用一个比较小的固定学习率可以有更大的动态范围让参数自适应地进行调整。在最后阶段(20 表2 模型优化策略 表2中的lr为初始学习率,以上策略在实验讨论部分均有详细的实验验证比较。这种学习率预热策略使得模型在训练初期使用比较小的学习率,随着迭代次数增加,学习率也逐步提高,直到预热截断结束后达到设定的学习率。这样能够避免学习率突然增大而导致的模型震荡、误差激增的情况。最后模型在收敛阶段使用更小的学习率,微调模型,进一步提升训练效果。 实验在中山大学(Sun Yat-Sen University,SYSU)的SYSU-MM01可见光—红外行人数据库[14]以及韩国东国大学的RegDB可见光—热红外行人数据库[14]上进行。SYSU-MM01数据库包含由4个不同场景下的可见光摄像头捕捉的287 628幅可见光行人图像以及由两个不同场景下的红外摄像头捕捉的15 792张红外行人图像。SYSU-MM01数据库包含491个行人身份,其中395个行人身份的所有图像用于训练模型,96个行人身份的所有图像用于测试。选用SYSU-MM01数据库上的单帧全场景评价模式进行实验,该模式是SYSU-MM01数据库上难度最大、最具有挑战性的评价模式。RegDB数据库包含了412个行人身份,针对每个行人身份采集了10张可见光图像以及10张热红外图像。与之前的行人重识别方法保持一致[15],采取了交叉验证的方式在该数据库上进行实验验证,即按1∶1的比例将行人身份的一半用于训练,一半用于测试,并重复这种随机划分10次,取平均值作为最终结果。对于RegDB数据库,在进行测试时,常规的测试方法是使用可见光进行检索,将红外图像作为待检索图像。除此之外,还有一种测试方法是使用红外图像进行检索,使用可见光图像作为待检索图像。 实验使用了累积匹配(Cumulative Match Characteristic,CMC)曲线中的 Top-1 识别率、Top-10 识别率和 Top-20 识别率作为评价指标。这3个值越高,表示在不同设置下识别得越准确。此外,还使用了平均均值精度(mean Average Precision,mAP)这一信息检索领域常用的评价准则作为跨模态行人重识别任务的评价方式。mAP的值越高,表示模型的检索能力越好。 文中所述方法均由PyTorch[22]实现,所有实验均在搭载 Intel Xeon 6230(2.10 GHz)中央处理器与32 GB显存的英伟达 Tesla V100显卡的计算机上运行。为了与之前的工作[9]进行公平比较,特征提取器同样使用 ResNet50 网络作为其骨干网络,网络的输入图像大小为384×128;实验中同样将跨模态行人图像的特征图分为6块,即K=6。模型使用Adam优化器进行,具体优化策略在第2部分已经介绍。对于RegDB 数据库和 SYSU-MM01数据库,均训练60个epoch,训练时每个批次对8个不同身份的数据行采样,对每个身份采样4张可见光图像和4张红外图像,因此训练时的批大小为64。 3.3.1 模态共享层数量分析 通过实验分析在骨干网络中模态独有参数层的数量对跨模态行人重识别性能的影响。表3中给出了实验结果。 表3 不同网络结构下的SYSU-MM01数据集上的实验结果 % 为了验证模态独有参数层对跨模态行人重识别性能的影响,报告了5种不同的双通路网络结构在跨模态行人重识别任务上的实验结果。其中“双通路-0”表示共享参数层为骨干网络的“Conv1_x”及之后的部分,“双通路-1”表示共享参数层为骨干网络的“Conv2_x”及之后的部分,“双通路-2”表示共享参数层为骨干网络的“Conv3_x”及之后的部分,“双通路-3”表示共享参数层为骨干网络的“Conv4_x”及之后的部分,“双通路-4”表示参数完全独立的两路神经网络。在上述5种结构中,非共享参数层的网络层均使用模态独有参数。 从表3中数据可以看出,使用双通路网络结构可以有效地提升基线模型的识别与检索性能。具体来说,在实验中使用相同训练技巧的情况下,使用的“双通路-2”结构相比于全共享单通路网络,在Top-1识别率上提升了2.09%,达到49.79%,在Top-5、Top-10以及Top-20这3个指标上效果均取得一致性提升。在mAP指标上,“双通路-2”网络结构相比于全共享单通路网络结构提升了1.73%,但是参数量仅仅比全共享网络多了13×1 000个参数。通过对不同结构双通路模型的分析和对比可以看出,模态独有参数层的数量并不是越多越好。对于ResNet50模型,当使用残差模块之前的卷积层Conv0、第1个残差模块Conv1_x和第2个残差模块Conv2_x的参数均为模态非共享时,该基线模型的效果可以达到最优。这说明网络中非共享层的数量并不是越多越好,适当增加骨干网络中非共享层数量可以有效地提升网络对跨模态数据特征的表达能力,从而利用跨模态数据之间的信息互补性获得更好的识别效果。因此,如无特殊说明,后续实验均使用“双通路-2”结构作为混合双通路神经网络的骨干网络结构。 3.3.2 超参数分析 决定笔者所提方法实验效果的关键部分除了双通路网络中非共享参数层的个数外,多任务损失函数中的每个函数项的超参数也是一个重要部分,因此这里对3个超参数进行分析。注意各个子约束损失函数的性能分析可以参考文献[20]。在模型刚开始训练的阶段,特征由于没有被身份信息约束,所以得到的特征是不具备身份判别信息的,如果让两个模态一致性约束损失的权重太大,则会引起模型训练不稳定,直接陷入局部极小点,最终模型学到的是模态一致的特征,但是这个特征是没有判别性的。因此,笔者认为身份损失应当是对提取跨模态行人图像判别性特征最重要的函数,先将其置为1;然后调整其他两个损失函数的权重,探索最优组合。图3中给出了Top-1识别率和mAP与两个权衡因子的关系。 (a)模型性能与α的关系 图3(a)为Top-1识别率和mAP与α的关系。在该组实验中,经验性地将β先设置为0.1。当α的取值为0.3或0.5时,模型受ld的影响较大,ce难以收敛。在模型开始训练时,特征的判别性较弱,ld增大会导致模型陷入局部最小值,即最终提取出的特征仅具有模态一致性而损失判别性。从图3(a)中可以看出,α取0.01时可以取得更好的结果。因此,接下来的实验将α均设置为 0.01。图3(b)为α取0.01时,调整β的值对模型性能产生的影响。可以看出,在β值为0.1时,模型可以达到更好的性能。因此,对于笔者提出的完整方法,后续实验均使用α=0.01,β=0.1作为默认超参数。 此外,为了说明笔者所提出模型优化策略的有效性,表4提供了不同优化策略下使用“双通路-2”结构的基线模型的实验结果,其中约束函数仅使用交叉熵损失ce。通过实验结果可以说明笔者所提模型优化策略的有效性。 表4 不同优化策略下SYSU-MM01数据库上基线模型的实验结果 % 3.3.3 与其他方法的比较 笔者所提方法的完整模型由双通路骨干网络与节2.2提出的约束准则构成,同时采用节2.3所提出的混合自适应学习率调整策略。 表5中展示了在SYSU-MM01数据集上笔者所提方法与当前先进方法的比较,表中使用“双通路-2*”表示骨干网络使用“双通路-2”结构时的完整模型。用于比较的方法有Zero-Pad[14]、TONE[15]、BDTR[23]、HSME[16]、AlignGAN[24]、MSR[25]、MACE[26]、JSIA[27]以及文中最主要的参考方法DFE[20]。可以看出,笔者所提出的使用“双通路-2”结构的模型在Top-1和mAP上都超越了目前的先进方法。例如,与2020年发表于IEEE TIP 的方法MACE[26]相比,“双通路-2*”方法在Top-1指标上提升了近3%,在 mAP指标上提升了0.47%。此外,与DFE方法相比,笔者所提方法在Top-1上提升了近6%,在mAP指标上提升了约2%。这些数据说明了双通路网络除了能够使模型学习到更好的行人判别性特征外,还可以增强模型对于不同模态图像特异性表达的挖掘能力,从而更好地通过基于分布的度量学习函数学习跨模态图像的模态不变性特征,以实现更好的识别和检索效果。 表5 在SYSU-MM01数据集上与其他方法的对比 % 此外,通过表3可以看出,相比于单通路网络,“双通路-0”结构同样也可以在识别性能上得到提升。因此,同样使用“双通路-0”作为骨干网络构成完整模型时的识别性能测试,即表5中“双通路-0*”。可以看出,在使用“双通路-0*”时,模型的识别和检索性能相对于DFE*[20]均有所提升,但是与“双通路-2*”相比较,仍然具有一定的差距。这与表3中的实验结果呈现了一定的相似性,说明不同的骨干网络结构也会对完整的模型产生不同的影响。 将节3.3.3所对比的先进方法在 RegDB数据集上与笔者所提方法进行了比较,具体如表6所示。可以看出,在RegDB数据集上,笔者所提方法在Top-1、Top-10、Top-20以及mAP指标上均超越了之前的方法,取得了目前领先的效果。其中,在可见光—红外行人重识别任务上,笔者所提出的“双通路-2*” 方法在Top-1指标上领先了目前最好方法MACE[26]10.17%,在mAP指标上领先目前最好方法DFE[20]9.66%。此外,表格中还报告了在热红外—可见光任务上每种方法的对比结果,可以看出笔者所提出的“双通路-2*”方法在该任务上也取得了目前领先的水平。在Top-1、Top-10、Top-20和mAP上,精度分别达到了78.51%、90.75%,94.51%和75.51%,这说明笔者所提出的方法可以有效提取跨模态行人图像的模态不变性特征,同时保证特征的高判别性,以实现更好的检索和匹配。 表6 在RegDB数据集上与其他方法的对比 % 针对跨模态红外—可见光行人重识别问题,笔者提出了基于混合双通路神经网络的跨模态行人重识别算法。通过实验深入分析混合双通路神经网络架构中模态共享参数层和模态特有非共享参数层对跨模态行人重识别模型的影响;这些实验发现充分说明了基于双通路神经网络架构中参数结构设计对跨模态数据特征提取的重要性,将为后续采用神经网络架构搜索方法提供一定的先验指导。该方法在模型约束准则的构建方面也充分考虑了数据特征类内分布和样本间相关系数在不同模态之间的一致性约束关系。与此同时,该方法在针对神经网络模型的训练上采用了混合自适应学习率调整的模型训练策略,实验证实该训练策略在该双通路神经网络训练任务上的有效性,这将为后续其他工作在训练神经网络方面提供借鉴意义。综上,笔者为可见光—红外图像行人重识别任务提供了一种非常有效的方法,该方法在当前两个最常用的标准数据集上都取得了领先当前主流方法的精度。3 实验结果与分析
3.1 数据库及评价标准
3.2 实验环境与参数配置
3.3 实验结果与对比分析
4 结束语