APP下载

三重注意力特征聚合的跨模态行人再识别

2021-11-24朱松豪梁志伟

关键词:红外行人模态

黄 盼,朱松豪,梁志伟

(南京邮电大学自动化学院、人工智能学院,江苏南京 210023)

人的再识别(行人重识别)旨在从部署在不同视角的多台非重叠摄像机中检索出同一个人[1-2]。例如,给定一个摄像机视角下的行人图像,该算法试图检索不同摄像机捕捉到的同一行人的图像[3]。由于其在智能视频监控和刑事调查应用中的必要性,它在计算机视觉社区中吸引了越来越多的关注。但因为存在遮挡、类内变化以及类间相似性等问题,人员重新识别仍然是一项具有挑战性的任务。类内变化包括同一人在不同视角下看起来不同的情况[4-5]。 典型的类内变化包括视角变化、不受限制的姿势[6-7]和不同的照明[8]等。 类间相似性是指不同的人在不同的视角下可能看起来几乎完全一样,尤其是当他们穿着同样的衣服,体型相似时。

尽管存在这些挑战,但随着深度学习技术的发展[9-10],可见光行人重识别已经取得了令人振奋的进步,并实现了高精度[11-14]。 然而,可见光行人重识别无法在黑暗条件下工作,一个人可能在白天出现在一个摄像机中,而晚上重新出现在另一个摄像机中。

随着技术的发展,大多数监控摄像机可以在黑暗条件下自动从可见光模式切换到红外模式,利用红外摄像机采集的视觉信息进行黑暗条件下的人员重识别,因此有必要在24小时智能监控系统中研究可见光⁃红外行人重识别跨模态匹配,也就是可见光⁃红外行人重识别[15]。与可见光-可见光单模态匹配相比,可见光⁃红外行人重识别跨模态匹配难度较大,因为两种模态之间存在较大差异。如图1所示,可见光和红外图像具有本质上的差异性和异质性,且波长范围不同。此外,可见光图像有3个通道,包含了足够的人物外观颜色信息,而红外图像只有一个通道,包含了可见光的信息。这使得人眼很难仅仅根据颜色信息有效地识别人。

图1 来自SYSU⁃MM01数据集的可见光图片与红外图片的示例

即使是最先进的单模态行人重识别系统[16-18]也很难应对上述挑战,因为这些方法很难可靠地学习鉴别性的局部类型特征,这就是为什么现有的研究人员更多地关注于通过单流[19-20]或双流网络[21-22]学习多模态的可共享全局特征。一些研究还整合了模态判别监督[21]或GAN生成的图像[23]来缓解模态差异。然而,全局特征学习机制对背景噪声敏感,难以明显弥补模态差异。此外,由于跨模态差异较大,基于部分特征学习的单模态行人重识别方法[24]往往不能捕获可靠的部分特征。所有这些挑战都会导致跨模态特征的辨别力下降和训练不稳定。

为了解决上述局限性,本文提出了一个新颖的双流框架,称为三注意力聚合网络(Three⁃Attentional Aggregation Network,TAANet)。 TAANet包括两个主要部分,如图2所示,一个是模态内加权聚合(Intra⁃Modal Weighting Aggregation,IDWA),一个是跨模态图形全局特征注意力(Cross Modal Graph Global Feature Attention,GGFA)。本文的主要思想是:在模态内部分层面和跨模态图形层面挖掘上下文线索,以增强特征表征学习。IDWA旨在通过结合空间和通道维度的特征依赖性,来挖掘每种模式下身体部位之间的上下文关系。具体来说,本文将两个平行的注意力模块附加到ResNet骨干网的输出上,并将两个注意力模块的输出逐像素相加。GGFA旨在通过结合可见光图像和红外图像之间的关联性来学习一个增强的节点特征表示。挖掘跨模态图的上下文信息有助于消除差异大的样本的负面影响,这正是本文所采取的方法。本文还通过一个多头关注图方案对模态内和跨模态的邻居进行了权重适应性分配[25]。这种策略可以减少模态差异,加快训练过程。以下是本文的主要贡献。

图2 可见光⁃红外行人重识别的TAANet框架

笔者提出了一种新型的3种注意力聚合学习方法,以挖掘模态内部分和跨模态图层面的上下文关系,来提升可见光⁃红外行人重识别任务的特征学习过程。

(1)在TAANet中引入了复合注意力机制,包括通道注意力模块和位置注意力模块。前者有利于通道方面提升特征级信息聚合,而后者则抓住了身体和部件位置的空间关系。笔者发现它们是互补的,完全有利于行人重识别任务的完成。

(2)引入了一个改进的三重损失与中心损失相结合的方法,通过学习每个行人的类中心,使类内距离更加紧凑。

(3)建立了一个新的基线,并在两个可见光⁃红外行人重识别数据集上取得了新的结果。

1 相关工作

1.1 单模态行人重识别

单模态行人重识别旨在从可见光相机中识别人物图像[26]。大多数研究者关注3种类型的行人重识别专用网络,即全局级[27-28]、部分级[29]和注意力级特征学习。全局级网络将全局级特征聚合成一个全局向量[30-31]。基于部分的网络首先将行人图像分割成不同的部分,然后将不同部分的局部特征向量合并为一个单一的向量[32]。由于不同模态之间存在巨大的异质性差距,大多数现有的方法都集中在单模态重识别任务上,无法很好地处理跨模态重识别。

1.2 跨模态行人重识别

跨模态行人重识别旨在将一种模态的图像与不同模态的图集在查询后进行匹配,如文本⁃图像行人重识别[33]、可见光⁃Depth 行人重识别[34]和可见光红外(可见光⁃红外行人重识别)行人重识别[35-36]。Wu等[15]贡献了最大的 SYSU⁃MM01 数据集,并为可见光⁃红外行人重识别跨模态匹配引入了一个深度零填充框架。Ye等[37]提出了一个分层学习框架,以共同优化模态特定和模态共享的指标。Ye等[38]推进了基于双流的模型和双向顶阶损失函数来学习共同的表征。Dai等[19]介绍了一种跨模态生成对抗网络来减少可见光和红外特征的分布差异。Hao等[35]通过超球流形嵌入模型实现了可见光热成像人再识别。最近,Wang等人将生成式对抗网络作为模式转换器,将人的图像从一种模式转换成另一种模式,同时尽可能地保留身份信息。然而,上述大多数方法主要集中在学习全局特征表征上,在两种模式下不同身体部位和邻域非常有用的关系在很大程度上被忽略了。

1.3 注意力机制

注意力机制已经被引入到深度模型中,以解决人的重新识别中的错位问题。注意力被用来整合不同视频帧中的时空信息[39-41]。 一些研究者[42-44]也研究了利用多尺度或不同卷积通道来捕获像素级/小区域级的注意力[45]。但由于跨模态差异大、噪声大,使得上述方法在可见光⁃红外行人重识别中的优化是不稳定的。本文提出的注意力机制结合了空间和通道线索,以及逐像素的求和,这使得本文的模型比多任务学习的替代方法更轻量[46]。

2 改进方法

图2给出了本文所提出的三注意力聚合网络框架。TAANet是一个针对可见光⁃红外行人重识别的双路径端到端特征学习框架,其中包括用于鉴别性特征学习的模内混合加权部分注意和用于共享全局特征学习的跨模态图结构注意,最后,本文引入了一个复合注意机制,以适应性地聚合两个部分进行端到端的联合训练。

2.1 双流网络结构

本文提出了一个双路径网络来提取可见光⁃红外跨模态行人重识别域的特征。它主要包括两部分:特征提取器和特征嵌入。特征提取器侧重于捕捉不同模态的特定信息,特征嵌入旨在学习多模态共享特征,通过将这些模态特定特征投射到一个模态共享的公共特征空间中,从而实现跨模态重识别。

为简单说明,本文将可见光路径中的特征提取网络表示为函数ϕV,红外路径特征提取网络表示为ϕI来学习模态特异性信息,而特征嵌入网络ЕVI来进一步利用这些模态特异性信息嵌入到一个共同的空间中。将可见光图像Iv和红外图像Ii,在公共空间中学习到的三维人体特征表示为

考虑到ResNet50模型在一些行系统中的优异性能[47],以及其相对简洁的架构,本文将采用ResNet50模型作为骨干。ResNet50模型主要由1个浅卷积块stage0和4个残差卷积块stage1、stage2、stage3、stage4 组成[48],如图 2 所示。

残差卷积块在两个网络中是独立的,目的是学习特定的模态信息,解决跨模态的差异问题。然后进一步利用共享层将这些特定的模态信息嵌入到一个共同的空间中,学习一个多模态的可共享空间来弥补两个异质模态之间的差距。

为学习两种模态的不同特征,以往的行人重识别方法通常只采用最低级的特征来提取模态特定的特征模式,如只利用每个网络中浅卷积块stage0的输出。虽然采用低级特征提取模态特定特征模式非常有用,然而同时也会丢失一些低级特征,如纹理和颜色信息。如图2所示,本文在网络中使用stage0和stage1,通过共享前两个卷积块的网络参数,可以捕获更多的模态特定的低级特征。此外,最后3个卷积块的网络参数对两种模态都是共享的,以便学习模态可共享的中级特征表示。此外,在卷积层之后增加了一个共享批处理归一化层,以学习共享特征嵌入,并采用自适应池化。与文献[49]中的双流结构相比,本文的设计通过挖掘中间卷积块中的可共享信息来捕获更多的鉴别性特征,而如果在更高的嵌入层中挖掘,一些鉴别性特征就会丢失。

2.2 模态内双加权部件聚合

作为对现有可见光⁃红外行人重识别方法中全局特征学习的补充[19-20],本模块为可见光⁃红外行人重识别引入了一种新型的双部分聚合特征学习方法,即模态内双加权部分聚合(见图3)。IDWA在局部获取长距离的上下文信息,并将各通道之间相关的语义上下文聚合起来,形成一个增强的部分聚合表示,以应对复杂的挑战。它由两个分支组成:位置注意分支(PAB)和通道注意分支(CAB)。前者将更广泛的上下文信息编码到局部特征中,从而提高其表示能力;后者是为了明确建模通道之间的相互依赖性,并聚合语义相似的通道。位置注意分支中,给定来自网络最后一个残块的特征, 其中 C=2 048代表通道维度,H和W代表特征图大小,K代表批次大小。本文将特征图送入全连接层和区域池结构中,划分为 p个非重叠部分,用Xp=表示,然后将每个部分送入1×1卷积层m(·), n(·)和 o(·)之后, 本文在 n(xpi) 和m(xpj)的转置之间进行矩阵乘法,应用Softmax层计算空间注意力图∈ [0,1]p×p

图3 IDWA模块

其中,ai,j是指ith位置对jth位置的影响。两个位置之间的特征代表越相似,它们之间的相关性就越大。本文的注意图大小为 p×p,而非文献[50-51]所采用的大小为HW×HW的像素级的注意力,这样更有效率。通过学习到的空间注意力,注意力增强的空间特征用 o(xpi)表示,计算得到的注意力记作Ap,其计算公式为

其中αpi为局部注意力特征图。

因此,增强的部分特征反映了不同身体部位之间的更多关系,然而,简单的平均池化或部分特征的拼接并不总是足够的,因为它可能会积累噪声部分。本文使用一个可学习的加权部分聚合结构与残余批量规范来稳定和加强训练过程,它由以下公式计算得到

其中,xo代表输入特征图Xp的全局自适应池化输出,B为批归一化操作,而Wp代表不同部分的可学习权重向量,以处理模态差异。

通道注意分支中,深度卷积的通道图在语义上是相关的,通常具有类别选择性,本文建立一个通道注意分支来挖掘通道之间的相互依赖性模型,从而增强特定语义的特征表示。与位置注意力分支不同的是,本文直接由原始特征X∈RC×H×W计算出通道注意力图Z∈RC×C,其中C为通道数,H×W为特征图大小,通道亲和力矩阵Z可表示为

其中xi,j表示通道i对通道j的影响。最终输出的特征图E为

其中,β为调整通道注意分支影响的超参数。为充分利用远距离的上下文信息,进行逐元素[52]相加来完成特征融合,这样就可将两个注意分支的功能结合起来。

2.3 跨模态图形结构化注意力

由于可见光⁃红外行人重识别的数据集中存在较多错误标注的图像或跨可见光⁃红外模态视觉差异较大的图像对(见图1),从而使得无法充分学习辨别性局部特征,破坏了优化过程。在本节中,介绍跨可见光⁃红外模态的结构关系,以改善特征表示。主要思想是跨可见光⁃红外模态中被识别为同一人的图像特征表示是互利的。

图形注意力可以衡量节点i对另一模态中节点j的重要性。本文用池化层的输出 XO=表示输入节点特征。 图关注系数通过以下方式计算得到

其中,Γ(·)代表 LeakyRelu操作,(,)表示连词运算,h(·)表示一个变换矩阵,用于将输入节点特征维度C缩减为d的变换矩阵,在本文的实验中设置d为256;wg∈R2d×1代表一个可学习的权重向量,用来衡量不同特征维度在串联特征中的重要性,类似于文献[53];Ag为规范化邻接矩阵的无向图,每次从N个不同的身份中随机选择一个,然后随机取样M个可见光图像和M个红外图像,从而在每个训练批次中产生K=2 MN图像。需要注意的是,将具有相同身份的上下文信息和跨两种模态的图像之间的关系结合起来,可以用来增强表征。

为增强图形注意力学习的可分辨性和稳定性,本文采用多头注意力技术,通过学习具有相同结构的多个 hl(·) 和 wl,g(l=1,2,…,L,L 为总头数),并分别进行优化。将多个头的输出结果进行串联后,通过如下公式得出图结构的注意力增强特征

其中,xig对离群样本是稳健的,φ为ELU激活函数。通过引入具有单头结构的图形注意力层来指导跨模态图形结构的注意学习。本文采用负对数似然损失函数来进行图的注意力学习,其表达式为

2.4 损失函数和度量学习

损失函数在训练模型中起着至关重要的作用,行人重识别典型的损失函数策略是结合ID损失和Triplet损失。ID损失可以监督模型进行人物分类,而Triplet损失可以让模型分辨出不重要的特征差异。除了ID损失和Triplet损失,中心损失也被应用于本文的损失函数中[54-55]。整个损失函数可以表述为

在这个多损失函数中,Cross Entropy通常被用作分类问题的ID损失。在全连接层和含有softmax函数的层之后,输出向量是不同类别的概率,用q表示,而这个特征事实上属于p,是独热向量(One Hot Vector)。 Cross Entropy可表述为

其中k为类的数量。最小化Cross Entropy可使预测的概率接近于真实情况。在本文的训练策略中,对于一个小批次,有不同的ID,每个ID有几个边界框图像。因此,Triplet Loss和Center loss用来约束训练期间的特征距离。本文使用加权的Triplet Loss,有

其中,(i,j,k)代表每个训练批次中挖掘到的硬三联体损失;p为相应的正集,n为负集。上述加权正则化优化了正集和负集对之间的相对距离,避免了引入任何额外的剩余参数。中心损失Lc通过学习每个ID的聚类中心,使类内距离更加紧凑,其公式为

其中cyi表示类yi的特征中心。为将上述提出的模式内加权部分注意力和跨模式图结构化注意力纳入端到端的联合学习框架,本文引入了动态聚合学习策略,自适应地整合上述介绍的两个部分。此外,本文将整个框架划分为两个不同的任务,即实例级的局部加权特征学习Lp和图级的全局特征学习Lg,Lp表示为

其中,p(yi|)表示将正确分类到真实标签yi的概率,第2项代表模态内加权部分注意力的实例级部分聚合特征学习,它由聚合部分特征x∗上的身份损失制定的。

本文的基本思路是将实例层面的部分聚合特征学习Lp作为主导损失,然后逐步加入图层面的全局特征学习损失Lg进行优化。这样做的主要原因是,在早期阶段学习实例级的特征表示Lp比较容易。在学习到较好的网络后,图层面的全局特征学习利用两种模式下人像之间的关系来优化特征,最终的损失函数为

图4 三注意力聚合网络

3 实验结果与分析

3.1 实验设置

在本节中,主要在两个标准的可见光⁃红外行人重识别数据集上评估本文提出的模型,它们分别为SYSU⁃MM01[44]和 RegDB[56]。

数据集和设置。SYSU⁃MM01是一个由6台相机收集的大规模数据集,包括4台可见光相机和2台热相机。这些数据集非常适用于研究人的再识别,因为有些图像是在室内环境下拍摄的,而有些图像是在室外环境下拍摄的。本文采用预定义的单摄像头全搜索模式评估协议,因为这种复杂的环境更接近实际场景。来自395人的训练集包含22 258张可见图像、11 909张热图像;测试集包含96人,其中3 803张热图像用于查询,301张可见光图像随机选取作为图库集。RegDB采用双摄像头设备采集,共收录412人,每人用可见光相机采集10张可见光图像,用热像仪同样采集10张热像。本文按照文献[37-38]中的评估方案,将数据集随机分为两半,一半用于训练,另一半用于测试。在测试中,红外模式的图像被用作图库集,而可见光模式的图像被用作探测集。为了获得稳定的结果并记录平均值,这个过程需要重复10次。

评价指标。本文采用标准的累积匹配特性(Cumulative Matching Characteristics,CMC)曲线和平均精度(Mean Average Accuracy,mAP)来表示可见光⁃红外行人重识别的性能。

实现设置。本文用PyTorch实现设计的方法。沿用现有的可见光⁃红外行人重识别工作,采用ResNet50作为本文的骨干网络进行公平比较[57],遵循文献[58]的参数设置。浅卷积块stage0和残差卷积块stage1的参数是因模式不同而不同,而后3个卷积块的参数是共享的。本文将位置注意分支和通道注意分支结合起来,以获得长距离的特征图,将最后一个卷积块步长从2设置为1后,能得到细粒度的特征图。在数据论证中采用了随机裁剪的方式,首先将图像的大小调整为288×144,利用 SGD优化器进行优化,动量参数设置为0.9。在预热策略中,本文将初始学习率设置为0.1[59],学习率在第30个历时中衰减0.1,然后在第80个历时中衰减0.01,总共有80个训练历时。默认情况下,本文随机选取8个ID,然后随机选取4张可见光图像和4张红外图像制定一个训练批次。本文在式(15)中设置P=3,在式(10)中设置 L=4。

3.2 消融

各组件的消解研究评价。本节评估各组件在SYSU⁃MM01数据集的完全搜索和室内搜索模式中的效果。具体来说,“B”表示Lb训练的双分支网络的基线结果,“P”表示模态内加权部分的聚合,“G”表示跨模态图结构化注意力。

图5显示了不同人物图像的特征热图,这表明本文的模型(B+P+G)比基线和其他组件能关注更多的判别区域。图5中最下面一排图片,无论视角如何变化,可以看出本文的方法可以关注到重要的区域。可以看出(1)基线的有效性:使用更多的卷积块来提取模态的具体特征,本文取得了比文献[21-22,49]中的双流网络更好的性能;同时,从单模态行人重识别中引入的一些训练技巧也对该基线做出了贡献[18]。(2)P的影响:每个模态中加权部分的聚集明显提高了性能,这个实验表明,学习部分级别的加权注意力特征对跨模态行人重识别是有益的。(3)G的有效性:当本文加入跨模态图结构注意(B+G)时,两个模态的人像之间的关系被利用来减少模态差异,从而提高性能。(4)双聚合的有效性,当两个注意力模块用动态双聚合策略聚合时,性能得到进一步提高。事实表明,这两种注意力是互利的。

图5 每个组件在大型SYSU⁃MM01数据集上提取的特征图

改进的三重损失与中心损失。本文提出的方法中使用了多重损失函数,本文将ID损失、三重损失和中心损失相结合。ID损失用于提高模型的分类能力,而中心损失可以与三重损失相辅相成,使输出的特征更具有辨别力。在实验中,本文比较了逐步引入交叉熵损失函数Lid、改进的三元组损失Lwrt和中心损失Lc后的情况,结果如表1所示。

表1 不同损失函数的对比实验结果 %

3.3 对比实验

在本节中,将本文提出的TAANet与一些最先进 的 方 法 进 行 比 较: MAC、 D2RL[20]、 MSR[21]、eBDTR[22]、 AlignGAN[23]和 Xmodal[60]。 请 注 意,AlignGAN提出了最新的技术,将特征级和像素级图像与生成的图像对齐[23]。Xmodal生成一个中间模态,以弥补两种模态之间的差距。本文还与其他一些工 作 进 行 了 比 较, 包 括 HPILN[36]、 EDFL[49]、AGW[58]、LZM[61]和 DDAG[62]。 在两个公共数据集上的结果分别如表2和表3所示。

从表2结果可知:(1)使用双流方法的网络(MSR[21]、EDFL[49]、LZM[61]、DDAG[62]和本文提出的 TAANet) 普遍优于单流网络方法(Zero⁃Pad[15]、cmGAN[19]和 D2RL[20]),主要原因是双流网络可以充分挖掘特定模态和模态共享的特征,更适合可见光⁃红外行人重识别。(2)本文提出的TAANet显著优于目前最先进的DDAG。相比较于DDAG采用双注意力聚合方法,本文提出的方法可在模态内部分和跨模态图层面挖掘上下文信息,即可获取更丰富的上下文和通道语义信息。

表2 在SYSU⁃MM01数据集中的性能比较 %

在RegDB数据集上的实验结果(见表3)表明,TAANet对不同的查询设置具有鲁棒性。本文在一个更真实的使用场景中取得了更好的表现,比如一个人从黑暗中走到光明的环境中(红外到可见光),或者从良好的光线条件下走到昏暗的场景中(可见光到红外),TAANet可以通过提取更多的模态可分特征和图形结构关系来学习更好的模态可分特征。

表3 在RegDB数据集中可见光红外和红外可见光设置上的先进性比较 %

4 结束语

本文为可见光⁃红外行人重识别提供了一个具有可学习权重的三重注意聚合学习(TAANet)框架。TAANet的创新体现在两个方面:其IDWA组件通过同时考虑局部和通道之间的差异和关系来增强特征表示;本文对损失函数进行了改进,利用改进后的三元组损失结合中心损失,使得每个ID类内的距离变得更加紧凑。TAANet在各种设置上都优于现有模型。此外,降低计算复杂度和增强注意力机制在跨模态训练中的稳健性也很重要,这将在未来的工作中进行研究。

猜你喜欢

红外行人模态
联合仿真在某车型LGF/PP尾门模态仿真上的应用
网红外卖
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
闪亮的中国红外『芯』
毒舌出没,行人避让
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
路不为寻找者而设
我是行人