APP下载

互惠双向生成对抗网络用于跨模态行人重识别

2021-04-30魏梓钰王楠楠高新波

西安电子科技大学学报 2021年2期
关键词:异质红外行人

魏梓钰,杨 曦,王楠楠,杨 东,高新波

(1.西安电子科技大学 通信工程学院,陕西 西安 710071;2.西安空间无线电技术研究所,陕西 西安 710100;3.重庆邮电大学 图像认知重庆市重点实验室,重庆 400065)

随着人们对社会公共安全的日益关注,大量监控摄像头被部署在公共场所中以实现对高威胁人群的实时监测。行人重识别旨在利用计算机视觉技术在多个摄像头下检索特定的监控行人图像。近几年已有大量基于深度学习的方法在可见光行人重识别方向取得重大进展[1]。然而,现实中多数恶性事件易发生在夜间弱光条件下。为了保证对危险人员的全天时监控,红外摄像头被广泛应用于夜间场景中[2],将其与可见光摄像头联合,可实现对危险人群的追踪与抓捕。如何从可见光(或红外)摄像头下检索红外(或可见光)摄像头下的特定行人图像,即跨模态行人重识别,对于我国安防智能化建设具有重要的研究意义。可见光与红外图像存在明显的差异:可见光图像为三通道图像,包含丰富的颜色信息;而红外图像为单通道灰度图像,缺少颜色信息。跨模态行人重识别的难点不仅体现在异质图像巨大的跨模态差异,也体现在相同模态不同摄像头下由于光线、视角变化引起的行人图像差异。

为了促进跨模态行人重识别课题的研究,WU等[3]利用4个RGB可见光摄像头和2个红外摄像头对491个行人进行多时段多场景拍摄,构建了大型可见光-红外行人数据集SYSU-MM01。韩国东国大学NGUYEN等[4]采用可见光-热成像双目摄像头在同一场景下对412个行人成像并构建RegDB数据集,两个数据集的提出促进了跨模态行人重识别的研究进展。为了提升跨模态行人重识别的准确率,文献[3]设计了一种深度零填充的方法,但该方法仅使用身份损失进行训练,从而限制了特征的辨识力。文献[5]提出了一种双流卷积神经网络,并采用双向抑制排序损失和身份损失同时约束网络,以学习到更加具有区别性的特征。文献[6]充分考虑了分类子空间与特征嵌入子空间的关联性,并提出一种端到端的双流超平面多嵌入网络来学习异质行人图像的共享特征。然而,上述方法并不能完全将异质行人特征映射到同一子空间,从而影响了跨模态行人重识别系统的性能。另外,有一些工作是利用生成对抗网络[7]生成伪异质图像以消减模态差异。文献[8]采用热生成对抗网络框架将RGB图像转换为热红外图像,该框架可以实现视频监控下可见光与红外图像的相互匹配。文献[9]提出了一种新颖的对抗学习方式来学习具有辨别力的特征表示。文献[10]利用循环生成对抗网络(CycleGAN)[11]生成跨模态图像,然后构建了自注意力模态融合网络,增强了特征区分能力;但生成的图像质量较差,影响了跨模态行人重识别的性能。文献[12]提出一种减少双极差的学习方式来约束异质图像的表征差异以及模态差异,并取得了较好的效果。然而这些方法仅使用生成对抗网络,并没有考虑生成过程中隐藏特征的关联性,因此,限制了神经网络学习共享特征的能力。

为此,笔者提出一种新颖的互惠双向生成对抗网络,以提升跨模态行人重识别的准确率。该网络由两个结构对称的图像转换子网络组成,分别用于可见光图像生成红外图像,以及红外图像生成可见光图像。为了使生成的异质图像更接近于真实图像,提出一种联合损失函数拉近图像转换过程中两个隐藏空间的特征分布,建立两个不相关单向生成网络的相互作用关系,使生成的图像既保留行人身份信息,又接近于真实图像风格。通过将原始图像与生成的异质图像相结合进行区别性特征提取,能够抑制模态差异,实现模态统一,得到更具有判别性的行人特征。

1 异质图像转换网络

给定一组可见光图像V和一组红外图像I,网络将在可见光和红外行人图像之间学习两组映射关系,即G:VI和F:IV。不同于其他方法,直接利用变自分编码器或生成对抗网络将红外或可见光图像映射到同一空间中,文中将为每组映射构建两个子生成器,并探索在生成图像过程中隐藏空间特征的分布,引入一种新颖的关联损失来拉近两个映射中间特征的距离,约束潜在空间的特征分布。因此,中间图像在分布上具有高度相似性,从而驱动网络最终生成的异质图像更接近于真实图像。

1.1 图像转换网络结构

图像转换网络由两个单向对称的子网络组成,每个子网络包含两个子生成器和一个判别器。生成器G将可见光图像v转换为对应的红外图像i,G由G1和G2构成,分别用于生成中间特征表示以及最终的伪红外图像。生成器F由F1和F2构成,用于将行人图像由红外模态转换为可见光模态。另外,判别器Dv和DI用于辨别图像是原始图像还是生成的伪异质图像。子生成器G1、G2、F1和F2具有相同的网络结构,包含两个步长为2的下采样,9个残差模块,以及两个步长为1/2的上采样。生成器G的网络结构如图1所示,F的结构与其相同。由于子生成器的输入与输出图像具有相同的尺寸,因此实现了原始图像、中间图像以及生成图像之间的像素对齐。判别器Dv和DI采用PatchGAN[13]的网络结构,包含5个卷积层,4个线性整流(Leaky ReLU)层以及3个归一化层(Batch Normalization,BN)。由于该结构参数较少,因此具有较快的运行速度。

图1 图像转换网络结构图

1.2 目标函数

对于两个单向的图像转换网络,为了保证生成的异质图像能够保留更多的边缘信息,引入图像重构损失来引导输出图像的分布接近目标分布。图像重构损失可以表示为

Lrec(G,F)=Ev,i[‖G(v)-i‖1]+Ev,i[‖F(i)-v‖1] ,

(1)

其中,G(v)和F(i)表示由生成器生成的伪异质图像,i和v为真实图像。通过减小生成图像与真实图像的L1距离,驱使生成器生成更逼真的异质图像。

为了确保生成的图像再次经过生成器后能够输出与原始图像分布相近的图像,引入循环一致性损失来拉近数据分布。循环一致性损失可表示为

Lcyc(G,F)=Ev~pdata(v)[‖F(G(v))-v‖1]+Ei~pdata(i)[‖G(F(i))-i‖1]。

(2)

循环一致性损失可以将生成的红外(可见光)图像再重新转换回原始的可见光(红外)图像,因此实现了图像分布匹配。

由于两个单向的图像转换网络之间参数不共享,生成的中间图像和最终图像由图2(a)所示。两个相互独立的网络生成的图像只能由图像重构损失和循环一致性损失约束,故隐藏空间的图像差异较大,且最终生成的异质图像易受噪声影响。因此,引入一种联合损失来拉近隐藏空间特征分布,联合损失可表示为

Lass(G,F)=Ev,i[‖G1(v)-F1(i)‖1]+Ev,i[‖G1(F(i))-F1(G(v))‖1] ,

(3)

其中,G1试图生成与F1生成的中间图像具有相似分布的中间图像。另外,在F1和G1将生成图像反向转换为原始图像时,也同时拉近隐藏空间特征的分布。如图2(b)所示,经过联合损失的约束,使得两个网络相互作用,生成具有相似分布的中间特征,引导生成器产生高质量且更加逼真的异质图像。

图2 加入联合损失前后对比图

除了生成器生成以假乱真的图像外,引入判别器并设计对抗损失来判别图像是否为真实图像。对于映射函数G:VI以及它的判别器DI,将目标函数定义为

LGAN(G,DI,V,I)=Ei~pdata(i)[logDI(i)]+Ev~pdata(v)[log(1-DI(G(v)))],

(4)

对于映射函数F:IV和它的判别器Dv,对抗损失LGAN(F,Dv,I,V)可以表示成相似的形式。生成器试图生成接近于真实图像的伪图像来欺骗判别器,而判别器试图拉大生成图像与真实图像的分布,从而正确地判断图像是否真实。生成器与判别器相互博弈,其目标函数表示为

L(G,F,Dv,DI)=Lrec(G,F)+Lcyc(G,F)+Lass(G,F)+LGAN(G,DI,V,I)+LGAN(F,DV,I,V) ,

(5)

基于上述整体损失函数,交替训练生成器与判别器,博弈式训练过程可以表示为

(6)

通过上述函数优化,即可生成纹理清晰、视觉效果逼真的异质行人图像。

2 区别性特征提取

图3 区别性特征提取网络结构图

2.1 区别性特征提取网络结构

利用ResNet-50作为特征提取网络的骨干。另外,修改了第5个卷积层并将步长改为1。对于ResNet-50输出的2 048 维特征图,利用全局平均池化得到特征向量;对其进行批归一化操作后,可以输入至全连接层进行表征学习。在度量学习时,直接利用批归一化之前的特征向量计算欧氏距离并拉近类内间距;在测试阶段,依然利用原始图像和生成图像的组合进行行人检索,得到最有利的判别性特征。

2.2 目标函数

为了获得每个行人的特有特征,引入身份分类损失来增强判别性。身份损失可以表示为

(7)

其中,N为训练时一批次图像的数量,C为行人身份类别数,zj为全连接层第j个神经元的激活值,yi为图像的标签即行人身份。另外,引入度量损失来拉近相同行人特征之间的距离并拉远不同行人特征之间的距离。度量损失可以表示为

(8)

其中,ρ为预定义的边界值,fa、fp代表相同身份的行人特征,fa、fn代表不同身份的行人特征。d(fa,fp)为正样本之间的欧氏距离。故区别性特征提取网络的目标函数可以表示为

Loverall=Lid+Lmetric。

(9)

经过行人表征学习以及度量学习,区别性特征提取网络能够提取到每个行人单独具备的特征,提高特征判别性并缓解类内差异。

3 实验结果与分析

3.1 数据集及实验设置

在SYSU-MM01和RegDB两个公开数据集上进行实验。SYSU-MM01数据集由两个红外摄像头和四个可见光摄像头拍摄的491个行人的图像组成,训练集包含395个行人的22 258张可见光图像和11 909张红外图像;测试集中96人的3 803张红外图像用于检索,6 775张可见光图像为数据库。论文采用最具挑战性的single-shot all-search模式进行实验来验证提出方法的有效性。RegDB数据集由双目摄像头拍摄的412个行人的图像组成,每个行人包含10张热红外图像和10张可见光图像;笔者对每个数据集进行10次实验并取平均值以获得稳定的实验结果,采用累积匹配特性曲线(CMC)和平均精度均值(mAP)来进行测评。

用Pytorch框架在TITAN RTX GPU上实现了所提出的方法,在训练图像转换网络时,将批量大小设为4,每个行人包含1张红外图像和1张可见光图像,一批次包含两个行人。实验在SYSU-MM01数据集上训练20 000次,在RegDB数据集上训练10 000次,学习率为0.000 2。在训练区别性特征提取网络时,固定图像转换网络的参数。每个批次图片包含16个行人,每个行人设置两张红外图像和两张可见光图像。实验在两个数据集上进行120轮训练,设定初始学习率为0.000 35并且在训练40轮后变为原始的1/10。在度量学习中的参数ρ设置为0.3。

3.2 消融实验

为了验证所提出方法中所有损失函数的有效性,在SYSU-MM01数据集上利用不同的损失函数进行训练并比较测试结果。如表1所示,在图像转换阶段,使用图像重建损失和联合损失而不使用循环一致性损失,实验得到的CMC-1准确率只能达到34.65%,比使用循环损失降低了8.39%,这说明循环一致性损失在图像生成过程中起到重要的作用,能够建立生成图像与原始图像的联系,保证生成图像的质量。另外,加入联合损失拉近中间特征的分布后,跨模态行人重识别的CMC-1准确率提升了3.60%,平均精度均值提升了3.31%,因此,验证了所提出的联合损失的有效性;在区别性特征提取阶段,网络主要利用分类损失和度量损失进行学习。由于SYSU-MM01数据集中的行人图像由不同场景的摄像头采集,图像分辨率、行人姿态差异较大,所以仅依赖度量损失难以将同一行人特征拉近,将不同行人的特征距离拉远,mAP仅有5.44%。而仅使用分类损失,网络能够学习到不同行人的大部分特有特征,CMC-1准确率可以达到32.29%。在同时使用两种损失函数后,CMC-1准确率增长了10.75%。通过此消融实验,验证了方法中所有目标函数的有效性。

表1 不同目标函数组成下SYSU-MM01数据集的准确率 %

另外,图4展示了异质图像生成过程中两条网络的中间层图像距离分布,由分布图可以直观的看出,在加入联合损失前,中间图像的特征差异大,距离远;在经过联合损失拉近特征分布后,中间图像的距离大部分控制在100以内,距离得到明显缩减,因此,进一步验证了联合损失的有效性。

图4 中间层图像距离分布图

注:√表示包含损失;×表示不包含损失

3.3 与跨模态行人重识别现有方法对比实验

为了验证文中所提出方法的有效性与优越性,本节将与现有的跨模态行人重识别方法进行对比。这些方法包括传统的非深度学习方法(LOMO[14],HOG[15])、深度特征学习法(One-stream,Two-stream,Zero-padding[3])、特征距离度量学习法(BDTR[5],D-HSME[6])以及基于生成对抗网络的方法(cmGAN[9]、D2RL[12]、自注意力模态融合[10])。在数据集SYSU-MM01和RegDB上的比较结果如表2所示。LOMO、HOG等传统的特征提取方法由于难以提取到有效的判别性特征,所以行人重识别的准确率很低,CMC-1和mAP均不高于5%。在基于深度学习的方法中,One-stream,Two-stream以及Zero-padding方法只进行表征学习,限制了特征学习的能力。对于双流网络BDTR和D-HSME,它们通过两条网络分别提取可见光与红外模态的特有特征,再利用全连接层获取模态共享特征,另外加入了度量学习法,所以D-HSME相比于只使用表征学习的Zero-padding方法,CMC-1准确率提升了5.88%。基于生成对抗网络的方法将可见光或红外图像转换成另一模态图像,削弱了模态差异,将图像统一至同一模态。因而基于自注意力模态融合方法的mAP,相比D-HSME增长了10.06%。文中提出的方法不仅采用生成对抗网络,并且充分考虑生成过程中隐藏空间特征并拉近特征分布,因此CMC-1准确率和mAP可以分别达到43.04%、55.58%,超过自注意力模态融合法9.73%、22.4%,验证了该方法的优越性。

表2 文中方法与其他方法在SYSU-MM01和RegDB数据集上的CMC和mAP准确率 %

为了形象地展示文中提出方法的检索结果,将SYSU-MM01和RegDB数据集的部分检索结果可视化,可视化结果如图5所示。利用图像转换网络生成与查询库中红外图像所对应的可见光行人图像,然后将两幅图结合起来进行检索。同样地,在待搜索的数据库中,将原始的可见光图像与生成的红外图像相结合。实线框和虚线框分别表示检索成功和检索失败的行人图像。文中方法可以检索到大部分相同身份的行人,但对于具有相似体型和穿着的人容易被错检。

图5 文中方法在SYSU-MM01和RegDB数据集的可视化结果

4 结束语

笔者提出一种基于互惠生成对抗网络的跨模态行人重识别方法,该方法由图像转换网络与区别性特征提取网络组成。在图像转换过程中设计一种新颖的联合损失来拉近隐藏空间特征分布,促使生成的异质行人图像能够保留原始行人图像的身份,同时接近于真实异质图像风格。在区别性特征提取阶段,将原始图像与生成图像结合作为输入图像,从而消减跨模态差异,使网络更加关注不同行人之间的特有特征,学习到具有判别性的信息,提高跨模态行人重识别的准确率。通过在跨模态公开数据集SYSU-MM01和RegDB上进行消融实验以及与其他方法的对比实验,验证了所提出方法的有效性。在今后工作中,将改进生成对抗网络结构,以生成更高质量的异质图像,进一步提升跨模态行人重识别的准确率。

猜你喜欢

异质红外行人
网红外卖
“资源一号”02卫星可见近红外相机、宽幅红外相机在轨顺利开机成像
基于异质分组的信息技术差异化教学
“对赌”语境下异质股东间及其与债权人间的利益平衡
闪亮的中国红外『芯』
毒舌出没,行人避让
异质越野:多伦路——“艺术介入城市空间”系列项目
基于CuO/ZnO异质结纳米花的薄膜型丙酮传感器研究
路不为寻找者而设
红外探测技术的发展分析与探讨