基于变分对抗与强化学习的行人重识别①

2022-06-29夏士雄赵佳琦朱东郡

计算机系统应用 2022年6期

陈莹, 夏士雄, 赵佳琦, 周勇, 姚睿, 朱东郡

1(中国矿业大学计算机科学与技术学院, 徐州 221116)

2(矿山数字化教育部工程研究中心, 徐州 221116)

行人重识别技术(person re-identification, ReID)[1]是在行人检测的基础上利用计算机视觉方法判断图像或者视频序列中是否存在特定行人的技术, 被认为是图像检索的子问题. 行人重识别技术与行人检测技术相结合, 可广泛应用于智能视频监控、智能商业、智能安防等领域. 在实际的视频监控环境中, 由于目标尺寸变化、姿态变化、非刚体目标形变等目标自身变化的多样性和光照变化、背景复杂、相似行人干扰、遮挡等应用环境的复杂性, 使得鲁棒、高效的行人重识别是一个极具挑战性的课题, 也是当前国内外的研究热点. 其中, 摄像机视角不同和多姿态行人是导致ReID任务识别精度低的主要原因. “多姿态” (例如正身与侧身匹配)是指当目标发生运动时引起身体几何形变或者角度变化, 从而导致不同姿态下同一行人图像在像素级别的差别大于不同行人在相同姿态下的图像, 如图1 所示. 针对上述问题, ReID 方法的核心在于如何设计鲁棒的行人视觉特征和如何得到最优的行人图像特征相似性度量.

图1 行人重识别任务中“多姿态”样本示例

卷积神经网络(convolutional neural networks,CNNs)作为深度学习的一个重要组成部分, 它可以从大规模数据集中自动学习鲁棒的行人特征, 基于深度学习的ReID 方法能够自动学习较好的视觉特征和最优的相似性度量, 因此基于深度学习的行人重识别技术得到迅速发展[2]. 人体姿态的变化会引起识别漂移或者失败, 其原因是当人体发生形变或者角度变化时, 行人的表观特征也会发生变化, 与初始跟踪时的目标有较大外观差异. 行人姿态多变仍然是ReID 方法提取有效行人特征的一大挑战, 现有深度学习领域主要有3 类方法针对该问题: 行人图像对齐[3–6], 局部特征学习[7–11]和行人姿态转换[12–16].

行人图像对齐方法解决的是由于姿态或者视角变化以及不可靠的关键点检测引起的身体部件缺失和图像背景冗余问题, 通过将非对准图像数据进行人体结构对齐来学习图像对的相似度. 局部特征学习方法针对姿势变化引起的人体不对准问题, 采用关键点定位技术生成多个区域, 从而学习易于判别行人身份的局部特征. 行人姿态转换方法利用生成式对抗网络生成身份一致的规范姿态图像达到学习与身份相关特征的目的. 尽管这些方法获得了较好的ReID 性能, 但行人图像对齐和局部特征学习方法在识别阶段需要辅助的姿态信息, 这限制了ReID 方法的泛化能力. 尤其是基于行人姿态转换的ReID 方法, 它们忽略了生成任务对识别精度的影响.

针对行人重识别数据集的姿态多样性带来的挑战,在不进行行人对齐或学习基于人类区域表示的情况下,本文提出一种基于变分对抗与强化学习(RL-VGAN)的行人重识别方法来提取仅与身份相关的视觉特征.一方面提升网络生成多样性样本的能力, 另一方面提升行人重识别方法对相似样本干扰的鲁棒性. 具体而言, RL-VGAN 在孪生网络结构中嵌入设计的变分生成式对抗网络(variational generative network, VG-Net),VG-Net 中变分生成网络由外观编码器和图像解码器组成, 图像解码器将外观编码器编码的外观特征和姿态编码器编码的姿态特征解码为新的行人图像; 姿态判别器用以判断生成的行人图像是否与原始的目标姿态一致. 除了VG-Net 外, 还包括一个身份验证分类器实现行人身份的判断. 特别地, 变分生成网络将行人图像分解为两个基本特征: 与内在身份信息相关的外观特征和可变化的姿态特征(包括位置、体型、形状等).大量定性和定量实验证明RL-VGAN 方法在基准数据集上取得显著效果. 本文的主要贡献包括以下3 点.

(1) 设计了一个新的变分生成网络将行人特征解耦为外观特征和姿态特征, 有效地缓解姿态变化带来识别精度低的问题. 特别地, 通过采用Kullback-Leibler(KL)散度损失促进编码网络学习潜在空间变量和真实图像之间的关系, 保证编码的空间变量包含更多与行人身份相关的信息.

(2) 采用强化学习策略能够处理变分生成式对抗网络在方向传播中不可微分的问题, 通过限制生成网络迭代的梯度调整判别网络的参数, 保证生成网络和判别网络的协调工作.

(3) 针对基于姿态引导图像生成任务生成图像质量差的问题, 设计新的inception score (IS)损失, IS 是评估GAN 生成图像真实性和多样性的指标, 因此提出新的IS 损失使变分生成网络生成具有真实性和多样性的行人图像.

本文的其余部分组织如下: 第1 节讨论了行人重识别方法的相关工作; 第2 节详细地介绍基于变分对抗与强化学习的行人重识别方法; 第3 节描述了实验细节和分析了实验结果; 第4 节概括了本文的结论以及提出未来研究工作的方向.

1 相关工作

行人ReID 技术通常包含3 个环节: 特征提取、相似度量和特征匹配. 首先利用行人特征表示方法提取行人图像的视觉特征; 然后对提取到的行人图像视觉特征进行训练, 学习合适的相似性度量方法; 最后将待检索的行人图像视觉特征与其他行人图像视觉特征进行相似度排序, 找到与其相似度高的行人图像. ReID方法的核心在于如何设计鲁棒的行人视觉特征和如何得到最优的行人图像特征相似性度量. 由于目标在不同的角度和距离拍摄下, 其形状、姿态和相对大小都有变化, 行人姿态多变仍然是ReID 方法提取有效行人特征的一大挑战, 现有深度学习领域主要有3 类方法针对该问题: 行人图像对齐[3–6], 局部特征学习[7–11]和行人姿态转换[12–16].

基于行人图像对齐的行人重识别方法通过把人体分解成几块区域后获取每个区域的特征表示, 计算两幅图像对应区域之间相似度和作为它们的匹配得分.王金等人[3]利用行人图像的图像块集合, 提取每个图像块特征表示获取行人图像的局部信息, 对局部信息进行聚类处理建立两幅行人图像块之间的对应关系以获得姿态对齐后的图像块序列. 基于深度学习的部件表示(deeply-learned part-aligned representations, DPR)[4]方法针对人体空间分布不一致问题, 采用注意力机制提取一个更具区分性的三维特征向量, 其通道对应人体部位, 在不借助人体部件标注的情况下采用最小化三元损失训练网络模型. 这些行人图像对齐方法要么简单地把人体分为几个部分, 要么通过姿态估计器估计人体骨架信息来实现对齐, 而行人对齐网络(pedestrian alignment network, PAN)[5]采用深度学习方法来矫正行人姿态, 学习一个二维的变换把行人对齐好后再做识别, 该方法包含基本网络分支和对齐网络分支这两个CNN 分类网络和一个放射估计网络. 基本分类网络由ResNet-50 作为骨干网络, 执行识别预测任务; 对齐网络定位行人关节点以便放射估计网络学习一个能够对齐人体结构的二维变换. Zheng 等人[6]提出位姿不变嵌入(pose invariant embedding, PIE)作为行人描述符,首先利用姿态估计和仿射变换产生将行人与标准姿势对齐的PoseBox 结构; 其次设计PoseBox Fusion 网络融合输入图像、PoseBox 和姿态估计误差, 在姿态估计失败时提供了一种后退机制.

上述方法利用人体结构来增强识别能力, 通过人体部件对齐表示来处理身体部件不对齐导致的局部距离过大问题. 而基于局部特征学习的行人重识别方法通过区分人体区域精准地识别行人, 因为人体具有高度的结构[17]. Chen 等人[7]提出了可以提取人体整体和区域特征的集成模型, 该集成模型包括提取整体特征的卷积神经网络和提取区域特征的双向高斯混合模型.为了提高模型的泛化性, 在特征匹配时采用距离归一化提取的特征. 另一个解决此类问题的有效方法是将长短期记忆网络嵌入到孪生网络中[8], 利用上下文信息以序列的方式对人体部件进行处理, 提高局部特征的判别能力实现识别行人的任务. Spindle Net[9]是ReID任务中第1 个考虑人体结构信息的方法, 它利用14 个定位的人体关节来检测感兴趣区域, 产生7 个身体区域: 头-肩、上体和下体宏观区域以及双腿、双臂微观区域与Spindle Net 相似, 姿态驱动的深卷积方法(posedriven deep convolutional, PDC)[10]也采用了同时学习全局和局部信息的方式, 但将14 个关键点分成6 个区域. 而全局局部对齐描述符方法(global local alignment descriptor, GLAD)[11]在提取人体关键点后将人体分为头部、上半身和下半身3 部分, 采用4 个子网络组成的CNN 对全局区域和局部区域进行特征表示学习, 结合全身输入到网络中进行特征融合.

尽管这些方法获得了较好的ReID 性能, 但由于需要辅助姿态信息增加了计算复杂度. 近年来, 许多学者对Goodfellow 等人[18]首次提出的生成式对抗网络(generative adversarial network, GAN)产生了兴趣, 一些工作致力于研发基于GAN 的ReID 任务. Zheng 等人[19]利用深度卷积生成式对抗网络(deep convolutional GAN, DCGAN)生成无类标样本, 这是利用GAN 完成ReID 任务的第一个工作. 同时也有很多ReID 方法利用GAN 来指导姿态转换的行人图像生成. Ge 等人提出FD-GAN (feature distilling GAN)[12]仅学习和身份信息有关的视觉特征, 去除冗余的姿态特征表示. 在网络学到行人视觉特征后, 在测试阶段不需要辅助的姿态信息, 因此减少了计算成本. 为了解决在跨摄像机下对姿态多变训练数据的差异特征和不变特征的鲁棒性学习, Ho 等人[13]提出一种端到端的稀疏时态学习框架用以解决姿态时序变化问题. Qian 等人[14]提出一种基于姿态归一化图像生成的方法(pose-normalization GAN,PN-GAN), 该方法可以生成身份一致和姿态可控的行人图像. 而基于姿态生成的方法(pose transferrable GAN,PT-GAN)[15]是一个实现转移行人姿态的模型, 将MARS 数据集中的多姿态行人图像迁移到目标数据集以扩充训练样本, 设计引导子网络模型使生成的新姿态图像更好地适应ReID 任务.

2 基于变分对抗与强化学习的行人重识别方法

本文提出的RL-VGAN 模型以姿态引导图像生成的思想解决ReID 易受姿态变化影响和相似行人干扰的问题. 整体的网络模型结构如图2 所示. RL-VGAN模型采用孪生网络结构, 该结构的每个分支嵌入由变分生成网络G和姿态判别器Dp组成的变分生成式对抗网络. 以孪生网络一个分支的训练过程为例, 条件行人图像xi被G中的外观编码器Ea编码成外观特征fa, 目标姿态图像pk被姿态编码器Ep编码为姿态特征fp, 图像解码器D根据外观特征fa、姿态特征fp和随机噪声n拼接的特征z生成拥有xi外观以及姿态pk的行人图像xki.接下来, 姿态判别器Dp通过判别样本姿态的真实性来规范图像解码器D生成姿态变化样本的能力. 此外, 身份验证分类器V监督外观编码器Ea学习仅与身份相关的视觉特征.

图2 RL-VGAN 网络结构示意图

2.1 变分生成网络

给定序列(X,Y)=({x1,···,xN},{y1,···,yM}),xi表示有M个类别和N张图像数据集中的一张行人图像,yj表示xi的身份标签. 为了生成真实的行人图像, 本节设计变分生成网络学习与图像相关的连续隐变量分布以便进行采样和插值. 一方面利用变分推理保留条件行人图像的细节信息, 另一方面采用最近邻损失保证生成的图像在外观和纹理上与条件行人图像一致.

借助姿态编码器, 孪生网络中两个图像解码器生成的行人图像姿态一致, 保证一个分支中的外观编码器可以学习仅用身份相关与姿态无关的特征.

2.2 姿态判别器

变分生成式对抗网络通过变分推理和对抗学习生成较为真实的图像, 编码网络通过隐变量和真实图像之间的KL 损失保持了外观特征的一致性. 在对抗性学习阶段, RL-VGAN 模型将变分生成网络和姿态判别器嵌入到孪生网络模型中, 通过生成样本对抗学习提升RL-VGAN 模型学习身份特征以及生成相似样本的能力. GAN 的基本思想来源于极小极大博弈, 变分生成网络试图通过生成更自然的图像“欺骗”判别器以获得高匹配置信度, 姿态判别器Dp用来判别变分生成网络G生成的行人图像是否能完成姿态迁移的任务.

将外观特征fa、姿态特征fp和服从正态分布的随机噪声n统一到相同空间维度z, 加入噪声n目的是提高模型鲁棒性. 在基于变分生成对抗网络模型中, 图像解码器D根据z生成具有pk姿态和xi外观的新图像xki, 姿态判别器Dp判别生成的图像xki与相同分支输入图像xk的姿态特征是否保持一致, 保证D在姿态转移上的生成能力.Dp的损失函数如式(8)所示.

其中,m表示孪生网络的分支数.

2.3 基于强化学习的变分生成式对抗网络算法

深度强化学习(reinforcement learning, RL)将深度学习的强大感知能力及表征能力与强化学习的决策能力相结合, 通过最大化奖励函数的学习方式使学习器从环境中获取行为. 具体而言就是通过一系列动作策略与环境交互, 学习器产生新的参数, 再利用新的参数去修改自身的动作策略, 经过数次迭代后, 学习器就会学习到完成任务所需要的动作策略. 在基于姿态指导行人图像生成任务中, 采用强化学习的方法训练变分生成网络G和姿态判别器Dp中的参数, 对它们的参数进行调整保证两个网络协调工作来学习行人的几何特征. 基于强化学习的变分生成式对抗网络(RL-VGAN)模型如图3 所示.

图3 强化变分生成式对抗网络结构示意图

在RL-VGAN 网络模型中, 变分生成网络G作为学习器在更新网络参数生成新的样本过程中, 与姿态判别器Dp环境进行交互, 产生新的状态S,S表示在当前姿态判别器Dp的状态下是否需要对G进行状态更新.G生成图像的质量通过强化学习决策产生动作a影响Dp. 同时环境给出反馈即由标量奖励信号r组成, 通过达到最大奖赏值来提高生成网络生成图像的能力, 以及通过学习器和环境不断交互来更新网络.G将生成的图像送入Dp计算奖励信号Qr, 根据得到的奖励信号进行策略梯度下降优化模型. 采用Dp(·)作为奖励函数一方面促使变分生成网络G和姿态判别器Dp协同工作,另一方面保证生成的图像具有目标姿态特征. 奖励信号Qr定义如下:

一个分支网络的Dp试图最小化以下损失函数:

算法1. 基于强化学习的变分生成式对抗网络算法流程输入: 学习器 , 环境 , 行人样本和姿态数据, 起始状态G x′输出: 学习器生成的图像GDpxpS 0=G(x,p)1 for do G tepoches＜maxepoches 2 使用变分生成网络根据姿态和行人图像生成一张行人图像x′x′GSa 3 根据质量来产生是否更新的状态以及动作4 使用式(9)计算奖励信号QrG Qr 5 根据奖励信号判断当前是否对执行更新网络参数的决策Qr 6 根据进行策略梯度下降优化模型7 end for

2.4 训练

为了完成识别行人身份任务, 需要借助身份验证分类器V进行行人身份的识别,V根据两个分支外观编码器Ea编码的特征识别输入的图像是否属于同一个行人, 因此验证分类损失Lve 可以由式(11)表示:

3 实验结果与分析

本节对所提出的RL-VGAN 模型在3 个基准数据集上进行实验验证, 证明RL-VGAN 模型在ReID 任务中的优越性. 首先对本文使用的数据集和评价指标进行介绍; 其次针对图像生成任务, 与基于姿态指导行人图像生成方法进行对比; 最后对RL-VGAN 模型与先进的行人重识别方法在姿态变化问题上进行比较.

3.1 数据集和评价指标

基于卷积神经网络的行人重识算法依赖于大规模的数据集, 本文在大型数据集CUHK03[21], Market-1501[22]和DukeMTMC[23]上进行ReID 算法验证, 通过3 个指标: IS[20], structural similarity (SSIM)[24]和Frechet inception distance (FID)[25]评价图像生成质量,采用平均准确度(mean average precision, mAP)和累计匹配特征(cumulative match characteristics, CMC)曲线评估ReID 算法的性能.

采用的数据集详细信息如表1. CUHK03 数据集是由香港中文大学从2 个摄像头上采集的, 包含1 476个行人的14 097 张图像, 每个行人平均有9.6 张训练数据. 由1 367 个行人作为训练集和100 个行人作为测试集组成, 且提供人工标注的行人检测框和机器检测的行人检测框. Market-1501 数据集的采集地点是清华大学校园, 使用6 个摄像头采集了1 501 个行人的32 668张图像, 其中训练集有751 个行人和12 936 张图像, 平均每人有17.2 张训练数据; 测试集包含750 个行人的19732 张图像, 平均每人拥有26.3 张测试数据. Duke-MTMC 数据集是在杜克大学由8 个摄像头采集, 该数据集由16 522 张行人图像的训练集和17 661 张图像的测试集组成. 训练集中有702 个行人, 平均每人有23.5 张训练数据; 测试数据集中有702 个行人, 平均每人有25.2 张测试数据, 该数据集提供了行人属性(性别/长短袖/是否背包等)的标注信息.

表1 行人重识别图像数据集信息

由于各种概率标准, 评估不同模型生成图像的质量是一项艰巨的任务. 使用3 个标准: 可辨别性, 多样性和真实性来量化FD-GAN, RL-VGAN(w/IS) (w/IS 表示RL-VGAN 模型在FD-GAN 的基础上仅用IS 损失)和RL-VGAN 生成模型. IS 度量标准表示生成图像的质量和多样性之间的合理相关性, 这也是IS 广泛用于度量生成图像的原因. SSIM 作为感知度量, 经常用来衡量由于数据压缩或数据传输中丢失而导致的图像质量恶化程度. FID 在判别生成图像真实性方面表现良好, 因此它被认为是对带有标记数据集样本质量评估的标准. FID 值越低表示两个样本分布越近, 生成的图像越接近真实图像, 而IS 和SSIM 值越高表示生成的图像质量越好.

现有的ReID 算法采用CMC 曲线评估算法中分类器的性能, 即匹配给定目标行人图像在大小为r的行人图像库中出现的概率. CMC 曲线将行人匹配结果的高低进行排序, 通过rank-r的形式给出, 即查找r次即可找到目标行人的概率. CMC 曲线能够检验ReID 算法的查准率, 此外还要考虑算法的查全率, 因此采用mAP 对算法的性能进行评估. mAP 是对ReID 算法中准确率和召回率的综合考量, 其计算方式是对每个检索目标求AP (average precision)并取平均. 将准确率和召回率作为横纵坐标时, AP 的值是曲线下的面积.

3.2 实现细节

与面向多姿态行人重识别的变分对抗与强化学习网络模型和传统的ReID 模型相比, 模型的任务更复杂, 故采用多阶段的学习方法来训练本文提出的RLVGAN 模型, 实现多个任务的协同学习: 一方面实现高质量样本生成, 另一方面提升行人重识别方法的泛化性能. 使用PyTorch 环境实现代码编写, 采用一张Geforce RTX 2080Ti 卡训练所提方法. 在训练过程中,3 个基准数据集的图像大小设置为256×128, 与FDGAN[12]一样, 整个网络的训练分为3 个阶段. 第1 阶段利用损失函数Lve在数据集上训练变分生成网络中的外观编码器Ea和身份验证分类器V, 采用随机梯度下降法(stochastic gradient descent, SGD)[26]优化两个神经网络, 动量因子大小为0.9, 初始学习率设为0.01. 第1 阶段batch_size设为128, 共训练100 个迭代次数. 第2 阶段是针对生成任务, 在固定外观编码器Ea和身份验证分类器V网络参数的情况下训练图像解码器D和姿态判别器Dp, 即式(12)中λve=0. 图像解码器D采用Adam 优化器[27](β1=0.5 , β2=0.999), 姿态判别器Dp采用SGD 进行优化, 其中 β1和 β2是矩估计的指数衰减率, 两个网络的初始学习率分别是10−3、10−2, 第2 阶段的batch_size设为16, 共训练100 个迭代次数.第3 阶段, 整个行人重识别网络以端到端的方式联合微调进行模型参数的学习,batch_size设为16, 共训练50 个迭代次数.

3.3 实验结果分析

为了证明在本小节中, 我们首先在3 个基准数据集上, 展示所提方法生成图像的视觉效果, 其次使用IS, SSIM 和FID 三种评价指标评估RL-VGAN 方法生成图像的效果. 最后采用mAP 和rank-1 准确率对比RL-VGAN 方法和其他行人重识别方法.

3.3.1 基于姿态指导行人图像生成结果

图4 展示了RL-VGAN 生成图像示例, 从上到下依次为条件行人图像、目标行人图像、目标姿态图像和生成行人图像. RL-VGAN 方法在大多数情况下能够生成真实和多样的图像, 由于数据集中图像存在遮挡以及清晰度低的问题, 因此生成的图像中存在一些噪点, 但整体上比较好的保留了原图像的细节信息.

图4 在3 个数据集上的生成图像示例

为了定量地分析方法的有效性, 选用IS、SSIM和FID 作为分析和评估本文方法与基准方法的客观评价指标, 如表2 所示. 其中, RL-VGAN(w/IS)表示RLVGAN 只采用IS 损失. 与基线FD-GAN 相比, 在CUHK03 数据集上, RL-VGAN(w/IS) 分别在IS 和SSIM 评估指标提高了3.86%、3.45%, 在FID 指标上下降了4.77%. 表明IS 损失能够促进生成网络很好地保留更多外观信息. 而且, RL-VGAN 得到的IS 准确率相比于RL-VGAN(w/IS), 分别提高了9.83%、6.81%和1.21%. 其原因在于结合强化学习的生成式对抗网络有效地规范了生成网络生成图像的过程, 从而进一步提高行人图像的姿态转移能力. 针对本文提出的IS 损失, 我们评估了其在不同数据集上的收敛性, 如图5 所示. 我们可以看出IS 损失收敛值约为0.02.

表2 3 个基准数据集上生成图像的IS、SSIM 和FID 值

图5 训练阶段, IS 损失随着迭代次数在3 个数据集上的变化说明

3.3.2 与现有行人重识别方法的结果比较

为了公平起见, 我们选择的ReID 对比方法是解决ReID 任务中行人姿态变化导致识别精度差的问题,包括基于行人图像对齐的ReID 方法[5]和基于行人姿态转换的ReID 方法[12–16], 如表3 所示.

表3 中“*”表示本文复现结果, CMC 包括rank-1正确率, 即预测的标签取最后概率向量里面最大的作为预测结果, 若预测结果中概率最大的分类正确则预测正确, 否则预测错误. 值得注意的是, 采用不同的GPU 卡和不同数量的卡都会严重影响实验结果, 比如FD-GAN 结果与原论文相比下降严重, mAP 在CUHK03、Market1501 和DukeMTMC-ReID 分别下降2.85%、3.86%和12.25%. 因为GPU 卡的好坏会影响浮点运算, 以及batch_size大小. 实验数据表明, 在数据集CUHK03 和Market1501 上, 本文提出的方法表现均优于其他行人重识别方法. 与基准方法FD-GAN 相比,RL-VGAN 分别提高了1.35%、0.67% 和8.66%(mAP 指标), 0.76%、0.11%和3.44% (rank-1 指标). 在DukeMTMC 数据集上, 所提方法取得了与GLAD 方法相当的结果. 实验结果表明, 本文提出的方法不仅可以有效地生成高质量的行人样本, 而且还可以缓解行人姿态变化带来的干扰.

表3 RL-VGAN 与其他方法在3 个基准数据集下的mAP 和rank-1 准确率 (%)

4 结论与展望

本文构建了基于变分对抗与强化学习(RL-VGAN)的行人重识别模型, 在变分生成式对抗网络中, 利用变分推理促进生成网络生成相似行人图像的同时学习鲁棒的身份信息. 此外, 提出一种新的IS 损失提升变分生成网络生成图像的质量, 从而解决行人重识别系统易受相似行人干扰以及行人姿态变化的问题. 由于采用交替迭代方式会导致生成式对抗网络训练过程不稳定, 因此本文采用强化学习策略促进变分生成网络和判别网络收敛到稳定状态. 本文提出的RLVGAN 将姿态指导行人图像生成任务与行人重识别任务相结合, 在3 个基准数据集上进行的大量实验证明, RL-VGAN 不仅能够生成高质量的行人图像还能够有效地完成ReID 的任务. 基于变分对抗与强化学习的行人重识别方法具有极高的准确性, 但该网络模型容易存在网络参数过拟合的问题. 针对该问题, 将进一步研究基于多目标优化的生成式对抗网络参数学习和结构修剪方法, 提升生成式对抗网络学习的稳定性和泛化性能.