融合衣物特征的人体姿态迁移方法

2022-02-07李和彬丁纪峰

智能计算机与应用 2022年12期

李和彬，丁纪峰

（大连民族大学信息与通信工程学院，辽宁大连116605 ）

0 引言

人体姿态迁移任务近年来在计算机视觉领域引起了广泛的研究与关注。姿态迁移最初由Ma 等人［1］首次提出，是指将输入图片中的人物姿势转变为目标姿势，同时保持人物的外貌不变。现已应用在众多场景中，如摄影编辑［2］和行人重识别［3-4］等任务。迄今为止该项技术已取得长足进步，如Zhu等人［4］提出了一种注意力转移模块应用于人体迁移任务，所研发网络能够较为准确地生成指定姿势的人物图片。

目前，虽然基于GAN 网络的姿态迁移模型陆续涌现，并都能够较为准确地迁移人体姿势，但这些模型往往会出现人物外貌还原得不够真实的情况，尤其是在人物衣物的还原上，很多模型只能还原出大面积色块，而无法还原出衣物的细节纹理。究其原因，往往是由于在姿态迁移任务中，同一个人不同姿势所展示的外貌信息有很大区别。因为角度不适合或衣物被遮挡的原因，仅靠一张输入图片很难完全包含人物衣物的所有细节。这种信息丢失会给神经网络的学习过程造成一定困难，使得即便如神经网络一般具有强大的学习能力也很难做到将衣物细节全部还原到位。

综上研究现状所述，本文提出了一种新型生成式对抗网络。该网络与传统网络的不同之处在于，传统网络中使用2 张图片、即人物图片和姿态图片作为输入，研究中选用网络是将人物衣物的平铺图片作为网络的第三种输入，以此来补充姿态迁移过程中可能丢失的衣物信息。网络整体分为人物图片生成器、人物外貌鉴别器和人物姿势鉴别器。生成器具体结构如图1 所示。图1 中，分支一主要使用注意力机制，利用分支二提供的姿势信息对自身的外貌信息进行更新，分支二则使用衣物特征融合模块，利用衣物的平铺图片信息以及分支一的外貌信息对自身的姿势信息进行更新。上下两条支路相互不停地指导对方更新信息，最后对分支一的外貌信息进行反卷积就得到了目标姿势的人物图片。

图1 生成器结构Fig. 1 The structure of the generator

由于实验所用数据集除了人物图片外，还需要人物所穿衣物的平铺图片，现今网络中并无满足此要求的公开数据集，因此实验用数据集为本文在研究过程中自行采集完成。本文通过该数据集在之后的实验中证明了网络的有效性。本文的贡献可总结为如下2 个方面：

（1）提出了一种新的思路用以补充姿态迁移任务中输入图片可能出现的外貌信息丢失。

（2）提出了一种新型GAN 网络，能够在人体姿态迁移任务中更真实地还原人物所穿衣物，并在实验中证明了该网络的有效性。

1 相关工作

1.1 生成式对抗网络

生成式对抗网络GAN 在现阶段的图像生成任务中表现出优异的性能［5-7］。GAN 网络由生成器和鉴别器组成［8］，其中生成器主要是产生目标图片并通过鉴别器的检测，鉴别器则着重于在鉴别的过程中判断出输入图片为真实图片、还是生成图片。生成器和鉴别器不断相互对抗，从而不断提升生成器的性能，最终生成理想图片。但是，原始GAN 的缺陷也很明显，因其生成的图片有着较强的随机性，无法控制生成指定的图片，基于此，由Mirza 等人［9］提出了条件GAN、即CGAN。CGAN 通过将属性信息输入到生成器与鉴别器中，能够显著增强生成网络的目的性［10］。以上2 种GAN 均为监督学习，而由Zhu 等人［11］提出的cycleGAN 是对数据集要求极低的一种无监督学习，cycleGAN 能够在无需成对图片的情况下完成图像域与图像域之间相互转化。能够由图像生成图像的网络还有由Isola 等人［12］提出的pix2pix 网络，其生成器网络为U-Net［13］结构，能够保存不同分辨率下的像素级信息，适合为图片上色、提高清晰度等工作。

1.2 人物图像的生成

生成人物图像的GAN 网络则不宜直接使用传统GAN 结构，否则容易出现不可控制的人物形变。针对这个缺陷，现在生成人物图像的GAN 网络往往会加入姿态信息作为限制。Ma 等人［1］首次提出了这个设想，研究构建的PG2 网络首先使用了人体姿态信息用以引导人物图像生成。但由于姿态迁移代表着人物的大范围形变，若要直接得到理想图片，对网络的学习能力将会有很高的要求，随即又进一步提出了将任务分为两阶段的想法。Balakrishnan 等人［14］构建了一种GAN 网络，能够将人物图像生成任务分为前景生成和背景生成两个阶段，最终再将前景和背景融合成目标图片。Ma 等人［1］提出的网络则将迁移任务分为粗图像生成阶段和精细图像生成阶段。其中，网络的第一阶段只生成姿势正确、但较为模糊的粗图像，网络的第二阶段则对粗图像进行精细化处理。

除了网络方面的改进，学者们在人体姿态信息的采集上也取得了重要突破。姿态迁移中的骨骼关键点检测如今普遍使用的是OpenPose［15］，此外还有性能更优的DensePose［16］和3D Pose［17］，由此检测得到的姿势信息中还包括了深度信息，而在训练后生成的图像质量也往往更佳。但是获取DensePose 等信息的昂贵成本降低了实际上的泛用性，现今姿态迁移任务中的骨骼关键点检测仍然是以OpenPose 方法为主流。

2 融合衣物特征的人体姿态迁移方法的设计

本文设计的生成器网络结构见图1。网络至关重要的2 部分为注意力转移模块和衣物特征融合模块。其中，注意力转移模块使用了Zhu 等人［4］提出的注意力机制，利用衣物特征融合模块提供的人物姿态信息进行人物外貌信息的更新。衣物特征融合模块使用了风格迁移的思想［18］，使用衣物图片信息和人物外貌信息对人体姿态信息进行更新。两者交替进行，每3 个注意力转移模块和1 个衣物特征融合模块组成1 个联合模块，本文所用模型总共使用了3 个联合模块。

网络输入信息包含提供人物外貌信息的原始图片IA，与图片IA对应的原始姿态信息PA。图片IT为真实目标图片，PT为与IT对应的目标姿势。IC为图片IA中人物所穿衣物的平铺图片。IA输入整体改观信息，IC补充衣物外观信息，网络在保持外观不变的同时完成姿势由PA到PT的转换，最终生成目标图片IG。

2.1 注意力转移模块

参考文献［4］的思想，本文设计的注意力转移模块如图2 所示。注意力转移模块的输入为外貌信息It-1和姿势信息Pt-1。最初始的姿势信息Pt-1是由图1 中的原始姿势PA和目标姿势PT在深度轴上进行堆叠后，再经过卷积操作得到的。

图2 注意力转移模块结构Fig. 2 Attention transfer block structure

在本模块中，外貌信息需要接受姿势信息的引导才能得到更新后的数据。而在人体姿态迁移任务中，图片中包含人物的区域显然更为重要，所以通过利用由姿势信息形成的注意力区域可以更好地完成外貌信息的卷积变换过程。

具体来说，输入的姿势信息Pt-1首先经过2 次卷积操作，接着进行sigmoid操作得到注意力掩膜Mt-1。Mt-1中的每个数值为0～1 之间的数字，代表着这一位置上姿势信息的重要程度。然后要使用Mt-1让外貌信息在更新过程中能够关注更重要的信息。其数学公式可以表示为：

得到注意力掩膜后，将经过2 次卷积操作后的外貌信息It-1与注意力掩膜Mt-1进行元素相乘，这样一来外貌信息中包含人物信息的部分得到保留，与此同时则会抑制那些不含人物信息的区域。最后将元素相乘的积与输入的It-1进行残差连接，就得到了更新后的外貌信息It。残差连接是为了防止训练过程中的网络退化现象。此处推导得到的数学公式为：

以模块输出信息的数量分类，注意力转移模块有2 种类型，详见图2。注意力转移模块Ⅰ型不包含姿势更新模块，模块输出只有更新后的外貌信息It。注意力转移模块Ⅱ型则包含姿势更新模块，模块输出为更新后的外貌信息It和更新后的姿势信息Pt。姿势更新模块将外貌和姿势信息进行深度堆叠，在Ⅱ型中，Pt可由如下公式进行描述：

2.2 衣物特征融合模块

衣物特征融合模块负责对人体姿势信息进行更新，需要外貌信息进行指导，网络具体结构如图3 所示。图3 中，It-1为输入外貌信息，Pt-1为输入姿势信息。参见前文图1，衣物特征融合模块在网络中获取的最初的外貌信息为平铺衣物图片经过卷积操作后的数据。同时，最初获取的姿势信息为PA和PT进行深度堆叠后再进行卷积操作得到的数据。

图3 衣物特征融合模块结构Fig. 3 Clothing feature integration block structure

首先，模块中输入的姿势信息Pt-1进行数据降维操作，这是因为Pt-1在网络前方的注意力转移模块中进行过深度堆叠，维度变为外貌信息的2 倍，所以要先进行降维操作。随后，将同维度的姿势信息和外貌信息用同一个特征提取网络进行特征提取，将提取到的特征进行特征融合操作。具体做法是：用姿态特征减去姿态特征的平均值，再除以姿态特征的标准差。对此可用标准化后的值乘外貌特征的标准差，再加上外貌特征的均值。计算方法如式（4）所示：

其中，FI是从外貌信息提取出的特征；FP是姿势信息提取出的特征；μ为取均值操作；σ为取标准差操作。

2.3 鉴别器网络

鉴别器分为姿势鉴别器DP和外貌鉴别器DA。DP用于判断生成图片IG与目标姿势PT的姿势一致性。DA用于判断生成图片IG与外貌图片IA中的人物是否为同一个人。2 种鉴别器的结构相同，这里给出的鉴别器设计结构如图4 所示。图4 中，主要用到了残差网络。鉴别器网络的训练目标是将真实数据判别为真，将生成数据判别为假，如此则有助于生成数据向真实数据的分布靠近。

图4 鉴别器结构Fig. 4 The structure of the discriminator

2.4 损失函数设置

网络的损失函数包含3 部分，分别为：L1损失、感知损失和对抗损失。对此拟做探讨分述如下。

（1）L1损失。是真实目标图片IT和生成图片IG之间的逐个元素之差，数学定义公式具体如下：

其中，m表示图片数据的总元素个数、即图片的C、H和W之积，和表示生成图片和真实图片的i个元素。

（2）感知损失。考虑到只有L1损失容易造成图片的失真［19］，本文还一并使用了感知损失。在风格迁移和图像生成任务中经常会用到感知损失，可以使生成图片更加平滑自然。本文使用预训练好的VGG 网络进行真实目标图片IT和生成图片IG的特征提取，再对提取出的特征计算感知损失，数学定义公式具体如下：

其中，ϕ表示特征提取操作。

（3）对抗损失。来自于姿势鉴别器DP和外貌鉴别器DA对真实图片或生成图片鉴别过程中产生的损失。数学定义公式具体如下：

其中，real表示真实数据，fake表示生成器生成数据。

综上分析后可得，网络总损失可用如下公式计算求得：

其中，λL1、λP、λGAN表示3 种损失的权重。

2.5 训练细节

研究中根据GAN 网络的训练流程，交替训练生成器G和2 个鉴别器、即DP及DA。将（IG，PT）和（IT，PT）送入姿势鉴别器DP中进行判别，以保证姿势一致性。将（IG，IA）和（IT，IA）送入外貌鉴别器DA中进行判别，以保证外貌一致性。

训练过程使用了Adam 优化器进行了500 次训练，m优化器的β1设置为0.5，β2设置为0.999。学习率为动态学习率，前300 次训练学习率固定为0.000 5，后200 次训练中学习率逐渐下降为0。

3 实验过程

3.1 数据获取

实验用数据集的每组数据中需要同一人物的不同姿势和人物所穿衣物的平铺图片，网络上并无合适的公开数据集，所以本文数据集来源于自行制作。本文的数据集由farferch 服装网站进行采集（https：／／www.farfetch.cn／uk／shopping／men／items.aspx），该网站售卖的每件衣服包含了同一模特不同姿势的图片及平铺衣物图片。经过数据清洗后，本文使用40 000 组数据进行训练，每组数据包含了同一模特的2 张不同姿势的图片，以及模特所穿衣物的1 张平铺图片。

3.2 模型的定性比较和定量比较

本实验选用SSIM［20-21］和IS［22］两种指标分析模型性能，将本文设计的模型和Pose-Transfer 模型［4］对测试集中的5 000 组数据进行了对比。SSIM指标用以评价生成图片和真实图片的结构相似度，指标越接近1、相似度越高。Inception Score、即IS 指标用以评价生成式对抗网络的图片质量和多样性，指标越高、说明生成式对抗网络的效果越好。

模型输出图片如图5 所示。由图5 可以看出，本文设计的模型更好地保证了人体结构的合理性，且在衣物还原部分的能力要优于Pose-Transfer 模型，从前2 组实验结果来看，本文所设计的模型还原的衣服质感更加偏向于真实衣物。从后2 组实验结果看，本文所用模型还原的衣服上面的花纹与真实衣物更加接近。

图5 模型效果对比Fig. 5 Model effect comparison

2 种模型的SSIM和IS评分见表1。表1 中，SSIM表示本文所用模型生成的IG与目标图片IT的相似度更高。Inception Score分数表示本文生成图片的质量与丰富性更高。

表1 模型定量比较Tab.1 Quantitative comparison of models

对于这2 种方法，从指标评分的定量比较和肉眼观感的定性比较来看，本文设计的模型在测试集中的表现要优于Pose-Transfer 方法，尤其在衣物的重建方面，本文设计的模型有着更真实的还原效果。本文取得的研究成果证明在网络中融入衣物特征能使姿态迁移任务的效果得到提升。

3.3 消融实验

为了寻找每个联合模块中注意力转移模块和衣物特征融合模块的最佳数量之比，本文在固定生成器网络共使用3 个联合模块，每个联合模块包含3个注意力转移模块的条件下，调整衣物特征融合模块的数量进行实验。实验记录了衣物特征融合模块和注意力转移模块数量之比为1 ∶1、1 ∶2 和1 ∶3情况下的数据指标，结果如表2。

表2 不同模块比例的性能比较Tab.2 Performance comparison of different proportions

由实验数据可看出，当注意力转移模块和衣物特征融合模块的数量达到1 ∶1 时，网络性能出现大幅度下降，这是因为过多的衣物特征融合模块使网络的复杂度过高，训练过程中出现了loss为Nan的现象。而在此时就需要提前终止网络训练，所以没能达到其他情况的训练效果。而指标显示衣物特征融合模块和注意力转移模块的数量之比为1 ∶3 时网络效果最佳。

4 结束语

本文为姿态迁移任务设计了一种新型网络结构，利用注意力机制和风格迁移方法将衣物平铺图片的信息融入到人物生成网络中。网络中的外貌信息与姿势信息相互指导对方更新，使外貌信息在渐进式的更新过程中最终转化为理想图片。与以往的研究相比，本文设计的网络结构能够让最终生成图片中人物所穿的衣物更接近真实图片。研究中已经通过实验证明了本网络生成的图片在清晰度与还原度上的优越性，同时本文取得的成果也说明衣物特征的输入能够提升人体姿态迁移的任务性能。