基于图卷积的手势骨架生成

2021-02-25张海翔马汉杰蒋明峰

智能计算机与应用 2021年10期

曾瑞，张海翔，马汉杰，蒋明峰，冯杰

（浙江理工大学信息学院，杭州 310018）

0 引言

近来，手势生成的工作多用于从语音或文本中产生协同的手势［1-3］，以及实现手势数据的增强［4-5］。生成式对抗网络因其在生成上的优异表现，在手势生成上也得到了广泛的应用［1-4］。但是，对于给定话语生成对应手势的主要问题是，手势作为非语言信号辅助语言，使得交流更加顺畅，却难以单独表达语义。这是由于语音到手势的高度非确定性映射，即使是同一个人说相同的短语，也可能在每次重复时伴随不同的手势动作，并且生成的结果会特定于个人手势风格。另外，手势数据增强工作主要针对的是真实的手势，并且大多数都是将人体的骨骼关节点当做图像的一个像素，将动作的一帧当做一个图像，而没有考虑到骨骼关节点间丰富的人体结构信息，从而可能导致生成的结果是扭曲的、不自然的。研究发现，图卷积神经网络能够处理非欧式空间的数据，而不同于传统的网络模型如CNN、LSTM 等只能处理欧式空间的网格结构的数据。因此，为了能更好地利用手部的结构信息，本文采用了基于图卷积的生成式对抗网络模型来直接生成手势骨架。实验结果表明，文中的方法对手势骨架的生成的确有了更自然更高质量的结果。本文工作的主要贡献概括为2 个方面：

第一，提出了基于图卷积神经网络的手势骨架生成方法，可以有效地将手部的结构信息编码到手势建模中。

第二，在手势骨架生成任务上，通过有效地利用手部结构信息，文中的方法比基于全连接神经网络以及基于卷积神经网络的生成方法在定性和定量结果上都取得了更好的结果。

1 相关工作

1.1 生成式对抗网络

生成式对抗网络［6-8］（Generative Adversarial Network，GAN）是一种优秀的生成式模型，能够学习已有样本的分布并生成与之相似的样本，已然成为学界研究热点。生成器G与判别器D是GAN 模型的重要组成部分，这两者之间的相互对抗使双方都得到增强，最终使生成模型尽可能生成逼真的样本，示意图如图1 所示。

图1 生成式对抗网络Fig.1 Generative Adversarial Network

图1 中，z为表示随机噪声的隐变量，可通过生成器生成假样本。判别器则对输入数据进行判别区分。训练时，生成器和判别器交替训练，不断往复。优化的目标函数［9］如下：

其中，E为分布函数的期望值；x为真实数据；z为噪声。式（1）其实就是一个最大最小优化问题，生成器与判别器都进行优化，在交替训练中双方都逐步得到增强。

GAN 提出之后，各种GAN 的衍生模型相继提出，在结构改进、应用等方面进行创新，用于诸如图像生成、图像转换、图像修复等多个领域。在结构改进上，如2017 年提出的wgan［10］、began［11］等改进了目标函数，使得训练更加稳定。在应用方面，如CycleGAN［12］和 Pix2Pix［13］实现了风格迁移，TPGAN［14］能根据半边人脸生成整张人脸的前向图。

1.2 图卷积神经网络

卷积神经网络通过局部化的卷积核来学习局部的稳定结构，然后通过层级堆叠将其变为层次化的多个尺度的结构模式，其强大的建模能力使得在图像处理、对象检测、自然语言处理等任务上都取得了不错的效果。但是，平移不变性却使其只能处理欧式数据，而处理不了如交通网络这样非欧结构的数据。

2013 年，图的基于谱域和基于空间的卷积神经网络［15］被首次提出。谱方法［15-18］和空间方法［19-20］是目前图卷积［21-22］的2 种主要方法。前者把图的信号变换到谱域，在谱域进行卷积后再变换到空间域，以此完成图卷积。后者则直接在空间域定义节点相关性。其应用主要集中于计算机视觉、交通预测、推荐系统、生物化学、自然语言处理等领域。比如在计算机视觉中，Marino 等人［23］将知识图谱引入到图片分类中，使用图卷积神经网络更好地利用知识图谱中的先验知识，在COCO 数据集的多标签分类任务上取得了提升。

2 基于图卷积的手势骨架生成

2.1 模型介绍

本文提出了一种基于图卷积的手势骨架生成方法。模型框架采用的是通用的生成式对抗网络［24］，由一个生成器和一个判别器组成。

生成器结构见图2，图2（a）中的Graph conv layer 具体结构在图2（b）中说明。在图2 中，noise为服从标准正态分布的随机噪声，label为手势种类的标签，图卷积模块具体见图2（b）。图2（b）中的H即为图2（a）中图卷积层的输入，为邻接矩阵经归一化处理后的结果，见公式（2）：

其中，邻接矩阵A为表示手势各关节点之间相邻关系的矩阵；I为单位矩阵；D为对应的度矩阵。邻接矩阵A加上一个单位矩阵I，是希望在进行信息传播的时候关节点自身的特征信息也得到保留，那么A + I就聚合了各关节点本身以及相邻关节点的特征信息。而进行归一化操作D-1（A +I）则是为了信息传递的过程中保持原有分布，防止一些相邻关节点多的节点和相邻关节点少的节点在特征分布上产生较大的差异。

图卷积模块中共有5 个图卷积层，即图2（b）中的GC1、GC2、GC3、GC4以及GC5。第一个图卷积层以H和为输入，输出为H（1），见公式（3）：

图2 生成器结构图Fig.2 Generator structure chart

第二个图卷积层以H（1）和为输入，输出为H（2）。这样，经过5 次图卷积之后，得到生成器的输出，也就是手势的各关节点的坐标。

判别器的结构如图3 所示。判别器以生成器生成的或数据集中的手势各关节点为输入，经过多个卷积层和激活层，最终得到2 个输出：output1结果在0 到1 之间，用来判别输入为真或假；output2结果为输入手势的类别。

图3 判别器结构图Fig.3 Discriminator structure chart

2.2 训练细节

在训练过程中，判别器和生成器交替训练，通过相互对抗让这两个模型同时得到增强。两者都使用Adam作为优化器，学习率为0.000 2。目标函数见上文公式（1），并采用了交叉熵损失函数。另外，为了增加网络的抗干扰能力，使用了单侧标签平滑，用标签0.9 代替1 表示真实的数据。

2.3 数据集

本文数据集采用的是由数据堂提供的静态手势识别数据。本文实验采用了其中的数字1、数字2、比心、点赞、握拳等14 种单手手势，共14 000条数据。每条数据含一张手势图像以及一个标注文件，标注文件中写明了手势的21 个关节点及手势类别等信息。本文实验按8：2 将所有数据分为训练集和测试集，采用了手势的21 个关节点坐标信息。手势关节点的标注情况见图4。

图4 手势关节点标注示意图Fig.4 Schematic diagram of gesture joint labeling

2.4 评价指标

Maximum Mean Discrepancy（MMD，最大平均差异）［25］以样本x ～P（X）和y ～Q（Y）来度量2 个分布P（X）和Q（Y）之间的相似性。其本质上是2 个分布的数据经过映射函数变化后的期望之差的上确值，但由于直接计算期望十分困难，可以采取计算期望的无偏估计（unbiased estimate）-均值。通过两者间的差值来判别2 个分布的相似程度。值越小，那么这2个数据分布越相似。MMD的具体计算见公式（4）：

其中，X∶＝｛x1，...，xm｝和Y∶＝｛y1，...，yn｝分别为服从P与Q分布的样本。xi与xj为服从P分布的独立的随机数据，yi与yj同理。k（·，·）为高斯核函数，具体计算见公式（5）：

另外，文献［26］比较了Inception Score， Mode Score， MMD 等6 种GAN 具有代表性的基于样本的评估度量，结果表明MMD 能够区分真实图像和生成图像，可以在一定程度上衡量模型生成图像的优劣性，是最合适的评估指标之一。在深度生成模型［27］和贝叶斯采样［28］中，则被用于衡量生成样本相较于真实数据的质量。该指标还被用于评估生成的动作与真实动作之间的相似性［24，29］。

3 实验分析

本次研究进行了实验以评估所提出的方法在静态手势骨架生成上的有效性，并采用MMD 来衡量生成手势的质量。仿真时在同一数据集上进行了3次实验：首先是本文的方法、即基于图卷积的生成方法，其次是wgan_gp 方法、即基于全连接的生成方法，最后是消融实验、即基于卷积神经网络的生成方法。结果显示，本文的方法更好。下面进行了详细的阐释与分析。

由于目前没有生成静态手势骨架的工作，文中的对比实验选择了wgan_gp［31］方法。 wgan_gp 以wgan［10］为基础，将梯度截断替换为梯度惩罚，以解决梯度消失、梯度爆炸的问题。优化的目标函数如下：

其中， ~x为生成器生成的样本为生成数据和真实数据之间的插值，~x，∊～U［0，1］。式（6）的最后一项即为添加的梯度惩罚项。这样既满足了1-L条件，也可以保证权重变化不那么剧烈，模型不容易坏掉。本次实验中，wgan_gp的生成器与判别器采用的皆是全连接网络架构。本文方法与该方法的比较结果见表1，本文在MMD 上的结果比wgan_gp 方法的要小，也就是本文提出的方法更优。