基于多模态视频描述的中国手语识别

2021-04-01袁甜甜杨学

山东农业大学学报（自然科学版） 2021年1期

袁甜甜,杨学

基于多模态视频描述的中国手语识别

袁甜甜,杨学

天津理工大学聋人工学院, 天津 300384

计算机视觉是目前我国新一代人工智能科技发展的重要方向，手语识别因其在连续性、复杂场景干扰等问题上的困难，导致其研究不仅可以解决听障人对无障碍信息沟通的真实需要，还可极大的促进视频理解及分析领域的快速发展，从而在安防、智能监控等方面也有很好的落地应用。通过比较国内外多种基于视频描述和分析的手势识别方法，给出了视频手语识别和基于深度学习的视频描述的策略分析。对使用原始视频帧、视频光流和目前先进的姿态估计技术等方法进行了比较，进而提出适用于中国手语视频数据的多模态描述策略、训练模型架构及时空注意力模型。使用具有深度信息辅助的视频描述及训练方法，通过实验验证BLEU-4值可达52.3，较前期使用的基础方法提高约20%。但由于该方法所使用的深度信息在现实情况下并不容易获得，因此研究由手机或电脑摄像头获取的普通RGB视频的描述及识别方法是未来的发展方向。

手语识别; 视频描述; 多模态

在基于视频描述的手语识别领域，目前大多数的方法都是使用多模态方法，将原始视频帧、光流和姿态估计结合在一起。与普通的Seq2Seq体系结构相比，使用注意力建模和迁移学习等技术能提供更好的性能，进而提高现有模型在本研究中的性能和准确性。

1 相关研究分析

1.1 视频描述策略

文献[1]研究了基于时间残差网络的手势和手语识别，研究人员试图在一个连续的大词汇视频流中设计手势和手语识别模型。研究人员将此问题作为一个框架分类问题来处理，使用了深度学习的最新成果，如残差网络、批量标准化和指数线性单元（ELUS）等。文献[2]基于深度学习的手语识别姿态估计方法进行研究，人体姿态估计和手部检测是实现基于计算机视觉的手语识别（SLR）系统的两项重要任务。然而，这两项任务都具有挑战性，尤其是当输入是没有深度信息的彩色视频时。该方法也使用了RGB格式，而不是RGB-D，同时介绍了一种用于SLR的人体姿态估计的数据集。通过对数据集进行用户独立的实验，评估了两种基于深度学习的姿态估计方法的性能。另外还进行了迁移学习，得到的结果表明迁移学习可以提高姿态估计精度，但这只有当原始任务和目标任务之间的差异较小时才有效。

文献[3]提出了一种用于视频描述的多模态结构，该结构依靠记忆网络和注意力机制。记忆网络从二维CNN中捕捉长期的时间动态特征以帮助记忆长期的有效信息，注意力机制则有助于更为有效的提取和学习视觉概念及特征。此外，还引入了特征选择算法来选择相关特征。文献[4]提出了一种针对视频描述的多模态记忆建模，该模型建立了一个可视化的文本共享记忆模型，以模拟长期的视频文本依赖关系，进一步指导全局注意力来描述目标。基本方法是通过与视频和句子进行交互，通过多次读写操作，在存储和检索视觉和文本内容上附加额外的记忆。首先，将基于文本解码的长短期记忆（LSTM）的文本表示写入记忆，记忆内容将引导注意力模型选择相关的视觉目标，然后将选定的视觉信息再写入记忆，并将进一步读出进行文本解码。文献[5]提出了用于多模态推理和匹配的双重注意力网络（DANs），它利用视觉和文本信息的联合机制来捕获视觉和语言之间的细粒度交互。它有两个模型，r-DAN用于多模态推理，m-DAN用于多模态匹配，研究试图在视觉问答工具中找到应用。文献[6]将使用注意力模型的学习型多模态结构用于视频描述。这种体系结构利用多模流和时间注意，在句子生成期间选择性地关注特定元素。文献[7]的主要工作是用于多模态推理和匹配的，研究人员使用3D CNN取代2D ConvNets以便在视频图案识别中取得更好的结果。

文献[8]研究通过深度神经网络的基于摘要的视频描述，研究人员提供的架构类似于我们目前对手语视频描述的研究，从CNN中提取视觉特征并将其输入RNN。文献提出了一种新颖的、设计良好的自动总结过程，该过程通过在句子序列图上排序来减少噪音。该方法经过实验验证在视频描述的语言生成度量和SVO准确率方面性能更好。文献[9]中，研究人员尝试设计一种可以调整时间注意的分层LSTM模型。具体地说，所提出的框架利用时间注意来选择特定的框架来预测相关单词，而调整后的时间注意则用来决定是依赖视觉信息还是语言上下文信息。此外，分层LSTM设计也同时考虑了底层视觉信息和高层语言上下文信息，以支持视频描述生成。文献[10]尝试提出一种新的用于视频表示及描述的层次递归神经编码HRNE，研究人员使用分层LSTM，提出RGB数据集上的视频描述模型。通过缩短输入信息流的长度，并在更高的层次上合成多个连续的输入，能够在更大的范围内有效地利用视频时间结构。当输入是非线性时，计算操作大大减少。实验证明，研究人员的方法在视频描述基准方面优于最新技术。值得注意的是，即使使用一个只有RGB流作为输入的单一网络，HRNE也击败了所有最近结合多个输入的系统。文献[11]同样提出了一种使用多模态结构的视频描述方法，研究人员使用原始视频帧和光流图像作为输入以转换为文本序列。该模型使用CNN提取特征，并将这些特征进一步输入到LSTM层。

1.2 RGB-D场景下视频理解所用的深度CNNs

1.2.1 从RGB-CNNs迁移学习文献[12]用深度CNN对RGB-D场景进行识别。由于迁移学习没能在训练中提高多少准确率，因此研究人员尝试寻找新的方法在小数据集上可以获取更好的准确率。研究人员声称迁移学习几乎不能到达底层，因此找到了另一种策略通过结合全局的图像微调和弱监督训练来训练底层学习深度特征。文献还提出了一种改进的CNN体系结构，以进一步匹配模型的复杂性和可用数据量。该模型在只有深度数据和RGB-D数据的情况下都达到了很高的精确度。

1.2.2 使用3D卷积神经网络的手语识别文献[13]尝试使用3D CNN将手语转化成文字。研究人员使用RGB-D数据集，为提高性能，研究人员将多通道的视频流包括颜色信息、深度线索、身体关节位置等作为输入到3D CNN，以整合颜色、深度和轨迹信息。该模型在用Microsoft Kinect收集的真实数据集上进行了验证，并证明了其相对于传统方法基于手语识别特征的有效性。

2 方法描述

目前与手语识别最贴近的领域是视频描述生成 (Video Captioning)，基本思想是将视频和文本映射到同一语义空间或者两者空间可以通过某种算法进行转换。我们注意到目前手语视频描述的模型不仅可以提高准确性，还可以使用更好的架构方法提高性能。通过对比研究上述文献，我们的分析结果是：

（1）视频描述问题有许多新的解决方法，其中包括新的特征提取方法，如输入原始视频、使用光流和姿态估计等。

（2）使用多模态结构结合所有这些特征将比单独获得这些特征会得到更好的效果。

（3）可以利用注意力模型和记忆模型从视频中提取时间和视觉信息，以获得比使用典型的ConvLSTM 架构更高的精度。

（4）使用3D CNN架构而不是使用带有LSTM 的2D CNN可以获得更好的结果。

（5）卷积Seq2Seq模型相对于传统的Seq2Seq模型，速度更快并且性能更好。使用卷积Seq2Seq模型代替传统版本，可以提高模型的性能，并且能更好的并行化网络，这将提高我们研究的性能。

综上所述，我们获取原始视频的多模态结构特征的具体步骤如下：

（1）用OpenPose、OpenFace及ArtTrack提取视频中手语者的脸部、手型和身体姿态的关键图片，结合手语语言学先验知识形成图像序列。我们提取了25个身体关节特征，如图1(左)所示。这些标准化的骨骼关节坐标除了可以为后续图像和骨骼处理做准备之外，还可使手语者与摄像机的距离不会成为特征提取的影响因素。除了身体关节，我们也可为每只手定位21个手指关节，并与身体关节一起正则化。之后通过预先训练的ArtTrack模型生成了28×20×14维的特征图，将身体及手部的正则表示形式转化为图像，并通过一个2×2的最大池层，将该特征映射扁平化到一个1×1680的特征向量中。这种矢量表示法使用卷积特征映射来预测不同的身体及手部关节位置，具有丰富的空间信息。由于手语动作过程中，面部表情也拥有不可忽视的表达作用，因此我们也提取了面部关键点和动作单元，其中面部关键点是由68个(x,y)坐标构成，而动作单元则是用于捕捉面部表情的关键信息，如抬起眉毛、撅起嘴巴、皱眉等，如图1(右中)所示。在对身体、脸部、手指关节进行局部特征提取之后，我们还采用CNN卷积神经网络对视频帧提取全局特征，对视频进行空间标注及对应文本的标注等，最后进行全连接多模融合。

图 1 手部、身体及脸部特征的提取

（2）将前两步获得的多模特征合并作为循环神经网络的输入，最终获得相关的语素信息。在训练阶段采用了编码-解码的翻译模式进行识别。在编码阶段，将特征提取获取的特征向量通过分词层预测单词特征，即经过CNN和两个LSTM连接最后通过HMM得到预测单词的条件概率，通过两个循环的RNN，最后输出编码后的单词预测向量集合。在解码阶段，通过标志来表示手语语序的开始，并同编码阶段的最后一个隐藏特征向量一起进行RNN运算，然后再经过第二层RNN所得数据和编码阶段获得的单词特征预测向量集的加权一起，经过关注层的注意力模型运算，获取的单词预测概率向量经过全连接获得最终的预测概率。根据上下文单词关系依次翻译出其他单词的概率，最终解码出所有单词的概率(|)，其中y=(1,2,…,y)是具有个词的文本句子，=(1,2,…,x)是具有帧的手语视频，h是解码阶段的初始隐藏矢量。

在这个过程中要进行模型选择和超参数调节，由(|)的反馈不断的调整编码-解码模型和多模特征提取，从而得到一个最优的神经网络架构。同时通过最小化具有姿态特征P和学习参数的视频的损失，优化了对数似然度，其中w是步骤中的单词。

在手语图像到语素信息、语素信息到文字信息的转换过程中，我们将手语序列转换为健听人可以理解的自然语言。在特征提取的基础上，通过HMM（隐式马尔科夫链）迭代的将语素信息翻译为正常文本。此过程将基于手语语言学，结合面部表情识别，融入音位、形态学、句法、手语习得、神经语言学等先验知识，来有效提升手语识别效果。训练模型架构[14]如图2所示。

图 2 模型架构

其中，关注层引入手部及面部表情的时空注意力模型以提升生成视频注解的质量。训练模型在Encode阶段会在每个时间点生成一个词语，而时刻生成的词语取决于时刻−1生成的词语和网络中的隐藏状态h−1。对于时刻，网络的输入为那一时刻的手势动态特征向量z。令a，=1,...,为时刻从图像的区域提取的注解信息。对于每个a，需计算权重α，即在生成z的过程中a应该被赋予的权重，该值为正数。使用全连接神经网络f来计算α。如公式(1)和(2)。

当所有权重全部计算完之后，z由公式(3)得出：

这里需使用神经网络来学习函数。由于手语句子长度的变化，设计这种注意力模型的参数版本，可使模型处理不同长度的输入，即模型重点关注的位置不再固定，而取决于已生成的词语序列。

3 讨论

训练时的输入为视频序列和相应的标注文本对。测试期间，将来自测试视频的帧编码输入到经过训练的神经网络中，一旦所有帧被处理，当句子开始关键字输入到网络，即会触发单词的生成直到出现句子结束关键字。我们使用文献[15]所建立的句子级连续手语数据集进行特征提取和模型训练。

一般在进行测试集的选取时，主要采取留出法、交叉验证法及自助法三种[16]。留出法通常将约2/3的数据用于训练，其他作为测试，两集合不相交，即=∪,∩=,其中为全部数据，为训练集，为测试集；交叉验证法相当于是多组留出法测试结果的均值，即先将划分为个大小相似且互斥的子集，=1∪2∪…∪D，D∩D=(≠)，然后每次取-1个子集作为训练集，剩下的一个作为测试集，从而获得组测试结果，最后返回其均值；在上述两种方法中，由于保留了一部分数据用于测试，导致训练用数据少于全部数据，这有可能会让训练集的规模影响成为引起模型估计偏差的主要因素之一。自助法是一种比较好的解决方案，即从数据集中选取训练数据时，当前被选取的数据并不从中移走，而下次选取时仍有可能被选到，使得中有一部分数据会在训练集中出现多次，而同时也有一部分数据不会出现在训练集中，这种方法在数据集较小且难以有效划分训练和测试集时是很有用的。

我们在实验中对于训练集和测试集的选取类似于自助法，且鉴于文献[15]给出的讨论，我们筛选了重复率在10次以上的包含2240个句子的集合A和随机选取了重复率未达到10次的3000个句子的集合B进行对比训练和分析。两组训练模型均使用相同的测试集，该集合共包含450个句子，为上述两个训练集混合后的随机选取，即450个句子中每句来自集合A或集合B的概率相同。所有视频均进行每240帧的等距采样，然后利用本文第二部分的方法从每帧中提取手部骨骼、面部和姿态特征。我们使用jieba分词工具来标记视频对应的文本句子，并使用BLEU分数来评估预测文本和真实文本之间的性能，结果如表1和表2所示。其中BLEU-表示个字词连续的预测效果，值越高表示预测结果与真实文本的相似程度越高，即识别的越准确。

可见我们将手部骨骼、身体矢量和面部等多模特征结合起来的预测效果较单模特征识别在手语的语法、语义理解等方面可以满足更好识别效果的需求。因为就手语而言，只有手势或身体姿态的识别是不能全面体现手语表达的，而手语者的面部表情信息占了语义理解的很大一部分空间。同时，从实验结果中我们还分析得出，集合A可作为测试模型的快速检测集合，因为其中的句子重复率使得手语词汇的重复率基本达到了50次[15]，致使这部分词汇的预测效果要远好于其他词汇，从而可作为测试模型是否能够过拟合的快速检验方法。而集合B可用于估计整个数据集上的训练模型性能，因为数据集中仍有较大比例的句子是不满足重复率要求的，使用集合B则更能体现数据集整体所提供的预测训练效果。结果表明，虽然使用我们的多模特征视频描述方法可在一定程度上提高手语视频的识别效果，但仍然需要有重复率更高、质量更好的数据集作为支撑，只有重复率达到一定要求的句子，其训练效果才可基本满足识别要求。在后面的工作中我们需进一步扩充样本数量，提高数据样本的重复率和录制质量，如保证视频画面的稳定性、提供已标注的对齐的RGB视频和深度视频、增加录制环境的多样性以提供复杂场景下手语识别的普适度等等。

表 1 BLEU分值

表 2 识别效果

4 结论

基于视频描述的手语识别是一个多学科交叉的研究课题，既要懂计算机科学，还要懂手语语言学。而且手语识别与传统语言识别有着本质差异。传统语言的识别和翻译建立在单模态基础上的，而手语识别是基于多模态的，以空间计算为主。由于手语的手部形状、位置和方向、头部动作、面部表情及躯干姿势等这些信息都包含语言学意义上必不可少的内容，因此手语识别需要将手语词法、句法和语用等概念贯穿在空间建模、隐喻、语义等视频描述、模型训练的各个阶段。目前由于聋人和听人在交流过程中对携带设备的抵触心理及设备本身的不易携带性，均导致由深度手语数据辅助的视频描述和识别变得不利于广泛应用。因此，团队正在努力实现利用手机摄像头收集和识别不带有深度信息的普通RGB视频，现已开始数据收集阶段。

手语识别技术的研究将极大地促进具有自主知识产权的服务于听障人的软件系统的研发，符合国家在残疾人保障及精准扶贫等各方面的政策。同时，计算机视觉是政府各部门大力支持的研究方向，将该技术运用到帮扶听障人方面将极具先进性，也是残联和地方政府着力发展的领域，有广阔的应用前景，对促进听障人无障碍融入社会、提升听障人就业水平等方面具有非常重要的意义。

[1]Pigou L, Van Herreweghe M, Dambre J. Gesture and sign language recognition with temporal residual networks [C]//International Conference on Computer Vision Workshop (ICCVW). Venice Italy: IEEE, 2017:3085-3093

[2]Gattupalli S, Ghaderi A, Athitsos V. Evaluation of deep learning based pose estimation for sign language recognition [C]//Proceedings of the 9th ACM International Conference on PErvasive Technologies Related to Assistive Environments (PETRA). Corfu, Island, Greece: ACM Press the 9thInternational Conference, 2016

[3]Fang XZ, Li W, GuoDS. Multimodal architecture for video captioning with memory networks and an attention mechanism [J]. Pattern Recognition Letters, 2018,105(1):23-29

[4]WangJB, WangW, HuangY,. Multimodal memory modelling for video captioning [C]//CVF Conference on Computer Vision AND pattern Recongnition. Salt Lake City, US: IEEE, 2016

[5]Nam H, Ha JW, Kim J. Dual attention networks for multimodal reasoning and matching [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017,:299-307

[6]Xu J, Yao T, Zhang YD,. Learning multimodal attention LSTM networks for video captioning [C]//Proceedings of ACM on Multimedia Conference. California: ACM, 2018

[7]Patnaik K, Siyari P, Krishnan V,. Learning hand features for sign language recognition [N/OL]. https://github.com/payamsiyari/GT-Deep-Learning-for-Sign-Language-Recognition/blob/master/Report.pdf.

[8]Li G, Ma SB, Han YH. Summarization-based Video Caption via Deep Neural Networks [C]. Proceedings of the 23rd ACM international conference on multimedia.Brisbane:ACM, 2015

[9]Song JK, Guo Z, Gao LL,. Hierarchical LSTM with adjusted temporal attention for video captioning [C]. 26th International Joint Conference on Artificial Intelligence. Melbourne:IEEE,2017

[10]Pan PB, Xu ZW, Yang Y,. Hierarchical recurrent neural encoder for video representation with application to captioning [C]. IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016

[11]Venugopal S, Rohrbach M, Donahue J,. Sequence to sequence video to text [C]. International Conference on Computer Vision. Santiago: IEEE, 2015

[12]SongXH, HerranzL, JiangS. Depth CNNs for RGB-D scene recognition: learning from scratch better than transferring from RGB-CNNs [C]. The 32ndAAAI Conference on Artificial Intelligence. New Orleans: IEEE, 2018

[13]HuangJ, ZhouWG, LiHQ,. Sign language recognition using 3d convolutional neural networks [C]. International Conference on Multimedia and Expo. Torino: IEEE, 2015

[14]Camgoz NC, Hadﬁeld S, Koller O,. Neural Sign Language Translation [C]. IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018

[15]袁甜甜,赵伟,杨学,等.大规模中国连续手语数据集的创建与分析[J].计算机工程与应用,2019,55(11):110-116

[16]周志华.机器学习[M].北京:清华大学出版社,2016

Chinese Sign Language Recognition Based on Multimodal Video Captioning

YUAN Tian-tian, YANG Xue

300384,

Computer vision is an important direction in the development of new generation Artificial Intelligence technology in our country at present. Because of its difficulties in continuity and complex scene interference, the research of sign language recognition can not only solve the real needs of deaf people for barrier-free information communication, but also greatly promote the rapid development of video understanding and analysis, so it has a good landing application in security, intelligent monitoring and so on. By comparing many gesture recognition methods based on video description and analysis, the strategies of sign language recognition and video description based on depth learning are given. The methods of using original video frame, video optical stream and advanced attitude estimation technology are compared, and then a multi-modal description strategy suitable for Chinese sign language video is proposed, and the training model architecture and attention model are proposed. Using the video description and training method assisted by depth information, the experimental results show that the BLEU- 4 value can reach 52.3, which is about 20% higher than that of the baseline method. However, because the depth information used in this method is not easy to obtain in reality, it is the future direction to study the description and recognition method of ordinary RGB video obtained by mobile phone or computer camera.

Sign language recognition; video captioning; multimode

TP387

1000-2324(2021)01-0143-06

10.3969/j.issn.1000-2324.2021.01.025

2019-08-11

2019-10-24

天津市工业企业发展专项资金项目(201807111)

袁甜甜(1980-),女,博士,副教授,主要从事机器学习、深度学习、聋人高等教育等工作. E-mail:yuantt2013@126.com