APP下载

用于手势识别的时空融合网络以及虚拟签名系统

2022-07-03李扬科宋全博周元峰

图学学报 2022年3期
关键词:手部手势骨架

李扬科,宋全博,周元峰

用于手势识别的时空融合网络以及虚拟签名系统

李扬科,宋全博,周元峰

(山东大学软件学院,山东 济南 250101)

由于新型冠状病毒的流行,非接触式个人签名可以在一定程度上降低感染的风险,其将在人们日常的生活中发挥重要作用。因此,提出了一种简单而有效的时空融合网络来实现基于骨架的动态手势识别,并以此为基础开发了一款虚拟签名系统。时空融合网络主要由基于注意力机制的时空融合模块构成,其核心思想是以增量的方式同步实现时空特征的提取与融合。该网络采用不同编码的时空特征作为输入,并在实际应用中采用双滑动窗口机制来进行后处理,从而确保结果更加的稳定与鲁棒。在2个基准数据集上的大量对比实验表明,该方法优于最先进的单流网络方法。另外,虚拟签名系统在一个普通的RGB相机下表现优异,不仅大大降低了交互系统的复杂性,还提供了一种更为便捷、安全的个人签名方式。

手势识别;特征融合;骨架表征;注意力机制;签名系统

手是人体最灵活的部位,在虚拟的沉浸式体验[1]中使用手势与机器进行交互是最直观和便捷的。随着人们对人机交互智能化要求的不断提高,手势识别已经成为计算机视觉领域的一个重要的研究热点。尤其是在疫情肆虐的当下,人们希望能够以一种更安全、自然的方式来实现人机交互。

目前,针对手势识别的研究可以分为静态手势识别和动态手势识别2大类。前者侧重于从单幅图像中分析手的姿势,后者则更具挑战性,旨在理解视频序列所传达的内容。由于动态手势能够表达更多的信息,因此有着更广泛地应用。

传统的动态手势识别是基于数据手套或单目视觉传感器采集的信息,其面临着成本和光照等因素的影响。随着深度传感器和三维手势估计技术的发展,高精度的手势骨架关节点变得更容易获取,这使得基于骨架的手势识别在人机交互领域中得到了更加广泛地应用。由于骨架数据具有对光照鲁棒性强、对动作表达能力强等特点,因此,基于骨架数据的手势识别的表现会更加出色。

如何有效地挖掘骨架序列的潜在时空特征从而提升识别效果,一直是一个具有挑战性的问题。为此,本文提出了一种简单而有效的基于骨架数据的动态手势识别网络框架———时空融合网络,需要指出的是:为提供更加丰富的骨架特征,本文分别为时间特征与空间特征设计了不同的骨架表征方式,并将处理后的骨架数据作为时间运动分支和空间结构分支的输入;为更加关注骨架特征,设计了一种时空注意力机制,根据关节特征之间的潜在关系来增强更具代表性的骨架特征;为能够减少提取的时空特征的损失,还提出了一种时空特征融合模块,以在复杂环境下有效地实现时空特征的融合;为解决识别结果不稳定的问题,采用了一种双滑动窗口的方法来获得令人满意的结果。为了评估该方法的有效性,本文在2个公开的动态手势识别骨架数据集上进行了大量的对比实验,相关结果说明其优于当前的单流网络。

个人数字签名作为一种身份鉴别的方式,其应用场景非常广阔。受新冠病毒疫情的影响,人们希望在公共场所中以一种更加安全、便捷的方式完成个人签名。为此,本文借助上述提出的网络框架,设计了一种非接触式虚拟签名系统,其涉及三维手势骨架估计、手势识别、手写体识别、签名生成等多种技术。该系统利用一个普通的单目摄像机来捕捉RGB视频,并采用实时三维手势骨架估计技术获取三维关节坐标。然后,记录食指指尖的运动轨迹作为用户输入的签名。此外,该系统还将手写体识别与网络爬虫相结合,根据选定的风格和手写体汉字生成相应的艺术签名。为了能够使时空融合网络更好地适用于该系统,本文还建立了一个包含7种类型的动态手势识别骨架数据集。经过实验发现:该系统可以达到95%以上的准确度,可基本满足用户的需求。

1 相关工作

随着低成本的深度传感器与实时的三维手势估计技术的迅速发展,这使得高精度的手势骨架数据变得更易获得。因而,该领域得到越来越多相关学者的青睐,并涌现出许多基于骨架的手势识别方法。其方法可分为2类:传统的基于手工设计特征的方法以及基于深度学习的方法。

传统的基于骨架的动态手势识别方法通常需要依赖手工设计的特征来描述关节的特征,从而实现手势动作的识别。如文献[2]提出了连接关节形状(shape of connected joints,SoCJ)、手部方向直方图(histogram of hand directions,HoHD)、手腕旋转直方图(histogram of wrist rotations,HoWR)3种新颖的表征骨架序列内手型和几何变换的骨架描述符。其通过使用高斯混合模型获得Fisher向量编码,并采用线性支持向量机(support vector machine,SVM)分类器来实现手势的识别。文献[3]通过提取手指运动特征来描述其运动,并使用全局运动特征表征手势骨架的全局运动,进而将上述特征输入至循环神经网络(recurrent neural network,RNN)以获得最终的手势识别结果。文献[4]使用了一种基于特征集的方式来建模手势轨迹,并使用SVM分类器来实现分类。然而,这些方法并不能获得令人满意的效果。因为这些方法无法同时考虑多种描述符,以及充分挖掘骨架序列的潜在特征。因此,本文引入深度学习来提取潜在的时空特征。

随着人工智能的发展,基于深度学习的手势识别逐渐成为相关学者主要的研究方向。这类方法主要采用一种端到端的方式来实现基于骨架的手势识别,其输入为经过编码后的骨架特征图,输出为预测的识别结果。如文献[5]提出了一种新颖的端到端的时空注意力残差时域卷积网络,其可以有效地学习不同层次的注意力,并自适应地聚焦于蕴含有用信息的骨架特征。文献[6]利用新颖的双特征、双运动网络,采用距离特征(joint collection distances,JCD)和2种全局运动特征作为网络的输入。文献[7]基于动态图的时空注意力方法来实现手势识别,即从手势骨架中构建一个全连接图,并通过自我注意力机制在时域和空域上自动学习关节特征和边缘特征。文献[8]提出了一个新颖的端到端的基于门控循环单元(gated recurrent unit,GRU)的深度网络模型,其使用堆叠的GRU和一个全局注意力机制以及2个全连接层来实现识别任务。文献[9]基于对称正定(symmetric positive definite,SPD)流形学习的三阶段方法,分别结合了在时域与空域上2个聚合过程。该方法在第一阶段利用卷积层来增强可学习特征的判别能力;第二阶段则依赖不同架构在时域与空域上实现关节特征的高斯聚合;第三阶段是从骨架数据中学习SPD矩阵并利用SVM实现手势分类。文献[10]设计了一种新颖的卷积神经网络,其引入了并行处理分支来提取信号特征。文献[11]提出了一种解耦表征学习来识别动态手势,并将手势解耦为手部的姿态变化和手部的运动,可分别利用三维手部姿态进化体(hand posture evolution volume,HPEV)来表示精细的姿态变化,利用二维手部运动图(hand movement map,HMM)来表征全局运动特征。这些方法虽然有较好的表现,但无法同时有效地提取与融合时空特征。为此,本文提出了一种简单而有效的时空融合网络,在提取关键特征的同时,能够实现时空特征的融合。

随着科技的迅速发展,近年来手势识别在不同的人机交互场景中得到了广泛地应用,其中包括教育教学、体感交互游戏、智能机器人控制、增强现实等领域。如文献[12]提出了一种用于联合手语识别和自动教育的自提升智能系统来帮助彼此互相改进,借助时空网络并利用局部手势的时间运动特征来实现手语识别。文献[13]开发了基于手势识别的虚拟音乐控制系统,以支持一些常规的如播放、暂停、停止、切歌、调音等音乐控制操作。文献[14]利用手势识别开发了肌电人机控制系统,用户可以借此来控制具有6个自由度的机械手。文献[15]基于手势识别的虚拟键盘,使残疾人可以通过该系统实现与家人的沟通与交流。文献[16]设计了一种基于手势识别的虚拟按键系统,允许用户在虚拟环境中自然地完成“点击”操作。在当前新型冠状病毒肆虐的情况下,更多人希望在公开场合中使用非接触的方式来实现个人签名。为此,本文开发了虚拟签名系统,以此降低在公共的人机交互场景下感染病毒的风险。

2 基于骨架的动态手势识别

为了能够有效地实现时空特征的提取与融合,从而获得令人满意的动态手势识别结果。本文提出了如图1所示的时空融合网络。该网络主要由时间运动分支、空间结构分支、时空融合模块以及多层感知机构成。其中,时间运动分支主要提取骨架帧间的时间运动变化特征;空间结构分支主要提取骨架帧内的空间结构变化特征;时空融合模块主要实现关键时空特征的提取与融合;多层感知机主要负责预测最终识别结果。由于该网络主要应用于基于骨架的动态手势识别,其在真实场景中往往会面临识别结果不稳定的问题。因此,本文在实际使用中采取了一种双滑动窗口的机制来稳定识别结果,这在很大程度上改善了用户的体验。

图1 时空融合网络的整体架构

2.1 手势骨架表征

对于每个手势骨架序列,本文假设手势骨架帧的总数是,每个手部关节的总数为。对于第个骨架帧,手势骨架为

其中,=(,,)为手部关节的三维笛卡尔坐标。原始的手部骨架只包含笛卡尔坐标特征,其位置和视点是变化的,而且笛卡尔坐标特征不能反映时间运动特征和空间结构特征。为了更好地解决上述问题,本文采用了更有效的手势骨架表征方式。

为了获得时间运动特征,本文利用相邻帧差法来处理原始的笛卡尔坐标特征,经处理后的特征具有位置不变性。因此,时间运动特征为

其中,为时间运动特征;S+1为位于S后面的一个手势骨架帧。

图2为本文提出的4种不同的关节遍历方式,以探究骨架关节的最佳遍历序列。可将手部的骨架想象成一棵树,手掌关节是根节点,其余的手指是树枝。在深度遍历算法和广度遍历算法的基础上,本文设计了4种与文献[17]相似的关节遍历序列。深度序列(图2(a))主要是将同一手指的关节排列在一起,其更注重每个手指的运动特征;广度序列(图2(b))在一定程度上是按照骨架关节的自由度进行排列,其有助于提取具有相同运动程度的关节特征;本文在上述基础上又引入循环遍历(图2(c),图2(d))的思想,以获取更丰富的信息。为获得更加直观的理解,以深度序列为例,其生成的关节序列为[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22]。当使用上述序列的运动特征作为时间运动分支的输入,则有

上述方法虽然能够有效地描述骨架帧之间的运动特征,但无法表征同一帧中关节之间的空间结构关系。由于节点之间的边可以有效地表示每个节点之间的相对位置,因此本文设计了4种不同的边缘连接方法,如图3所示。

串行邻域连接(图3(a))符合手部骨架的原始结构,但相邻关节之间的距离基本不变;串行跳跃连接(图3(b))有效地摆脱了物理骨骼的限制,能够表示每个关节与手掌之间的空间结构关系;并行邻域连接(图3(c))可以有效地捕捉相邻关节之间的运动特征;并行跳跃连接(图3(d))有助于建立具有相同自由度的非相邻关节之间的结构关系。为了能够便于理解,以串行邻域连接为例,其生成的关节连接序列为[(1,2),(1,3),(3,4),(4,5),(5,6),(1,7),(7,8),(8,9),(9,10),(1,11),(11,12),(12,13),(13,14),(1,15),(15,16),(16,17),(17,18),(1,19),(19,20),(20,21),(21,22)]。当使用上述序列的结构特征作为空间结构分支的输入,则有

2.2 时空融合模块

为了有效地学习时空特征,本文采用逐步融合的增量思想,设计了时空融合网络,其主要利用时空融合模块来分阶段实现关键时空特征的提取和融合。如图4所示,该模块的输入源由空间结构分支的空间特征图,时间运动分支的时间特征图以及上层时空融合模块的时空特征图3部分组成。为了能够获得丰富的时空特征,本文采用Concatenate来实现时间特征与空间特征的融合,该方式有效地避免了特征的丢失。同时,考虑到模型的大小和存储资源的限制,采用Add来实现不同时空融合模块之间的时空特征融合,在不增加描述特征维数的情况下实现信息的叠加。此外,还利用一维卷积进一步提取时空特征,并以此作为下一级时空融合模块的输入。相比于常规的时空特征融合方式,本文方法不仅能够有效地融合更多不同尺度的时空特征,还能够增强关键的潜在特征。

鉴于采集的手势具有高度的类内方差,本文注意到并非神经网络提取的所有特征都包含最具辨别力的信息。不相关的骨架帧和特征通常会带来不必要的干扰噪声。为了解决这个问题,本文设计了时空注意力模块(图4)处理提取的时间特征和空间特征,有助于时空融合网络自适应地提取更关键的特征。

图4 时空融合模块示意图

具体来说,本文将给定的特征图输入到3个不同的分支中,以保留原始特征并计算相应的注意力权重。使用一维卷积获得时空注意力权重为

2.3 损失函数

时空融合网络的输入是手部骨架序列,其输出是预测的手势标签。其采用交叉熵损失函数作为损失项,因此该损失函数可以表示为

2.4 双滑动窗口

受外部环境影响,本文获取的手势3D骨架可能存在一定噪声。并且在实际应用中,由于手是动态变化的,因此模型的识别结果可能会在短时间内发生跳变。为了解决这个问题,本文采用了双滑动窗口的方法,使得网络的识别结果更加稳定。如图5所示,上面的窗口是结果滑动窗口,下面的窗口是识别滑动窗口。本文将识别滑动窗口设置为32,结果滑动窗口设置为12。每当有新的骨架帧到达时,便将其添加到识别滑动窗口中,并将当前识别滑动窗口的识别结果添加到结果滑动窗口中。当结果滑动窗口中的所有结果都相等时,确认用户已经执行了该手势。

图5 双滑动窗口方法示意图

3 相关实验

3.1 数据集

SHREC’17 Track[18]数据集是一个公开的动态手势数据集,包含2 800个手势骨架序列。在此数据集中,28名志愿者以2种方式(一根手指和整只手)分别执行每个手势1~10次。每个骨架帧提供3D世界空间中22个手部关节的坐标。本文使用1 960个骨架序列进行训练,使用840个手势骨架序列进行测试。

DHG-14/28[2]数据集是一个具有挑战性的动态手势数据集,其为每个手势提供深度图像和相应的手部骨架序列。其包含14个手势,由20名志愿者以2种不同方式分别执行5次。此数据集由Intel RealSense深度摄像机捕获的2 800个视频序列组成。对此数据集,本文采用留一交叉验证的策略进行相关实验。

3.2 实验细节

本实验均以TensorFlow为后端的Keras在NVIDIA GeForce RTX 2080Ti上进行的。并采用端到端的方式训练模型,将批处理大小设置为64,初始学习率设置为0.001。如果40次迭代后损失值保持不变,便将学习率更改为当前学习率的0.5倍,另外最小学习率为1-7。为避免过拟合,本文将Dropout参数设置为0.5。同时为了便于处理骨架数据,还使用插值的方式将每个骨架序列归一化为32帧。

3.3 消融实验

为了检验时空融合网络中各组件的有效性,本文在SHREC’17 Track数据集上进行了大量实验。

3.3.1 网络层数的消融实验

为了研究不同网络层数对识别准确率的影响,本文在SHREC’17 Track数据集上进行了相关实验。由表1可以看出,当使用网络模型为3层时,可以取得令人满意的效果。其在此数据集上的14个手势和28个手势设置下,准确率分别可以达到96.19%和93.10%。但模型的识别准确率将不随着网络层数的加深而提高,是因网络层数过多而导致过拟合的结果。

3.3.2 关节序列的消融实验

为了研究不同关节序列对识别准确率的影响,本文测试了不同的关节序列作为时间运动分支的输入。表2中基于深度序列的识别准确率最高,在14个手势和28个手势设置下分别达到94.17%和78.69%。循环广度序列在一定程度上根据运动强度对关节进行分类,由于该方法不利于网络提取每个手指的物理运动特征,因此其识别准确率较低。此外,本文发现循环遍历方法会在一定程度上引入噪声,从而降低识别准确率。

表1 不同网络层数对识别准确率的影响(%)

表2 不同关节序列对识别准确率的影响(%)

3.3.3 边缘连接的消融实验

为了探究不同边缘连接方式对识别准确率的影响,本文选择不同的边缘连接作为空间结构分支的输入。由表3可见,并行边缘连接要比串行边缘连接的识别准确率低。究其原因,按照手部骨架方向排列的边缘连接更能反映真实的空间结构特征。实验结果表明,采用串行邻域连接可以获得良好的表现。

表3 不同边缘连接对识别准确率的影响(%)

3.3.4 时空融合模块的消融实验

为了探索时空融合模块对识别准确率的影响,本文进行了相关的实验,其中常规融合模块采用Concatenate的方式直接实现特征融合。通过图6可以发现,时空融合模块可以提高识别的准确性。究其原因,本文一方面采用逐步融合的思想来有效地提取和融合时空特征;另一方面,利用注意力机制来有效地关注更具代表性的信息。

图6 时空融合模块的对比实验

3.4 对比实验

本文在SHREC’17 Track和DHG-14/28数据集上分别与现有的方法进行了比较。

3.4.1 SHREC’17 Track数据集的对比实验

表4为在SHREC’17 Track数据集上各方法的比较结果。对于单流识别网络,本文方法在14类手势和28类手势设置下均有最优的表现,且比DD-Net[6]分别提高了1.59个百分点和1.2个百分点。验证了本文提出的时空融合网络可以有效地融合时空特征,并增强更具鉴别能力的信息。通过与HMM-Net[11]和HPEV-Net[11]相比较,利用1D-CNN比2D-CNN和3D-CNN更容易获得令人满意的结果。

表4 在SHREC’17 Track数据集上准确率的比较(%)

3.4.2 DHG-14/28数据集的对比实验

由表5可见,本文提出的时空融合网络在DHG-14/28数据集上达到了最先进的性能。本文方法与DeepGRU[8]相比在14类手势和28类手势的设置下分别提升了0.71个百分点和1.63个百分点。值得注意的是,本文方法在28类手势上的准确率比在14类手势上的准确率有更好地提升,其原因主要是时空融合网络充分地考虑了时间运动特征和空间结构特征。

表5 在DHG-14/28数据集上准确率的比较(%)

4 虚拟签名系统

为了使虚拟签名系统能够有效地工作,本文建立了一个基于骨架的动态手势识别数据集,并利用上述时空融合网络来完成常规的操作识别。最后,将中文手写识别与网络爬虫相结合,以生成艺术签名。

本文建立的3D动态手势识别骨架数据集一共包含350个视频序列,涉及7种不同的动态手势。将单目RGB摄像头连接到计算机上,并通过应用程序记录相关数据。RGB视频序列以每秒30帧的速率捕获,其图像分辨率为640×480。所有手势均采用右手执行,并保持手掌在采集视野之内。使用Google公司开发的MediaPipe来估计手部的3D骨架,提供了21个手部关节在三维世界空间的坐标。本文的手部模型有22个关节,包括:1个手掌中心,1个手腕位置,每个手指包含4个关节。为了能符合手部模型,本文使用由腕关节和指根关节形成的多边形的质心来表示掌心的平面坐标,并使用轴坐标的平均值来表示掌心的轴坐标。

本文设计的虚拟签名系统的整体流程如图7所示。为了能够完全实现非接触式操作,该系统通过使用常规的RGB摄像头来实现用户所有数据(指尖轨迹和操作手势)的采集,并利用上文设计的时空融合网络来识别用户的手势,从而帮助用户在非接触的情况下完成界面的操作。另外,该系统利用中文手写识别模型来实现签名识别,并结合网络爬虫来生成特定风格的艺术签名。此系统支持自定义模式和特定样式模式。在自定义模式下,系统可以根据用户食指的运动轨迹生成签名图片。在特定样式模式下,系统可以为用户生成特定风格的艺术签名。

为了进一步验证该系统的实用性,招募了10名志愿者进行测试。每名志愿者均需要设计4种不同的签名,并通过该系统来生成4种不同风格的艺术签名。在测试前,会进行2 min的培训,使其了解基本的操作过程。为了能够完全实现非接触式操作,本文设计了时空融合网络来识别动态手势,顺利地实现非接触式应用操作。根据该系统的操作流程可知,完成每个艺术签名一般需要执行5次手势。本文以一次性顺利生成艺术签名作为衡量成功的标准,并对实验结果进行记录。由表6可见,该系统的成功率可以达到95%以上,可基本满足用户使用需求。

图7 虚拟签名系统流程图

表6 虚拟签名设计系统的用户交互体验评估

5 结束语

本文提出了一种简单而有效的时空融合网络用于实现基于骨架的动态手势识别。该网络针对时间运动分支和空间结构分支的输入,分别设计了不同的骨架表征方法。同时,提出了一种基于注意力机制的时空融合模块来有效地实现关键特征的增强和时空特征的融合。为了在实际应用中获得更加稳定的识别效果,还采用了一种双滑动窗口的方式进行后处理。本文在2个具有挑战性的动态手势骨架识别数据集上对模型进行了评估。实验结果表明:本文方法的识别准确率要优于现有的单流网络。另外,本文还建立了一个小型的手势骨架识别数据集,并在上述网络的基础上开发了一款虚拟签名系统,为用户提供了一种更加安全、便捷的个人签名方式。未来将充分利用RGB数据和骨架数据来进一步改善网络模型的性能,同时利用生成对抗网络生成特定风格的艺术字体,从而为用户提供更丰富的艺术签名风格。

[1] 叶帅男, 储向童, 巫英才. 沉浸式可视化综述[J]. 计算机辅助设计与图形学学报, 2021, 33(4): 497-507.

YE S N, CHU X T, WU Y C. A survey on immersive visualization[J]. Journal of Computer-Aided Design & Computer Graphics, 2021, 33(4): 497-507 (in Chinese).

[2] DE SMEDT Q, WANNOUS H, VANDEBORRE J P. Skeleton-based dynamic hand gesture recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2016: 1206-1214.

[3] CHEN X H, GUO H K, WANG G J, et al. Motion feature augmented recurrent neural network for skeleton-based dynamic hand gesture recognition[C]//2017 IEEE International Conference on Image Processing. New York: IEEE Press, 2017: 2881-2885.

[4] BOULAHIA S Y, ANQUETIL E, MULTON F, et al. Dynamic hand gesture recognition based on 3D pattern assembled trajectories[C]//2017 7th International Conference on Image Processing Theory, Tools and Applications. New York: IEEE Press, 2017: 1-6.

[5] Hou J x, Wang G j, Chen X h, et al. Spatial-temporal attention Res-TCN for skeleton-based dynamic hand gesture recognition[M]// Computer Vision – ECCV 2018 Workshops. Cham: Springer International Publishing, 2019: 273-286.

[6] YANG F, WU Y, SAKTI S, et al. Make skeleton-based action recognition model smaller, faster and better[C]//ACM Multimedia Asia, 2019. New York: ACM Press, 2019: 1-6.

[7] Chen Y x, Zhao L, Peng X, et al. Construct dynamic graphs for hand gesture recognition via spatial-temporal attention[C]//British Machine Vision Conference, 2019. Guildford: BMVA Press, 2019: 48.1-18.13.

[8] MAGHOUMI M, JR LAVIOLA J J. DeepGRU: deep gesture recognition utility[M]//Advances in Visual Computing. Cham: Springer International Publishing, 2019: 16-31.

[9] NGUYEN X S, BRUN L, LÉZORAY O, et al. A neural network based on SPD manifold learning for skeleton-based hand gesture recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 12028-12037.

[10] DEVINEAU G, MOUTARDE F, XI W, et al. Deep learning for hand gesture recognition on skeletal data[C]//The 13th IEEE International Conference on Automatic Face & Gesture Recognition. New York: IEEE Press, 2018: 106-113.

[11] LIU J B, LIU Y C, WANG Y, et al. Decoupled representation learning for skeleton-based gesture recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5750-5759.

[12] LIU Z Z, QI X J, PANG L. Self-boosted gesture interactive system with ST-net[C]//The 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 145-153.

[13] ZHANG Y Y, WANG J L, YE L, et al. A virtual music control system based on dynamic hand gesture recognition[M]// Transactions on Edutainment XIII. Heidelberg: Springer, 2017: 74-85.

[14] SHIN S, TAFRESHI R, LANGARI R. Real-time EMG-based human machine interface using dynamic hand gestures[C]// 2017 American Control Conference. New York: IEEE Press, 2017: 5456-5461.

[15] CECOTTI H, MEENA Y K, PRASAD G. A multimodal virtual keyboard using eye-tracking and hand gesture detection[C]// The 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. New York: IEEE Press, 2018: 3330-3333.

[16] MOU C, ZHANG X. Attention based dual branches fingertip detection network and virtual key system[C]//The 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 2159-2165.

[17] LIU J, SHAHROUDY A, XU D, et al. Spatio-temporal LSTM with trust gates for 3D human action recognition[M]// Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 816-833.

[18] De Smedt Q, Wannous H, Vandeborre J P, et al. Shrec’17 track: 3D hand gesture recognition using a depth and skeletal dataset[EB/OL]. [2021-06-30]. https://hal.univ-lille.fr/ hal-01563505v1.

[19] LIU H, TU J H, LIU M Y, et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing. New York: IEEE Press, 2018: 1333-1337.

[20] Yan S j, Xiong Y j, Lin D h. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//2018 AAAI conference on Artificial Intelligence. San Francisco: AAAI Press, 2018, 7444-7452.

[21] CHEN X H, WANG G J, GUO H K, et al. MFA-net: motion feature augmented network for dynamic hand gesture recognition from skeletal data[J]. Sensors, 2019, 19(2): 239.

[22] LI Y K, MA D Y, YU Y H, et al. Compact joints encoding for skeleton-based dynamic hand gesture recognition[J]. Computers & Graphics, 2021, 97: 191-199.

[23] NÚÑEZ J C, CABIDO R, PANTRIGO J J, et al. Convolutional neural networks and long short-term memory for skeleton-based human activity and hand gesture recognition[J]. Pattern Recognition, 2018, 76: 80-94.

[24] WENG J W, LIU M Y, JIANG X D, et al. Deformable pose traversal convolution for 3D action and gesture recognition[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 142-157.

[25] LAI K, YANUSHKEVICH S N. CNN+RNN depth and skeleton based dynamic hand gesture recognition[C]//The 24th International Conference on Pattern Recognition. New York: IEEE Press, 2018: 3451-3456.

[26] DE SMEDT Q, WANNOUS H, VANDEBORRE J P. Heterogeneous hand gesture recognition using 3D dynamic skeletal data[J]. Computer Vision and Image Understanding, 2019, 181: 60-72.

Spatiotemporal fusion network for hand gesture recognition and virtual signature system

LI Yang-ke, SONG Quan-bo, ZHOU Yuan-feng

(School of Software, Shandong University, Jinan Shandong 250101, China)

Due to the coronavirus pandemic, the non-touch personal signature can reduce the risk of infection to a certain extent, which is of great significance to our daily life. Therefore, a simple and efficient spatiotemporal fusion network was proposed to realize skeleton-based dynamic hand gesture recognition, based on which a virtual signature system was developed. The spatiotemporal fusion network is mainly composed of spatiotemporal fusion modules based on the attention mechanism, and its key idea is to synchronously realize the extraction and fusion of spatiotemporal features using an incremental method. This network adopts different spatiotemporal coding features as inputs, and employs the double sliding window mechanism for post-processing in practical applications, thus ensuring more stable and robust results. Extensive comparative experiments on two benchmark datasets demonstrate that the proposed method outperforms the state-of-the-art single-stream network. Besides, the virtual signature system performs well with a single normal RGB camera, which not only greatly reduces the complexity of the interaction system, but also provides a more convenient and secure approach to personal signature.

hand gesture recognition; feature fusion; skeleton representation; attention mechanism; signature system

TP 391

10.11996/JG.j.2095-302X.2022030504

A

2095-302X(2022)03-0504-09

2021-09-02;

2021-09-30

2 September,2021;

30 September,2021

国家重点研发计划战略性科技创新合作项目(2021YFE0203800);国家自然科学基金浙江两化融合联合基金(U1909210);国家自然科学基金(62172257,61772312)

National Key R & D Program Strategic Scientific and Technological Innovation Cooperation Project (2021YFE0203800); NSFC-Zhejiang Joint Fund of the Integration of Informatization and Industrialization (U1909210); National Natural Science Foundation of China (62172257,61772312)

李扬科(1997-),男,硕士研究生。主要研究方向为计算机视觉。E-mail:sdu_liyangke@126.com

LI Yang-ke (1997-), master student. His main research interest covers computer vision. E-mail:sdu_liyangke@126.com

周元峰(1980–),男,教授,博士。主要研究方向为计算图形学、图像处理。E-mail:yfzhou@sdu.edu.cn

ZHOU Yuan-feng (1980-), professor, Ph.D. His main research interests cover computer graphics and image processing. E-mail:yfzhou@sdu.edu.cn

猜你喜欢

手部手势骨架
手部皮肤软组织缺损修复的皮瓣选择
尺动脉腕上皮支逆行岛状皮瓣修复手部皮肤软组织缺损
封闭负压吸引技术联合游离股前外侧穿支皮瓣修复手部大面积软组织缺损
浅谈管状骨架喷涂方法
骨架密度对炭/炭多孔骨架压力浸渗铜的影响
挑战!神秘手势
周博士考察拾零(六十六)日光温室前屋面开机具作业门处骨架的处理方法
胜利的手势
博泽引领座椅骨架技术发展
认手势说数字