APP下载

基于机器学习的深度融合手势识别与交互技术研究

2024-01-01郭都芦学林李明东

客联 2024年4期
关键词:手势识别计算机视觉特征提取

摘 要:动态手势序列传递的信息同时存在于空间域和时间域范围,与仅包含空间域信息的静态图像相比更加复杂。因此,提取有效的手势特征,捕获手势序列时空上下文所表达的信息是识别手势的关键步骤。有效手势特征应当具有健壮性、泛用性、紧凑性、简洁性、易于实现等特点,减少冗余信息以避免后续算法发生过拟合,突出不同手势类别类间差异、减少相同手势类别类内差异,以降低后续算法的回归、分类难度。然而,目前还没有能够完全满足上述特点的描述方法。因此,如何选取并组合手势时空上下文的描述特征依然是手势检测识别方法中具有挑战性的问题。

关键词:手势识别;计算机视觉;特征提取

一、研究背景与意义

在人机交互领域中,人体手势检测识别是重要的研究方向之一,其研究目标可概括为解释特定上下文场景中人类行为所表达的意义。这些行为包括身体整体的运动,也包括身体部件的局部运动,例如躯干、腿部、手臂、手部、头部的运动。其中,基于视觉的手势识别方法是最为自然和符合人类直觉的方法之一,能够为用户提供一种非侵入性的交互方式,在无法进行物理接触或声音难以传达的交互场景中起到尤为重要的作用,因此受到学术界和工业界的广泛关注。

在手语翻译领域中,计算机能够通过手势检测识别技术理解动态人体手势传递的信息,进一步通过翻译技术将信息翻译为不同种类的文字或语音,帮助听力受损或语言障碍人群进行沟通交流,或帮助有学习能力障碍的人群与计算机交互。

基于计算机视觉的手势检测识别技术也存在巨大的学术价值,其方法涉及到多个基础研究领域,包括计算机图形学、信号处理、模式识别、人工智能、机器学习、深度学习等等,能够起到促进相应学科理论研究的作用。

二、关键手势特征描述与识别技术

(一)空间特征提取方式

针对2D手形表示的构建问题,本章提出了一种基于Fisher向量编码方法的2D手形表示,该方法从分割出的人手二值图像中为手的每个轮廓点提取三种几何特征,包括距离、角度和曲率,这些几何特征的组合构成一个局部描述子,然后使用Fisher向量编码方法对所有的局部描述子进行编码,从而得到整个2D手形的Fisher向量表示。静态手势识别方法的框架图如图1所示。

(二)手部重要特征点检测

为了提取本章所提出的三类几何特征,需要先获取手部一些重要的特征点,包括人手边界点、手掌中心、整个人手中心以及边界点中心。本章使用Canny边缘检测器提取人手边界点,并且剔除掉手腕线上的边界点,因为它们对不同的2D手形不具有判别性。所有的边界点构成一个集合,记为B,后面将会为每个边界点计算一个局部描述符。由于手部边界噪声的存在,通过欧式距离变换获取的粗略的手掌中心与真实的手掌中心之间的位置偏差可能较大,本章采用一种迭代腐蚀方法对手掌中心重新进行估计。

三、视频中手部特征点的检测与跟踪

在对手部特征点进行检测与跟踪的过程中需要对人手进行检测与跟踪,而对手部特征点的检测与跟踪又有助于对人手进行检测与跟踪,即二者是相辅相成的。

对于RGB视频而言,在最开始的几帧中,使用一个已经训练好的人手检测器来对人手进行定位。在本章中使用Harr-like特征训练一个人手分类器用于实时的人手检测。对深度视频而言,可以直接使用深度阈值滤波方法对人手进行定位。当检测到人手的移动距离超过某个阈值时,一个动态手势被认定为开始被执行。然后采用稀疏光流法对人手进行跟踪,并同时对手部特征点进行检测与跟踪。

同样,在跟踪的过程中如果发现连续多帧中人手的移动距离小于某个阈值,则认为该动态手势已经结束了。为了表述方便,后续章节中默认已经获得了分割好的动态手势视频。对于每帧中得到的人手跟踪结果,即包含人手的包围框(Bounding Box),需要进一步进行人手分割处理,以消除背景区域的影响。由于不需要获得精确的人手分割结果,对于RGB视频,然后,在分割得到的手部区域中提取特征点(将特征点的集合记为S1t,其中t表示当前帧的索引)并计算它们的光流,用于对特征点和人手进行跟踪。本章使用FAST角点作为特征点,因为FAST角点具有较高的计算效率,并使用金字塔(Pyramid)Lucas-Kanade算法计算特征点的光流。由于分割得到的手部区域中可能含有背景区域,比如与人手相连的肤色类背景区域,一些特征点也可能会位于背景区域,需要对它们进行过滤。

上述所提出方法的核心创新点在于根据动态手势中所包含的时空信息提取具有代表性的局部描述符,即为手部兴趣点(包括视频数据中手部区域的特征点或3D骨架序列中手部关节点)计算局部描述符,并采用特征协方差矩阵编码方法对所有的局部描述符进行融合,获得一个紧凑的动态手势表示。

四、总结

手势识别用于对手势进行分类,手势估计用于对手部关节点的位置进行估计,而手势认证用于对用户的身份进行认证,它们彼此之间联系紧密,是基于视觉的非接触式手势交互中的关键技术。本文的研究工作围绕基于视觉的手势识别、估计与认证展开,研究的内容包括:面向RGB或深度图像的静态手势识别方法;面向RGB或深度视频以及3D人手骨架序列的动态手势别方法;面向单张深度图像的3D手势估计方法;面向RGB视频的动态手势认证方法。然后使用协方差矩阵编码方法对所有的局部描述符进行编码,获取整个动态手势的特征协方差矩阵描述符,由于特征协方差矩阵构成一个黎曼流形,无法使用欧式空间的度量方式进行分析,需要使用矩阵对数操作将特征协方差矩阵映射到欧式空间中,获得相应的对数协方差矩阵表示。

参考文献:

[1]夏晨星,陈欣雨,孙延光,等.集成多种上下文与混合交互的显著性目标检测[J/OL].电子与信息学。

[2]刘永涛,刘永杰,孙斐然,等.基于深度学习的交警动态手势检测与识别方法研究[J/OL].武汉理工大学学报(交通科学与工程版):1-7[2024-06-27].

猜你喜欢

手势识别计算机视觉特征提取
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
基于手势识别的工业机器人操作控制方法
基于红外的非接触式手势识别系统设计
基于嵌入式的智能手表设计
机器视觉技术发展及其工业应用
危险气体罐车液位计算机视觉监控识别报警系统设计
计算机视觉在交通领域的应用
基于计算机视觉的细小颗粒团重量测量的研究
复杂背景下的手势识别方法