APP下载

基于混沌动力学的凌空手势识别

2020-09-10冯广宇侯文军由振伟

计算机集成制造系统 2020年8期
关键词:相空间手势分类器

冯广宇,侯文军,周 湖,由振伟

(1.北京邮电大学 自动化院,北京 100876;2.北京邮电大学 数字媒体与设计艺术学院,北京 100876;3.北京邮电大学 网络系统与网络文化北京市重点实验室,北京 100876)

0 引言

近年来,随着虚拟现实(Virtual Reality, VR)应用的迅速发展,基于手柄的传统键触交互平台逐渐难以满足身临其境的用户体验需求,VR头戴式显示器设备HTCVIVE与Leapmotion的创新性结合令VR手势交互再次成为研究的焦点,作为一种最贴近人与人交互的自然交互方式,无需触摸的凌空动态手势已经成为人机交互研究中的热点问题之一。相比语音的指令性交互方式,手势交互开拓了三维空间交互的可能性,这种自然交互模式不但保留了传统键鼠交互方式的桌面交互特性,而且增强了空间位置的指向性,从信息维度和匹配度上都能满足自然交互的要求。尤其在VR环境中,凌空手势交互帮助用户减轻了手柄、手套等可穿戴设备的束缚,使用户可以在不同应用场景之间无缝切换和自然交互,从而享受更自由更具沉浸感的交互体验。

凌空手势交互的核心问题为复杂动态时序信息的语义化处理,而手势轨迹信息往往具有隐喻性、模糊性和个性化差异等特点。由于现阶段有关手势时序信息的模式识别研究尚浅,对寻找连续交互动作的识别特征缺乏统一的理论指导,如何通过提取高维动态的运动规律来建立手势的特征预估模型成为研究连续手势交互的关键。因为凌空手势的识别系统具有以下4个显著特征[1],所以基于图像处理的手势识别算法很难保证稳定的鲁棒性和识别率[2]:

(1)自由度复杂 人手可建模为具有20多个自由度的复杂机构,每一帧运动姿态都由多个状态变量描述。

(2)非线性 连续手势在离散观察序列中表现为非线性轨迹,很难用准确的数学公式描述。

(3)噪声 由于受到阴影、方向、亮度和振动等因素影响,信号噪声是动态手势的内在特征。

(4)个性化差异显著 连续手势的输入动作通常表现为不同的运动模式,导致信号的时序长短和空间分布存在显著差异。

1 相关工作

传统手势识别算法可以基于数据采集设备和识别方法进行分类,目前主要的输入设备有数据手套[3]、表皮肌电设备[4]、普通摄像头[5]和深度摄像头[6];识别性能在很大程度上依赖所建立的特征模型,早期的识别算法主要借鉴隐马尔科夫模型(Hidden Markov Model, HMM)[7-8]、条件随机场(Conditional Random Field, CRF)[9]和动态时间规划(Dynamic Time Warping, DTW)[10]等时序模型。其中HMM和CRF主要利用概率统计模型建立目标手势的自适应识别标准,但是它们更多地集中在时序特征的提取,难以表征潜在的运动规律。Alon等[11]提出一种基于模板匹配的DTW算法,虽然算法的复杂度相对较低,但识别性能容易受到噪声及异常值的影响。描述性变量如切向角变化[12]和中心点坐标[13]常被用于构建特征向量,然而由于控制系统的方程为未知,将其用于描述手势动态特征并不理想。针对动态手势的空间特征,中科院Wang等[14]提出从手势序列的每帧中平滑提取空间的特征协方差矩阵,用于计算Grassmannian流形中样本之间的差异,该方法适用于小型识别任务,然而时序信息的部分缺失导致其难以区分相似手势。Barros等[15]提出凸面方法来解决维度灾难问题,通过生成较小的特征矢量来描述手形,但方法在本质上还是基于HMM和DTW的时序建模,难以捕获连续手势的空间特征。

另一方面,基于卷积神经网络(Convolutional Neural Networks, CNN)和循环神经网络(Recurrent Neural Network, RNN)等深度学习算法也在手势识别应用中取得了突破性进展。Koller等[16]基于时序建模方法提出混合CNN-HMM算法,将CNN端对端地嵌入HMM,充分结合了CNN的强识别能力与HMM的时序建模能力;Wang等[17]提出利用CNN深度学习图像的运动流向图对短时间内的时空信息进行建模识别。在最近的ChaLearn 2016连续手势识别挑战赛中,3D CNN算法通过时空卷积方法从视频帧中提取与外形和运动相关的特征,在池化层根据特征的时空不变性进行编码,取得了较好的识别率[18];同时Necati等[19]提出一种基于粒子滤波的强制概率校准方法,通过弱边界标注进一步改进了3D CNN的训练模式。然而,根据ChaLearn2016的参赛结果[20],基于神经网络的识别算法取得的最佳准确率只有67.71%,其强计算能力并未发挥应有的作用,表明手势识别的特征工程仍然缺乏有效的建模方法。

针对上述方法的不足,本文创新性地提出建立由混沌因子组成的特征向量,用于捕捉连续手势中潜在的动力学特征。假设连续手势的离散采样信号可以通过特定类型的动态系统近似模拟,一旦该假设被证明,非线性系统的混沌运动模型将有助于建立特征向量。相较之下,基于混沌动力学的手势识别方法优于其他基于描述性变量的建模方法,因为其能克服噪声、速度变化及个体运动幅度差异等影响因素。

2 基于混沌动力学的手势识别算法

2.1 系统模型

系统模型主要分为3个过程,如图1所示。首先通过状态空间建模描述手势动力系统,将连续手势中5根指头的指尖绝对坐标分解为15组一维非线性序列,分别包含X,Y,Z3个坐标维度;然后通过预实验求解重构相空间所需要的相关参数,提取表征相空间的3个混沌因子构建45维特征矩阵;最后通过3个经典机器学习算法证明假设的合理性以及建模方法的可行性。

2.2 非线性动力学分析

混沌系统的假设源于动力学研究中的定点概念。在一个简单的单摆系统中(如图2),定点位于摆锤的最低位置,系统运动的重要特性均能在其周围的运动区域中反映,无论钟摆的初始位置在哪里,系统最终都会收敛于定点,具有噪声的复杂运动轨迹分析均可简化为对定点的分析。凌空手势动作也属于动力耗散系统,其特征是随着时间的推移,状态空间体积会收敛到较低维度的流形上。假设连续手势符合非线性动力学系统,则可建立基于混沌动力学的特征模型,通过实验来验证假设是否成立。

嵌入Leapmotion的头盔显示器(Head-Mounted Display,HMD)可以捕捉到手部骨架的轨迹,表现为手势动作轨迹的离散观察序列。与手写字母识别过程不同,图3中的凌空字母手势轨迹不仅包括字母形状本身,还包括过渡运动的轨迹,这些不规则的运动轨迹使基于图像识别的传统算法难以有效地捕捉到时序特征和空间特征。另外,实际系统中的时间序列是离散测量的连续数据点,系统的运动控制方程通常是复杂的非线性方程,难以通过数据拟合推断出运动特征。

针对手势动作的空间信息特点,采用状态空间模型描述非线性手势系统的动力学特性,一组基于离散观测值的状态变量在任意时刻都包含完整的信息来预测系统可能的演化。假设手势运动可以通过特定类型的动力学系统来近似模拟,指尖的绝对坐标被认为是一组状态变量,任何特定时刻的变量值都包含有足够的信息来预测运动的演变。令x1(t),x2(t),…,xn(t)表示每一帧状态变量,则非线性动态系统的运动特性可以用一阶微分方程组大致表示为dx(t)/dt=F(x(t))。手势动作的起点和终点均为系统的平衡状态,此时满足F(x(t))=0,速度向量dx/dt在平衡状态x处消失,因此x(t)=x是方程的解。由于解的唯一性,没有其他解曲线能够穿过平衡状态x,轨迹将退化到该点,使其稳定且收敛,可以用于量化及重构。

2.3 相空间重构

相空间重构描述了从一维信号到n维信号的映射状态,通过动态建模捕获可观察时间序列的潜在动力学特性,从而避免求解复杂动力学方程。相对于基于描述性变量的建模方法,相空间重构方法能够克服噪声、速度变化以及个体运动幅度差异等影响因素,在不丢失动力学特征的情况下统一特征矩阵的维度,而看似复杂无规律的一维时序信号在高维相空间中的特征分布足以表征动态系统。从混沌动力学的数学角度而言,混沌吸引子是表示系统演变倾向的一组数值。根据混沌系统的特性,具有相似初始条件的吸引子轨迹会随时间慢慢分开,具有奇异吸引子的混沌动力系统状态的变化对初始运动条件很敏感,这将有利于系统的特征分布。混沌吸引子的不变量决定了重构相空间的属性,由此构建的特征矩阵主要由以下3个混沌因子组成:①相关积分,表示两个不同时间点系统状态相近的平均概率;②分数维,用于量化重构相空间的密度相对于领域半径的变化;③Lyapunov指数,量化了移动中的吸引子之间轨迹分离的指数速率,描述了吸引子上的轨迹如何随着系统演化过程而移动,其中最大Lyapunov指数用于测量重构相空间中附近轨迹的散度指数。

动态重构的基本方法是Takens提出的延迟嵌入法[21],它通过延迟坐标状态值来重建等价于原始空间的相空间。矩阵中的每一行表示高维相空间里的一个点[22],原始时间序列的延迟序列被记录在长度为m的滑动时间窗口中,并将m维向量堆叠至矩阵X,

(1)

式中:m为嵌入维数,t为延迟时间。

目前主要有自相关法和互信息法两种方法预估理想的延迟时间。自相关法是一种序列相关方法,它通过自相关函数选择延迟时间,减少重构时间序列之间的相关性,尽可能少丢失序列的动力学特性,该方法本质上基于线性概念,适合判断线性相关性而不适用于非线性系统;互信息法则通过寻找延迟时间序列和原时间序列之间互信息量的第一个局部最小值有效地确定延迟时间,在该延时值中两段时间序列共享的信息量最小[23]。

相空间几何法可以从几何角度求解最合适的嵌入维度m。混沌时间序列是高维相空间中的运动轨迹在一维空间上的投影,在投影过程中混沌运动的轨迹会被扭曲。虚假邻点是高维相空间中并不相邻但经过投影后有可能相邻的两点,其会导致混沌时间序列不规律[24]。随着嵌入维数m的增加,虚假邻点逐渐消除,混沌运动的轨道逐渐展开,混沌运动轨迹将从混沌时间序列中得到恢复。如果手势轨迹的状态点在重建的相空间中足够接近,则其在正向迭代期间应该保持接近,不满足这项准则的相空间点具有假邻点。对于实验中的手势时间序列,从嵌入维度的最小起始值开始计算虚假邻点的比例,当该比例小于5%或者虚假最近邻点不再随维度的增加而变化时,混沌吸引子被完全打开,此时的维度即为最佳嵌入维度。图4所示为多条手势运动轨迹在相空间中的3D投影,不同长度和运动幅度的手势运动轨迹稳定地分布在高维相空间中。

2.4 相关因子

相关因子包括相关积分和分数维,共同决定了吸引子的度量结构。其中相关积分反映了半径领域内的状态点数量密度,表示为

(2)

式中:xi为吸引子上的状态点;H(x)表示Heaviside函数;ε为半径的值。设置一个ε的特定值即可得到对应的相关积分。预实验通过多个手势样本来观察不同半径时样本的分布,最终设置ε=50使分布差异最显著。

分数维描述了吸引子上任意两点x(n)和x(k)对于某一整数q以距离r隔开的概率,表示为

C(q,r)=r(q-1)Dq。

(3)

当q=2并在两边取对数时,得到吸引子的分数维,进而界定描述系统所需的自由度

Dq=lnC(ε)/lnε。

(4)

图5所示为该函数的曲线图,拟合曲线的斜线斜率即为分数维的估计值。

3 实验

3.1 实验方法及过程

实验选择11种连续字母手势的轨迹数据集用于分类器训练和特征向量评估,手势数据由嵌入Leapmotion的头戴显示器以每秒25帧的速率录入。实验参与人员由20名平均年龄为26岁的研究生组成,男女比例1∶1。所有实验人员都有VR头戴显示器的使用经验,被试者视力或矫正视力正常,双手无残疾可正常操作。完整的字母手势动作包括从任意位置开始挥动手势到手部动作静止结束,被测人员根据提示针对11种不同的字母分别挥动10次手势动作。为了验证算法在不同的手势运动速度和幅度中的稳定性,实验要求被测人员在每组手势挥动过程中尽可能地增加动作波动的幅度,同时满足一个字母手势的正常速度范围(100帧~200帧)和Leapmotion的监测范围(25 mm~600 mm),从而增加实验样本的多样性。最终每一种字母手势采集到200条轨迹数据,共得到2 200条字母手势数据。

实验分别采用K最近邻(K-Nearest Neighbor, KNN)、支持向量机(Support Vector Machine, SVM)和随机森林算法3种经典分类器验证混沌特征矩阵的有效性,样本验证方法采用五份交叉验证法。在图6所示的分类器参数调试中,KNN分类器的理想K值取决于实验数据,当K=11时,训练识别率综合最佳,并且能够有效抑制噪声;随机森林分类器的棵数n取值越高识别率越好,但计算耗时也越长,在不过拟合的情况下综合选取n=500能够获得最好的识别效果;SVM分类器的核函数分别选取Sigmoid、径向基函数(Radial Basis Function,RBF)和多项式(polynomial),其中阶为1时的线性分类器和RBF核分类器的识别率相对最高,高阶多项式核分类器表现不佳。

3.2 实验结果及分析

表1所示为每一类字母手势在各分类器的平均识别率,其中N/G表示因动态重构失败而不能识别的手势。无法实现相空间重构的原因主要有两种,即动作帧数过低或者运动轨迹存在明显异常值。

表1 各字母手势在分类器中的平均识别率 %

从图中的平均识别精度结果可见,基于混沌动力学建模的特征矩阵在分类器中表现良好。其中:字母手势F,H,I,K,Z达到了近100%的正确率,观察手势轨迹可以发现其均具有直线轨迹的运动特点;对于B,P,R这些具有一定曲线轨迹的字母手势,因为Leapmotion采集数据的离散特性,曲线轨迹的真实运动状态很难被完整还原,所以降低了一定的识别率。

图7所示为特征矩阵在样本空间中的3D投影,3个维度分别选取了分数维、相关维数和最大Lyapunov常数。从样本分布的情况可见,即使为特征矩阵的3D投影,样本分布也呈现出较好的聚类特性,证明连续手势动作可以近似为混沌动力学系统,并通过构建相应的特征矩阵进行识别分类。

4 结束语

目前关于手势识别的研究多集中在CNN,RNN等深度学习算法的应用,然而基于图像识别的逐帧分析不符合人脑正常对动作语义连续性的认知。连续动作的语义识别通常从整体出发,综合考虑时序信息和空间信息,混沌动力学方法正是一种兼具质性思考和量化分析的方法,适用于模拟动态系统中无法用单一的数据关系、必须用整体和连续的数据关系才能解释与预测的行为。实验旨在证明凌空手势动作轨迹的离散观测值可以通过特定类型的动态系统来估计,该非线性动力系统的表征将有助于建立手势特征向量,进而识别连续手势。实验结果中3种分类器的识别率均达到平均92%的准确率,随机森林算法达到了96.6%的准确率,基本证明了该模型的有效性。未来的研究工作如下:

(1)现在提出的混沌因子不足以完全表征运动趋势,分类器难以分辨出相似手势运动之间的差异,还需探索更多有效的混沌特征变量。

(2)为了初步证明混沌特征的有效性,实验应用经典的机器学习算法,而混沌模型在深度学习框架中的表现有待进一步验证。

(3)在虚拟装配等应用中进一步实践验证混沌模式识别框架。

猜你喜欢

相空间手势分类器
相干态辐射场的Husimi分布函数在非对易相空间中的表示
挑战!神秘手势
V字手势的由来
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
胜利的手势
非对易空间中的三维谐振子Wigner函数
基于层次化分类器的遥感图像飞机目标检测
一种基于置换的组合分类器剪枝方法
相空间中含时滞的非保守力学系统的Noether定理*