APP下载

基于快速鲁棒性特征和隐马尔可夫模型的手语识别

2018-03-15陈梯孙杳如

现代计算机 2018年3期
关键词:手语手势摄像头

陈梯,孙杳如

(同济大学电子与信息工程学院计算机科学与技术系,上海 201804)

0 引言

当前社会,人机交互技术成为了愈加热门的研究领域,而通过手势与计算机设备交互则是一种最直接的方式,手势识别的研究因此而生。最初主要是利用专用硬件设备进行输入,最常见的数据手套就是一种通过人手佩戴来获取位置信息,手指伸展信息的设备。外部设备的介入虽然可以提高识别的准确度和稳定性,但却违背了手势自然的表达方式。于是,基于视觉的手势识别成为一种必然趋势。Pallavi Gurjal和Kiran Kunnur等人提出利用尺度不变性特征变换(SIFT)特征,对美国手语26个英文字母(A-Z)进行识别并取得良好效果[1]。Jiatong Bao和Aiguo Song等人则利用快速鲁棒性特征(SURF)同样对26个英文字母进行手势识别,识别率为87.1%[2]。杨全、彭进业则利用Kinect摄像头获取字母的手语视频,对实时图像提取SIFT特征,利用SVM进行训练和识别,解决了复杂背景下手势的检测分割难题,也取得了不错的识别效果[3]。胡章芳和杨麟也是利用SURF特征对每个手语字母进行了150次实验后得到了97.7%的平均识别率[4]。Mahmud H和Hasan M K等人同样对手势图像提取SIFT特征,然后利用SVM用于训练和识,并获得了很好的识别率[5]。

基于上述工作,本文提出一种基于深度图像提取SURF特征和隐马尔可夫模型(HMM)的手语识别方法。不同于一般的摄像头,本次实验采用的数据集是由Kinect摄像头拍摄的视频序列,因此可以基于深度信息进行手势分割,提取实时手势图像,并且利用SURF算法对提取的手势图像进行分析,提取特征序列,输入到HMM中进行训练和识别,一定程度上解决了光照变化、角度旋转和复杂背景等难题。

1 手势检测与分割

深度摄像头可以获取深度信息,并且不受环境光照以及背景复杂度的影响,将其用于基于视觉的手势识别中,能帮助我们更好地对手势进行检测分割。Kinect就是一种由微软开发的深度摄像头,本文实验所采用的数据集都是由Kinect摄像头所拍摄的。深度信息对应于物体与摄像头之间距离,因此我们可以利用深度值来区分出手势区域和背景区域,因为一般情况下,手势往往是离深度摄像头最近的一块区域。实验时,由于人与摄像头之间的距离并不是固定不变的,所以很难根据某一具体的阈值来分割手势。根据深度图像的特性,同一深度的像素点在深度图像中的灰度值是相同的,这意味着我们可以通过建立灰度直方图[6]的方式来分割出手势。同一段灰度值所对应的区域即是深度图像中与摄像头同样距离的像素点,并且距离越近,则灰度值越大。因此我们选择灰度值最大的区域块进行分析,即可以将手势区域与背景区域分割。

2 特征提取

2.1 采用SURF特征检测算法提取手势图像的局部特征

SURF(Speeded Up Robust Features,加速鲁棒性特征)是一个稳健的图像识别和描述算法,于2006年由Herbert Bay在ECCV大会上首次提出[7]。SURF算法简单高效,并且具有良好的鲁棒性。采用此算法提取手势图像的局部特征,实现尺度不变性的特征点检测,主要由以下5个步骤组成:a)Hessian矩阵构建;b)尺度空间生成;c)精确定位特征点与主方向;d)构造SURF特征点描述算子。

Hessian矩阵是SURF算法的核心,由函数偏导数组成。手势图像中每个像素点的Hessian Matrix可以按公式(1)定义,假设函数 f(x,y):

利用二阶标准高斯函数作为滤波器,计算出H矩阵的三个矩阵元素Lxy,Lxx,Lyy,从而得到H矩阵公式:

上式(3)中L(x,t)表示一幅在不同解析度下的图像,即可以通过高斯函数G(t)与图像函数I(x)在点x的卷积来实现,其中t为高斯方差。通过这种方法可以为图像中每个像素计算出H矩阵的决定值,并用来判别特征点。Herbert Bay提出用近似值代替L(x,t),为平衡准确值与近似值间的误差引入权值,权值随尺度变化,所以H矩阵判别式可表示为:

图像的尺度空间是这幅图像在不同解析度下的表示。SURF中尺度是由方型滤波器的大小决定的,越往上层,尺度滤波器越大。

在多尺度空间中,将经过Hessian矩阵处理过的每个像素点与其26个领域值进行比较,保留最大值和最小值,通过预设阈值和增加极值以检测出几个最强的特征点。统计特征点的Haar小波特征,计算响应总和,对这些响应相加以形成新的矢量,取矢量最长的方向为该特征点的主方向。

在特征点周围取一个正方形框,划分为16个子块,统计每个子区域像素的水平方向和垂直方向的Haar小波特征(水平方向之和∑dx,水平方向绝对值之和,垂直方向之和∑dy,垂直方向绝对值之和

此时获取的64维特征向量的描述子数量是不稳定的,因为人的手部区域离摄像头的距离会影响特征点的检测,所以还需进一步处理SURF特征描述子。

2.2 生成视觉词典

BOF(Bag Of Features)即词袋[8],是一种用于图像或视频检索的技术,把每幅图像描述为一个局部区域/关键点特征的无序集合。从上一步提取出的SURF特征数据集中随机选取K个作为初始聚类中心,聚类算法采用K-means算法;求出SURF描述子数据集的每个数据与各个聚类中心的距离,按照最小化原则将数据划分入最近邻聚类中心的类簇;然后再重新计算每个类簇的中心直到每个聚类中心不会再改变时,整个算法结束。此时,每个聚类中心就是一个视觉词汇,所有的视觉词汇形成一个视觉词典。将手势图像中提取的SURF特征描述子分配到离它最近的一个视觉词汇上,视觉词汇对应的维度高度加1,当所有的特征描述子分配完毕后,手势图像就可以用一个K维的视觉词汇直方图表示,然后对直方图进行归一化处理。最后通过TF-IDF对频数表加上权重,生成最终的BOF。

3 手势训练和识别

3.1 HMM基本原理

隐马尔可夫模型(HMM,Hidden Markov Model)最早在20世纪60年代后半期被Leonard E.Baum等人在一些统计学论文中提出,在隐马尔可夫模型中,状态是不可见的,但是某些变量是可见的,这些变量受状态影响,每一种状态的输出都有相应的概率分布[9-11]。在隐马尔可夫模型中包含两个过程,一个是现实中可见的观测值,另一个是观测值下的隐藏状态,观测值和隐藏状态之间存在一个概率函数,同样地,每个隐藏状态之间也有相应的状态转换概率。如下图所示,x表示隐藏状态,y表示观察值,a表示状态转换概率,b表示输出概率。

图1 隐马尔可夫模型状态变迁图

一般的隐马尔可夫模型可以表示为λ=(N,M,A,B,π)。其中N表示隐藏状态个数,M表示观察值个数,A表示隐藏状态的转换概率矩阵。记A=[aij]N×N。其中aij是在时刻t,状态为qi的条件下,时刻t+1转移到状态 qj的概率。如下公式(4),其中 aij≥0,并且

B则表示观察转换概率矩阵。记B=(bij)N×M。其中bij是在时刻t,状态为qi的条件下,生成观测vj的概率。如下公式(5),其中bij≥0,并且

π则表示初始状态的概率分布。记π=(πi)N×1。其中 πi是在时刻 t=1的条件下,处于隐藏状态 q1的概率。如下公式(6),其中 πi≥0,并且

3.2 HMM在手势识别中的应用

HMM在语音识别领域已得到成功应用,在手势识别领域,它同样有着广泛应用。例如Schlenzig等人[12]的实验就表明了HMM可以成功应用在连续手势识别中。要利用HMM为手势识别建模,首先需初始化一个HMM模型;提取训练样本中的观测序列Y,采用Viterbi算法[13]求出初始模型下的P(Y|λ);利用Baum-Welch算法[14]重新估计初始模型的参数,得到一个新模型;再利用Viterbi算法求出新模型下的P(Y|λ);重复上两步计算,直至 P(Y|λ)收敛,即训练手势模型的过程结束,这里为样本库中每个手势训练出一个HMM模型。在识别阶段,提取出测试集中的观测序列Y,利用前向-后向(forward-backward)算法求出该观测序列Y与各个手势模型的匹配概率值P(Y|λ),之后选取最大的概率值对应的手势,即为识别结果。整个过程中即解决HMM的三大问题,如下表所示:

表1

4 实验结果

为验证该系统可行性,本次实验所选的视频样本是中国科学院计算技术研究所视觉信息处理和学习研究组发布的开源DEVISIGN中国手语数据库。在数据库中选取字母A-H等8种手势的视频样本作为本次实验的训练测试集,其中每种手势集都由8位不同实验者,每人演示5次组成,总共400个手势样本。实验中,将240个样本作为测试集训练A-H每种手势的HMM模型,剩余160个样本用于测试模型的准确性。图2是A-H手势表示图。

图2 手势A-H

表2是本次实验中8种手势的手势识别率,由表可得8种手势的平均识别率是93%。因此对深度手势图像进行手势分割、提取SURF特征和HMM训练识别,可以得到较高的识别率。

表2 A-H手势识别率

5 结语

本文主要提出了一种基于深度手势图像SURF特征和HMM的手语识别方法,并通过实验验证了该方法的可行性以及有效性。基于SURF特征训练模型,可以使系统在背景、光照和尺度变化下都能表现出较强的鲁棒性。但是由于手语的表示极其复杂,而且本次实验使用样本的手势种类较少,随着手势种类以及数目的增加,仅仅提取图像的局部性特征还不够,未来工作将围绕如何提取更具代表性的手势特征,或是将SURF与其他特征,例如Fourier描述子,相结合以达到对复杂手势有更好的识别效果。此外,本文所涉及的图像识别技术可应用于模式识别、人机交互、智能增材制造等应用领域。

[1]Gurjal P,Kunnur K.Real Time Hand Gesture Recognition Using SIFT[J].International Journal of Electronics and Electrical Engineering,2012,2(3):19-33.

[2]Bao J,Song A,Guo Y,et al.Dynamic Hand Gesture Recognition Based on SURF Tracking[C].Electric Information and Control Engineering(ICEICE),2011 International Conference on.IEEE,2011:338-341.

[3]杨全,彭进业.基于手语视觉单词特征的手语字母识别研究[J].计算机工程,2014,40(4):192-197,202.

[4]胡章芳,杨麟,罗元,等.一种基于改进的SURF算法的静态手语字母识别方法[J].重庆邮电大学学报:自然科学版,2013,25(4):544-548.

[5]Mahmud H,Hasan M K,Abdullah-Al-Tariq M A.Hand Gesture Recognition Using SIFT Features on Depth Image[J].

[6]蓝章礼,李益才.数字图像处理与图像通信[M].北京:清华大学出版社,2009.

[7]Bay H,Ess A,Tuytelaars T,et al.Speeded-up Robust Features(SURF)[J].Computer Vision and Image Understanding,2008,110(3):346-359.

[8]Nowak E,Jurie F,Triggs B.Sampling Strategies for Bag-of-Features Image Classification[J].Computer Vision-ECCV 2006,2006:490-503.

[9]张海波.基于DHMM的视觉语言识别[D].吉林大学,2010.

[10]Juang B H,Rabiner L R.Hidden Markov Models for Speech Recognition[J].Technometrics,1991,33(3):251-272.

[11]Kim D,Song J,Kim D.Simultaneous Gesture Segmentation and Recognition Based on Forward Spotting Accumulative HMMs[J].Pattern Recognition,2007,40(11):3012-3026.

[12]Schlenzig J,Hunter E,Jain R.Recursive Identification of Gesture Inputs Using Hidden Markov Models[C].Applications of Computer Vision,1994.,Proceedings of the Second IEEE Workshop on.IEEE,1994:187-194.

[13]Forney G D.The Viterbi Algorithm[J].Proceedings of the IEEE,1973,61(3):268-278.

[14]Welch L R.Hidden Markov Models and the Baum-Welch Algorithm[J].IEEE Information Theory Society Newsletter,2003,53(4):10-13.

猜你喜欢

手语手势摄像头
浙江首试公路非现场执法新型摄像头
摄像头连接器可提供360°视角图像
挑战!神秘手势
自然手语在聋人大学生手语中的使用调查研究——以南京特殊教育师范学院为例
无声的世界里,怎样唱一首歌?
胜利的手势
奇怪的手语图
奔驰360°摄像头系统介绍
认手势说数字
找出摄像头花屏的“罪魁祸首”