动态手势轨迹跟踪与HMM模式识别
2014-12-16林伟强庄宝山
林伟强 庄宝山
摘要:为了理解用户手势的含义,该文首先利用摄像头捕获连续运动的手势,随后将其进行部分图像的预处理操作,利用手势分割技术将手势部分分割出来,并提取手势的质心以及面积的大小作为特征向量,用于建立隐马尔可夫模型的参数,最终形成一个能理解用户手势操作的系统,并对其进行应用。
关键词:手势识别;隐马尔可夫模型;手势分割
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)32-7714-05
Abstract:To understand the meaning of users hand gestures, first of all, this article uses cameras to capture a series pictures of moving hands and then predo these pictures by using the technology of hand gestures segment to identify hands, extracting the central position and calculating the areas of hands, using these elements to build hidden markov model. Finally to form a system which can understand the meaning of users hand movement.
Key words: Hand Gesture Trajectory Tracking; HMM; Hand Gesture Segment
随着科技技术的日新月异,计算机科学的蓬勃发展,计算机已经成为了人们生活中不可获取的一个主要物品。而在其间,人机交互技术大大的方便了人们的生活,俨然成为了众多学者研究学习的主要内容。由于手势动作能够很好的表现人们想要传达的意思,使之成为计算机与人交互的主要方式之一,因此手势的识别在这些研究课题中成为了热门话题。
本文是基于摄像头捕获图像后,利用图像处理技术进行动态手势轨迹的跟踪与HMM模式的识别。其内容包括图像预处理、手势分割与定位、手势的分析以及基于HMM模式的手势识别四大块的研究,并给出了自己的设计方案。
在手势识别过程当中,不论是静态手势还是动态手势,都必须首先获得手势的图像,随后进行手势的检测,手势分割,手势的分析,最后进行手势的识别。具体流程如图1所示。
迄今为止,隐马尔可夫模型在识别领域已经有着形形色色的应用。如Schlenzig[1]利用隐马尔可夫模型进行的手势识别,研究过程中为每个手势赋予一个隐马尔可夫模型用于后续识别手势含义。再如Nam与Wohn[2]研究的手势识别系统,通过该研究很好的让计算机理解时空手势的含义。卡内基梅隆大学的Christopher Lee与 Yangsheng Xu[3],他们利用隐马尔可夫模型,开发了一套手势识别的系统,判断手势含义。
1 HMM理论基础
隐马尔可夫模型是可用于标注问题的统计学习模型。该模型描述由隐藏的马尔可夫模型随机生成观测序列的过程,其中状态的转移以及观测序列的输出都是随机的。其中状态转移的随机过程是隐式的,通过观察序列的随机过程表达出来 [4]。由于人的手势的运动(包括其运动方向和形态的变化)存在着很大的随机性,所以用HMM模型来描述手势的运动,可以满足手势的随机运动及变化的特性。
2 手势分析
手势分析是完成手势识别的关键技术,其结果将直接影响到识别阶段的识别率。通过手势的分析阶段的工作,可以获得手势的一些特征,并将其运用到识别阶段。这些特征可以包括手势的形状特征、运动的轨迹、面积大小等,他们与手势所表达的意义直接相连。该文采用手的质心位置的变化特征以及手部分面积变化来对运动的手势含义进行分析。
在对手势进行分析之前,首先需要将手势部分很好的分割出来,因为是否能准确分割出手的部分对后续的特征提取以及手势的识别阶段的准确率会造成巨大的影响。但是由于光照强度不同的问题,往往会对手势分割带来巨大的困难。为了解决光照问题对手势分割的影响,该文采用帧间差分结合肤色建模的方法来分割手势。
2.1 帧间差分技术
帧间差分法[5]是通过相邻两帧图像做相减操作后,得到运动部分图像的方法,只要获取的图像内物体有变化运动,那么帧间差分法就能很容易的将他们提取与识别出来。在具体运用当中常常设置一个阈值,当摄像头捕获的相邻两帧图像相减过后的值大于所设置的阈值之时,就可以判断当前图像中有存在运动的物体。在手势识别系统当中运用了这种方法,用于判断在图像中处于运动的手势的位置,为后续提取手势的特征打下基础。再确定蓝色分量和红色分量的取值范围,如果样本中的肤色点在此范围内,就认为此点就在边界之内,否则就认为在边界之外。
运用帧间差分与肤色建模,就能够很好的将运动的手势部分分割出来,因为在手势运动的过程当中,很有可能除手部分以外的背景物运动而造成对手势提取的不准确。利用肤色建模结合帧间差分首先确定肤色部分,然后叠加运动部分,就能准确的分割出运动的手。
在提取完运动的手势部分,需要提取特征用来支持最后的识别阶段。由于本文对手势运动的结果划分为上、下、左、右、放大、缩小以及旋转,针对上下左右分别对已经通过帧间差分以及肤色建模分割出手的部分利用函数计算出手部分的质心位置作为特征向量,用于判断质心的走势,由此将他们分为上下左右。而对于放大缩小和旋转来说,放大、缩小以及旋转是通过函数计算分割出手势部分的面子变化作为特征向量,面积变大的为放大操作,面积变小的为缩小操作,面积基本保持不变的为旋转操作。endprint
3 HMM手势识别
在运用HMM模型进行手势识别的过程中,首先通过摄像头采集图像,对其进行简单的去噪与增强操作以后,利用手势分割阶段的技术(结合肤色建模以及帧间差分法)将手势分割出来,接着运用函数提取手势的质心,面积等特征向量给手势识别阶段的HMM模型建模过程,运用训练样本训练完隐马尔可夫模型参数之后,最后使用测试样本对生成的模型的识别率进行测试。
在这整个过程当中在手势分析阶段分割出的手势以及提取的特征向量的基础上,采用学习率为0.6的HMM模型参数学习的方法对动态手势进行训练。该文选取上、下、左、右、放大、缩小以及旋转7个手势,采用大量样本对其的HMM模型进行训练。在HMM建模阶段,每个手势对应一个HMM模型,除放大、缩小和旋转通过面积大小的变化判断之外(面积变大为放大,面积变小为缩小,面积基本不变为旋转),其余2个手势通过建立HMM模型来进行判断。
实验结果表明,利用质心移动进行判断手势走向的识别率较高,而通过计算面积进行识别的放大、缩小及旋转的识别率相对于通过质心移动判断的方法来说要低。这是由于按照质心走势的运动方向对于手势的运动判断相对的直观,质心在图像内的某个方向上的坐标变化相对明显(如向上手势,朝着向上方向的坐标变化就相对明显),因此比较容易辨别出手势的运动方向,所以识别率相对较高。然而,对于通过计算面积变化来判断手势含义的放大、缩小以及旋转三个手势来说,由于手势分割阶段分割出的手的部分还不算好,以及手势在做上下左右运动时候摄像头拍摄到手势的角度不同,所以导致计算面积变化的时候误差相对较大,以至于旋转部分的手势很容易会识别成为放大或者缩小,向左向右的手势由于摄像头的采集图像角度不同而造成面积的变化,导致识别率的降低。
对此要想对识别率得以提升,必须增加部分特征向量,上下左右的运动不仅依靠坐标的变化,放大缩小旋转变化不局限于面积的变化,这样增加了限定条件之后,可以更精确的定义每一个手势,以此来提高手势的识别率。
4 结束语
本文主要通过外部设备自行采集连续的图像之后,对其进行分析,从中提取出手势的部分,对其的运动状态进行判断,从而从计算机的角度理解用户的交互行为。实现通过摄像头获取手势动作的内容,从而实现翻页、上拉、下拉、放大、缩小、旋转等动作,从而进行人机交互。
参考文献:
[1] Schlenzig J, Hunter E, Jain R. Recursive Identification of Gesture Inputers Using Hidden Markov Models[C]//Proc.2nd Annual Conf on Applications of Computer Vision,1994:187-194.
[2] Campbell L W, Becker D A, Azarbayejani A, et al. Invariant Features for 3-D Gesture Recognition[C]//Proc.2nd International Workshop on Face and Gesture Recognition. Killington VT,1996.
[3] Lee C, Xu Y. Online, Interactive Learning of Gestures for Human Robot Interfaces[J].IEEE Int Conf on Robotics and Automation,1996,3(1):30-42.
[4] 李航.统计学习方法[M].清华大学出版社,2012.
[5] 王威.基于背景和帧间差分方法的运动目标检测的研究[J].上海大学,2008.
[6] 田欣.基于不同色彩空间的肤色模型[J].西安科技学院学报,2011(04):369-371.endprint
3 HMM手势识别
在运用HMM模型进行手势识别的过程中,首先通过摄像头采集图像,对其进行简单的去噪与增强操作以后,利用手势分割阶段的技术(结合肤色建模以及帧间差分法)将手势分割出来,接着运用函数提取手势的质心,面积等特征向量给手势识别阶段的HMM模型建模过程,运用训练样本训练完隐马尔可夫模型参数之后,最后使用测试样本对生成的模型的识别率进行测试。
在这整个过程当中在手势分析阶段分割出的手势以及提取的特征向量的基础上,采用学习率为0.6的HMM模型参数学习的方法对动态手势进行训练。该文选取上、下、左、右、放大、缩小以及旋转7个手势,采用大量样本对其的HMM模型进行训练。在HMM建模阶段,每个手势对应一个HMM模型,除放大、缩小和旋转通过面积大小的变化判断之外(面积变大为放大,面积变小为缩小,面积基本不变为旋转),其余2个手势通过建立HMM模型来进行判断。
实验结果表明,利用质心移动进行判断手势走向的识别率较高,而通过计算面积进行识别的放大、缩小及旋转的识别率相对于通过质心移动判断的方法来说要低。这是由于按照质心走势的运动方向对于手势的运动判断相对的直观,质心在图像内的某个方向上的坐标变化相对明显(如向上手势,朝着向上方向的坐标变化就相对明显),因此比较容易辨别出手势的运动方向,所以识别率相对较高。然而,对于通过计算面积变化来判断手势含义的放大、缩小以及旋转三个手势来说,由于手势分割阶段分割出的手的部分还不算好,以及手势在做上下左右运动时候摄像头拍摄到手势的角度不同,所以导致计算面积变化的时候误差相对较大,以至于旋转部分的手势很容易会识别成为放大或者缩小,向左向右的手势由于摄像头的采集图像角度不同而造成面积的变化,导致识别率的降低。
对此要想对识别率得以提升,必须增加部分特征向量,上下左右的运动不仅依靠坐标的变化,放大缩小旋转变化不局限于面积的变化,这样增加了限定条件之后,可以更精确的定义每一个手势,以此来提高手势的识别率。
4 结束语
本文主要通过外部设备自行采集连续的图像之后,对其进行分析,从中提取出手势的部分,对其的运动状态进行判断,从而从计算机的角度理解用户的交互行为。实现通过摄像头获取手势动作的内容,从而实现翻页、上拉、下拉、放大、缩小、旋转等动作,从而进行人机交互。
参考文献:
[1] Schlenzig J, Hunter E, Jain R. Recursive Identification of Gesture Inputers Using Hidden Markov Models[C]//Proc.2nd Annual Conf on Applications of Computer Vision,1994:187-194.
[2] Campbell L W, Becker D A, Azarbayejani A, et al. Invariant Features for 3-D Gesture Recognition[C]//Proc.2nd International Workshop on Face and Gesture Recognition. Killington VT,1996.
[3] Lee C, Xu Y. Online, Interactive Learning of Gestures for Human Robot Interfaces[J].IEEE Int Conf on Robotics and Automation,1996,3(1):30-42.
[4] 李航.统计学习方法[M].清华大学出版社,2012.
[5] 王威.基于背景和帧间差分方法的运动目标检测的研究[J].上海大学,2008.
[6] 田欣.基于不同色彩空间的肤色模型[J].西安科技学院学报,2011(04):369-371.endprint
3 HMM手势识别
在运用HMM模型进行手势识别的过程中,首先通过摄像头采集图像,对其进行简单的去噪与增强操作以后,利用手势分割阶段的技术(结合肤色建模以及帧间差分法)将手势分割出来,接着运用函数提取手势的质心,面积等特征向量给手势识别阶段的HMM模型建模过程,运用训练样本训练完隐马尔可夫模型参数之后,最后使用测试样本对生成的模型的识别率进行测试。
在这整个过程当中在手势分析阶段分割出的手势以及提取的特征向量的基础上,采用学习率为0.6的HMM模型参数学习的方法对动态手势进行训练。该文选取上、下、左、右、放大、缩小以及旋转7个手势,采用大量样本对其的HMM模型进行训练。在HMM建模阶段,每个手势对应一个HMM模型,除放大、缩小和旋转通过面积大小的变化判断之外(面积变大为放大,面积变小为缩小,面积基本不变为旋转),其余2个手势通过建立HMM模型来进行判断。
实验结果表明,利用质心移动进行判断手势走向的识别率较高,而通过计算面积进行识别的放大、缩小及旋转的识别率相对于通过质心移动判断的方法来说要低。这是由于按照质心走势的运动方向对于手势的运动判断相对的直观,质心在图像内的某个方向上的坐标变化相对明显(如向上手势,朝着向上方向的坐标变化就相对明显),因此比较容易辨别出手势的运动方向,所以识别率相对较高。然而,对于通过计算面积变化来判断手势含义的放大、缩小以及旋转三个手势来说,由于手势分割阶段分割出的手的部分还不算好,以及手势在做上下左右运动时候摄像头拍摄到手势的角度不同,所以导致计算面积变化的时候误差相对较大,以至于旋转部分的手势很容易会识别成为放大或者缩小,向左向右的手势由于摄像头的采集图像角度不同而造成面积的变化,导致识别率的降低。
对此要想对识别率得以提升,必须增加部分特征向量,上下左右的运动不仅依靠坐标的变化,放大缩小旋转变化不局限于面积的变化,这样增加了限定条件之后,可以更精确的定义每一个手势,以此来提高手势的识别率。
4 结束语
本文主要通过外部设备自行采集连续的图像之后,对其进行分析,从中提取出手势的部分,对其的运动状态进行判断,从而从计算机的角度理解用户的交互行为。实现通过摄像头获取手势动作的内容,从而实现翻页、上拉、下拉、放大、缩小、旋转等动作,从而进行人机交互。
参考文献:
[1] Schlenzig J, Hunter E, Jain R. Recursive Identification of Gesture Inputers Using Hidden Markov Models[C]//Proc.2nd Annual Conf on Applications of Computer Vision,1994:187-194.
[2] Campbell L W, Becker D A, Azarbayejani A, et al. Invariant Features for 3-D Gesture Recognition[C]//Proc.2nd International Workshop on Face and Gesture Recognition. Killington VT,1996.
[3] Lee C, Xu Y. Online, Interactive Learning of Gestures for Human Robot Interfaces[J].IEEE Int Conf on Robotics and Automation,1996,3(1):30-42.
[4] 李航.统计学习方法[M].清华大学出版社,2012.
[5] 王威.基于背景和帧间差分方法的运动目标检测的研究[J].上海大学,2008.
[6] 田欣.基于不同色彩空间的肤色模型[J].西安科技学院学报,2011(04):369-371.endprint