基于SURF-BoW特征的手语识别研究
2016-12-28彭平罗远峰
彭平,罗远峰
(1.广州工商学院计算机科学与工程系,广州 510665;2.广东技术师范学院计算机科学学院,广州 510665)
基于SURF-BoW特征的手语识别研究
彭平1,罗远峰2
(1.广州工商学院计算机科学与工程系,广州 510665;2.广东技术师范学院计算机科学学院,广州 510665)
在手语识别的研究中,提出一种基于SURF-BoW特征的手语识别方法。该方法通过摄像头采集图像,首先对手势进行定位与跟踪,然后提取SURF特征,进而构建SURF-BoW作为手语特征并用SVM进行识别。实验结果表明,该方法对单个字母最好识别率为99.43%,平均识别率为94.38%。
SURF;手语识别;SVM;CamShift
0 引言
近年来,人工智能、深度学习、虚拟现实(VR)和增强现实(AR)等技术飞速发展,逐步改变着我们的日常生活。在人机交互方式上,如何更自然、更便捷、更智能、更直观的人机交互方式已成为当前计算机领域的研究热点。另外,对于聋哑人这部分特殊群体,由于不能用口语进行表达,只能依靠手势、肢体动作和眼神等方式来沟通交流,而大部分人并不懂手语,由此阻碍了聋哑人与他人的交流、学习、交流和生活。由此,手语识别也迎来了发展的契机,手语识别系统的研究不仅能够创建一种自然、和谐的人机交互方式,推动计算机视觉领域的发展,而且能够切实帮助聋哑人改善学习、生活和工作环境,是一个具有重大意义的研究课题。
手语识别研究主要分为基于佩戴式设备的手语识别和基于计算机视觉的手语识别。由于基于佩戴式设备的识方法所采用的跟踪器或数据手套价格较高,且穿戴复杂,所以很难推广到实际的应用中。而基于计算机视觉的识别方法只需通过摄像头采集图像,再利用算法对图像进行分析识别,所需设备成本很低且适于普及应用。在手语识别过程中,由于手形变化多样、形态复杂,加上容易受光照等因素的影响,进一步加大了手势跟踪、分割、特征提取和识别的难度,这也是目前需要解决的技术难题。
本文采用普通摄像头作为手语图像的采集设备,提出一种基于人体结构的双手定位方法,实现双手定位,进而进行跟踪,再利用SURF进行手势图像的特征提取,然后利用K-Means聚类算法构建视觉词汇表,再构造BoW(Bag of Words)统计手势图片各个类别出现的频率,最后使用SVM进行分类。
1 双手检测与定位
手语需要左手、右手、面部表情和肢体动作等相互配合,才能表达打手语者需要表达的意思。对于单手的检测与定位,前人已做了很多研究,且有很多较好的成果[1-2],但对于双手的检测与定位,这方面的研究较少。很多只能在双手粘合的情况下实现检测与定位,但对双手分开且距离较远时,依然只能检测出一只手,没有真正实现双手的识别。
本文对双手的检测与定位进行研究,提出一种基于人体结构的双手定位方法:该方法在初始化时,首先通过人脸检测,如果图像中出现人脸,则认为实验场景中出现打手语者,然后以人脸肤色的最低像素点将图像划分为四个区域(见图1)。由此,认为区域A和区域B出现的所有肤色都不是打手语者的手。然后再利用面积法过滤掉较小的肤色块,最后认为区域C中最大的肤色块即是打手语者的右手,区域D中最大的肤色块即是打手语者的左手,从而实现双手的检测与定位。
图1 双手检测与定位区域划分
本文实现了这一方法,经过多次测试,这一方法能够很好的将区域A和区域B中的干扰去除,通过缩小手势检测的区域来提高算法的执行效率。另外,对复杂动态背景干扰下的手势识别有着很好的稳定性,只要区域C中和区域D中不存在比手的肤色块大的背景,就能够准确的定位出双手位置,然后进行跟踪,算法的实现流程如下:
(1)输入图像image,对其进行预处理。
(2)建立YCgCr和YCgCb颜色空间[3]并进行拟合,找出肤色像素并进行二值化操作,输出肤色检测结果图像Bimage。
(3)在图像中利用OpenCV自带的人脸检测器搜索人脸[4],根据人脸将图像分成A、B、C、D四个区域。
(4)在区域C中检测轮廓集NC,在区域D中检测轮廓集ND,用面积法删除过小的肤色块。
(5)在区域C中找出最大的轮廓认为是右手,在区域D中找出最大的轮廓认为是左手。
2 手势跟踪与特征提取
在复杂背景中提取手势,包括运动手势区域检测跟踪和手势的特征提取两个方面。
2.1 CamShift跟踪
在利用CamShift算法进行手势跟踪的过程中,由于CamShift算法是只利用颜色统计来做分析并进行跟踪,如果背景有与跟踪目标的颜色相似的物体时,则可能让CamShift算法的跟踪窗口中包含与目标无关的物体,从而导致目标跟踪错误。在对手的跟踪过程中,如果出现另外一手对其进行干扰,则错误出现的机率很高。如图2(A)中所示,在跟踪右手的时候,使用左手进行干扰时,由于右手的颜色与左手颜色基本相同,CamShift算法将干扰的右手误判为目标手势而进行了跟踪;
另外,当手移动较快时,CamShift算法的窗口宽度会越来越小,最后会出现目标丢失的情况,如图2(B)中所示,在实验对字母T进行跟踪时,由于手移动过快,CamShift算法出现跟踪目标丢失的情况[5-6]。
图2 CamShift算法误跟踪标和丢失目标实验
对此,本文在CamShift算法的基础上,提出一种基于肤色模型和CamShift的手势跟踪方法。主要是利用轮廓的质心与CamShift计算出新跟踪窗口的质心来确定跟踪目标,在跟踪过程中不断修正跟踪窗口,避免跟踪丢失。算法的原理是:(1)利用YCgCr与YCgCb颜色空间分割出肤色并进行二值化操作,以减少非肤色区域对跟踪的干扰;(2)找出图像中所有的肤色轮廓,利用面积法删除过小的非手势轮廓,以减少运算量;(3)计算出满足条件的轮廓质心,找出CamShift跟踪窗口质心与轮廓质心距离最短的轮廓,认为该轮廓就是要继续跟踪的目标;(4)用该轮廓的矩形包围框大小修正CamShift跟踪窗口,计算下一帧。当新跟踪窗口突然增大一倍时,认为有干扰物体,跟踪窗口保持不变。
图3是本文实现的算法实验效果,图中椭圆区域为定位的人脸区域,红色矩形框为跟踪的左手,红色小圆圈为左手CamShift的质心,蓝色矩形框为跟踪的右手,红色小圆圈为右手CamShift的质心。可见,利用YCgCr与YCgCb颜色空间分割出手势后再利用轮廓质心与CamShift算法的跟踪窗口质心的最短距离来选择跟踪目标,能够有效减少非手势的干扰,提高跟踪准确率。但是经过多次测试发现,由于是基于肤色的分割模型,当左右手重叠在一起时,两个CamShift跟踪同一目标,导致双手分离后,只能跟踪其中一只手。对此,在左右手完全重合时,表明图像中只找到一只手,两个CamShift跟踪窗口在跟踪同一目标。当其分开后,可以重新执行前文中的双手定位算法,以修正对双手的跟踪,增强系统的鲁棒性。
图3 本文的跟踪方法实验
2.2 SURF-BoW特征表示
SURF(Speeded Up Robust Features)是对SIFT算法的一种改进,它继承了SIFT的尺度不变性的优点,同时具有重复性、特异性和鲁棒性,SURF与其他算法相比,计算和匹配速度更快,能够满足实时性的需求[7-8]。
图4为SIFT与SURT的特征提取实验。(a)(c)是同一幅图像,利用SIFT提取到382个特征点,而SURF提取到851个特征点;(c)(d)是字母Z经过图像分割后的图像,利用SIFT提取到的特征点为50个,而SURF提取到71个特征点。可见SURF能够提取到更多的特征,利于BoW模型的建立。
图4 SIFT与SURF特征点对比
BoW最早出现在文本分类中,它的基本思想是:对于任意一个文本,忽略其词序、语法和句法等要素的影响,只把它看作是由一些词汇组成的集合体。因此,在一个文本中任意位置出现的任意单词,都不会改变文档的语意,文本中所有的单词都是孤立存在的[9]。
将Bag of Words模型应用在手语图像识别中,即可以将图像看作是由很多不同的手语视觉词汇组成的文档,且不同视觉词汇之间互不影响,任意组合。但是手语图像中的手语视觉词汇不是直观显示的,需要对图像进行特征提取,将手语视觉词汇从图像中抽取出来,再建立手语图像构造BoW。该过程主要有以下几个步骤:
(1)提取特征:通过图像预理、手势检测定位,应用SURF算法提取手势的兴趣点;
(2)特征表示:采用SURF来表示图像内容;
(3)视觉单词生成:将SURF表示的图像划分若干个小区域,将各个小区域的图像量化成手语视觉单词;
(4)BoW生成:首先统计一幅手语图像中的各个视觉单词出现的频率,然后生成视觉单词的频率直方图,再用BoW模型来表示该手语图像,最后利用SVM进行分类识别。
图5 构造BoW模型的流程示意图
3 手语识别实验
实验运行环境:CPU为Intel i5-4460,主频3.2GHz;内存为DDR3 1333MHz,8G;显卡为Nvidia GeForce GT740,显存1G;摄像头为罗技C170 USB摄像头。软件开发环境为:操作系统是Windows7 64bit;集成开发环境为Visual Studio 2010,应用程序框架MFC,编程语言为C++;计算机视觉库版本OpenCV 2.4.10。
手指语图像采集过程中,采取同一人打同一手势多次,不同人打同一手势多次的策略,在不同背景和光照环境下进行采集,分别对30个手指语进行采集,每种手指语图片采集100张,共30×100张,以保证手语训练特征提取更完整。将采集的手语图片按照手势的名字存储,以备对手语进行训练。如图6是手语手采集的过程,其中a为手势定位与跟踪,b为肤色分割结果,c为手势区域选取,d为手势分割结果。
图6 手语手采集过程
实验通过摄像头实时提取图像,分割出手势区域,再利用SURF提取手语手势特征,建立BoW模型,最后采用径向基核函数(Radical Basis Function,RBF)SVM模式识别方法实现对中国手指语的识别[10],主要包含以下步骤:
测试过程中采用实时检测的方式,对30个字母分别进行50次测试,相当于1500张测试图片,其中不同手势交替进行识别,同时进行多轮测试,以验证系统的手势跟踪的准确率,最后统计手语识别的正确率。基于SURF-BoW特征和SVM分类器识别结果如表1所示,平均识别率为94.38%。
表1 基于单目视觉的手语识别系统识别结果统计表
在相同的实验条件下,相同手势在不同的特征下识别结果如表1所示,其中误判率为SVM对相似字母的误识别率。在相同手语库上的实验表明,SURF_BoW的方法在各项指标中均优于其他特征描述方法,是一种非常有效的手语特征。
4 结语
本文提出了一种基于SURF-BoW特征的手语识别方法,对30个中国手指语在不同的环境下进行了识别实验,可获得较高的识别率,这说明本文提出的方法是有效的,为手语识别方法的研究提供参考与借鉴。
图7 手语识别步骤
表2 不同特征的手语识别方法比较
[1]杨志红,肖忠毅.基于视觉的多特征手势识别[J].电子技术与软件工程,2015(9):85-85.
[2]孙丽娟,张立材,郭彩龙.基于视觉的手势识别技术[J].计算机技术与发展,2008,18(10):214-216.
[3]张争珍,石详跃.YCgCr与YCgCb颜色空间的肤色检测[J].计算机工程与应用,2010,46(34):167-170.
[4]ROBERT L.OpenCV计算机视觉编程攻略[M].第5版.相银.北京:人民邮电出版社,2015.
[5]杨全.基于表观建模的中国手语识别技术研究[D].西北大学,2013.
[6]邹铁军,张书伟,蒋杰,等.基于OpenCV的运动目标定位跟踪系统软件设计[J].智能计算机与应用,2012,02(3):60-63.
[7]Bay H,Tuytelaars T,Gool L V.SURF:Speeded Up Robust Features[J].Computer Vision&Image Understanding,2006,110(3):404-417.
[8]Yang Q,Peng J Y.Chinese Sign Language Recognition Method Based on Depth Image Information and SURF-BoW[J].Pattern Recognition&Artificial Intelligence,2014,27(8):741-749.
[9]王莹.基于BoW模型的图像分类方法研究[D].哈尔滨工程大学,2012.
[10]高幸.基于SVM的图像分类与标注方法的研究[D].北京交通大学,2015.
Research on Sign Language Recognition Base on SURF-BoW Features
PENG Ping1,LUO Yuan-feng2
(1.Guangzhou College of Technology and Business,Guangzhou 510665;2.Guangdong Polytechnic Normal University,Guangzhou 510665)
In the sign language recognition research,presents a sign language recognition method based on SURF-BoW.It uses ordinary camera as the video capture device.First,tracks gesture detection and.Second,Extracts the SIFT features.Finally,builds SURF-BoW as the feature of sign language and uses SVM for recognition.The experimental results show that the best recognition rate of single manual alphabet can reach 99.43%,while the average recognition rate is 94.38%.
SURF;Sign Language Recognition;SVM;CamShift
1007-1423(2016)33-0037-05
10.3969/j.issn.1007-1423.2016.33.008
彭平(1956-),男,重庆人,硕士,教授,研究生导师,研究方向为系统仿真、软件工程、智能计算
2016-10-08
2016-11-12
罗远峰(1987-),男,在读硕士研究生,研究方向为计算机视觉和BIM应用技术