基于肤色和运动检测技术的单目视觉手势分割*

2011-03-06曹昕燕赵继印

湖南大学学报（自然科学版） 2011年1期

关键词：肤色手语手势

曹昕燕,赵继印,李敏

(1.吉林大学通信工程学院,吉林长春 130022;2.长春大学电子信息工程学院,吉林长春 130022; 3.大连民族学院机电信息工程学院,辽宁大连 116600)

基于肤色和运动检测技术的单目视觉手势分割*

曹昕燕1,2,赵继印1†,李敏3

(1.吉林大学通信工程学院,吉林长春 130022;2.长春大学电子信息工程学院,吉林长春 130022; 3.大连民族学院机电信息工程学院,辽宁大连 116600)

在分析肤色的信息特征和手势的运动特性基础上,构建了一种基于单目视觉的手势分割方法,可从视频图像序列中获取有意义的手势区域.针对确定的背景图像,以10帧的采样间隔采集手势图像,通过肤色信息特征来获得手势的肤色区域,同时通过差分法获得手势的运动区域,再将肤色区域与运动区域进行融合处理获得初始的手势区域,在此基础上,进一步研究了数学形态学的腐蚀和膨胀算法,实现了视频图像序列中的手势分割与定位.实验结果表明,该方法具有较好的手势分割效果和较高的定位准确度.

单目视觉;手势分割;运动检测;肤色检测;数学形态学

手语是一种聋人使用的人体运动语言,由手形、手臂动作辅之以表情、唇动以及其他体势来表达思想,是一种靠动作和视觉交际的特殊语言,是聋人间进行信息交流最自然的方式.但是,现实生活中大部分健全人看不懂手语,研究手语识别的目的就是要提供一种有效准确的机制将手语翻译成文本或语音,使得聋人和健全人之间的交流变得更加方便和快捷.此外,随着计算机对现代生活影响的日益广泛,人们渴求一种更加直接、和谐、自然的人机交互方式,因此手语识别作为智能人机交互领域中的一个重要组成部分已成为备受关注的研究热点.手语识别研究涉及机器人学、空间几何学、人工智能、模式识别、计算语言学、计算机视觉等多个学科领域,手语识别问题的解决对于表情识别、唇读、步态识别、视觉导航、视频检索等问题的研究具有积极的借鉴意义.因此,手语识别的研究和实现具有重要的学术价值和广阔的应用前景.手语识别主要包括手势的分割、特征提取、跟踪和识别4个方面,其中手势分割是手语识别过程中极为关键的技术问题,也是提高手语识别率的瓶颈问题,手势分割的好坏直接影响后续的手势特征提取、跟踪和识别的精度和准确度.

在手势分割的研究中,近年来国内外许多研究人员提出了多种方法,主要包括约束限制法、模板匹配法、肤色分割法和图像差分法等.约束限制法是通过佩戴不同颜色的手套,或通过增加手部与背景的对比来强调前景与背景区别,以简化手势区域与背景区域的划分,但这些人为的约束限制了手势交流的自由性[1-4].模板匹配法是利用手形数据库将手势图像与手形数据库中的模板进行比对,这种方法是建立在大量的手形数据库的基础上,加之手是一个不确定的非刚体,因此比对起来比较困难,计算量也较大,无法满足实时性要求[5].肤色分割法是根据肤色在不同颜色空间中的分布特点和肤色的聚类特性来进行手势分割,这种方法会因为手部不同部位相对光源的角度不同而使肤色受到较大影响[6-10].图像差分法是将运动的手势图像与静止的背景图像相减来获得手势图像,这种方法如果不能保证背景图像和手势图像的对应像点在空间上位于同一目标点上时将产生很大误差[11-12].单独使用这些方法对于要求快捷、方便、实用的基于视觉的手语识别都具有一定的局限性,都无法精确地描述手势,严重影响了手势分割的效果.因此本文提出了一种将肤色信息与运动信息相融合的单目视觉手势分割方法,实验结果表明,该方法能够准确有效地进行手势分割与定位.

1 手势分割原理

1.1 肤色检测

1.1.1颜色空间

肤色是人体表面最为显著的特征之一,是人脸部及手部区别于其他部分的重要特征,所以常将人体的肤色信息应用于人脸检测、手势识别等研究中.研究表明影响肤色变化的最主要因素是亮度,虽然不同人的肤色相差较大,但在去除亮度的颜色空间中肤色具有良好的聚类性[13].因此,为了减少肤色受亮度信息的影响,通常先将颜色空间从RGB颜色空间转换到某个亮度与色度分离的颜色空间,主要有HSV颜色空间、YUV颜色空间、YCbCr颜色空间、归一化的RGB颜色空间和CIELab颜色空间等,然后放弃亮度分量,在双色差平面上将肤色与背景区分开来[6-10].在这些亮度与色度分离的颜色空间中,YCbCr颜色空间具有与人的视觉感知一致性,在数字视频中获得成功应用,且在Cb-Cr平面上具有较好的聚类性[14],所以本文选择YCbCr颜色空间.

在YCbCr颜色空间中,亮度信息用单个分量Y表示,彩色信息用两个色差分量Cb和Cr来存储,其中Cb分量表示蓝色分量和一个参考值的差,Cr分量表示红色分量和一个参考值的差.彩色分量Y, Cb,Cr可以由R,G,B三基色经过线性变换得到,转换公式为:

1.1.2 肤色模型

肤色模型按像素级进行分类可分为阈值化模型、参数模型和非参数模型.由于参数模型能够通过内插来扩大不完全的训练数据,适合样本容量较小的训练和测试数据集,本研究根据肤色样本容量的特点,对肤色的描述选择高斯混合参数模型,其参数模型表示为[15]:其中:k为高斯密度函数的个数;权值wi为各个高斯密度函数对混合模型的贡献大小;μi为均值向量;Ci为协方差矩阵;x为肤色像素在YCbCr颜色空间中Cb分量与Cr分量的值.表达式分别为:

1.1.3 肤色判决

肤色判决可采用2种不同的决策方式,一是仅基于肤色模型的决策,二是同时使用肤色和非肤色模型的决策.第2种分类器性能要优于第1种分类器性能.本文采用最小总错误概率准则来进行肤色的判决,其属于第2种决策方式.

设总错误概率为:

其中:η为判决门限;Pα(η)为虚警概率;Pβ(η)为漏报概率.

1.2 运动目标检测

运动目标检测的关键是顺序从视频图像序列的各帧图像中将变化的运动区域从背景图像中提取出来.常用的运动目标检测方法有光流法、帧间差分法和背景差分法等,光流法是利用运动目标随时间变化的光流特性来有效地提取和跟踪运动目标,但是光流法要求相邻图像之间的时间间隔非常小,两幅相邻图像之间不发生显著变化,而且光流法的计算量非常大,不适合实时的手势分割.帧间差分法是利用图像序列中前后几个相邻帧之间的差分来提取出图像中的运动区域,由于用来差分的图像时间间隔很短,所以帧间差分法比较适用于存在多个运动目标和摄像机移动的情况,但它不能够完整地分割出运动目标,而且在运动物体内部容易产生空洞现象,不利于后期的目标分析与识别.背景差分法是在摄像机静止的条件下的一种运动检测技术,它能够提供较完全的特征数据,并取得比较好的分割效果,综合性能较好.本文针对室内固定摄像机和背景相对静止的特点,采用背景差分法,即通过当前手势图像与背景图像相减来获得手势运动区域,从而实现手势的运动目标检测.

设f0(x,y)为背景图像在(x,y)处的灰度值, f1(x,y)为采集到的当前手势图像在(x,y)处的灰度值,则差分后图像d(x,y)在(x,y)处的灰度值可表示为:

其中:T为阈值.阈值的选取与图像分割的质量有直接关系,如果阈值选取得过低,会导致背景像素能够越过阈值而被判为运动目标;如果阈值取得过高,也会导致本来属于前景的运动目标被判为背景像素,使得运动目标出现丢失情况.

设初始阈值为T0,取差分后图像d(x,y)中灰度值最大的像素点和灰度值最小的像素点,分别记作dmax(x,y)和dmin(x,y),令

根据公式(8)确定初始阈值T0,依据初始阈值T0差分后图像d(x,y)被分割成2个区域,分别计算这两部分区域的像素灰度均值μ1和μ2,则阈值为:

2 手势分割算法

本文中的手语识别主要用于特殊教育的手语教学中聋哑学生与正常教师之间的交流,对此应用,特做如下假定和限制:1)摄像机静止;2)背景图像无变化;3)运动目标不被遮挡.根据肤色的信息特性和手势的运动特性,本文将手部的肤色信息和运动信息相融合,提出了一种新的手势分割方法,具体实现如图1所示.首先确定初始背景并提取相关的手势图像,然后分别进行肤色分割和运动目标分割,再将两个分割结果进行融合,最后利用形态学处理方法将手势完整地分割出来并定位.

图1 基于单目视觉的手势分割过程Fig.1 Process of gesture segmentation based on monocular vision

2.1 确定初始背景与提取相关手势

首先将摄像机位置固定,在开始检测前,先对包含无运动的目标人在内的背景图像持续拍摄一段时间,建立初始背景环境.然后进行连续的手语拍摄,根据手语的动作频率,设定采样间隔为10帧,将相关帧的手势图像从视频图像序列中采集出来.

2.2 手势图像分割方法

2.2.1 肤色分割方法

根据肤色在YCbCr颜色空间的聚类特性,以及肤色在Cb-Cr平面上的分布特点,通过手工采集得到各种包括不同光照、性别、年龄和人种的肤色样本和非肤色样本作为训练和检验样本,利用这些样本值来训练和检验肤色和非肤色高斯混合参数模型,然后采用最小总错误概率进行肤色判决,最后得到手势的肤色二值图像.肤色和非肤色高斯混合参数模型中包含16个高斯密度函数,采用极大似然估计对均值向量μi和协方差矩阵Ci进行估计,分别得到肤色和非肤色高斯混合参数模型的均值向量μi和协方差矩阵C i的估计值,见表1和表2.

表1 肤色高斯混合参数模型的参数估计值表Tab.1 Parameter estimates tab le of color Gaussian m ix turemodel

表2 非肤色高斯混合参数模型的参数估计值表Tab.2 Parameter estimates tab le of non-color Gaussian m ix turemodel

根据最小总错误概率准则进行肤色的判决,式 (6)中似然概率P(x|skin)和的分布由肤色和非肤色样本的高斯混合模型确定,先验概率P(skin)和由训练样本中肤色和非肤色像素数目比确定:

2.2.2 运动目标分割方法

首先将初始的背景图像与提取的手势图像分别转换成灰度图像,然后再将手势图像和背景图像做减法运算,最后得到手势的运动二值图像.相减的结果中每个像素的值和一个预先设定的阈值相比较,若该像素的值大于给定的阈值,则认为当前手势图像在该像素点1处有运动变化;若该像素的值小于给定的阈值,则认为在该像素点处没有变化,从而把视频图像序列中发生运动的部分从图像序列中分割出来.本文采用迭代法来选取阈值,先根据公式(8)确定初始阈值T0,再按照初始阈值T0将图像分割成两个区域,分别计算这两部分区域的灰度均值μ1和μ2,然后按照公式(9)对阈值进行迭代,重复此步骤,直到Ti=Ti+1,即得到所选阈值.

2.3 手势分割及定位

将分别得到的肤色二值图像和运动二值图像相融合,得到二值肤色运动手势图像.由于手势本身存在指间间隙,以及图像噪声等干扰,分割后的手势图像存在孔洞或孤立的小目标等,并且分割后的图像边界也不够光滑,这对于后续的手势特征值的提取会带来一定的偏差.本文采用形态学处理方法来消除这些干扰,以及平滑边界,从而得到最终的手势图像.首先在二值肤色运动手势图像中提取连通区域,然后统计出各连通区域的大小,对于较小的孤立目标通过阈值门限来去除,而对于手势图像内部的孔洞则采用形态学中的闭运算来消除,最后对图像进行定位,为后续手势特征量提取做准备.

3 仿真实验及结果分析

本文是基于单目正面视觉,手语视频来源于互联网上的《大家学手语》视频录像[16],图像大小为352×288,实验硬件测试平台为英特尔奔腾双核处理器,主频2.0GH z,内存2GB DDR2的PC机.根据手语的动作频率,设定采样间隔为10帧,图2为从视频流中提取出的手势图像,分别为视频流的第27,37,47,57,67,77,87,97,107帧.

图2 从视频图像序列中提取出的手势图像Fig.2 Gesture images are ex trac ted from the video image sequence

图3为手势分割图像,其中图3(a)为初始背景图像,图3(b)是第57帧手势图像的肤色二值图像,图3(c)～图3(e)分别是第57帧手势图像在不同阈值下获得的手势运动二值图像,从图中可以看出,阈值T的选取对分割效果具有直接影响,当T过小时,如图3(c)T=4,在提取手势运动区域的同时还提取了部分背景区域;当T较大时,如图3(e)T= 12,使提取的运动区域不完整.实验表明,当阈值T的范围在(6,10)内取值时,图像分割的效果都比较理想,因此在算法编程实现时,选用T=8,如图3 (d)所示.图3(f)为经过形态学处理后的最终手势分割与定位图像.实验结果表明,采用本文的方法能有效准确地将视频图像中的手势区域分割出来.

图3 手势分割图像Fig.3 Gestures segmentation images

4 结论

本文针对单目视觉的手势分割,在分析肤色信息特征和手势运动特性的基础上,提出了一种准确的单目视觉手势分割方法.通过分析肤色在YCbCr颜色空间的亮度与色度分离的特点和Cb-Cr平面的聚类特性,构建了高斯混合模型,提出了最小总错误准则的肤色决策算法,获得了手势的肤色区域.研究了背景图像与当前手势图像的差分特性,采用迭代法获取手势分割阈值,得到了手势的运动区域.分析了形态学的腐蚀与膨胀方法,针对手势分割中产生的孔洞和孤立小目标构建了剔除算法,从而实现了视频图像序列中手势图像的精确分割与准确定位,为后续高精度手势特征提取、手势跟踪与手势识别提供了有力保证.同时,基于单目视觉的手势分割方法对人脸检测、步态识别、人体运动目标检测等领域的研究也具有重要的实际应用价值.

[1] W ANG Qi,CHEN X i-lin,ZHANG Liang-guo,et a l.Viewpoin tinvariant sign language recognition[J].Computer Vision and Image Understanding,2007,108(1/2):87-97.

[2] DENG JW,TSUI H T.A tw o-step approach based on PaHMM for the recognition of ASL[C]//The Fifth Asian Con feren ce on Computer V ision.M elbou rne,Victoria,Australia:ACCV,2002:126-131.

[3] STARNER T,WEAVER J,PENTLAND A.Real-time A-merican sign language recognition using desk and wearable computer based video[J].IEEE Transations on Pattern Analysisand Machine In telligence,1998,20(12):1371-1375.

[4] H EAP T,HOGG D.Wormholes in shape space:tracking th rough discontinuous changes in shape[C]//Proceedings of the IEEE Com puter Society Conference on Compu ter Vision and Pattern Recognition.Bombay,India:IEEE,1998:344-349.

[5] CUI Yun-tao,JONE JW.V iew-based hand segmentation and hand-sequen ce recognition w ith com plex backgrounds[C]// Proceedings of the IEEE International Conference on Pattern Recognition.Vienna,Austria:IEEE,1996:617-621.

[6] 路凯,李小坚,周金祥.基于肤色和边缘轮廓检测的手势识别[J].北方工业大学学报,2006,18(3):12-15.

LU Kai,LI Xiao-jian,ZHOU Jin-xiang.H and signal recognition based on skin color and edge outline exam ination[J]. Journal of North China University of Technology,2006,18 (3):12-15.(In Chinese)

[7] 姜威,陈援非,孔勇,等.一种在复杂背景彩色图像中划分手部图像的方法[J].山东大学学报:工学版,2003,33(4):410-412.

JIANG W ei,CHEN Yuan-fei,KONG Yong,et al.A new method for dividing hand image from com plex background[J]. Jou rnal of Shandong University of Technology:Engineering Science,2003,33(4):410-412.(In Chinese)

[8] HABILIN,LIM C C.H and and face segm entation using m otion and color cues in digital im age sequences[C]//P roceedings of IEEE InternationalConference on M ultimedia and Expo.Tokyo,Japan:IEEE Computer Society,2001:377-380.

[9] DU W ei,LI Hua.Vision based gestu re recognition system w ith single camera[C]//5 th In ternational Conference on Signal Processing Proceedings.Beijing,China:IEEE,2000: 1351-1357.

[10]陶霖密,徐光祐.机器视觉中的颜色问题及应用[J].科学通报, 2001,46(3):178-190.

TAO Lin-m i,XU Guang-you.Color problemsand applications in machine vision[J].Chinese Science Bulletin,2001,46(3): 178-190.(In Chinese)

[11]JULIEN L,FRANCOISB.Visual tracking of bare fingers for interactive surface[C]//Proceedings of the 17th Annual ACM Symposium on User Interface Software and Technology.Santa Fe,NM,USA:ACM Press,2004:119-112.

[12]VON HARDENBERG Christian,BERA RD Francois.Barehand human-computer interaction[C]//P roceedings of the 2001W orkshop on Perceptive User Interfaces.O rlando,Florida,USA:ACM Press,2001:1-8.

[13]YANG Jie,ALEXW.A real-time face tracker[C]//P roceedings of the 3rd IEEEW orkshop on Applications of Computer V ision.Sarasota,Floreda:IEEE,1996:142-147.

[14]CHA ID,NGAN K N.Face segm entation using skin-color map in videophone applications[J].IEEE Transactions on Circuitsand Systems for Video Technology,1999,9(4):551 -564.

[15]陈锻生,刘政凯.肤色检测技术综述[J].计算机学报,2006,29 (2):194-207.

CHEN Duan-sheng,LIU Zheng-kai.A su rvey of skin color detection[J].Chinese Journalof Computers,2006,29(2):194 -207.(In Chinese)

[16]葛玉红.《大家学手语》第7课致谢[EB/OL].(2009-12-23) [2010-01-04].http://www.verycd.com/topics/2788773/.

Monocu lar Vision Gesture Segmentation Based on Skin Color and M otion Detection

CAO Xin-yan1,2,ZHAO Ji-yin1†,LIM in3

(1.Schoo l o f Communication Engineering,Jilin Univ,Changchun,Jilin 130022,China;
2.Schoolo f Electronic and In formation Engineering,Changchun Univ,Changchun,Jilin 130022,China;
3.College of Electromechanicaland Information Engineering,Dalian Nationalities Univ,Dalian,Liaoning 116600,China)

A kind of gesture segmentation method based onmonocular visionwas built for the analysis of the skin color information characteristics and gesturemovements features,w ith which ameaningfulgesture region cou ld beobtained from the video image sequence.For the identified background image,the skin color region of gestureswas captured through the analysisof the skin color information characteristicsw ith a sam pling intervalof 10 frames.A t the same time,themovement region of gestureswas captured through the differencemethod,and then the initialgesture region could be obtained after the fusion of the skin color region and themovement region.The erosion and dilation algorithm ofm athematicalmorphology were further studied,and the gestures segmentation and positioning o f the video image sequence were realized. Theexperiment results have shown that themethod hasagood gesture segmentation results and higher positioning accuracy.

monocu lar vision;gesture segmentation;motion detection;skin color detection;m athematicalmorphology

TP391.41

1674-2974(2011)01-0078-06 *

2010-06-03

吉林省科技厅发展计划资助项目(20090511);大连民族学院人才引进科技基金资助项目(20086201)

曹昕燕(1973-),女,吉林长春人,长春大学副教授,博士研究生

†通讯联系人,E-mail:zhaojiyin2000@163.com