APP下载

基于几何特征的手势识别方法

2014-12-23林水强吴亚东陈永辉

计算机工程与设计 2014年2期
关键词:肤色手势决策树

林水强,吴亚东,陈永辉

(西南科技大学 计算机科学与技术学院,四川 绵阳621010)

0 引 言

人机交互 (human-computer interaction,HCI)技术已经从以计算机为中心转移到以人为中心[1]。手势识别交互作为一种自然、人性化的人机交互方式被越来越多地采用[2]。基于视觉的手势识别技术是采用摄像机捕获手势图像,通过图像处理技术进行手势的分割、建模、分析和识别[3]。通常采 用 基 于肤 色 训 练[4,5]、直 方 图 匹 配[6,7]、运 动信息和多模式定位[8]等技术完成特征参数估计。手势识别的方法主要有模板匹配法、统计分析法、神经网络法、隐马尔可夫模型法和动态时间规整法等[9,10]。文献 [11]提出的手势识别方法能够实现分离背景并通过手心位置排除人脸,但在肤色背景下鲁棒性差,并且人脸分离的准确度不够,同时在像素级扫描上时间复杂度高。本文给出一种基于几何特征的手势识别方法,针对分割手势图像提出一种多序列背景模型有效排除肤色背景的干扰,并结合肤色块跟踪和几何形状估计将人脸和人手有效地分离。针对手势建模定义几何特征量集合来描述手势类型,特征参数计算量小,能够满足实时要求。针对分析和识别采用基于决策树的方法归纳分类,在常规背景并且室内光照良好的情况下手势识别准确率高,通过引入基于动态模型的统计器进一步提升系统鲁棒性。

1 手势图像提取

1.1 肤色检测和背景分离

基于肤色和背景模型的手势检测首先提取图像中的肤色部分,再去除背景的干扰,最后得到前景为肤色的部分。定义H(x,y,tn)为tn(n=0,1,2,…)时刻肤色检测得到的肤色二值图,M(x,y,tn)为tn时刻背景分离得到的差值二值图,由式 (1)计算机得到tn时刻前景肤色二值图F(x,y,tn)

由于HSV (hue-saturation-value)色彩 空 间 是 从 人 的视觉系统出发,用色调、饱和度和亮度来描述色彩,比RGB空间更符合人的视觉特性[12]。本文采用肤色模型[4,5],肤色检测采用HSV 空间,把获取的图像从RGB 空间转化到HSV 空间。肤色在HSV 空间的取值范围为Hue∈ [30,45],Saturation∈ [35,200],Value∈ [20,255],通过HSV 转化可以得到肤色二值图H(x,y,tn)。

当背景中存在与肤色相近的物体时,会对手势的检测有较大影响,所以需要将背景与前景进行分离,去除背景的干扰,本文提出一种多序列背景模型,在连续I个识别序列内检测到手势不符合预定义手势类型时,采用加权的当前图像与加权的背景图像之和动态地更新当前背景图像,由式 (2)计算得到tn时刻的背景灰度图像B(x,y,tn)

式中,C(x,y,tn)为tn时刻的当前灰度图像,t0为初始时刻,I为连续的识别序列数目,Itn为tn时刻的识别序列号,Ri为第i(i=0,1,2,…)个识别序列的识别结果,G 为预定义的手势类型集合,α为更新权值 (本系统经验取值为0.1)。

在tn时刻,以当前灰度图像C(x,y,tn)和背景灰度图像B(x,y,tn)做差分得到差值灰度图像D(x,y,tn),通过二值化、形态学等运算得到差值二值图像M(x,y,tn),见式 (3)和式 (4)

式中,Th为二值化分割阈值 (本系统经验取值10)。肤色背景分离效果如图1所示。

1.2 人脸排除

除考虑背景因素外,还需要考虑人脸和手部数据同时被摄像头捕获到时人脸的干扰。从几何结构上看,人的脸部形状接近椭圆形,并且原形状始终保持不变,而人手的几何形状区别较大,并且形状可以随时多变。本文结合文献 [4]中的基于肤色的椭圆拟合方法和文献 [13]中的基于肤色的椭圆聚类方法,利用几何形状估计将人脸和人手分离。人脸排除效果如图2所示。

2 手势几何特征定义

在图像识别中,对象特征的选取对识别结果的准确性有较大的影响,单一的特征往往会受环境的影响和其他因素的干扰。考虑到计算的复杂性、识别的实时性、特征的不变性等诸多因素,本文采用基于几何特征和动态帧提取手势特征的方法。本系统预选取如图3所示的6种手势类型分别定义为确定/抓取、返回/释放、锁定/解锁、右选、待转/移动、左选操作指令,并实现多媒体交互应用。

图3 手势定义

特征提取通过定义3个变量实现:手势的最小外接矩形R;手形轮廓面积A;手势相对于图像的坐标P。为识别预定义手势类型,本文选取4个特征量,见式(5)-式(8)。特征T1:R 的面积与手形轮廓面积A 之比

特征T2:R 的长宽之比,其中H>W

特征T3:R 的方向角

特征T4:P相对移动方向

式中,H、W 和Rθ分别表示R 的长、宽和方向角,Pt和Pt-1分别表示手势的当前t和t-1时刻位置。以上4个特征量的计算复杂度都较低,能够保证系统实时性,特征T1和T2是比例特征,能够满足旋转、平移和缩放不变性,特征T3实现辅助其他特征完成方向的判定,特征T4能够计算出手势移动方向以及完成模拟移动的功能。手势特征标记是将手势轮廓从手势图像中提取出来并计算特征值,本文采用Canny算子边缘检测方法[14,15]提取手势轮廓信息,再根据定义的几何特征量计算特征参数值,进行手势特征标记。

3 手势分析和识别

手势分析和识别利用基于决策树 (decision tree,DT)的分类器实现。决策树分类算法的基本思路是不断选取产生信息增益最大的属性来划分样例集合[16,17],构造决策树。信息增益定义为结点与其子结点的信息熵之差。在手势特征参数向量Tx(T1,T2,T3,T4)中选取前两项特征参数作为判定所需的属性集合T(T1,T2),根据实验输出的样本数据得到训练数据集合S(T,Gtid),其中Gtid为识别到对应编号的手势。信息熵Entropy(S)用于描述手势类型信息的不纯度,见式 (9)

式中,Pi为手势类型子集合中不同性样例的比例。信息增益Gain(S,T)为样本按照某属性划分时造成熵减少的期望,见式 (10)

式中,V(T)是属性T 的值域,S是样本集合,Sv是S中在属性T 上值等于v的样本集合。

通过构造决策树生成结点特征属性,用生成的决策树模型分类判定当前的手势类型。决策树的模型如图4所示,其中β1,β2 为对应属性T 结点样本归纳学习训练出的特征阈值 (本系统训练得出β1=1.6,β2=1.4),T (v)表示对应属性的T 上的实际值,识别代号1、2、5分别对应手势类型为拳头、开手掌和闭手掌。

图4 决策树模型

对于属性结点T1(β1),当T1(v)≥β1,判定手势为开手掌,否则,进一步对属性结点T2(β2)进行比较,当T2(v)<β2,判定手势为拳头,否则为闭手掌。对于OK 手势(TID=3),在特征属性中选取一段阈值区间进行判定。在闭手掌手势状态下,设置方向角范围θ1和θ2(本系统经验取值θ1∈ (45°,75°),θ2∈ (15°,45°)),输入T3和T4,当T3∈θ1,且T4的x方向为正,判定手势为左方向,当T3∈θ2,且T4的x方向为负,判定手势为右方向,其余为初始状态,见式 (11)

式中,TID 表示手势类型的识别代号。移动操作指令通过在闭手掌状态下T4的x和y方向坐标按比例转化为屏幕坐标,实现模拟移动操作功能。

由于背景、光线以及用户误操作等干扰因素,需要将分类器获得的符合预定义的手势加入到基于动态模型的统计器中,生成驱动指令。本文定义一种基于动态模型的统计器,通过连续或不连续的多帧判定手势语义,在一定程度上保证了识别的可靠性,见式 (12)和式 (13)

式中,Gtid(tid=1,2,…,7)为识别的手势,当tid=7时表示无手势,Fi表示第i帧数据,Accept为指定n帧内接受特定手势的方法,Ntid为对应手势编号为tid的统计量。在单个识别序列中,对 {Ntid|tid=1,2,…,7}求最大统计量即为所识别手势。

4 实验分析

本文实验采用普通Logitech USB 300万像素摄像头作为视频输入设备,基于DirectShow的方法获取视频流,帧率为30帧/秒,图像分辨率为320×240,在合适的视野和景深范围内通过裸手非接触方式进行交互。根据本文提出的方案实现了手势识别模块,不同情况下的识别效果如图5所示。

图5 不同情况下的手势识别效果

可以看出,在肤色背景、室内光照充足、人脸环境下识别效果都较好,同时保证了旋转、平移和缩放不变性。而在恶劣环境下,识别无法实现。

本实验在上述背景并且室内光照良好环境下对每个手势采集1000个数据样本进行统计。表1中给出了6种手势的识别和误识别率,其中TID 表示手势类型编号,GES表示手势类型,REC 表示手势识别率,ERR (TID)表示误识为手势编号为TID 的概率。

实验结果表明,在常规背景、室内光照良好的情况下识别率在94%以上,识别反馈时间小于200ms,识别效果较好,基于手势识别的多媒体交互系统能够顺利实现。

基于该手势识别系统,建立一款多媒体交互平台,包含音乐、电影、图片、电子书和游戏等可自主加载的模块。将预定义手势映射到虚拟交互命令,通过确定、返回、左选、右选、待转、抓取、移动、释放和锁定操作指令驱动多媒体平台,将手势识别与多媒体平台结合实现了虚拟交互功能。虚拟交互实现效果如图6所示。

5 结束语

本文主要对计算机视觉中基于几何特征的手势识别方法进行了研究并改进,并将其应用在实时多媒体平台的虚拟交互中。综合利用肤色模型、多序列背景模型和几何形状估计提取手势图像,根据手势几何特征量建模,采用决策树以及动态统计器对几何特征参数进行归纳、判定和优化,实现了识别预定义的6种自然手势类型,能够模拟常用的人机交互操作指令,包括确定、返回、左选、右选、待转、抓取、移动、释放和锁定。本文设计的识别算法简单有效,计算量小,识别率高,能够满足实时人机交互需求。

表1 手势识别率与误识别率

图6 虚拟交互实现效果

同时,系统仍存在不足,如在复杂背景和光照效果差的环境下,系统识别精度仍有待提高,当手臂暴露在摄像头范围内时不能分割手臂。在以后的工作中会进一步优化图像处理和识别算法,以达到在识别精确度和交互实时性之间的平衡。

[1]SUN Chao,FENG Zhiquan,LI Yang,et al.A survey of gesture based interaction [C]//CHCI,2010:277-281 (in Chi-nese).[孙超,冯志全,李扬,等.基于手势识别的人机交互综述 [C]//第6届全国人机交互学术会议,2010:277-281.]

[2]CHEN Xiaobo,XIE Huosheng.Hand gesture recognition based on Bag of Features [J].Computer Engineering and Design,2013,34 (3):983-987 (in Chinese).[陈小波,谢伙生.基于Bag of Features 的 手 势 识 别 [J].计 算 机 工 程 与 设 计,2013,34 (3):983-987.]

[3]WU Huiyue,ZHANG Fengjun,LIU Yujin,et al.Research on key issues of vision-based gesture interfaces[J].Chinese Journal of Computers,2009,32 (10):2030-2041 (in Chinese).[武汇岳,张凤军,刘玉进,等.基于视觉的手势界面关键技术研究 [J].计算机学报,2009,32 (10):2030-2041.]

[4]Papadourakis V,Argyros A A.Multiple objects tracking in the presence of long-term occlusions [J].Computer Vision and Image Understanding,2010,114 (7):835-846.

[5]Kakumanu P,Makrogiannis S,Bourbakis N.A survey of skincolor modeling and detection methods [J].Pattern Recognition,2007,40 (3):1106-1122.

[6]LIU Yujin,CAI Yong,WU Jiangyue,et al.Approach to tracking deformable hand gesture under disturbances from skin-color[J].Computer Engineering and Applications,2009,45 (35):164-167 (in Chinese).[刘玉进,蔡勇,武江岳,等.一种肤色干扰下的变形手势跟踪方法 [J].计算机工程与应用,2009,45 (35):164-167.]

[7]JIANG Dongmei,WANG Yufang.Gesture recognition based on orientation [J].Information Technology and Informatization,2006,31 (2):53-55 (in Chinese).[江冬梅,王玉芳.基于方向直方图矢量的手势识别 [J].信息技术与信息化,2006,31 (2):53-55.]

[8]ZHOU Hang.Studies on the gesture recognition system based on computer vision [D].Beijing:Beijing Jiaotong University,2007 (in Chinese).[周航.基于计算机视觉的手势识别系统研究 [D].北京:北京交通大学,2007.]

[9]REN Yaxiang.Survey of human-computer interaction development based on hand posture and gesture recognition [J].Computer Engineering and Design,2006,27 (7):1201-1204 (in Chinese).[任雅祥.基于手势识别的人机交互发展研究 [J].计算机工程与设计,2006,27 (7):1201-1204.]

[10]SUN Lijuan,ZHANG Licai,GUO Cailong.Technologies of hand gesture recognition based on vision [J].Computer Technology and Development,2008,18 (10):214-216 (in Chinese).[孙丽娟,张立材,郭彩龙.基于视觉的手势识别技术 [J].计算机技术与发展,2008,18 (10):214-216.]

[11]ZHANG Tong,ZHAO Yingxue.Gesture recognition based on skin color segmentation and edge detection operator[J].Software Guide,2012,11 (7):151-152 (in Chinese).[张 彤,赵莹雪.基于肤色与边缘检测及排除的手势识别 [J].软件导刊,2012,11 (7):151-152.]

[12]CHENG Lin,CHEN Junjie,XIANG Jie.Research and application of image color feature extraction technology [J].Computer Engineering and Design,2009,30 (14):3451-3454(in Chinese).[成琳,陈俊杰,相洁.图像颜色征提取技术的研究与应用 [J].计算机工程与设计,2009,30 (14):3451-3454.]

[13]Hao kui T,Zhi quan F.Hand's skin detection based on ellipse clustering [C]//International Symposium on Computer Science and Computational Technology,2008:758-761.

[14]Medina Carnicer R,Muoz Salinas R,Yeguas Bolivar E,et al.A novel method to look for the hysteresis thresholds for the Canny edge detector [J].Pattern Recognition,2011,44(6):1201-1211.

[15]LIU Chao,ZHOU Jiliu,HE Kun.Adaptive edge-detection method based on Canny algorithm [J].Computer Engineering and Design,2010,31 (18):4036-4039 (in Chinese). [刘超,周激流,何坤.基于Canny算法的自适应边缘检测方法[J].计算机工程与设计,2010,31 (18):4036-4039.]

[16]Witten I H,Frank E.Data mining:Practical machine learning tools and techniques [M].Burlington,MA:Morgan Kaufmann Publishers,2011:300-305.

[17]ZHANG Lin,CHEN Yan,LI Taoying,et al.Research on decision tree classification algorithms [J].Computer Engineering,2011,37 (13):66-70 (in Chinese).[张琳,陈燕,李桃迎,等.决策树分类算法研究 [J].计算机工程,2011,37 (13):66-70.]

猜你喜欢

肤色手势决策树
Conversation in a house
人的肤色为什么不同
为什么人有不同的肤色?
挑战!神秘手势
一种针对不均衡数据集的SVM决策树算法
V字手势的由来
决策树和随机森林方法在管理决策中的应用
胜利的手势
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用