APP下载

基于Kinect传感器的教学手势识别

2016-11-15王宪兵袁盼盼

新型工业化 2016年9期
关键词:关节点手势骨骼

王宪兵,袁盼盼

(湘潭大学信息工程学院,湖南 湘潭411100)

基于Kinect传感器的教学手势识别

王宪兵,袁盼盼

(湘潭大学信息工程学院,湖南 湘潭411100)

随着多媒体技术的迅速发展,许多高校采用多媒体计算机系统辅助教学。为了增强课堂的趣味性以及教学的新颖性,将体感交互系统巧妙地应用于多媒体教学。利用微软公司设计的Kinect传感器的骨骼跟踪功能,建立骨骼跟踪模型,通过手势识别实现对PPT的播放控制。建立手势识别库并利用计算简单、方便有效的两点法进行关节点之间的角度计算来实现手势识别,将手势反馈到系统并完成相应的控制指令输出,实现PPT的播放、翻页等基本操作。实验表明,手势控制PPT操作成功率高,能够有效地控制PPT播放。

Kinect;多媒体教学;骨骼跟踪;手势识别

0 引言

近几年,计算机技术和自然交互界面的兴起,越来越多的用户想与系统之间直接进行交互,摒弃传统的鼠标、键盘等工具。随着Kinect的出现,人们利用其体感技术,获取人体深度信息,通过手势识别,来理解操作者的意图,从而对计算机进行有效的操作[1]。将Kinect应用到智能教学中,提高教学乐趣,增加教学的直观性。许多研究人员对PPT控制进行了相关的开发[2-5]。为了使用户能够更加自然、友好、人性化地以及无接触地控制PPT,可以使用无线接收器激光笔或手势来控制PPT。激光笔虽然在灵活性上比较突出,但是激光发出的光点会扰乱学生的视线。而手势含有大量的交互信息,且提供了自然、直接的人际交互方式,同时也符合人类的行为习惯,因此许多学者对手势识别[6-9]进行了相关研究,文献[6]提出了一种基于向量机的手势识别方法,该方法只需框定手势所在区域,无需精确地分割人手,但是容易受到光照条件以及复杂背景的干扰。文献[7]利用Kinect进行手势深度图采集,将深度图转换为三维点云,根据深度信息过滤来提取手势数据,对手势数据进行方向校正后统计手势数据中深度信息的区间分布特征并输入到支持向量机进行训练,从而实现手势识别。此方法虽然能解决二维手势识别时光照条件以及复杂背景干扰问题但是对人手前后移动较为敏感,容易造成手势识别错误。

综上考虑,本文提出一种基于Kinect传感器的手势识别方法,利用Kinect的骨骼跟踪功能获取骨骼关节3D信息,根据节点3D信息确定节点之间的欧式距离,用两点法确定角度进行手势识别。两点法无需对手势进行分割,也不受光照以及复杂背景影响。两点法计算量小,方便有效。最后将手势识别的结果应用于对PPT的控制播放,人站在Kinect前做出各种手势与计算机进行交互,不用接触任何输入设备,能营造体感教学的环境,提高教学的吸引力。

图1 人体骨骼关节点分布图Fig. 1The puture of human skeletal joints

1 骨骼跟踪

Kinect传感器的创新在于骨骼跟踪。Kinect能够跟踪20个骨骼关节[10],如手,头,肩等。骨骼追踪技术通过处理深度数据来确定人体各个关节点的3维坐标信息。图1显示了Kinect捕获的人体骨骼关节点分布情况。

骨骼跟踪的基本过程:首先通过Kinect传感器获取目标深度数据,提取目标的形态,得到深度图像。接着在深度图像中提取深度图像特征,然后根据深度图像特征利用随机森林算法进行人体部位识别推理出逐像素信息,将所有的像素信息汇聚形成3D骨骼关节位置的可靠预测做为最终输出,最后Kinect对输出的每一像素进行评估并以此来确定关节点。

1.1 坐标转换

骨骼关节点坐标系与Kinect坐标系一致,Kinect坐标系如图2所示。坐标系的原点处在Kinect的中心,Kinect左右延伸为轴,其正方向是向左,上下延伸为Y轴,正方向向上,前后延伸为轴,正方向与Kinect朝向一致。

Kinect原始坐标的建立方式具有视角敏感性,即人体的位置信息受Kinect摄像头位置摆放影响,需建立新的坐标来消除视角敏感性。以臀部中心,脊柱,左臀和右臀四个关节点的位置建立新坐标系,如图3所示。新坐标系原点O′与原坐标原点O重合。以臀部中心为始端,脊柱关节点为末端,建立向量Z=(xz,yz,zz),并将该向量平移到起点与原点O重合,假设向量Z为Z轴方向。Z向量的法向量与原点O(0,0,0)都在平面XOY上,故 平面XOY可由公式(1)得到:

图2 Kinect传感器坐标系Fig.2 Coordinate system of Kinect sensor

以右臀部关节到左臀部为向量X并且将起点移到原点O′,向量X为X′在XOY平面上的投影,向量X的方向为X轴。Y轴可由右手螺旋定则确定。

新的骨骼坐标系只跟人体关节位置相关,与Kinect摄像头相对于人体的位置无关。建立新的坐标以后,假设原坐标上一点A(x,y ,z ),通过转换矩阵(XT,YT,ZT)可以得到新坐标A'=(x',y',z'),如公式(2)所示:

1.2 深度图像特征

常见的可见光图像特征包括点特征和梯度特征[11]。点特征包括角点特征(Harris),尺度不变特征变换(SIFT)等。点特征虽然维数低,但在复杂背景下难以适应人体变化的形态。梯度特征包括拉普拉斯高斯算子,方向梯度直方图等。梯度特征虽然检测效率高,但是容易受到噪声的干扰,计算复杂。

在Kinect的深度图像特征中融合点特征和梯度特征,并利用深度信息描绘像素点周围局域空间的3D信息[12],即采用像素点邻域两点的深度差作为像素点的特征,并称之为深度差分特征。该特征能够区分表面凹凸不平的物体,比如头部或手腕。该特征还具有3D平移不变的特性,即特征值不会随像素点在空间的移动而变化。

深度图像差分特征可由公式(3)提取:

图3 新骨骼关节坐标系Fig.3 The new bone joint coordinate system

公式(3)中,I为深度图像,像素点x,为像素点x的深度值。参数θ描述两个偏移向量u,v组成的向量对,即θ=(u,v)。偏移向量u,v同时除以像素x的深度值进行归一化处理,使得无论人与Kinect之间的距离为多少,都能够保证准确地捕捉到像素点x处的特征信息。

深度差分特征在人体深度图像中的示意图如图4所示。

图4 深度差分特征示意图Fig.4 Depth difference feature

图4(a)(b)表示了人体不同部位的两个像素的特征。黄色交叉号表示被分类的像素x,红色圆圈表示公式(3)中的参数θ。图(a)中特征值f1θ对身体上部位置的像素会有个较大的响应值,而在图(b)中的响应趋近于0。这是因为偏移像素落入背景中,背景深度值比人体深度值大很多,故由公式(3)计算出的特征值大。若偏移像素都落在身体内部,比如腹部平坦地区,深度

值相差无几,则特征值接近于0。特征值f1θ用来区分身体偏上部分。同理可知,特征值f2θ在图(a)中很大,在图(b)中很小。特征值f2θ有助于区分诸如手臂、手腕等容易发生曲直形态的部位。

1.3 骨骼跟踪方法

本文骨骼跟踪采用随机森林方法。美国科学院院士Leo Breiman基于“bagging”理论提出了随机森林的概念[13-14]。随机森林是一个包含多棵决策树的分类器,如图5所示。每棵决策树进行独立分类,并且能在GPU上并行计算。因此,随机森林能够快速有效地实现多任务。

在图5中,红色箭头表示由树的特别输入引起的不同路径。随机森林中有T棵决策树,每棵树上有分裂节点(黑色圆圈)和叶子节点(紫色圆圈),每个分裂节点由特征fθ和一个阈值τ组成。决策树t到达叶子节点时得到分类标签c的概率分布)。对所有树的分布求平均并作为最终的分类,如公式(4)所示:

图5 随机森林Fig.5 Random Forests

随机森林算法具体步骤:

(1)随机选取一组候选分裂节点,。

(2)通过将样本集合Q={(I ,X )}划分为两个左右子集:

(3)利用样本分组信息增益G()φ的最大值计算分裂节点,即:

H(Q)表示样本集合的香农信息熵:

p(cj,Q)表示类别cj出现的频率。

(4)对左右子树分别采用Ql(φ∗)和Qr(φ∗)作为输入子集Q,递归调用步骤2步骤4,确定φ∗的所有阈值τ∗,直到达到最大深度或者Q不可分,此时分类器训练完成。

2 手势识别

根据Kinect深度图像中的深度差分特征,利用随机森林算法实现骨骼跟踪,得到人体的20个关节点。将身体的各个关节点的位置定义为一个手势(手部姿势)。更具体地来说,是将某些关节点相对于其他关节点的位置定义了一个手势,通过关节点之间的角度进行手势识别。

2.1 距离计算

求解人体关节点连线的角度之前需先计算出关节点的实际位置。文献[15]利用获取的深度值求出人到Kinect传感器的实际距离,如公式(10)所示:

其中ddepth为Kinect提取的深度值,H=3.5×10-4rad,K=12.36cm,L=1.18rad,O=3.7cm。

文献[16]提出深度图像坐标到实际坐标的变换公式,如公式(11)所示。

公式(11)中,深度图像坐标为(xd,yd,zd),实际坐标,,,Kinect的分辨率。由(10)(11)可以计算出关节点的实际坐标,假设实际 空间坐标的两个点X(x1,y2,z3)和Y(x1,y2,z3),利用欧式距离公式得到两点间的距离:

2.2 角度计算

任意三个不在同一直线上的点可以组成一个三角形,如图6所示:

图6中组成的节点三角形的关节点为肩膀,肘和手腕。利用公式(12)计算这三个节点之间的距离a,b,c,如公式(13)所示:

图6 节点三角形Fig.6 Node triangular

公式(13)计算得到三角形的三边距离,根据余弦定理计算任意两边的夹角,例如AB与BC之间的夹角,如公式(14)所示:

因此,手腕-肘-肩部构造需要的角度,不论其他部位怎么变化,这三者构成的三角形是不变的。三点法测量角度结果如图7(a)所示。由于三点法在测量过程中不稳定,我们选择两点法来确定角度。两点法在人移动过程中基准点和指定点都是相对稳定的,能够准确地测量关节角度的大小。本文以肘部为基准点,将肘部作为整个坐标的中心,再利用其他另外一个关节点比如手腕或肩,求出这一关节点与基准点夹角的大小。两点法的测量结果如图7(b)所示。

2.3 建立手势识别库

图7 角度测量结果Fig.7 Angle measurement

通过两点法计算得到节点角度后,定义一个关节点的角度条件,如公式(15)所示:

其中P1为基准节点,为关节点P2与P1的夹角,τ为设定角度的阈值。设定θi(i=1,2,3,4)为关节点的角度。θ1=(左肩,左肘),θ2=(左肘,左腕),θ3=(右肩,右肘),θ4=(右肘,右腕),则手势定义满足的角度条件为ξ=(θ1,θ2,θ3,θ4,τ)。

举起右手:ξR=(270,270,0,90,10)

举起左手:ξL=(180,90,270,270,10)

双手抱拳:ξO=(210,50,310,120,10)

右手挥动:ξR'=(270,270,340,40,10)

左手挥动:ξL'=(210,120,270,270,10)

2.4 手势匹配

建立5个手势识别库以后,利用公式(16)进行匹配:

其中为测量角度,为设定的期望角度,为阈值。

判断四个角度是否满足公式(16)规定的阈值范围内,若在,手势识别成功,若有一个角度不满足,则识别失败,重新识别。

3 实验

本文采用的实验平台:Windows 7 x86 + Microsoft Visual Studio 2010 + Microsoft.NET Framework 4.0 +Kinect for Windows SDK.

本文采用的实验设计:

使用Kinect捕捉人体动作,然后根据识别出来的动作向系统发出点击向前,向后按键等事件,从而实现PPT切换。本文将定义手势如何是向前或向后切换PPT,如表1所示。

为了验证手势控制PPT实验的有效性,采集5个实验者按照定义的手势对PPT进行多次操作,其实验结果如表2所示。

从表2可以看出,其中某实验者的成功率达到了100%,且每个手势控制PPT操作成功率和实验者成功率都超过了96%。其中的翻页操作个别失败的原因是人挥手时过慢或过快后放回原处引起的。综上所述,两点法计算简单,能有效地识别手势,手势控制PPT操作成功率高,能够有效地对PPT进行操控。

表1 PPT控制设计对应表Tab.1 The design of PowerPoint operation

表2 PPT操作成功率表(其中m/n表示成功m次,失败n次)Tab.2 The Success rate of PowerPoint operation (m/n shows m times succeeded,n failed)

4 总结

本文基于Kinect的骨骼跟踪功能,实现了手势控制PPT播放等操作,实验部分验证了手势控制PPT播放成功率高,可以将其应用到教学系统中。

此外,Kinect能够实现对操作者声音定位功能,考虑将Kinect的语言识别跟手势识别结合起来应用到PPT操作中。操作者通过语音便可进行操控PPT,将大大提高PPT操作的交互性,教学的效果会更佳。

[1] 陈静.基于Kinect的手势识别技术及其在教学中的应用[D].上海:上海交通大学,2013.

CHEN Jing,Kinect-based Gesture Recognition and applying it in teaching[D],ShangHai:Shanghai Jiaotong University,2013.

[2] 毛雁明,章立亮. 基于Kinect骨架追踪技术的PPT全自动控制方法研究[J].海南大学学报 (自然科学版),2015 (2015年03):215-220.

MAO Yan-Ming,ZHANG Li-Liang. The research on automatic PPT control method based SSon Kinect skeleton tracking[J]. Journal of Hainan University (NATURAL SCIENCE EDITION),2015 (2015-03):215-220.

[3] 朱明茗,景红.基于Kinect的PPT控制系统研究[J].中国教育信息化:高教职教,2014(5):80-81.

ZHU Ming-Ming,JING Hong,The PowerPoint control system based on Kinect[J]. Chinese education information:Higher Vocational Education,2014(5):80-81.

[4] 李健,路飞,田国会,等.基于Kinect的PPT全自动控制系统研究[J].计算机与工程应用,201349(17).

LI Jian,LU Fei,TIAN Guo-hui,et al. The automatic system of PowerPoint control based on Kinect[J]. Computer engineering & application,,2013 49(17).

[5] 顾容,何益明,金丽燕.基于Kinect骨骼追踪技术的智能教学控制系统的设计与实现[J].计算机应用与软件,2013,30(6):276-280.

GU Rong,HE Yi-Ming,JIN Li-yan. The design and implementation of intelligent teaching control system based on Kinect skeleton tracking technology[J]. Computer Applications and Software,2013,30(6):276-280.

[6] 张秋余,王道东,张墨逸,等.基于特征包支持向量机的手势识别[J].计算机应用,2012,32(12):3392-3396.

ZHANG Qiu-Yu,WANG Dao-Dong,ZHANG Mo-yi,et al. The gesture recognition Based on feature pack of SVM[J]. Computer Applicatio-ns.2012,32(12):3392-3396.

[7] 邓瑞,周玲玲,应忍冬,等.基于Kinect深度信息的手势提取与识别研究[J].计算机应用研究,2013,30(4):1263-1265.

DENG Rui,ZHOU Ling-ling,YING Ren-dong,et al. Research on hand gesture extraction and recognition based on Kinect depth information[J].Computer Application.2013,30(4):1263-1265.

[8] Ren Z,Yuan J,Meng J,et al. Robust past-based hand gesture recognition using Kinect senor[J]. IEEE transactions on multimedia 2013,15(5):1110-1120.

[9] 陶丽君,李翠华,张希婧,等.基于 Kinect 传感器深度信息的动态手势识别[J].2013.

TAO Li-Jun,LI Cui-hua,ZHANG Xi-qian,et al.The dynamic gesture recognition based on the depth information of Kinect sensor[J],2013.

[10] 蓝箭,孙娟,杨裕炳,等.基于Kinect骨骼追踪的控制方法的研究[J].仪表技术,2014(8):20-22.

LAN Jian,SUN Juan,YANG Yu-Bing,et al. The control methods based on Kinect skeletal tracking[J]. Instrumentation Technology,2014(8):20-22.

[11] 林鹏,张超,李竹良,等.基于深度图像学习的人体部位识别[J].计算机工程,2012,38(16):185-188.

LING-peng,ZHANG chao,Li Zu-liang,et al. The recognition of human body based on depth study[J]. Computer Engineering,2012,38(16):185-188.

[12] Shotton J,Sharp T,Kipman A,et al. Real-time human pose recognition in parts from single depth images[J]. Communications of the ACM,2013,56(1):116-124.

[13] 方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J]. 2011.

FANG Kuang-nan,WU Jian-bing,ZHu Jian-ping,et al. Review of random forests method[J].2011.

[14] 雷震.随机森林及其在遥感影像处理中应用研究[D].上海:上海交通大学,2012.

LEI Zhen. Random Forests and Its Application in Remote Sensing Image Processing[D]. Shanghai:Shanghai Jiaotong University,2012

[15] Raheja J L,Chaudhary A,SingalK.Tracking of fingertips and centers of palm using Kinect[C]//2011 Third International Conferenceon Comp-utational sIntelligence. Modelling & Simulation. IEEE. 2011:248-252.

[16] Satyavolu S,Bruder G,Willemsen P,et al. Analysis of IR-based virtual reality tracking using multiple Kinects[C]//2012 IEEE Virtual Reality Workshops(VRW).IEEE,2012:149-150.

Teaching Gesture Recognition Based on Kinect Sensor

WANG Xian-bing, YUAN Pan-pan
(College of Information Engineering, Xiangtan University, Xiangtan, Hunan, China, 411100)

With the rapid development of the multimedia technology, multimedia computers have been used in teaching systems in many colleges to provide some supplementary teaching. In order to enhance the interest and the novelty of class teaching, the somatosensory interactive has been applied to multimedia teaching system cleverly. The PowerPoint playback control was completed by using gesture recognition with the skeletal tracking of Kinect sensor. Firstly, the gesture recognition library should be established. Then the angle calculation was carried out by using two points method, thereby the gesture recognition is realized. Lastly, the gesture was fed back into the system to achieve the output of the corresponding control command and to complete the realization of the basic operation of PowerPoint such as PowerPoint playback and flip. Experiments show that the PowerPoint playback controlled by gestures operated successfully and effectively.

Kinect; Multimedia teaching; Skeletal tracking; Gesture recognition

10.19335/j.cnki.2095-6649.2016.09.005

WANG Xian-bing, YUAN Pan-pan. Teaching Gesture Recognition Based on Kinect Sensor[J]. The Journal of New Industrialization, 2016, 6(9): 28-34.

王宪兵,袁盼盼. 基于Kinect传感器的教学手势识别[J]. 新型工业化,2016,6(9):28-34.

国家自然科学基金(No.61100140)

王宪兵(1990-),男,研究生,主要研究领域为智能信息处理,图像处理;袁盼盼(1993-),女,研究生,主要研究领域为机器视觉

猜你喜欢

关节点手势骨骼
做家务的女性骨骼更强壮
三减三健全民行动——健康骨骼
基于深度学习和视觉检测的地铁违规行为预警系统研究与应用
关节点连接历史图与卷积神经网络结合的双人交互动作识别
挑战!神秘手势
V字手势的由来
益宝打造骨骼健康产业
搞好新形势下军营美术活动需把握的关节点
胜利的手势
RGBD人体行为识别中的自适应特征选择方法