基于运动历史图像和椭圆拟合的手势分割
2014-08-04史久根陈志辉
史久根,陈志辉
合肥工业大学计算机与信息学院,合肥 230009
基于运动历史图像和椭圆拟合的手势分割
史久根,陈志辉
合肥工业大学计算机与信息学院,合肥 230009
在手势识别[1]系统中,手势分割是后续识别的重要基础。当前常用的分割方法一般基于特定的肤色模型[2],很难适应复杂的光照环境。考虑到手势识别系统中,手势是一个动态过程,对应着视频序列中的运动区域之一,于是可采用运动分割方法确定手势区域。运动分割的常用方法有背景减除法[3],帧间差分法[4],光流法[5]。背景剪除法需建立背景模型,由于背景和前景的不确定性,很难建立完善的模型;光流法由于噪声、多光源等因素,会使光流场分布不可靠,而且光流的计算复杂且耗时,不太适合实时应用;帧间差分法计算量小且对光照的适应性较强,但在物体慢速运动的情况下容易产生分割不足、目标提取不完整的现象。
基于运动历史图像(MHI)[6-7]的运动分割能够有效克服上述问题,文献[6]利用了MHI实现了运动分割和姿态识别。但该方法易产生分割过度现象,影响分割精度。为解决该问题,本文在基于MHI分割的基础上,结合椭圆拟合[8]算法,提高了手势分割的精度。
1 基于MHI的运动分割
MHI将多帧运动轮廓进行叠加形成运动历史图像,充分利用了轮廓间的空间相关性,从而更有效地分割运动目标。此处,每帧运动轮廓即为二值化的相邻帧差。记连续两帧分别为Fk-1和Fk,W为抑制噪声的窗口函数,则帧差Dk表示为:
为了区别不同时间段的轮廓,采用了基于时间戳的运动历史图像(Timed Motion History Image,tMHI),tMHI[6]记录了一段时间内的运动轮廓信息,利用当前时间戳标记当前运动轮廓,可表示为:
式(3)中的τ表示当前时间戳,在一般系统中用浮点数表示,δ表示tMHI记录的时间长度。随着时间的推进,tMHI不断被更新。图1(b)是将tMHI映射到0~255的图像,该图反映一段时间内手部运动的历史,越暗的区域表示发生的时间越早。
图1 运动分割对比
对tMHI进行分割可采用如下步骤:
(1)逐行扫描tMHI,直到找到当前轮廓。
(2)沿当前轮廓向外搜索没有标记的区域,当轮廓找到后,用downFill[6](向下填充)标记之,如果填充区域不够大,则置0。
(3)存储找到的分割掩码。
(4)循环此过程直到所有轮廓都被标记。
在上述步骤中,每个填充区域被不同的正整数予以标记,即表示了不同的运动区域。downFill填充的准则是时间戳的值与当前值相同或小于当前值与填充下降距离之差。分割中需注意两个参数,即最小的可接受的填充面积和允许的填充下降距离。当填充面积过小时,可认为是噪声,需要置0;填充下降距离一般大于或等于相邻轮廓的时间戳之差。
图1(b)显示了分割的效果,运动的手部被完整地分割了出来。图1(a)基于帧差法,采用floodFill[9]算法分割,出现了目标提取不完整的情况,手部被分割成了两个区域。
当目标运动速度较慢时,帧差法由于相邻帧重叠部分较多,容易出现轮廓不足、轮廓断裂现象,导致很难分割出完整目标,而基于MHI的分割,由于利用了多帧轮廓,克服了以上缺陷。但由于MHI是基于一段时间的运动轮廓,产生的“拖影”会使得运动目标分割偏大。
2 椭圆拟合
对于一目标物,其像素簇的空间分布可用一椭圆表示。直观上讲,椭圆拟合即寻找该像素簇的最小外包矩形的最大内切椭圆。对于一椭圆,可表示为e(x0,y0,a,b,θ),其中(x0,y0)为椭圆中心坐标,a、b分别为长、短半轴,θ为偏转角度。确定一个拟合椭圆即求解这5个参数。通过二阶中心矩可求解这些参数。对于数字图像,区域为R的二维p+q阶中心矩[9]为:
对于目标的拟合椭圆,其中心坐标即为(xˉ,yˉ),a、b、θ可以利用像素簇二元分布的协方差矩阵[8]解得,其协方差矩阵为:
图2显示了对手部的拟合效果,此处先对原图进行了肤色分割[2,8],然后二值化后进行椭圆拟合,如右图显示的椭圆部分。
图2 椭圆拟合
3 算法流程
本文算法主要涉及到运动区域分割、手势筛选、椭圆拟合三个步骤,具体算法步骤如下:
(1)对于视频序列,对每一帧进行高斯去噪[8],然后获取MHI并进行运动分割,分割的结果保存在一个与图像大小相同的矩阵MASK中,不同的运动区域用不同的正整数标记,非运动区域全部标记为0。
(2)在获取的MASK中,针对每个非0标记区域求解外接矩形[7],然后对求得的矩形按一定规则进行筛选,筛选的结果保存在矩形集合RectSet中,规则可用如下伪代码表示:
N、area、ratio分别表示矩形的个数、面积、宽高比,sum()函数用于求解矩形区域内非零点个数,即实际运动区域面积,percent表示运动区域面积和外接矩形面积之比。三个if语句对应三条规则,第一条限定矩形面积范围为[MINAREA,MAXAREA],可以滤除一些面积过大、过小区域,第二条限定矩形宽高比范围为[MINRATIO,MAXRATIO],可以滤除一些形状过于狭长的区域,第三条限定percent大于MINPERCENT,可以滤除一些轮廓不足的区域。最后对RectSet中的矩形按面积由大到小进行排列。一般由于手部距离摄像头最近,可认为RectSet中最大的矩形区域即为手势运动区域。
(3)对于步骤(2)获得的手势运动区域,会产生图1(b)所示的分割偏大问题,为解决该问题,利用该区域内的当前运动轮廓(即当前帧差)做椭圆拟合,进而提高了分割精度。图3显示了拟合的结果,矩形区域为手势运动区域,椭圆区域即为最终分割结果。
图3 对手势当前运动轮廓椭圆拟合
由于椭圆拟合操作只在手势区域进行,不会受到其他运动区域的干扰,保证了拟合的正确性。
4 实验结果及分析
本文利用了OpenCV开源库和Python脚本进行了实验环境的的搭建。图4为实验中从视频中截取的连续4帧图像。
图4 手势分割结果
图中矩形区域为MHI分割结果,椭圆区域为本文方法分割结果。表1是对一段视频的连续2 000帧所做出的统计结果。
表1 MHI分割和本文方法对照
AM、AE分别表示基于MHI分割和本文方法分割所得区域面积。当分割区域能够完整包含手势部分时,可认为是正确分割,其余情况为错误分割。在正确分割的视频帧中,分别求解平均分割面积-AM、-AE,则-AM/-AE可以反映这两种方法的分割精度之比。从表中可以看出,本文方法的分割正确率略低于MHI分割,差别很小,但是分割精度提高到MHI分割的1.89倍左右。从实验数据可以看出,本文方法在基本不降低分割正确率的情况下,明显提高了MHI分割的精度。
在不同光照条件下实验,可以测试分割对光照的适应能力。实验将本文方法和肤色分割法做了对比。为了便于对实验结果分析,在不同光照条件下分别保存一段手势运动的视频,进行处理和分析。
对于肤色分割的实验,本文采用肤色聚集程度较高的YCgCr颜色空间[10],具体步骤如下:
(1)利用Gray World色彩均衡法[11]进行色彩校正。
(2)色彩空间转换[10],将RGB空间转换到YCgCr空间。
(3)利用高斯混合模型[12-13]进行肤色建模,得到肤色概率似然图像。
(4)采用otsu算法[14]对肤色概率似然图像进行阈值分割,得到肤色区域。
(5)利用floodFill算法对肤色区域进行分割,求解最小外包矩形[7],得到手势区域,记为AS。
对三段不同光照条件下的视频统计了连续2 000帧,得到如表2所示数据。
表2 不同光照下的实验结果
表2中由上到下,表示光照强度递减。实验在室内进行,利用强度可控的白色光源模拟自然光,设置了三种不同的光照强度。在正确分割的视频帧中,分别求解这两种方法的平均分割面积-AE、-AS,利用-AE/-AS衡量两种方法的分割精度之比。
从实验结果可以看出,在三种光照条件下,-AE/-AS均大于1,说明肤色分割法在分割正确的前提下,分割精度高于本文方法,但比值接近于1,说明两种方法的分割精度差别较小;同时可以看出,在光照正常情况下,两种方法的分割正确率差别不大,但在光照降低的情况下,本文方法的分割正确率明显高于肤色分割法,即使在较低光照条件下,也有较高的分割正确率。从该组实验数据可以看出,本文方法不仅保证了分割精度,能够有效分割出手势,而且对于光照的适应性较强。
5 结语
本文提出的方法在基于MHI分割的基础上结合了椭圆拟合算法,提高了MHI分割的精度,能够有效地分割出手势,并且对光照适应能力较强。该方法未建立复杂的数学模型,计算量小,非常适合于实时环境或者移植到嵌入式平台。
由于MHI和椭圆拟合都利用到了帧差信息,当手部处于静止状态时会导致分割失败,此时可以结合视频跟踪算法予以解决,例如文献[15]利用了PGH和Kalman滤波器实现了对手势的跟踪。该问题有待后续进一步研究。
[1]任海兵,祝远新,徐光佑.基于视觉手势识别的研究——综述[J].电子学报,2000,28(2):118-122.
[2]Habili N,Cheng Chew Lim,Moini A.Segmentation of the face and hands in sign language video sequences using color and motion cues[J].IEEE Transactions on Circuits and Systems for Video Technology,2004,14(8):1086-1097.
[3]Arseneau S,Cooperstock J.Real-time image segmentation for action recognition[C]//Proc IEEE Pacific Rim Conference on Communications Computers and Signal Processing. Canada:Victoria,1999:86-89.
[4]Lipton A,Fujiyoshi H,Patil R.Moving target classification and tracking from real-time video[C]//IEEE Workshop on Applications of Computer Vision.Princeton:IEEE Press,1998:8-14.
[5]Barron J,Fleet D,Beauchemin S.Performance of optica flow techniques[J].International Computer Vision,1994,12(1):42-77.
[6]Bradski G R,Davis J W.Motion segmentation and pose recognition with motion history gradients[J].Machine Vision and Applications,2002,13(5):174-184.
[7]Bradski G,Kaehler A.Learning openCV[M].[S.l.]:O’Reilly Media,Inc,2008.
[8]Argyros A A,Lourakis MIA.Real time tracking of multiple skin colored bjects with a possibly moving camera[C]//Proc ECCV,2004,3:368-379.
[9]Gonzalez R C,Woods R E.Digital image processing[M].北京:电子工业出版社,2002.
[10]王建国,林宇生,杨静宇.基于颜色空间YCgCr的人脸区域初定位[J].计算机科学,2007,34(5):228-233.
[11]雷明,张军英,董济扬.一种可变光照条件下的肤色检测算法[J].计算机工程与应用,2002,38(24):124-125.
[12]McKenna S K,Gong S,Raja Y.Modeling facial Colour and Identity With Gaussian Mixtures[J].Pattern Reeognition,1998,31(12):1883-1892.
[13]Yang M H,Ahuja N.Gaussian mixture model for human skin color and its application in image and video databases[J].Proceedings of the SPIE,1999,3656:458-466.
[14]王祥科,郑志强.Otsu多阈值快速分割算法及其在彩色图像中的应用[J].计算机应用,2006,26(6):14-15.
[15]刘玉进,蔡勇,武汇岳,等.一种肤色干扰下的变形手势跟踪方法[J].计算机工程与应用,2009,45(35):164-168.
SHI Jiugen,CHEN Zhihui
School of Computer and Information,Hefei University of Technology,Hefei 230009,China
For general gesture segmentation method is more difficult to adapt to the complex light environment,this paper proposes a new method.Firstly,the method obtains Motion History Images(MHI)from a video sequence and segment motion regions from MHIs.Then it chooses the hand gesture region from these regions.In order to overcome the problem of excessive segmentation,it uses the outline of the current movement of the region to do ellipse fitting,so that it can obtain a more accurate hand gesture segmentation result.Experimental results show that the proposed method can segment hand gesture effectively and have a greater ability to adapt to different light environment compared with general method.
hand gesture segmentation;inter frame difference;motion segmentation;motion history image;ellipse fitting
针对当前常用的手势分割方法较难适应复杂的光照环境,提出了一种新的方法。该方法先从视频序列获取运动历史图像(Motion History Image,MHI),对MHI进行运动区域分割,然后在这些运动区域筛选出手势区域。为了克服手势区域分割偏大的问题,提出了利用该区域内的当前运动轮廓做椭圆拟合,进而得到精度更高的手势分割结果。实验结果表明,提出的方法能够有效地分割出手势,并且和传统方法相比较更能适应不同的光照环境。
手势分割;帧间差分;运动分割;运动历史图像;椭圆拟合
A
TP391
10.3778/j.issn.1002-8331.1212-0313
SHI Jiugen,CHEN Zhihui.Hand gesture segmentation based on MHI and ellipse fitting.Computer Engineering and Applications,2014,50(22):199-202.
国家自然科学基金(No.60873003)。
史久根(1963—),男,博士,副教授,研究方向为嵌入式系统、计算机视觉;陈志辉(1987—),男,硕士研究生,研究方向为计算机视觉。E-mail:e-zhihui@163.com
2012-12-26
2013-02-01
1002-8331(2014)22-0199-04
CNKI网络优先出版:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0955.025.html
◎信号处理◎