基于HMM_SVM的中国手语识别研究
2011-11-08赵蔚宁
赵蔚宁
(吉林省福彩中心 协会筹建办公室,长春 130061)
基于HMM_SVM的中国手语识别研究
赵蔚宁
(吉林省福彩中心 协会筹建办公室,长春 130061)
提出了基于隐马尔可夫方法的中国手语识别方法,通过对于手势的取像,图像处理,降维技术,通过应用Sugeno模糊积分,图像处理技术是计算机图形学识别的基本步骤,采用直方图的特征可以将手型的区域从背景中分离出来,然后通过降维处理,将得到的手部图像去除手部以外的区域,从而得到手的轮廓;使得不携带其他相关手套工具,达到静态简单手语识别,其正确率达到85%以上,证明这种方法在中国手语识别上的可行性。
多维分割,隐马尔科夫算法,SVM(support vector machine支持向量机),中国手语识别
0 引言
手语识别一直是在人机交互领域研究的重点和人工智能发展的热点,让计算机更好的了解手语,使得聋哑人和健康听力的人能够进行很好的交流和沟通,通过计算机图像处理,让手语识别更加可行,手语识别可分为静态手语识别和动态手语识别两类。在HMM的基础上,通过静态手势识别并与数据库相关信息进行比对,达到中国手语识别的目的。中国手语手势识别研究有助于促进人机交互、虚拟现实等相关科学研究的发展。以便手语识别在人机交互应用上实现人类和计算机的自然交流。
1 基于图像的模型
在基于HMM_SVM图像的模型中,轮廓和边界是其中两个可从手势中提取的最直接的属性。使用基于边界线的技术,使在系统中预先存储可以实时识别的二十六个手型字母。另一种通过图像模型的主成份因素分析(principal component analysis)。对于一个图像集合的主成份因素分析确定一个图像的正交集,而此正交集可以用来描述原图像集合。相似的图像在一个特征空间上有相似的投影,因此在特征空间上的距离可以用来衡量图像的相似性。反馈层节点是隐层节点的拷贝,并加入了一个单位的延迟.网络的输入层和反馈层组成联合输入层。所以两种方法各有所长。
2 手形识别
手形识别技术包括:模板匹配、特征提取和神经网络等相关方法,本节介绍前两种方法,神经网的方法络将在2.3节中介绍。手势是用来强调或表达一种意念、感情或态度一个手的动作。所以,从开始的意图到最终的动作,手势由一个时间段内所做的一系列手形组成。所以在手势识别的过程中,一个基础的工作就是进行手势分解,即把手势按时间顺序分解成若干手势识别。
3 手势分解
可以把一个手势分为3个阶段:准备、动作和收回。Quek则定义了一系列规则来规范手势分解。①整个手势包含3个阶段:缓慢的初始动作、加速的中间过程和返回初始位置;②在中间过程中,手做了一个包含具体语义的手势;③手在静止位置附近的小扰动不算手势;④手的动作不应超出某个空间范围;⑤静态手势应该在一个有限的时间段内被识别;⑥重复的动作可以作为手势。
根据以上规则,手势的组成类似于语言的组成。手形的识别相当于词法分析,而手势的识别则相当于语言的解释。因此一系列在语言分析中成功应用的技术可以被引入手势识别领域。其中比较成功的是隐马尔可夫模型(hiddenmarkovmodel)。分解第2阶段的困难在于人们的习惯不同,即不同的人可以以不同的方式做同一个的动作。对于这个问题,引入神经网络将是一个合适而有效的方法。
最简单的静态手势识别可以只是识别出目标手所表示的数字,但对于复杂的手势则需要用到分类器来识别。其基本的思想是一个逐渐寻优的过程。过程如下:
在一个o维的空间内R存在n个向量x1,x2,x3,...,xn,空间内的某点x的向量可用如下的公式求得:
式中h!点x的邻域样本空间;xi!落入样本空间中的向量;K(x)!一个单位核函数,一般是一个高斯核函数;l!一个正定的对称o∀o矩阵,称为带宽矩阵;因此,通过式(1)得到的向量x是Ro内在邻域h内的向量在核函数作用下的平均偏移向量。在图像分割中,一张图像,即为Ro,每个像素是一个3维向量(R,G,B),h是像素的邻域。对图像的处理过程就是逐步地将各个像素向量朝邻域内最优向量接近,最后以此最优向量为模式归一化此邻域,完成图像分割。
4 傅里叶特征提取
轮廓提取
特征提取前用高斯模式训练好一个用于手部皮肤的颜色向量V。将分割后的图像用向量V去除背景,得到仅剩手部的图像,最后二值化图像。接下来用傅里叶描述子提取其边界特征。为了保证得到的轮廓的封闭性,用八邻域搜索算法提取得到的二值图的轮廓。八邻域搜索算法记录一个一维序列,序列中存放边界像素的位置。背景像素为零值,目标像素为非零值。从开始坐标出发,在当前坐标的八邻域内搜索非零像素,将搜到的第一个坐标记为序列的下一个坐标,并将当前坐标存入序列中;直到当前坐标和开始坐标相等,则完成搜索。得到的一维序列即为二值图的轮廓。
SVM基本的理论是针对二分类问题的,对于多个类的分类问题,SVM包括一对多方法(One Against Two),一对一方法(One Against One),树分类方法。这些方法在分类过程中普遍存在计算量大、需要多次二分类、算法复杂等缺点。
鉴于以上分类方法的缺点,借用几何学的方法提出了最小包围球的SVM方法(MEB_SVM)。
通过SVM算法将给定的手势训练样本集S经图像分割、二值化等步骤得到一组特征向量;再用基函数对这些向量进行空间映射。为了能快速地得到样本集的最小包围球,可以采用近似的办法。其主要思想是通过递增迭代的方式逐步扩展包围球的半径。扩展过程中将离当前球心最远的样本加入包围球中。记第t次迭代时的包围球包含的样本为St,球心和半径为Ct和Rt,包围球为B。则对于给定的∀样本>0,算法可描述为以下过程:
(1)对于一类样本,任选一个样本点作为S0,记球心C0为该点向量,半径R0为0;
(2)结束训练条件:不存在样本点z在(1+∀)包围球B(Ct,(1+∀Rt)的外面;
(3)找到特征空间内离当前包围球心Ct最远的样本点,并添加到当前包围球:St+1=St*{z};
(4)更新包围球的球心和半径Ct+1、Rt+1;
(5)t=t+1,计数增加一个,返回到(2);
经过以上步骤后即得到本类的最小包围球。对于各训练样本类都执行以上步骤则得到全样本空间的所有最小包围球。对于测试样本T的分类,只需计算T与各个包围球的球心Ci的欧式距离,并加以比较,则与T距离最近的球心所在的包围球的类即为T所属的类。
5 实验
本研究选取了手语中1~10的10个手势作为测试对象,并分别对每个手势进行20次实验。实验程序所使用的编程环境为Vistua l Studio2008 C++和OpenCV开源图像处理库。图像采集采用具有130万像素的10moons天弓摄像头。
经过试验,笔者以5∀5为邻域像素,核函数采用高斯核N(x)=exp(-(x(2),带宽矩阵简化为 l=h2I,即为一个单位数量阵。权重系数按与x点的距离赋值。
经二值化和八邻域搜索得到轮廓后,对轮廓即可作傅里叶变换。为使傅里叶描述子的误差尽量减少,作傅里叶变换的轮廓图像应该大小一致。实验中分别取不同的∀进行训练。得到的结果如表1所示。
识别准确度=作出正确分段的个数/实际所有分段的个数*100%。
表1 实验结果
实验结果中,∀越小,算法收敛时间越短,但由于包含在包围球中的向量太少,对算法的准确度会有一定的影响,当∀大于0.002以上时,算法训练时间增加明显,同时算法准确度也有所增加。
6 结语
手语词主要是通过手形变化和空间运动轨迹,以及手同身体之间的相对位置关系表达相关信息。无论是手形变化还是手部运动,均在执行过程中存在一些不确定因素。采用肌电、加速度和视觉3种传感器作为手势输入设备,提出了一种基于多传感器信息检测和融合的中国手语分类识别方法。该方法采用的多级分类策略考虑到了各个传感器的优势和手语词汇的模糊特性,用模糊积分将来自不同分类器的识别信息进行有机结合,用以提高多传感器融合系统的分类精确率,改善系统的稳健性。对于20个中国手语词汇,3种传感器融合的识别率均在90%以上,此实验结果证实了多传感器融合在手语识别中的有效性和可扩展性。同时,对采用不同决策级融合方法进行的对比实验,结果证实了基于HMM_SVM方法的有效性和实用性。
[1] 任海兵,祝远新,徐光祐,等.基于视觉手势识别的研究综述[J].电子学报,2000,28(2):118-121.
[2] WU J Q,GAO W,PANG B,eta.l A fast sign wo rd recogn ition technique for Chinese sign language[J].High Technology Letters,2001,11(6):23-27.
[3] CERVANTES J,LIXiao ou,YU W en,etal.Support vectorm ach ine classification for larg e data sets v iam in imum enclosing ba ll c lustering[J].N eurocomputing,2008,71(4-6):611-619.
[4] CHENG Yi zong.M ean shift,mode seek ing and clustering[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1995,17(8):790-799.
[5] CORTES C,VAPN IK V N.Support vector netwo rks[J].Machine Learning,1995,20:273 - 297.
[6] 黄春木,周利莉.密度分布特征及其在二值图像检索中的应用[J].中国图象图形学报,2008,13(2):307-311.
[7] 段一洪,陈一民,林锋.基于LSSVM的静态手势识别[J].计算机工程与设计,2004,12(25):2352-2368.
[8] Basir O,Yuan XH.Engine fault diagnosis based on multi-sensor information fusion usingDempster-Shafer evidence theory[J].Information Fusion,2007(8):379-386.
Study on HMM_SVM-based Chinese Sign Language Recognition
ZHAO Wei-ning
(Association Establishment Office,Welfare Lottery Center of Jilin Province,Changchun 130061,China)
This paper presents a Hidden Markov-based Chinese sign language recognition method by means of image capture of gestures,image processing and dimensionality reduction techniques.Through the application of Sugeno fuzzy integral,image processing technology is basic step for computer graphics identification,which can separate the hand-shaped area from the background by using histograms features,and then removes the part outside hand from obtained hand image by dimension reduction process to get the profile of hand.This method realizes the static identification for simple sign language without related gloves tools,the correct rate reaches 85%or more and the feasibility of sign language recognition in China is proved.
multi-dimensional segmentation;Hidden Markov Algorithm;SVM;Chinese sign language recognition
TP391.41
A
1009-3907(2011)10-0024-03
2011-06-20
赵蔚宁(1966-),女,吉林怀德人,工程师,主要从事计算机应用方面的研究。
责任编辑:吴旭云