基于R-SVM算法的部位外观模型
2015-06-23韩贵金
韩贵金, 周 有
(西安邮电大学 自动化学院, 陕西 西安 710121)
基于R-SVM算法的部位外观模型
韩贵金, 周 有
(西安邮电大学 自动化学院, 陕西 西安 710121)
为了提高人体姿态估计的准确度,利用梯度方向直方图特征建立一种基于递归支持向量机算法的部位外观模型。利用R-SVM算法剔除训练图像标注的部位区域中对识别部位作用较小的部分区域,利用剩余的图像区域构造的SVM分类器即为部位外观模型,外观模型的最佳细胞单元尺寸利用训练图像中标注的部位区域与部位外观模型的相似度的极大化来估计。仿真实验结果表明该模型能更准确地描述真实人体部位的外观特征,用于人体姿态估计时可以得到准确度更高的人体姿态估计结果。
人体姿态估计;部位外观模型;梯度方向直方图;递归支持向量机
人是社会活动的主体,在视频监控、人机交互和虚拟现实等诸多领域中经常需要对人体的动作和行为进行识别与分析。人体由头部、躯干和四肢等多个部位组成,如果能确定人体各个部位的尺寸和位置等定位信息,通过对部位定位信息的分析即可实现人体动作和行为的识别与分析。
通过对图像特征进行分析以确定人体各部位的尺寸和位置等定位信息的过程即为人体姿态估计[1]。由于人体姿态估计可以为人体动作和行为的识别与分析打下基础,而人体动作和行为的识别与分析在计算机视觉研究领域非常热门,所以人体姿态估计也获得了很多研究者的关注,迄今为止,已经提出了多种人体姿态估计算法[2]。现有人体姿态估计算法主要分为基于整体的姿态估计方法和基于模型的姿态估计方法两大类[3]。其中基于模型的姿态估计方法由于可以遍历人体所有可能存在的姿态[3],得到了人体姿态估计领域研究者更多的关注。基于模型的姿态估计方法包含人体模型、部位外观模型、部位搜索空间和推理算法等4个方面。
基于模型的人体姿态估计需要计算各个部位定位状态对应外观特征与真实人体部位外观特征的相似程度,从而需要利用图像特征对真实人体部位外观特征进行描述,即为部位外观模型。部位外观模型建立的准确与否对人体姿态估计的准确度影响很大,是人体姿态估计领域受到研究者最多关注的研究方向,已经提出了多种部位外观模型[2]。
建立部位外观模型时采用的图像特征主要有边缘、梯度方向直方图(Histograms of Oriented Gradients, HOG)、颜色和形状等,其中HOG特征由于对不同图像中的光照变化和目标局部变形具有良好的不变性[4-5],已经成为建立部位外观模型时应用最广泛的图像特征[6-10]。虽然HOG特征在建立部位外观模型时取得了广泛的应用,而且取得了良好的效果。但在具体应用方式上仍然存在着以下两个缺陷:(1)对相对大小不同的人体部位建立外观模型时采用相同的细胞单元尺寸,但实际上大小不同部位的HOG特征需要采用大小不同的细胞单元尺寸才能进行有效地描述;(2)利用训练图像标注的部位区域对应HOG特征的所有HOG块来建立部位外观模型。但实际上在训练图像标注的部位区域中真实人体部位并没有占据全部区域,未占据的部分对识别人体部位不起作用,所以它们也并不适合用于建立部位外观模型。
支持向量机[11-12](Support Vector Machine, SVM)是一种常用的分类算法,较为有效地解决了模式分类中广泛存在的小样本、非线性和高维数等问题。递归支持向量机算法(R-SVM)[13]是一种同时实现特征选择和SVM分类器构造的算法,特征选择的标准是特征对分类器的相对贡献。
针对上述两个缺陷,建立一种基于递归支持向量机(Recursive Support Vector Machine, R-SVM)算法的部位外观模型。利用R-SVM算法剔除部分在识别人体部位时不起作用或作用很小的HOG块并利用剩余的HOG块构造线性SVM分类器作为部位外观模型,并利用极大似然算法来估计在对不同部位建立部位外观模型时所需采用的最佳细胞单元尺寸。
1 缺陷分析
由于体型的不同,不同人体同一部位的尺寸大小并不相同,但各个部位在不同人体中往往具有相对固定的比例关系,例如躯干的宽度是小臂宽度的几倍,上臂的宽度比小臂的宽度稍大等。
HOG特征利用细胞单元内像素点梯度的方向密度分布来描述图像局部的形状[4]。图1和图2给出了采用不同细胞单元尺寸计算得到的某幅训练图像中标注的人体躯干和小臂区域的HOG特征示意图。部位的HOG特征是由多个HOG块特征向量组合而得,而HOG块特征向量是通过对若干个相邻细胞单元的梯度方向直方图归一化而得到的,细胞单元即为如图1(b)和图2(b)所示的图像小区域。部位的HOG特征中HOG块的多少由细胞单元尺寸所决定,细胞单元尺寸越大,HOG块越少,HOG特征越偏重于描述整体轮廓;细胞单元尺寸越小,HOG块越多,HOG特征越偏重于描述局部细节。
(a)躯干(b)细胞单元 (c)4×4 (d)8×8(e)12×12 (f)20×20
图1 躯干HOG特征示意图
不同人体的同一部位具有类似的边缘轮廓,但由于人体着装的不同,部位边缘特征的细节可能有较大的区别。HOG特征是对图像边缘特征的一种改进,不同人体的同一部位的HOG特征同样具有类似的整体轮廓和区别较大的局部细节。所以为了有效识别人体部位,在利用HOG特征建立部位外观模型时,需要在有效描述整体轮廓的同时抑制局部细节,但由于人体不同部位尺寸大小的不同,对不同部位建立部位外观模型时需要采用不同的细胞单元尺寸。
图1中躯干部位的大小为123×102像素,图2中小臂的大小为54×30像素。从图1(c)~图1(f)和图2(c)~图2(f)可以看出,随着细胞单元尺寸的增加,HOG特征越来越偏重于描述部位整体轮廓,但当增加到20×20时已经无法获取躯干的整体轮廓,小臂的HOG特征已经无法计算了。对于躯干部位,当细胞单元尺寸为12×12时计算得到的HOG特征可以较好地实现在描述整体轮廓的同时抑制局部细节。而对于小臂,当细胞单元尺寸为8×8时计算得到的HOG特征才能较好地实现在描述整体轮廓的同时抑制局部细节。
(a)躯干(b)细胞单元 (c)4×4 (d)8×8(e)12×12 (f)20×20
图2 小臂HOG特征示意图
此外如图1(b)和图2(b)所示,训练图像中标注的部位区域在计算HOG特征时被分成了多个小区域,每个小区域即为一个细胞单元。但实际上人体部位并没有占据全部细胞单元,在对图像中人体部位进行识别时,那些没有占据的细胞单元及其所对应的HOG块并不起作用,甚至还会起反作用,所以在建立部位外观模型应该将这些HOG块剔除掉。
2 基于R-SVM算法的部位外观模型
对于那些在识别人体部位时不起作用或作用很小的HOG块,本文利用R-SVM算法来剔除,并将R-SVM算法最终构造的线性SVM分类器作为部位外观模型。利用训练图像标注的部位区域的HOG特征与部位外观模型的相似度均值的极大化来估计不同部位的最佳细胞单元尺寸。
基于R-SVM算法的部位外观模型的建立可分为4个步骤,图3以躯干为例给出了建立过程的示意图。
步骤1 剪切训练图像中标注的部位区域得到部位图像块,并在训练图像中除标注的部位区域之外的任意区域剪切相同大小的非部位图像块。将从所有训练图像剪切得到的图像块都调整为标准大小,如图3(a)和图3(b)所示。
步骤2 求解所有图像块的HOG特征并构成样本集,其中部位图像块的HOG特征为一类,如图3(c)所示;非部位图像块的HOG特征为另外一类,如图3(d)所示。
步骤3 利用R-SVM算法对样本集进行特征选择并构造线性SVM分类器,该分类器即为部位外观模型,如图3(e)所示。
R-SVM算法可分为4个步骤[13]。
(1) 利用样本所有特征训练构造线性SVM分类器。
f(x)=wx+b
(1)
其中w为线性SVM分类器的权向量,b为阈值。
(2) 计算每个特征对线性SVM分类器的相对贡献,然后按照大小进行排序。
样本特征对线性SVM分类器的相对贡献为
(2)
(3) 按照递归策略选择特征,并利用选择的样本特征重新训练构造线性SVM分类器。常用的递归策略主要有两种:每次选择一定比例的特征,或者规定一个逐级减小的特征数目序列。
(4) 重复(2)和(3),直到特征数目达到规定数目为止。
步骤4 利用所有部位图像块的HOG特征与部位外观模型的相似度均值的极大化来估计部位的最佳细胞单元尺寸
(a) 部位图像块
(b) 非部位图像块
(c) 部位图像块HOG特征
(d) 非部位图像块HOG特征
(e) 部位外观模型
3 仿真实验及分析
选择与文献[6-7,14]相同的训练图像集和测试图像集。计算图像梯度时采用[-1, 0, 1]模板和无符号的梯度方向[4],梯度方向分为9个区间,HOG块采用矩形块形式[4],每个HOG块包含4个细胞单元,HOG块的扫描步长与最佳细胞单元尺寸相同。
采用测试图像标注的部位区域与部位外观模型的相似度来衡量所建立的部位外观模型的有效性,相似度近似满足正态分布,均值和标准差利用极大似然估计法来估计,均值表征部位外观模型的有效性,标准差表征鲁棒性。
表1给出了所有测试图像标注的各个部位区域与两种部位外观模型的相似度的比较结果,表中括号内外的数据分别为正态分布的均值和标准差。“SVM”表示传统的利用线性SVM分类器所建立的部位外观模型,“R-SVM”表示基于R-SVM算法的部位外观模型。
表1 相似度比较
从表1可以看出,测试图像标注的各个部位区域与“R-SVM”的相似度均值要比与“SVM”的相似度均值更大,标准差相同或更小,这说明“R-SVM”的有效性更高,鲁棒性也更好,能更准确地描述真实人体部位的外观特征。
将基于R-SVM算法的部位外观模型用于基于树形图结构模型[15]的人体姿态估计。图4给出了对几幅测试图像的人体姿态估计结果,表2给出了利用“R-SVM”与几种同样采用树形图结构模型的人体姿态估计算法对人体各个部位的估计准确度的比较结果。
图4 人体姿态估计示例
表2 人体姿态估计准确度比较
从表2可以看出,与文献[6,14]相比,将基于R-SVM算法的部位外观模型用于采用树形图结构模型的人体姿态估计,人体各个部位均可以得到更高的准确度;与文献[7]相比,躯干、头部和小臂的估计准确度都更高,而上臂的估计准确度较低,这是因为文献[7]利用了HOG、颜色和形状三种图像特征。
4 结束语
建立了一种基于R-SVM算法的部位外观模型,利用R-SVM算法剔除部分HOG块,将利用剩余的HOG块构造的线性SVM分类器作为部位外观模型,部位外观模型的最佳细胞单元尺寸利用极大似然算法来估计。仿真实验表明所建立的部位外观模型更加有效,用于人体姿态估计可以得到更高的估计准确度。如何将HOG特征与其他图像特征结合起来建立部位外观模型是今后的主要研究工作。
[1] Felzenszwalb P F, Huttenlocher D P. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 61(1):55-79.
[2] Thomas B, Adrian H M, Volker K, et al. Visual Analysis of Humans[M]. Berlin: Springer, 2010:199-223.
[3] Samuel A J. Articulated Human Pose Estimation in Natural Images[D]. Leeds :University of Leeds,2012:11-18.
[4] Navncct D, Bill T. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2005:886-893.
[5] Srinivasan P, Shi J B. Bottom-up recognition and parsing of the human body[C]//Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2007:1-8.
[6] Andriluka M, Stefan R, Bernt S. Pictorial Structures Revisited: People Detection and Articulated Pose Estimation [C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2009: 1014-1021.
[7] Sapp B, Toshev A, Taskar B. Cascaded Models for Articulated Pose Estimation[C]//Proceedings of the 11th European Conference on Computer Vision. Berlin: Springer, 2010:406-420.
[8] Wang Y, Tran D, Liao Z C. Learning Hierarchical Poselets for Human Parsing[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2011:1705-1712.
[9] Sapp B, Taskar B. MODEC: Multimodal Decomposable Models for Human Pose Estimation[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2013: 3674-3681.
[10] Yang Y, Ramanan D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2878-2890.
[11] Corinna C, Vapnik V. Support-Vector Networks [J]. Machine Learning, 1995(20): 273-297.
[12] 吴青,赵雄. 一类新样条光滑支持向量机[J].西安邮电大学学报,2013,18(6):68-74.
[13] Zhang X G, Lu X, Shi Q, et al. Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data [J]. BMC Bioinformatics, 2006(7):197.
[14] 韩贵金,朱虹. 一种基于图结构模型的人体姿态估计算法[J]. 计算机工程与应用,2013, 49(14):30-33.
[15] 韩贵金,赵勇. 基于树形图结构模型的人体姿态估计[J].西安邮电大学学报,2013,18(3):83-86.
[责任编辑:祝剑]
Part appearance model based on R-SVM algorithm
HAN Guijin, ZHOU You
(School of Automation, Xi’an University of Posts and Telecommunications, Xi’an 710121,China)
Part appearance model plays a critical role for human pose estimation accuracy. A part appearance model based on the recursive support vector machine (R-SVM) algorithm is developed by using the histograms of oriented gradients (HOG) feature to improve the estimation accuracy. The parts of the annotated region in the training images, which play a smaller role for identifying human part, are eliminated by the R-SVM algorithm. The SVM classifier constructed by the remaining areas is used as the part appearance model, and its optimal cell size is estimated by maximizing the mean similarity between the annotated area of the training images and the part appearance model. Experiment results show that the part appearance model based on R-SVM algorithm can represent the appearance characteristics of real human parts accurately, and can get higher estimation accuracy when used for human pose estimation.
human pose estimation, part appearance model, hhistograms of oriented gradients, recursive support vector machine
2015-01-05
陕西省教育厅专项科研计划资助项目(14JK1677)
韩贵金(1978-),男,硕士,讲师,从事数字图像处理研究。E-mail:hgjin123@126.com 周有(1969-),男,博士,副教授,从事数字信号处理研究。E-mail:youzh_xian@163.com
10.13682/j.issn.2095-6533.2015.03.014
TP391.4
A
2095-6533(2015)03-0081-05