APP下载

基于随机丛林的人体部件分类方法

2018-01-18,

计算机工程 2018年1期
关键词:结点丛林决策

,

(中国科学技术大学 自动化系,合肥 230000)

0 概述

人体姿态估计是人工智能领域一个很重要的部分,它隶属于自然人机交互领域。计算机该如何理解人类做出的动作,不通过如鼠标键盘的媒介,人类姿态如何控制计算机进行操作,达到自然交互的目的,这些问题都是计算机视觉领域研究的热点问题。现阶段有众多人体姿态估计的方法[1-3],如文献[4]提出可以由骨架结构近似表示人体姿态,通过采用人体骨架结构中每个关节的时间序列数据表示人体动作序列。2012年微软推出了体感游戏设备xbox360,其前端深度相机Kinect通过获取人体深度数据,使用随机森林分类器大量训练模拟和真实人体数据,获得了非常好的效果。

文献[5]提出随机森林模型,至今仍被认为是最有效的分类及回归算法之一。文献[6]提出通过随机森林训练经过提取的深度特征,从而完成对人体全身31个部件的大致分类。特征训练样本数量高达2×109个,并且随着森林中单个决策树的树深d的增加,内存消耗为O(2d)。

本文在前人的基础上,为解决部分传统量化深度特征响应不敏感问题而加入新的RGB边缘特征,并与文献[7]中提出的决策丛林算法相结合,提出优化的人体部件分类流程。根据文献[6]的启发,本文将人的身体分为31个部件,通过深度数据做特征提取,采用灰度图像做边缘特征提取。

1 深度特征与RGB边缘特征

1.1 深度量级特征

由于深度图像不受光照、衣着、皮肤毛发等因素的影响,可以很好地保留人体轮廓,因此利用深度数据作特征提取的案例已经愈发成熟。文献[8]首次提出了一种快速的量化深度特征,这种特征在Kinect骨骼案例中得到了很好的运用,具体如下:

(1)

其中,dI(x)表示在给定图像I中像素x处的深度,参数θ=(u,v)是自像素点x的2个偏移向量,这里均除以dI(x)以保证深度不变性。这种特征在众多文献中得到使用与优化,如文献[9-10]。

1.2 RGB边缘特征

文献[6]指出,因为深度图像具有低光鲁棒性、大尺度颜色和细节不变性以及可以解决边界模糊等优点,所以将深度数据用于特征提取比起RGB图像具有更高的效率。但是如Kinect这样的体感设备往往不仅具有红外设备,而且同时兼具获取传统RGB图像的功能。受文献[11]启发,结合RGB图像与深度图像往往可以获取场景更丰富的信息与更好的分类性能。经典RGB特征算子用于关键点匹配[12]。本文将这种观念进行扩展,对于灰度RGB图像,从中提取其边缘比较特征(Edge Comparison Feature,ECF)。

文献[13-14]中均指出,对于人体识别,观察人体轮廓是一个非常重要的参考和线索。文献[15]定义了轮廓的详细解释,轮廓不仅包含物体的外部边界,而且包括内部边缘信息,可以描述物体的空间结构。因此,将人体RGB图像的轮廓信息与深度信息结合可以优化分类性能。

为了衡量两幅边缘图像的匹配程度,文献[16]引入了Chamfer匹配算法,Chamfer距离定义为:

(2)

其中,U={ui},V={vi}是边缘图像中的边缘点集合,dCM即Chamfer距离为U中每一个ui到V中最近边缘的距离之和的平均值,n=|U|。

同式(1)类似,结合式(2),引入ECF的量级特征:

(3)

(4)

式(4)用于表示位于图像I中像素点x处与其边缘图像IE上一点x′的距离最小值,式(3)则表示在此像素点x处的2个偏移位置偏移的存在性。

当量级信息无法很好地区分人体部件,比如均为一个很小的值时,可以尝试引入方向信息特征,后续的实验证明这种组合可以减少噪声影响,有效提高准确率。ECF的方向特征如下:

(5)

(6)

在式(6)中方向的定义可以有多种方式,本文采取的是x与x′连线与水平轴正方向的夹角值,因此式(5)中的“-”操作符也充分考虑了角的循环特性。

同式(1)中的深度偏移参数相同,本文定义ECF的量级与方向特征可以捕捉到图像中特定位置的边缘分布的微弱信号,可以通过强分类学习器学习到分类间隔参数。

2 决策DAG与随机丛林

2.1 决策DAG

利用有向无环图(Directed Acyclic Graph,DAG)做决策的方法已经在众多文献中提到。有向无环图是指,给定一个有向图G(V,E),V={vi},若从G的任意一个顶点vi出发经过若干条边ej,均无法回到该点,则该图G被称为有向无环图。本文将一类特殊的DAG称为决策DAG。决策DAG具有以下要求:1)只有一个入度为0的根结点;2)拥有多个入度≥1,出度为2的分裂结点;3)拥有多个入度≥1,出度为0的叶子结点。

由图1可以看出,决策DAG可以得到优化的树结构,把决策DAG看作一种有向树。如果检测到两个分裂结点具有类似的分类概率密度分布,就可以把它们合并起来。当树深较大时,决策DAG可以有效地减少内存消耗,从后续实验看出,DAG还可以捕捉到训练数据内在关联的程度,提高模型的准确率。

图1 决策树与决策有向无环图

2.2 随机丛林

同随机森林类型类似,通过集成若干棵决策DAG,最终可以得到包含多棵DAG的整体模型J=(G1,G2,…,GT)。

设模型J中第i个决策DAGGi的输出:

pt=i(y|v)

(7)

表示Gi输出的标签概率密度分布,这里y是分类标签,v是输入的样本特征。

具有T棵决策DAG的集成模型J的输出定义为:

(8)

由于在样本选取与训练特征筛选时同样采取了随机bagging的方式,因此可以有效避免模型出现过拟合。为了将这种整合模型与随机森林相区别,文献[7]将这种集成式DAG称为决策丛林(Decision Jungle),为了体现该模型同样通过随机选取样本与样本特征的方式进行训练的特性,本文将之称为随机丛林(Random Jungle)。

2.3 随机丛林训练与参数优化

决策DAG训练参数时采用逐层(level-wise)的方式,DAG图结构与特征选择、阈值训练需要同时优化,这一点与决策树分裂准则不尽相同。在每个DAG结点v处,需要优化4个参数:选择特征dv,阈值θv,左孩子结点lv,右孩子结点rv。

假设s是某种合并方案,如s(D)=min(2D,128),这里D代表DAG的层数。则DAG分裂算法如下:

1.G←({root},∅)

2.for D=1,2,… do

3.将s(D)个新结点加入G作为孩子结点

4.初始化上层父结点参数

5.优化上层父结点参数

6.end for

DAG的逐层参数优化如图2所示。其中,pi是第i个父结点,cj是相对于p的第j个子结点。

图2 决策DAG某层结构示意图

本文首先给出信息熵的定义,再给出寻找父结点最优参数的目标函数E:

给定X⊂n×{1,2,…,C}为训练样本集,则信息熵H(X)定义为:

(9)

这里:

(10)

定义目标函数E:

(11)

这里:

Θi=(dpi,θpi,lpi,rpi)

(12)

是父结点pj的待优化参数,Spj、Sci分别是落入结点pj、ci的训练样本集合。

在式(11)中,Sci与Θ=(Θ1,Θ2,…,Θk)的关系由下式可以看出:

(13)

参考图2,给出DAG分裂算法中步骤5的参数优化算法如下所示。

1.function Optimization(Θp1,Θp2,…,Θpk):

2. while Θpi发生变化 do

3. for i=1,2,…,k do

4.ζ←随机特征选择集合

5. (dpi,θpi)←argmind∈ζ,θ∈RE(…,Θpi-1,(d,p,lpi,rpi),Θpi+1,…)

6. end for

7.for i=1,2,…,k do

8. lpi←argminl=c1,c2,…,clE(…,Θpi-1,(dpi,θpi,l,rpi),Θpi+1,…)

9. rpi←argminr=c1,c2,…,clE(…,Θpi-1,(dpi,θpi,lpi,r),Θpi+1,…)

10. end for

11.end while

12.return Θp1,Θp2,…,Θpk

13.end function

上述参数优化算法是一种坐标梯度下降算法,在第1步中,算法依次遍历每个父结点k并试图找到最优分裂参数(dpi,θpi)最小化目标函数E,同时保持左右子结点指向以及其他父结点的分裂参数不变。在第2步中,算法重定向由父结点指向子结点的分支,以此最小化目标函数E。当该层参数不再发生变化时,算法终止,上层父结点参数优化完毕。

3 实验结果与分析

本文总样本数为4 000个,取其中的20%作为测试样本。横向比较了随机丛林与随机森林在不同训练样本数、弱分类器个数下完成训练所需的空间与时间消耗,也比较了单独使用经典深度特征、RGB边缘特征,以及两者融合特征下分别使用随机丛林和随机森林模型进行分类的平均正确率。

训练数据的制作基于CMU的MotionBuilder骨骼数据库。图像如图3所示。

图3 训练样本

3.1 测试样本比对

图4为输入图像与输出图像对比。训练结果1为带有经典深度梯度特征的随机森林训练结果,训练结果2为深度特征与RGB边缘特征融合的随机森林训练结果,训练结果3为深度特征与RGB特征融合的随机丛林训练结果。通过对比可以发现,引入RGB特征可以较好地解决误分类中集簇误分类的情况,即不会在某个部件中心出现大规模误分的情况,而使用随机丛林模型可以提高每类的平均准确率。

图4 输入图像与输出图像

3.2 训练过程耗时对比

本文的训练采用8棵决策树或决策DAG,偏移向量模值取水平和垂直方向上0~100的高斯采样,决策DAG的合并策略为:

s(D)=min(128,2min(5,D)×1.2max(0,D-5))

为了比对实验效果,分别使用500、1 000、2 000、4 000个训练样本进行训练,测试了使用深度梯度特征和深度与RGB融合特征下算法迭代完毕所消耗的时间,结果如表1、表2所示。

表1 不同深度梯度特征下的训练消耗时间比较 s

表2 不同深度梯度与RGB特征的训练消耗时间比较 s

从表1与表2中可以看出,当训练样本较少时,随机森林与随机丛林模型消耗时间基本相同,随着训练样本的增多,消耗时间开始出现明显差异,具体原因是随机丛林中非叶子结点数目开始大大减少,待优化的参数数目显著降低。

3.3 测试过程耗时对比

本文选取训练样本的20%作为测试样本,即使用100、200、400、800张深度图像作为测试样例,对以3.2节所述参数训练完成的模型分别计算完成一幅图像分类所消耗的平均时间,结果如表3、表4所示。

表3 不同深度梯度特征下的测试消耗时间比较 s

表4 不同深度梯度与RGB特征下训练消耗时间比较 s

由表4可以看出,使用随机丛林结合深度与RGB特征的方法每秒钟可以处理15帧左右的图像,基本可以满足实时性的要求。

3.4 测试样本平均分类正确率比较

本文考察测试样本的平均分类正确率,这里给出弱分类器数量分别为4和8的2种情况。在同一坐标系下分别比较了单深度特征下随机森林(RFD)与随机丛林模型(RJD)、单RGB边缘特征下随机森林(RFRGB)与随机丛林模型(RJRGB)、深度特征与RGB特征融合下随机森林(RFD+RGB)与随机丛林模型(RJD+RGB)的测试分类正确率与训练样本数量的关系,如图5所示。

图5 测试样本分类正确率比较

实验结果表明,单独的RGB边缘特征几乎无法作为分类主特征进行人体部件分类,但是与传统深度特征的融合可以提高分类正确率。通过相同特征的横向比较也可以发现,使用决策DAG作为弱分类器相比较传统决策树也可以提高整体模型的泛化性能。

4 结束语

本文在传统深度梯度特征的基础上,加入RGB边缘特征,提出一种新的分类方法。由此带来的特征维度相应变高,为了解决传统随机森林在处理高维特征时内存消耗的指数级增长,结合文献[7,9]中提出决策DAG模型,目的在于降低内存成本消耗,从而降低时间复杂度。实验结果表明,本文方法不仅可以减少算法的运行时间,而且可以提高模型的分类正确率。今后将提出改进的随机丛林模型,使得分类耗时和准确率上能有进一步提高。

[1] DANTONE M,GALL J,LEISTNER C,et al.Human Pose Estimation Using Body Parts Dependent Joint Reg-ressors[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:3041-3048.

[2] GIRSHICK R,SHOTTON J,KOHLI P,et al.Efficient Regression of General-activity Human Poses from Depth Images[C]//Proceedings of International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2011:415-422.

[3] YE M,WANG X,YANG R,et al.Accurate 3D Pose Estimation from a Single Depth Image[C]//Proceedings of International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2011:731-738.

[4] 汪成峰,王 庆,梅树立,等.基于插值小波关键帧提取的动作评价算法[J].计算机工程,2017,43(1):309-315.

[5] BREIMAN L.Random Forests[J].Machine Learning,2001,45(1):5-32.

[6] SHOTTON J,FITZGIBBON A,COOK M,et al.Real-time Human Pose Recognition in Parts from Single Depth Images[J].Communications of the ACM,2013,56(1):116-124.

[7] SHOTTON J,NOWOZIN S,SHARP T,et al.Decision Jungles:Compact and Rich Models for Classification[C]//Proceedings of International Conference on Neural Information Processing Systems.New York,USA:ACM Press,2013:234-242.

[8] LEPETIT V,LAGGER P,FUA P.Randomized Trees for Real-time Keypoint Recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2005:775-781.

[9] 郭天楚,吴晓雨,杨 磊,等.基于改进的随机森林的人体部件识别[J].中国传媒大学学报(自然科学版),2014,21(5):32-38.

[10] 徐岳峰,周书仁,王 刚,等.基于深度图像梯度特征的人体姿态估计[J].计算机工程,2015,41(12):200-205.

[11] JIU Mingyuan,WOLF C,BASKURT A.Integrating Spatial Layout of Object Parts into Classification Without Pairwise Terms——Application to Fast Body Parts Estimation from Depth Images[C]//Proceedings of International Joint Conference on Computer Vision,Imaging and Computer Graphics Theory and Applications.Berlin,Germany:Springer,2013.

[12] LEPETIT V,PILET J,FUA P.Point Matching as a Classification Problem for Fast and Robust Object Pose Estimation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2004:244-250.

[13] WU Jianxin,GEYER C,REHG J M.Real-time Human Detection Using Contour Cues[C]//Proceedings of IEEE International Conference on Robotics & Automation.Washington D.C.,USA:IEEE Press,2011:860-867.

[14] ZHANG Huigang,WANG Junxiu,BAI Xiao,et al.Object Detection via Foreground Contour Feature Selection and Part-based Shape Model[C]//Proceedings of the 21st International Conference on Pattern Recognition.Washington D.C.,USA:IEEE Press,2012:2524-2527.

[15] SHOTTON J,BLAKE A,CIPOLLA R.Multiscale Categorical Object Recognition Using Contour Fragments[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2008,30(7):1270-81.

[16] BARROW H G,TENENBAUM J M,BOLLES R C,et al.Parametric Correspondence and Chamfer Matching:Two New Techniques for Image Matching[C]//Proceedings of the 5th International Joint Conference on Artificial Intelligence.New York,USA:ACM Press,1977:659-663.

猜你喜欢

结点丛林决策
LEACH 算法应用于矿井无线通信的路由算法研究
为可持续决策提供依据
基于八数码问题的搜索算法的研究
丛林之歌
决策为什么失误了
丛林大作战
一起去丛林露营吧
Pei Cotz 回到丛林
关于抗美援朝出兵决策的几点认识
湘赣边秋收起义的决策经过