APP下载

深度图像与骨骼数据的多特征融合人体行为识别

2018-09-07侯振杰梁久祯莫宇剑

小型微型计算机系统 2018年8期
关键词:识别率骨骼轨迹

许 艳,侯振杰,梁久祯,陈 宸,贾 靓,莫宇剑

1(常州大学 信息科学与工程学院,江苏 常州 213164) 2(达拉斯德克萨斯大学 电气工程系,美国 德克萨斯州理查德森市 75080) E-mail:houzj@cczu.edu.cn

1 引 言

人体行为识别是机器视觉研究的热门领域,数十年来学者对它的研究热度从未消退[1-3],研究对象由RGB图像向深度图像[4]发展.与RGB图像相比,深度图像基本不受自然光线影响,还提供具有三维信息的数据,也可以通过微软的SDK提取骨骼数据[5],准确描述有关关节的具体位置.

对于RGB图像序列,Navneet等人[6]提出了梯度方向直方图(HOG),将像素点梯度或边缘的方向直方图作为特征,但描述子生成过程冗长,导致速度慢;Wang等人[7]使用密集轨迹的方式描述行为视频序列;Cai等人[8]基于随机森林对人体轮廓进行研究,提出基于袋外数据误差加权投票准则的行为分类方法.以上方法缺乏在时间方向上的考量,故研究者开始研究深度图像.

对于RGB-D图像序列,Yang等人[9]提出深度运动图(DMM)来捕获时间上累积的运动能量并使用HOG提取特征;Oreifej等人[10]提出使用四维表面法向方向直方图描述符(HON4D)来捕获变化的结构信息;Wang等人[11]将三维行为序列看成一个四维体模型,从四维体模型的不同位置采样不同大小的四维子体积,提出随机占有模式(ROP)特征.

对于骨骼视频序列,骨骼信息可以更加直接地描述人体行为.Xia等人[12]提出三维骨架点位置直方图特征,从本质上编码相对于骨架根节点的空间占有信息;Yao等人[13]提出用姿态特征来编码骨架运动,使用霍夫森林[14]建立行为模型;Wang[15]使用骨架点和深度点云特征,提出了“actionlet”概念对行为建模,通过局部占有信息的不同来捕捉行为差异.

本文提出一种深度图像和骨骼数据的特征融合人体行为识别方法.将深度图像投影获得深度运动图,计算边缘梯度方向的空间分布和梯度之间的自相关性,有效利用了行为形状几何特征的相互关系,对特征进行降维处理,避免了维度灾难,解决了向量表示的稀疏性问题;选取骨骼数据的运动节点并进行多特征提取,利用Fisher Vector对骨骼特征进行处理得到长度相同的特征,解决了帧数不同对特征带来的问题;最后将深度特征和骨骼特征分别输入到分类器中,利用训练出的模型加权得到分类标签.

本文在人体行为识别中的主要贡献如下:

1)提出运动节点的概念,提取行为的运动节点,剔除与行为无关的无效信息,突出了运动肢体的变化,同时减少了特征数据量;

2)提出将人体姿态用轨迹描述,将人体行为转换为轨迹运动,提取轨迹特征;

3)将人体行为的轮廓比作为一类特征,不同行为表现出不同形态和不同的轮廓比,在空间描述上必有辨识度.

2 行为特征提取方法

本文针对深度图像与骨骼图像,提出一种有效识别人体行为的方法,算法流程图如图1.用梯度局部自相关(Gradient Local Auto-Correlation,GLAC)与时空梯度自相关算法(Space-Time Auto-Correlation of Gradient,STACOG)[16]提取深度图序列的复合深度特征FD={FD1,FD2};从骨骼数据中提取帧间距离、外接立方体轮廓比、帧间角度差3类特征,融合形成底层骨骼特征FB.

图1 行为识别算法Fig.1 Action recognition algorithm

2.1 深度运动图特征

Yang等人[9]提出用DMM描述行为的3D结构和形状信息,即将具有时间信息的深度图投影到笛卡尔积平面上.假设一个深度图序列具有N帧,则DMMv特征计算方法如式(1):

(1)

图2 稀疏向量计算过程Fig.2 Calculation process of sparse vector

对投影图进行GLAC处理,同时直接对深度图序列进行STACOG处理,计算梯度空间和方向自相关性,用梯度大小n和方向θ稀疏表示.如图2,每个点r被编码为B=8个方向角,其梯度角度θ与邻近的方向角的权重构成梯度方向向量f.

计算梯度在邻域内的特征如式(2)、式(3):

(2)

(3)

其中a1是邻近点到r的位移矢量,取a1∈{±Δr,0},fd是向量f的第d个元素.

图3 深度运动图的形成过程Fig.3 Formation of depth motion map

以high wave的GLAC处理为例,图3(a)是深度图序列,图3(b)为主视图.为避免极大或极小值对DMMv的影响,须将DMMv分布于[0,1],同时进行ROI操作使得相同视角图像大小相同,如图3(c).那么深度特征FD1可以表示为式(4):

FD1={F0,F1}

(4)

2.2 骨骼特征

如图4,对人体行为而言,运动的肢体较其他肢体运动幅度最大,故可以通过计算同一个节点随着帧数的变化引起的位置变化来比较.首先以Spine为原点统一新的坐标系,运用骨骼节点到原点的方差来定义各部分肢体的活跃程度,方差越大说明该节点变化越剧烈,当方差大于平均值时,认为该点就是运动节点.

图4 骨架Fig.4 Skeleton

如图5,high wave的运动节点为9、11、13,其表现为左手行为.将方差最大的节点运动转换为轨迹,用轨迹特征来表述行为的骨骼特征,图中轨迹为节点13的运动轨迹.

图5 运动节点的行为Fig.5 Moving nodes action

从运动节点和轨迹中提取3个特征作为底层骨骼特征FB,分别为帧间距离D、外接立方体轮廓比O和帧间角度差A.

1)帧间距离

在行为运动中,运动节点的距离变化最明显,故本文以求得的轨迹为标准,将轨迹上每个节点的大小称为帧间距离.

(5)

2)外接立方体轮廓比行为不同形成的外接立方体是有差别的,本文计算运动节点构造的轮廓比,如图6是high wave某一帧的左手轮廓.

图6 外接立方体
Fig.6 External cube

第i帧骨骼数据的轮廓比计算方式如式(6):

(6)

其中,xi表示第i帧运动节点在笛卡尔坐标系中x轴上的值.

那么,人体第i帧外接立方体轮廓比特征Oi如式(7):

Oi=[LWi,HWi,LHi]T

(7)

3)帧间角度差

与Xing[17]不同,本文提出帧间角度差由所求轨迹获得,即求运动节点相邻两帧之间的角度差,而不是节点之间的角度差,这样可以避免其他相对静止节点的干扰.以LH为例,计算LH关节点的角度变化特征ALH,如式(8):

(8)

本文中,底层骨骼特征FB由3类特征构成,如式(9).

(9)

人体各部分比例关系基本一致,归一化即可克服不同人体间的差异.底层骨骼特征FB维度与帧数N有关,对FB进行高斯混合模型的Fisher Vector处理,大小变为2pK×1,K在高斯混合模型中取128,p是FB的行数,构建过程伪代码如下:

1.初始化:平均值μk为随机数,方差σk为单位矩阵E,概率wk=1/K

2. 计算混合高斯模型GMM参数={wk,μk,σk,k=1,…,K}

for |p(FB|Φ)-p(FB|Φ)′|<ε

φk=(πk,μk,σk),Φ=(φ1,…,φk,…,φK)′

end

3. 计算统计量

fork←1toK

end

forj ←1toM

fork ←1toK

end

end

4. 计算fishervector,通过求关于GMM参数偏导获得

fork ←1toK

end

5. 向量归一化

2.3 基于特征权重的行为识别

将骨骼特征FS和深度特征FD1,FD2输入到分类器中,分配不同权重μ1,μ2,(1-μ1-μ2),通过对数函数估计全局隶属度,如式(10),隶属度最大时即得到最终标签l*,如式(11).

logP(lc|F)=

μ1p1(lc|FS)+μ2p2(lc|FD1)+(1-μ1-μ2)p3(lc|FD2)

(10)

(11)

其中,p1(lc|FS)、p2(lc|FD1)与p3(lc|FD2)是FS,FD1,FD2通过Sigmoid函数计算得到的后验概率.

3 实验验证

实验在华硕K43S i5-2430M CPU @2.40GHz处理器上完成,RAM 6.00GB,Windows 8.1、Matlab R2014b.

3.1 实验数据

本文通过kinect采集的人体行为数据库MSR-Action3D完成实验.10个人做20个行为共524个样本,包括high wave、horizontal wave、hammer、hand catch、forward punch、high throw、draw x、draw tick、draw circle、hand clap、two hand wave、side boxing、bend、forward kick、side kick、jogging、tennis swing、tennis serve、golf swing、pick up throw.

3.2 实验设置

实验设置参照Lu等人[18],用交叉验证的方法将数据分成两份,一份是训练数据,包括1、3、5、6、7、9号人的数据,另一份是测试样本,包括2、4、8、10号人的数据.

3.3 参数设置

本文提出的人体行为识别模型中,首先要确定参数的值.

在对深度图像进行GLAC特征提取时,参数集对结果有着巨大直接的影响,所以需要估计最优参数集.本文通过列举选出最优参数集,以行为识别率的高低作为衡量标准,选取多个参数集绘制折线图,结果见图7.

图7 GLAC在不同参数集下的识别率Fig.7 Recognition rate of GLAC with different parameter sets

随着D变大,像素间的相关度变大,识别率上下波动,当D再逐渐增大,相关度减小,识别率随之降低.由此可以看出D=10,Δr=8时,该算法有较高的识别率.

计算运动节点时,需要判定运动节点的正确性.以high wave、two hand wave、forward kick为例,计算其运动节点,结果如表1.骨架中的运动节点与方差反应出来的运动节点是一致的,证明了本文运用方差的方法可以正确提取人体行为的运动节点,正确判断出人体行为中运动明显的肢体.

表1 提取运动节点Table 1 Extract moving nodes

分类权重衡量了复合深度特征FD={FD1,FD2}与骨骼特征FS对于分类做出的贡献,实验中将μ1∈[0,1]记为骨骼特征FS的权重,μ2∈[0,1]记为FD1的权重,将步长设为0.1依次进行实验.如表2,当μ1=0时,说明FS对人体行为识别分类没有贡献;当μ1=1时,说明人体行为识别的分类完全依赖于FS,此时可以去除FD.

为估计最优权重参数μ1,μ2,使用交叉验证的方式进行计算.当μ1=0.1,μ2=0.5时,本文算法具有较高的人体行为识别性能.FD的识别率(μ1=0时)比FS的识别率(μ1=1时)高,所以FD分配到较高的权重是合理的,融合后的特征具有更高的判别力.

3.4 实验结果分析

本文主要研究人体行为的肢体运动,首先运用方差计算行为的运动节点,利用运动节点表征整个行为.提取运动节点骨骼特征的方法(简称本文方法)与未提取运动节点骨骼特征的方法(简称初始方法)相比,大量减少了混淆有效特征的无效信息,本文方法在时间与识别率上都有所提升,结果如表3,其中时间是提取骨骼特征所占用的平均时间.

表3 骨骼特征的识别率和平均时间Table 3 Recognition rate and mean time of skeletal features

本文将复合深度特征与骨骼特征相结合,融合复合深度特征与骨骼特征的优点,达到行为识别率更高的目的.对于每个行为都有自身的分类概率,Chen 等人[16]与本文方法的识别率用混淆矩阵表示,如图8所示.

图8 混淆矩阵Fig.8 Confusion matrix

比较图8(a)与图8(b),本文方法在识别forward punch、draw x、draw circle等行为时识别率有所提升.由图8(b)可知,draw x的识别率较低,将draw x误识别成horizontal wave、hammer,主要是因为这3个行为都包含将手水平举放在胸前的动作,故容易混淆.另外,bend的识别率为0,因为该行为只有一个样本,在模型训练时没有对该行为进行训练,而在pick up throw中含有类似的bend,故将bend误识别成pick up throw.

为验证本文方法的性能,将本文方法与现有优秀方法进行比对,实验结果如表4.本文方法识别率比现有方法至少提高了2%.若在本文方法的基础上不提取运功节点,其识别率也达到了93.4673,比现有方法至少提高了1%.说明本文骨骼特征可以作为深度特征的补充特征,弥补深度特征在人体行为中的不足,融合后的特征提高人体行为识别率.

表4 实验对比Table 4 Comparison experiments

3.5 分类器训练

将特征输入到分类器进行识别分类,以识别率为标准判断算法的可行性.在使用分类器时涉及到两个参数:惩罚因子c和核函数参数g,本文通过交叉验证选择一组最优参数.

图9 参数c和g对应识别率的等高线图Fig.9 Recognition rate counter map of parameter c and g

如图9,曲线表示不同数值对应识别率的等高线,当c=100,g=0.8时本文模型识别率最高,此处标记为“☆”.

4 结束语

本文提出了一种将深度特征与骨骼特征通过权重融合识别人体行为的方法.从骨骼数据中提取运动节点,增强了行为的可辨别性并提高计算速度,从运动轨迹中提取底层骨骼特征表征人体行为,通过Fisher Vector算法对底层骨骼特征分析,实现降维并使得骨骼特征维度相同.与深度特征结合,对易混淆的行为有很好的补充作用,减少行为的歧义性.用基于SVM的多模型权重融合机制分类识别人体行为,权衡了不同特征对识别分类所做的贡献,提高识别率.

深度特征具有丰富的细节特征,所以在人体行为分类中发挥了重要作用,但其特征提取与分析时间冗长,不能达到实时性的效果,故我们将提升深度特征提取效率作为进一步研究方向之一,实现人体行为识别的实时分类.

猜你喜欢

识别率骨骼轨迹
解析几何中的轨迹方程的常用求法
做家务的女性骨骼更强壮
三减三健全民行动——健康骨骼
轨迹
轨迹
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
骨骼是如何生长的