低层次和高层次特征相结合的人体动作识别

2012-02-05王小念姚莉秀

微型电脑应用 2012年4期

王小念，姚莉秀

0 引言

人体动作识别是计算机视觉领域非常活跃的研究内容之一，在现实中有广泛的应用，如人机交互，视频检索以及行为分析等。对人体动作识别方法的改进通常包括两个部分：寻找最优的时空兴趣点检测器和最优的动作特征时空描述子。然而，寻找最优的时空兴趣点检测器和最优的动作特征时空描述子有相当大的困难。目前仍然没有通用的时空兴趣点检测器和时空描述子对所有数据库均行之有效。

在以往的动作框架中，词袋(bag-of-words,BOW)是经常采用的方法。但是词袋表示方法并不能准确刻画视觉特征的相似性，且产生词袋的聚类过程要耗费较多的时间。文献[1]采用最大似然估计对每段动作视频估计出相应的权重直方图，较好地解决了这些难题。近来利用人工定义的动作语义属性进行动作识别取得了比较好的结果。文献[2]由人工定义高层次动作语义属性，将低层次特征和高层次特征相融合，结合隐支持向量机求解动作识别分类器的最优解，获得了较为满意的识别效果。

本文提出了一种新的时空兴趣点检测器，该检测器通过不同方向的二维Gabor滤波器的联合作用，对遮挡，光照变化以及镜头缩放等具有较强的鲁棒性。基于检测出的时空兴趣点，在其时空领域内利用正多面体良好的几何对称性提取精细的时空梯度描述子，该描述子能够准确反映人体动作的视觉特征。随后随机抽取部分时空梯度描述子特征作为基准特征，对每段视频特征基于基准特征采用最大似然估计得到权重直方图。最后将低层次权重直方图特征与高层次的人工定义的动作语义属性相结合，采用隐支持向量机求解最终动作识别模型的局部最优解。

1 二维时空兴趣点检测器

在众多的时空兴趣点检测的方法中，Dollar等人[3]提出的时空兴趣点检测方法是应用最广泛的方法之一，其主要思想是在空间上和时间上分别加入两个独立的滤波器来求得响应函数。但是Dollar检测器对视频噪声不具有鲁棒性，对噪声，镜头的缩放比较敏感，同时Dollar检测器的作用范围是整幅图像区域而不是感兴趣的运动区域，对背景与前景纹理比较密集的区域容易造成误检测，检测出的时空兴趣点的数量也相对比较少，且是基于单一时空尺度。本文仅采用二维Gabor滤波器的虚部作为新的核函数：

算法1 时空兴趣点检测器

（1）使用逐帧差分法并设置一定的阈值T1（本文取T1=200），得到表征像素值显著变化的前景掩膜M；

（2）取｛θ=0°,45°,90°,135°,180°,225°,270°｝，得到七个不同方向的滤波器，将每个滤波器作用于得到的前景掩膜M ，最后将得到的结果取平方和进行叠加得到E；

（3）若E最大值大于T2（本文取T2=6000），则寻找2×2领域范围内的局部响应最大值，保留响应值大于阈值T2的点。若数目大于设置的每帧检测的兴趣点最大数目N（本文取N=12），则取前N个响应最大值作为该帧检测出的时空兴趣点；

（4）在该帧的3×3时间邻域内计算所有兴趣点的位置均值μ和所有点偏离μ的距离均值d，若该帧兴趣点位置和μ之差大于λd，则过滤掉该点，λ为调节系数（本文取λ=4）。

KTH数据库三种动作分别采用Dollar检测器和本文提出的时空兴趣点检测器检测的结果，如图1所示：

图1 对KTH数据库三种动作的时空兴趣点检测结果，红色的点表示一维Gabor检测器的检测结果，黄色的点表示本文提出的检测器的检测结果

提出的检测器在其中一个方向（45度）上的响应。可以看出，本文提出的兴趣点检测器能更准确地反映人体动作特征，而Dollar检测器通常漂移到身体纹理密集的静态区域或背景边缘显著的区域，如图2所示：

图2 二维Gabor滤波器45°方向的响应图

2 基于多面体模型的时空梯度描述子

Scovanner等人[4]通过增加时间轴上的梯度信息将SIFT(Scale Invariant Feature Transform)[5]描述子从二维扩展到了三维，

把极坐标用经线和纬线划分为8×4的直方图，得到一个二维直方图，由此在每一个时空兴趣点一定的时空邻域内统计所有像素点的(θ,φ)信息来得到一个1x256维的特征向量。但是该方法如果直方图的块不断的变小会使极点产生奇异性，采用正多面体均匀分布的面作为直方图的块可以很好的解决这一问题。梯度直方图可以通过将梯度向量投影到通过正多面体中心和每个面的中心的轴上来高效的计算。

本文采用80面体模型来建立时空梯度描述子，在各个方向上反映以时空兴趣点为中心的时空梯度信息，进行了更精细的特征提取，因而具有更大的信息含量和区分度，虽然在描述子的维数上有了较大的增加，但是实验表明，能在一定程度上提高动作的识别准确率。对于检测到的时空兴趣点，首先计算M1×M1×M1（本文取M1=4）每个像素点的时空梯度向量，将该梯度添加到距离梯度向量最近的面的中心，选取权重最大的3个方向作为该点的主方向，如果这3个主方向两两之间的夹角小于夹角θ(θ=25°)，则认为该点不足以反映人体动作的时空特征，只有当 3个主方向大于θ，才认为该点具有足够的描述能力。若经过判断检测出的点具有足够的描述能力，则将该点M2×M2×M2（本文取M2=6）的时空领域内划分为N×N×N（本文取N=2）的子块，梯度方向划分为80个面的中心点的方向。建立80面体模型的时空梯度描述子的过程如算法2所述。

算法2 基于八十面体模型的时空梯度描述子

（1）以（0,0,0）为原点建立以（0,0,0）为原点建立 20面体模型，共计 12 个顶点（vertex），20 个面（face），以每个 face的每条边的中点为顶点，将每个 face划分为4个小的face，这样，20个面就又再分成了80个face；

（2）以（0,0,0）为原点建立一个半径为r的球体，将步骤1中得到的80个face的顶点投射到球体的表面，转换成相应的球面坐标，记录每个 face中心的坐标，并将坐标做归一化处理；

（3）为80个face分别建立相对应的直方图，以关键点为中心，计算其一定时空领域内的像素的梯度幅值和梯度方向，将梯度方向作归一化处理，计算梯度方向和80个face中心的夹角，将梯度幅值添加到夹角最小的face对应的直方图中；

（4）找出所有直方图中前3个权重最大的直方图，计算其对应的 face的中心之间的夹角，如果两两之间的夹角小于25°，则说明此时空兴趣点不具备足够的描述能力，舍弃这个兴趣点；

（5）为每个 face建立相应的直方图，每个直方图对应于一个 2×2×2的矩阵，添加到每个直方图对应的矩阵中的权重由以下3部分组成：（1）局部时空邻域内每个像素点与时空兴趣点的相对位置（2）局部时空邻域内每个像素点的梯度幅值（3）局部时空邻域内每个像素点的梯度方向与 face中心的夹角。最后将2×2×2×80的矩阵拼接成一个1×640维的向量，此向量即为每个时空兴趣点对应的反应人体动作特征的特征向量。

3 低层次特征和高层次特征结合预测最终结果

文献[1]随机从提取的所有特征中（在本文中即指提取的时空梯度特征）抽取部分特征作为基准特征，采用支撑有界的核函数对每个基准特征赋予相应的权重，基于最大似然估计通过迭代的方法估计每幅图像或动作视频的每个基准特征的最优权重。该方法以随机抽样替代词袋方法中聚类过程，提高了算法的计算效率，同时最大似然估计考虑了视觉特征相似性对识别结果的影响。因此，本文采用文献[1]的方法将每个动作的基准特征权重作为动作的低层次特征。

人工定义的动作属性提供了高层次的语义信息，因而能够增强对动作特征的描述。本文定义一组动词作为高层次的动作属性，将每个动作属性看作隐变量，采用文献[2]的隐支持向量机方法估计每个动作属性属于每种动作的概率。

4 实验

本文采用KTH，WEIZMANN及UCF Sports等3种数据库来进行算法验证，支持向量机采用线性核函数，为了验证本文的时空检测器和梯度描述子的有效性，低层次特征均采用权重直方图[1],分类方法均采用文献[2]中的隐支持向量机分类方法。本文采用文献[2]定义的 22个动作属性作为高层次语义特征，如“standing with arm motion”，“leg fold and unfold motion”等。

4.1 KTH ,WEIZMANN

KTH（瑞典皇家理工学院）数据库包含六种不同的动作（boxing，handwaving，handclapping，jogging，running，walking），每种动作分别由 25个不同的人在四种不同的场景下完成。每段视频包含一个人的一种动作，共计599段视频。WEIZMANN（魏茨曼科学研究所）数据库包含9个人的10种不同的动作，共计90段视频。这10种动作包括：bend，jack，jump，pjump，run，side，skip，walk，wave1，wave2，每个动作分别由 10个不同的人完成，背景静止，视角固定如图3(a)和(b)所示：

图3(a)和(b)分别是 KTH，WEIZMANN数据库的混淆矩阵。KTH数据库中的jogging和running两种动作由于仅仅是速度上的差异，所以容易出现错分，WEIZMANN数据库中的run和skip两种动作外观上很相似，也容易出现错分。

WEIZMANN数据库图像质量比较好，摄像机固定，没有镜头的晃动和缩放，图像背景噪声低，数据规模较小，这些都是动作识别准确率高的原因。KTH数据库图像噪声大，分辨率低，有些视频还伴随阴影的出现和相机的运动，数据规模较大，因而准确率也相对较低。表1是对3种数据库采用不同时空兴趣点检测器和描述子得到的动作分类准确率。可以看出，本文提出的兴趣点检测器和时空梯度描述子均有效的提高了动作识别准确率，如表1所示：

表1 不同算法的识别准确率

4.2 UCF Sports

UCF（中弗罗里达大学）Sports数据库来源于BBC、ESPN等广播电视中的各种体育运动类型，包括 diving,golf swinging,kicking,lifting,horseback riding,running,skating,swinging a baseball bat等。由于其场景复杂，视角多变，采集的是真实场景下人的各种自然的体育动作，相对于 KTH数据库和WEIZMANN数据库更具代表性和复杂性。我们将每个动作大致平均分成5份，采用leave-one-out方法进行交叉验证，准确率最大值为 88.34%，实验得到的混淆矩阵，如图4所示：

图4 对UCF Sports数据库得到的混淆矩阵

识别失败主要是由于不同的动作类型的相似度很高，如Kicking-Front和Kicking-Side。第二行最后一列的Riding-Horse的同时在走下坡路，导致了身体上半部分也出现了比较剧烈的晃动，因而被错误的识别为比较相似的Run-Side。表2是本文采用的方法和一些方法的结果对比。，如表2所示：

表2 不同人体动作识别方法的准确率

4 结论

本文提出了一种新的二维时空兴趣点检测器检测更密集，更准确同时更具区分度的反映人体动作特征的时空兴趣点，在此基础上，利用正八十面体模型建立了一种新的时空梯度描述子提取时空上更富信息含量的梯度信息来刻画人体动作的时空视觉特征。基于最大似然估计得到权重直方图取代传统的词袋（bag-of-words）方法，使算法更有效率且权重直方图描述特征更具区分度。将低层次权重直方图特征和高层次动作语义属性相结合，采用隐支持向量机对动作进

行识别取得了较好的效果。但是，本文采用的方法仅仅针对单人的单个动作识别，对于单人连续不同动作的识别以及多人动作识别结合多人身份识别将是我们今后重点研究的内容。

[1]BHATTACHARYA S,SUKTHANKAR R,JIN R,et al.A Probabilistic Representation for Ef fi cient Large Scale Visual Recognition Tasks.IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Colorado Springs,USA,2011.

[2]LIU J G,KUIPERS B,SAVARESE S.Recognizing human actions by attributes.IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Colorado Springs,USA,2011: 850– 857.

[3]DOLLAR P,RABAUD V,COTTRELL G,et al.Behavior recognition via sparse spatio-temporal features.IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance,Beijing,China,2005:65-72.

[4]SCOVANNER P,ALI S,SHAH M.A 3-dimensional SIFT descriptor and its application to action recognition.Proceedings of the International Conference on Multimedia,New York,USA,2007:56-60.

[5]LOWE D G.Distinctive Image Features from Scale-Invariant Keypoints.International Journal of Computer Vision,2004,60(2):91-110.

[6]LE Q V,ZHOU W Y,YEUNG S Y,et al.Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis.IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Colorado Springs,USA,2011.