基于深度视频的人体行为特征表示与识别

2016-10-18孙艳丰胡永利

北京工业大学学报 2016年7期

关键词：池化邻域算子

孙艳丰，张坤，胡永利

（北京工业大学城市交通学院多媒体与智能软件技术北京市重点实验室，北京 100124）

基于深度视频的人体行为特征表示与识别

孙艳丰，张坤，胡永利

（北京工业大学城市交通学院多媒体与智能软件技术北京市重点实验室，北京 100124）

深度视频中的人体行为的识别研究主要集中在对深度视频进行特征表示上，为了获得具有判别性的特征表示，首先提出了深度视频中一种基于表面法向信息的局部二值模式（local binary pattern，LBP）算子作为初级特征，然后基于稀疏表示模型训练初级特征字典，获取初级特征的稀疏表示，最后对用自适应的时空金字塔划分的若干个子序列使用时空池化方法进行初级特征与稀疏系数的规格化，得到深度视频的高级特征，最终的特征表示实现了深度视频中的准确的人体行为识别.在公开的动作识别库MSR Action3D和手势识别库MSR Gesture3D上的实验证明了本文提出的特征表示的有效性和优越性.

深度视频；行为识别；深度序列分割；局部二值模式算子；稀疏表示

人体行为识别在视频监控、医疗健康看护［1］等领域已经具有广泛应用.但目前人体行为识别的研究主要集中在传统彩色图像视频上，由于彩色图像视频缺乏人体的三维空间信息，对行为特征的描述不够全面，很难处理遮挡、光照及行为外观变化的特征描述问题，因此其应用效果及范围具有一定局限性［2-3］.随着图像获取技术的进步，深度图像获取越来越容易.深度图像相比传统的彩色图像能提供更多的人体表观和结构信息，对光照变化不敏感，因此在行为识别领域，引入深度信息，研究基于深度信息的人体特征表示与提取是人体行为识别的关键，已经引起人们的极大关注［4-6］.

局部二值模式（local binary pattern，LBP）是一种计算简单、非参数化的局部纹理模式描述算子，它在二维图像特征表示与提取中获得了成功.由于它对光照变化不敏感，因此，是一种有效的纹理描述算子［7-8］.受LBP描述算子的启发，为获取深度图中反映不同人体行为表面的曲面特征，进一步提高人体行为识别的鲁棒性，本文通过对LBP模式的深入研究，根据深度图中人体结构的相似性及关联信息，定义了深度图中法向信息的LBP描述算子，该算子在细节上保持了人体行为曲面的几何特性，局部空间上提取了曲面的局部特征，并以此作为深度图中人体行为局部特征表示.全局上，基于字典学习的编码方法整合了细节信息，自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系，实现对三维人体行为的细节和整体特征描述.通过在公开使用的MSR Action3D和MSR Gesture3D人体行为数据库上的实验，证实了本文方法的可行性和优越性.

1　基于法线信息的LBP算子

在模式识别中，LBP算子最早应用于二维人脸图像的识别，它在图像一个区域窗口内，以窗口的中心像素为阈值，将相邻若干个像素的灰度值与其进行比较，若邻域像素值大于中心像素值，则该像素点的位置被标记为1，否则标记为0.这样，一个区域窗口中便可产生一个二进制数（通常转换为十进制数），即得到该窗口中心像素点的LBP值，这个值反映了该区域的局部纹理信息［7］.

鉴于LBP算子在二维模式识别领域中的成功应用［9-10］，本文将 LBP算子推广到深度视频序列中，提出了描述深度视频中基于表面法向信息的LBP算子，这种LBP算子可以很好地描述曲面的曲率变化特性.

由于深度序列可以看作是一个三维到一维的函数z=f（x，y，t），这样便得到了由一系列的点（x，y，z，t）组成满足S（x，y，t，z）=f（x，y，t）-z=0的四维超平面.该超平面上点（x，y，z，t）的法线方向为

和传统的梯度方向相比，法向量的方向与4D曲面的形状相关，法向量的方向分布能够比传统的梯度方向提供更多的几何信息，也可以更精确地表述四维超平面的几何信息［5］.考虑到法线代表四维空间中的方向，基于原来LBP算子的构造思路，根据深度图中某一点法线与其八邻域点法线间的角度关系定义该点的新的LBP算子为

式中:P表示当前点；N表示当前点的法线向量；Nn表示当前点八邻域各位置的法线向量；Angle（N，Nn）表示2个法向量间的角度度量关系；λ为一设定的阈值，其约束二值函数B（x）的取值.

图1是LBP算子编码方式示意图，左侧为由深度序列使用法线表示的一个3×3×1的局部区域，计算区域中心点（N）的LBP算子时，将该点与其相邻的8个点进行比较，邻接点与该点法线夹角小于设定阈值则计邻接点位置为1，否则计为0，然后将得到的8位二进制值按特定顺序组合在一起得到该中心点的LBP算子.

但这种LBP算子存在一个不足:它只覆盖了一个固定半径范围内的小区域，在这个区域内只能够取到一个正方形邻域点，这显然不能满足不同规格表面的需要.为了适应不同尺度的特征，对这种LBP算子进行了改进，用圆形邻域代替了正方形邻域，改进后的LBP算子允许在半径为r的圆形邻域内有任意多个像素点.从而得到了半径为r的圆形区域内含有n个采样点的LBP算子.图2中（b）～（d）展示了有8个采样点3种改进后邻域半径的LBP算子.

2　组合LBP算子

人体行为在视频序列的前后帧之间具有关联性，为此，本文将相邻帧中某一点及其邻近点的LBP特征进行组合，将原始深度序列中的每个像素使用他邻域信息组合成的超像素表示，这样可以全面描述相邻点之间的关联性和动态性，得到多维组合LBP特征来表示人体行为动态信息，提高行为特征的表示能力.

2.1立方体邻域组合方式

考虑当前描述点所在帧及其相邻帧，在该点周围提取一个立方体，将立方体内的每一点的法向LBP算子组合成一个向量作为该点的组合LBP特征.如图3所示，提取一个以点p为中心的3×3×3的立方体（左），将立方体内所有像素组合成一个向量（右），最终得到当前点p的组合LBP特征表示，该特征维度为27.

若原始深度序列的维度为W×H×T，那么通过这种组合方式，原深度序列可以表示为一个矩阵，该矩阵的维度是27×（W×H×T）.

2.2空间金字塔组合方式

为了提高组合LBP算子的尺度不变性，另一种LBP算子的组合方式是采用空间金字塔的方式选取所需要的点，多维金字塔法组合方式可以捕获中心点局部领域内的多层表观信息，具有更好的鲁棒性.如图4所示，在点p所在的帧内，黑色点p作为空间金字塔的第1层，4个黄色的点为金字塔的第2层，9个紫色的点为第3层，这样在1帧内便取了14个点.然后在该帧的前后帧按照同样的方式取点，计算每一点的法向LBP特征，将这些LBP特征组合成一个向量，最终得到中心点p的LBP组合特征，该特征维度为42.

同样的，若原始深度序列的维度为W×H×T，那么通过这种组合方式，原深度序列可以表示为一个矩阵，该矩阵的维度是42×（W×H×T）.虽然特征维度有所提高，但这种组合方式能够更好地表示中心点周围的局部信息，所以这种空间复杂度的提升是值得的.

3　组合LBP算子的稀疏表示

根据上述方法，对深度序列每帧的所有像素点都提取到一个LBP特征，进而也提取了组合LBP特征，可是得到的数据依然是一个序列，只不过这里已经将原始测量空间中的测量特征转换为二值特征.但是，这个二值特征与空间位置、时间位置是紧密相关的，如果直接用这个二值特征进行判别分析的话，会因为位置没有对齐产生很大的误差［11］.为此，本文首先使用基于字典的方法来解决这个问题，即通过训练样本学习一组字典，然后通过这个字典对所有样本进行规格化表示来消除这种误差.

给定一个由C个类别的组合LBP特征表示的训练矩阵X=（X1，X2，…，XC），特征矩阵Xi=（x1i，x2i，…，xnii）表示属于第i类的ni个深度序列的组合LBP特征（x1i，x2i，…，xnii）连结在一起表示.通过下面优化模型可以求得训练样本的字典和稀疏表示系数:

式中:‖Xi-DAi‖22为重构误差项；‖Ai‖1为稀疏约束项；D∈R RM×K（M=27或M=42）为稀疏字典；K为字典的第二维度即字典D的视觉词的总数；D的每一列称为视觉词；矩阵Ai为原始特征Xi相对于字典D的稀疏表示；λ是稀疏正则项.

给定一个深度视频序列，通过上述模型学习得到稀疏表示系数，以此稀疏表示系数作为组合特征的新的特征表示.这个系数相对于原来的底层特征，具有更好的判别性，但它是一个矩阵而不是向量，另外由于不同序列采集的帧数不同，导致这个矩阵的维度不统一，无法直接拿来进行分类度量，为此需要首先对行为视频序列进行分割，保证分割后的深度序列具有相同数目的子序列.然后融合每个子序列的特征表示作为该视频序列的描述符，这样将各时段的局部特征信息融合起来表示原始深度序列，既考虑到了整个深度视频序列所代表的动作信息，又着重表示了整个序列中与行为最相关的局部信息.

4　行为序列的分割与对齐

4.1视频帧的分割

针对深度数据，在空间维度提取出人体区域后将这个区域划分为4×3的网格（见图5）而不是直接将原有序列的整帧进行分割，使用该区域的数据信息进行识别不仅能够降低所需处理的数据量，更重要的是可以尽可能地滤除背景的影响，捕捉到人体躯干的运动情况，使得到的描述符鲁棒性更强.

进行视频帧分割时，为了保持相邻的法向量之间的相关性，使它们对噪声更具有鲁棒性，本文利用时空金字塔模型，从局部时间维度聚集法向量.时间金字塔［4］的经典构建方法是对整个序列在时间维度进行均匀分割，然而，不同人在执行同一动作时可能有不同的速度，而且执行的次数也不尽相同，所以这种均匀的分割处理不能够很好地应对这种变化.考虑到深度数据的特点，使用了一种新的时间分割方法.给定一个深度序列，首先将第i帧投影到3个正交的平面（正面、侧面和顶面）得到3幅投影后的图像那么这帧的能量为

式中:ξ为设定的阈值；sum（·）用于计算二值图中非零的个数.

不同于均匀划分时间完成视频分割，本文使用均匀划分累积运动能量所对应的时刻来进行视频分割.如图6所示，先对能量进行均匀划分后得到5个时刻t0、t1、t2、t3、t4，利用这几个时刻构造一个3层的时间金字塔:t0-t4时间段内所有的帧作为第1层；将t0-t4分为2个子序列t0-t2、t2-t4，作为金字塔的第2层；再对t0-t2、t2-t4进一步划分得到4个子序列t0-t1、t1-t2、t2-t3、t3-t4，作为金字塔的第3层.构建的时间金字塔见图7.在时空维度，原深度序列被划分为4×3×7个子序列.

4.2池化处理

对于每个子序列，通过前面字典学习得到了字典及其稀疏表示系数，使用了池化（pooling）技术对稀疏系数进行处理得到每个子序列的描述符.原始的池化技术主要有2种，平均值池化就是对池化数据取平均值，最大值池化就是求池化数据的最大值.根据稀疏系数的特点，本文使用一种全新的池化方法，即空间平均池化与时间最大池化.另外，并不是直接对稀疏系数进行池化，而是通过池化组合LBP特征和字典的每个视觉词的加权差异来表示原有数据.

给定一个维度为W×H×T的深度序列，它的组合LBP特征为x=（x1，x2，…，xP）∈R RM×P（P=W× H×T），关于字典D的稀疏表示系数为α=（α1，的第k个元素记为αki.x中在该序列第t帧的子集计为Nt.对字典的每个视觉词，首先应用空间平均池化计算组合LBP特征与视觉词之间的差异

式中:uk（t）∈R RM，表示第t帧内第k个视觉词的池化差异向量；|Nt|表示集合Nt中元素个数；αki为组合LBP特征xi对应字典D的稀疏系数αi的第k个元素.然后，使用时间最大池化得到差异向量uk∈ RRM，uk的第m个元素umk（t）的计算方法为

时间最大池化后得到的特征向量uk在保留序列重要的类别信息的同时又去除了大量冗余的信息.最后，将所有视觉词的差异向量连结起来得到该子序列的M×K维的描述符，得到子序列的规格化的表示

最终的将4.1节中的84个子序列的描述符串联在一起作为原始深度序列的最终的描述符，将这个描述符输入到文献［12］中相同的线性SVM分类器进行分类识别.

5　实验结果与分析

为了验证本文定义的行为特征的表示能力和识别效果，在2个公开的人体行为数据库上进行了实验.所有实验代码使用Matlab语言编写，实验的软件环境为Windows 7 64位，Matlab 2014；硬件环境为Intel（R）Xeon（R）CPU E5-2687W×2，128 GB.

5.1基于MSR Action3D数据库的人体行为识别

MSR Action3D数据库［3］是使用微软Kinect深度传感器采集的公共数据库，该数据库由10个表演者完成20种动作的深度序列构成，每个表演者的每个动作采集2～3次.20种动作分别为:高挥臂（high arm wave）、低挥臂（horizontal arm wave）、敲打（hammer）、手抓（handcatch）、冲拳（forward punch）、高抛（high throw）、画叉（draw×）、画勾（draw tick）、画圆（draw circle）、拍手（hand clap）、双手挥（two hand wave）、侧拳（side boxing）、弯腰（bend）、向前踢（forward kick）、向侧方踢（side kick）、慢跑（jogging）、网球挥拍（tennis swing）、网球发球（tennis serve）、高尔夫挥杆（golf swing）、拾起并抛出（pick up and throw）.虽然这个数据库的背景经过处理，但是由于20种动作中许多动作非常相似，对这个数据集进行识别仍然具有很大的挑战性.为了便于性能比较，遵循文献［4，5，12］中的实验设置:在10个表演者中，选择第1、3、5、7、9个的数据作为训练集，第2、4、6、8、10个的数据作为测试集.

首先通过实验考察LBP算子的邻域半径对识别性能的影响，这次实验使用了2.2中的空间金字塔LBP算子的组合方式，实验结果见表1.

表1　在MSR Action3D数据库上，不同LBP算子邻域的识别结果Table 1 Results of LBP operator with different radius on MSR Action3D dataset

可以发现，当LBP算子邻域半径r=2时得到了识别率为94.91%的最好识别结果，这个结果比原始的r=1时的结果提升了1%，这表示改进后LBP对识别起了积极的作用.选取r=2在该数据库上进行下面的实验.

其次，考察深度序列中LBP算子的2种组合方式对识别性能的影响，实验结果见表2，表中“不组合”表示使用中心的LBP算子作为LBP特征进行后续编码工作，这种特征中心点使用一维数字表示，没有考虑到深度序列的时序性，也几乎没有考虑中心点邻域信息，所以识别结果不理想；使用组合的LBP算子方式后，弥补了这种缺憾，实验结果明显改善.

本文提出的方法与一些现有算法的实验结果比较见表3.实验中，LBP邻域半径设置为2，采用空间金字塔的LBP算子组合方式.本文选择了近几年比较杰出的识别方法作为比较对象，实验中都使用

同样的实验装置，这些比较方法中，文献［4，13-16］是基于骨架点的方法，这些方法对Kinect提取到的骨架点的精确程度很高，但存在遮挡或数据丢失时会严重降低实验结果；文献［14］使用算法选取k个最相关的骨架点，这样可以避免一些不精确的骨架点对识别的影响，取得了同类方法中最好的识别结果；文献［17-18］使用不同方式提取深度序列中的关键点，利用这些关键点提取特征，其识别结果对关键点依赖性较高；文献［19］中的方法是将一个深度序列相邻帧的差异累计起来形成一幅深度运动累积（DMM）图像，之后在这个DMM图像上提取梯度方向直方图（HOG）特征进行特征表示；文献［5，12］都是基于法线的方法，文献［5］中将法线投影到预先选定的120个方向，没能对法线进行进一步表示，文献［12］直接对法线信息进行编码，没能充分利用一个邻域内的法线共同表示所蕴含的信息.从表3可以发现，本文提出的方法获得了最高的94.91%的识别结果，实验结果进一步证明了本文提出的行为特征表示弥补了其他方法的不足，具有较强的区分性、鲁棒性和稳定性.

表2　在MSR Action3D数据库上，不同LBP算子组合方式的识别结果Table 2 Results of LBP operator with different combinations on MSR Action3D dataset

表3　在MSR Action3D数据库上，现有方法与本文方法的识别率比较Table 3 Comparison of the proposed method with others on MSR Action3D dataset

实验的混淆矩阵如图8所示，混淆矩阵纵坐标表示动作类别，横坐标表示实验识别的动作类别.由混淆矩阵可以观察到:因为“手抓”和“高抛”动作十分相似，所以33%的“手抓”被识别成了“高抛”；同样因为“冲拳”“画叉”与“敲打”动作相似度很高，所以27%的“冲拳”、21%的“画叉”被识别成“敲打”.

5.2基于MSR Gesture3D数据库的人体行为识别

MSR Gesture3D是一个通过深度相机获取深度序列的手势数据库，也是一种十分流行的人体手势测试评价数据库.该数据库包含了12个由美国标准手语（American sign language，ASL）定义的动态手势，它们是:z、j、哪里（where）、商店（store）、猪（pig）、过去（past）、饥饿（hungry）、绿色（green）、完成（finish）、蓝色（blue）、浴室（bathroom）、牛奶（milk）.每个手势由10个人执行2或3次.这个数据库比MSR Action3D数据库存在更多的自遮挡问题，这个数据库具有很强的挑战性.

本文采用了文献［5，12］中的实验设置:Leaveone-subject-out交叉验证方法，进行了10次实验. 第1次实验使用第1个表演者的所有数据作为测试集，其余表演者的数据作为训练集，第2次实验使用第2个表演者的所有数据作为测试集，其余表演者的数据作为训练集，以此类推，最终取这10次实验结果的平均值作为最后的识别率.因为手势中没有骨架点信息，所以基于骨架点的方法无法在这个数据库上进行实验.本文的实验结果与其他方法的比较见表4，文献［6］方法优化了原来文献［19］中DMM图像，对原DMM图进行了边缘增强的处理并加入了动态的时间金字塔方法.

表4　在MSR Gesture3D数据库上，现有方法与本文方法的识别率比较Table 4 Comparison of the proposed method with others on MSR Gesture3D dataset

从表4可以看出，本文方法取得了95.36%的识别率.混淆矩阵如图9所示，从这个矩阵可以发现，本文方法在绝大多动态手势上都有优异的效果，相比文献［12，17］，同样是基于法线的方法，由于LBP编码方式在保留整体信息的同时更加强调图像中手的边缘信息，因此，本文结果优于这2种方法.由于该数据库为手势数据库，在采集手势的过程中存在双手互相遮挡以及手指间遮挡的现象，本文方法首先提取表面法线弱化了遮挡带来的深度值的变化，然后按金字塔方式提取的组合LBP特征扩大了原始LBP特征的表示范围，最后通过稀疏表示与池化方法全局上对深度视频进行编码.这些手段克服了数据库自遮挡问题，本文方法在该数据库每个手势上均取得了较高的识别结果，并得到了最高的平均识别率.

6　结论

1）针对深度视频序列，提出了一种基于法向信息的LBP算子，提取深度视频序列中人体行为的初级特征，并组合LBP算子以更好表示具有动态时序特性的人体行为.

2）提出了基于时空金字塔的深度序列分割方法，该方法将视频序列划分成若干子序列.对每个子序列，基于稀疏表示模型提取其组合LBP特征的表示系数，对每个子序列池化组合LBP特征相对字典每个视觉词的加权系数差异，作为行为时序特征的描述符.

3）在公开的动作识别库MSR Action3D和手势识别库MSR Gesture3D上的实验证明了本文特征描述的有效性和优越性.

［1］李瑞峰，王亮亮，王珂.人体动作行为识别研究综述［J］.模式识别与人工智能，2014（1）:35-48. LI R F，WANG L L，WANG K.A survey of human body action recognition［J］.Pattern Recognition and Artificial Intelligence，2014（1）:35-48.（in Chinese）

［2］WANG J，LIU Z C，CHOROWSKI J，et al.Robust 3d action recognition with random occupancy patterns［C］∥European Conference on Computer Vision（ECCV）. Florence:Springer，2012:872-885.

［3］LI W Q，ZHANG Z Y，LIU Z C.Action recognition based on a bag of 3d points［C］∥IEEE Conference on Computer Vision and Pattern Recognition Workshop（CVPRW）.San Francisco:IEEE，2010:9-14.

［4］WANG J，LIU Z C，WU Y，et al.Mining actionlet ensemble for action recognition with depth cameras［C］∥IEEEConferenceonComputerVisionandPattern Recognition（CVPR）.Providence:IEEE，2012:1290-1297.

［5］OREIFEJ O LIU Z C.HON4D:Histogram of oriented 4d normals for activity recognition from depth sequences ［C］∥IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Portland:IEEE，2013:716-723.

［6］ZHANG C Y，TIAN Y L.Edge enhanced depth motion map for dynamic hand gesture recognition［C］∥IEEE Conference on Computer Vision and Pattern Recognition Workshop（CVPRW）.Portland:IEEE，2013:500-505.

［7］TIMO O，MATTI P，TOPI M.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24（7）:971-987.

［8］刘丽，匡纲要.图像纹理特征提取方法综述［J］.中国图象图形学报，2009（4）:622-635. LIU L，KUANG G Y.Overview of image textural feature extraction methods［J］∥Journal of Image and Graphics，2009（4）:622-635.（in Chinese）

［9］WANG X Y，HAN T X，YAN S C.An HOG-LBP human detector with partial occlusion handling［C］∥IEEE International Conference on Computer Vision（ICCV）. Kyoto:IEEE，2009:32-39.

［10］唐恒亮.基于三维特征的人脸识别算法研究［D］.北京:北京工业大学，2011. TANG H L.Face recognition based on 3D features［D］. Beijing:Beijing University of Technology.2011.（in Chinese）

［11］LUO J，WANG W，QI H.Group sparsity and geometry constrained dictionary learning for action recognition from depth maps［C］∥IEEE International Conference on Computer Vision（ICCV）.Sydney:IEEE，2013:1809-1816.

［12］YANG X D，TIAN Y L.Super normal vector for activity recognitionusingdepthsequences［C］∥ IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Columbus:IEEE，2014:804-811.

［13］XIA L，CHEN C C，AGGARWAL J K.View invariant human action recognition using histograms of 3d joints ［C］∥IEEE Conference on Computer Vision and Pattern Recognition Workshop（CVPRW）.Providence:IEEE，2012:20-27.

［14］WANG C，WANG Y，YUILLE A.An approach to pose based action recognition［C］∥IEEE Conference on Computer Vision and Pattern Recognition（CVPR）. Portland:IEEE，2013:915-922.

［15］VIEIRA A W，NASCIMENTO E R，OLIVEIRA G L，et al.STOP:space-time occupancy patterns for 3D action recognition from depth map sequences［C］∥17th Iberoamerican Congress on Pattern Recognition.Buenos Aires:Springer，2012:252-259.

［16］YANG X，TIAN Y.Eigenjoints based action recognition usingnaivebayesnearestneighbor［C］∥ IEEE Conference on Computer Vision and Pattern Recognition Workshop（CVPRW）.Providence:IEEE，2012:14-19.

［17］XIA L，AGGARWAL J.Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera［C］∥IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Portland:IEEE，2013: 2834-2841.

［18］RAHMAIN H，MAHMOOD A，DU Q H，et al.HOPC: histogram of oriented principal components of 3D point clouds for action recognition［C］∥European Conference on Computer Vision（ECCV）.Zurich:Springer，2014: 742-757.

［19］YANG X，ZHANG C，TIAN Y L.Recognizing actions using depth motion maps-based histograms of oriented gradients［C］∥ ACMInternationalConferenceon Multimedia.Nara:ACM，2012:1057-1060.

［20］KURAKIN A，ZHANG Z，LIU Z.A real-time system for dynamic hand gesture recognition with a depth sensor ［C］∥EuropeanSignalProcessingConference （EUSIPCO）.Bucharest:IEEE，2012:1975-1979.

（责任编辑吕小红）

Action Feature Representation and Recognition Based on Depth Video

SUN Yanfeng，ZHANG Kun，HU Yongli
（Beijing Key Laboratory of Multimedia and Intelligent Software Technology，College of Metropolitan Transportation，Beijing University of Technology，Beijing 100124，China）

Researches of human behavior recognition in depth video focused on depth video's action feature representation was conducted to obtain a discriminative feature representation.Firstly a LBP operator based on the surface normal in depth video as a lower feature was proposed.Then the features were used to train a dictionary to get sparse representation.Lastly the original depth video was divided into some sub depth video by an adaptive spatio-temporal pyramid and a pooling method was adopted to normalize the lower features and the sparse coefficient to get a higher representation.The high representation realizes an accurate recognition of human behavior.The experiments on the action recognition dataset MSR Action3D and gesture recognition dataset MSR Gesture3D prove the author's improved encoding algorithm's feasibility and superiority.

depth video；action recognition；depth sequences segmentation；LBP（local binary pattern）operator；sparse representation

U 461；TP 308

0254-0037（2016）07-1001-08

10.11936/bjutxb2016010029

2016-01-13

国家自然科学基金资助项目（61370119）

孙艳丰（1964—），女，教授，博士生导师，主要从事多功能感知、模式识别方面的研究，E-mail:yfsun@bjut.edu.cn