APP下载

基于特征融合的人体行为识别算法

2013-08-07柳絮青孙子文

计算机工程与应用 2013年7期
关键词:梯度方向特征向量直方图

周 霞,柳絮青,王 宪,孙子文,邓 源

◎图形图像处理◎

基于特征融合的人体行为识别算法

周 霞,柳絮青,王 宪,孙子文,邓 源

针对HOG特征在人体行为识别中仅仅表征人体局部梯度特征的不足,提出了一种扩展HOG(ExHOG)特征与CLBP特征相融合的人体行为识别方法。用背景差分法从视频中提取出完整的人体运动序列,并提取出扩展梯度方向直方图ExHOG及完备局部二值模式CLBP两种互补特征;利用K-L变换将这两种互补特征融合生成一个分类能力更强的行为特征;采用径向基函数神经网络RBFNN对行为特征进行识别分类。在KTH和Weizman行为公共数据库上进行了多组实验,结果表明提出的方法能够有效地识别人体运动类别。

行为识别;梯度方向直方图;完备局部二值模式;径向基函数神经网络

1 引言

近年来,人体运动的视觉分析已经成为计算机视觉领域中的研究热点[1]。人体行为识别作为一个重要的研究方向,在智能视频监控、视频注解、人机交互和虚拟现实等领域有着广泛的应用价值。人体行为识别解决的主要问题,是通过计算机对传感器(摄像机)采集的原始图像或图像序列数据进行处理、分析、学习并理解其中人的动作行为[2]。目前对于人体行为识别的方法主要有三种:(1)模板匹配的方法;(2)状态空间的方法;(3)基于模型的方法。这些方法通常在提高识别准确度和降低计算复杂度间进行折中。作为相互制约的两个指标,如何同时提高行为识别准确度和降低计算复杂度,始终是这一领域研究所关注的焦点。

Huang[3]等人对运动历史图像序列(Motion History Image,MHI)数据进行处理,从中提取HOG特征作为人体行为描述,并利用SVM进行行为分类。但是高维的特征限制了样本的训练数量,也增加了计算的复杂度。Naiel[4]等人提出采用2DPCA-HOG特征作为人体行为描述,再通过K-NN分类。但是单独采用HOG特征表征人体行为姿态会忽略图像中较多的其他细节信息,影响识别效果。

本文提出一种ExHOG特征与CLBP特征相融合的人体行为识别方法。首先对人体行为的图像序列进行规范化处理,从中提取具有互补性的ExHOG特征和CLBP特征,采用离散K-L变换对这两种互补特征进行信息压缩、融合,这样在消除多特征中冗余信息的同时也最大程度上保留了有效鉴别信息;最后通过RBFNN对行为特征进行识别分类。实验结果表明该方法具有较好的性能。

2 行为特征提取

背景减除法在摄像机静止的情况下,通过输入图像和背景图像的比较,将区别较大的部分判定为运动目标区域。实际运用中,先产生一个背景模型,然后利用统计学中的假设检验方法来判断当前输入图像的像素是否属于背景。它的优点就在于能获得较完整的运动目标区域。通过背景减除法截取运动图像并归一化成48×48的灰度图,如图1所示。

图1 背景减除法提取图像信息

2.1 扩展的梯度方向直方图特征

梯度方向直方图HOG是一种局部描述符,它描述了图像局部区域的梯度强度和梯度方向的分布情况。该分布情况能很好地表征局部区域目标的外观和形状,因而可将HOG特征应用于人体行为识别。传统的HOG的算法问题在于,一个cell里相反方向的梯度会映射到直方图同一个通道,从而导致两个不同的模型可能拥有相同的特征表示,因此无法区分一些不同的模型。本文采用一种ExHOG特征[5]算法来解决上述问题,描述如下。

设梯度方向θ选0°~360°有符号的梯度方向空间,充分考虑不同方向的梯度,提取的梯度直方图特征为HG,梯度方向θ选0°~180°无符号的梯度方向空间,提取的梯度方向直方图特征为HOG,i为量化的梯度方向θ的通道,MHG()

i为HG第i通道的值,L为HG通道的数目,则HOG可以通过公式(1)计算得出。为了解决HOG存在的问题,设DiffHG为HG每个cell中的差的绝对值,如式(2)所示;将HOG和DiffHG串联起来就得到一个cell中的ExHOG,如式(3)所示。

由于复杂背景下的人体图像往往存在轮廓噪声点和强度突变,提取的HG(图2(a))特征会出现极大的梯度峰值。由公式(1)、(2)可见,由于HOG和DiffHG特征分别由HG特征经加操作和减操作变换得出,因此HOG和DiffHG特征也会出现极大的梯度峰值。这样上述提取的ExHOG特征并不能对噪声抑制,即使对梯度峰值截短,也只能抑制ExHOG中HOG部分的梯度峰值,对DiffHG部分的梯度峰值没有影响。因此,在提取每一个cell的HG特征后,即采用L2范数对梯度直方图进行归一化,并对梯度峰值进行截短,再重新归一化HG特征。这样提取的ExHOG特征对其HOG和DiffHG部分的梯度峰值达到同时抑制,使其对噪声干扰具有很好的鲁棒性。

2.2 CLBP特征

图2 一个cell中的ExHOG提取过程

LBP[6]是一种有效的纹理描述算子,能够提取图像中局部邻近区域的纹理特征,具有高分辨率、对灰度单调变化不敏感和高可计算性等优点。然而基本的LBP算子提取的局部特征并不完整,它仅仅对局部差异的符号值进行分析,忽略了局部幅度差值的信息。为了完善LBP算子所提取的特征,本文提出的分块CLBP增加了对中心像素灰度值和局部差异的幅度值进行编码,提取了丰富的局部特征,完善了基本LBP算子提取的特征。叙述如下:

定义gc为中心像素的灰度值,gp为中心像素邻域内的第 p个采样点的灰度值,dp=gp-gc为gc与 gp之间灰度差值。局部差异向量[d0,d1,…,dp-1]表示中心像素 gc的局部结构,dp可以进一步表示为:

其中,c是阈值,设置为整幅图像的mp均值。中心像素的灰度值表征图像的局部灰度水平,同样具有鉴别信息。利用全局阈值将中心像素的灰度值转换成二进制数值。定义:CLBP_CP,R=t(gc,cI)。t函数的定义如式(6),阈值cI的取值为整个图像的平均灰度值。由于CLBP_CP,R的取值只有0和1,所以该算子提取的特征只有两维。算子与均匀LBP算子相同,记为

分块CLBP特征提取的过程如图3所示。首先将人体图像进行分块处理,对每一个分块分别进行中心像素灰度值和局部差异值分析。然后利用算子来提取每个分块的局部差异符号值特征、幅值特征以及中心像素灰度值特征,并求取它们的统计直方图,将求取的三种特征的直方图连接起来,作为这一分块的直方图特征CLBP_SMC。最后再将所有分块的特征连接起来,作为这幅人体图像的特征。

2.3 特征融合

本文采用离散Karhunen-Loeve(K-L)变换,对提取的特征进行信息压缩与融合。K-L变换是一种在均方误差准则下的最优正交变换,具有保熵性、保能量性、去相关性以及能量重新分配和集中等优点。在ExHOG特征和CLBP特征融合之前,需要对其分别进行归一化处理。采用Z-score[7]方法进行归一化,设 XExHOG表示ExHOG特征,XCLBP表示CLBP特征,则归一化后的特征向量为:

其中,μExHOG和 μCLBP分别表示ExHOG特征向量均值和CLBP特征向量均值;σExHOG和σCLBP分别表示ExHOG特征向量和CLBP特征向量的标准差。

采用离散K-L变换对归一化后的ExHOG和CLBP特征数据进行融合。设Y为N维随机向量,则Y的K-L展开可表示为:其中,T为正交变换矩阵,其元素由Y的协方差的特征向量组成,即。Y的协方差矩阵为:

图3 分块CLBP特征提取过程

对提取的特征向量进行K-L变换后,得到若干组新的特征数据,其中每个特征点均是原来N个特征的线性组合,然后在其中选出前K个数据组成一个子集来描述被处理对象的特性。虽然特征个数由N个降为K个,但在这K个特征中均包含了原N个特征的影响。

3 行为识别

径向基函数神经网络(RBFNN),属于前馈神经网络[8-9],具有良好逼近的能力同时也具有较强的聚类分析属性。本文所用的RBFNN的结构示于图4,它有三层:输入层、隐含层和输出层。这里是输入向量,为一个视频序列的融合特征;G为隐藏层的映射函数;y是 p维输出向量,而K是样本数。

RBF第i个输出单元为:

其中,‖‖˙是欧几里得范数,U是一个m维输入矢量,Ci为第i个隐单元的中心矢量,与U维数相同。n是隐单元数,Gi(x)为第i个 RBF单元,本文选择Gi(x)为高斯函数:

RBF的第 j个输出 yj() x为:

其中,wji是第i个隐藏节点到第 j个输出的权重。

图4 RBF网络结构

为了使用RBF神经网络进行人体动作识别,设置输入层的节点数为特征向量U的维数,每一个输入节点对应样本特征向量的一个分量;输出节点数量等于数据库中行为的类别数,所有输出节点组成一个输出列向量,一个输出列向量对应一个类别。RBF神经网络的训练主要是决定高斯函数的中心和标准偏差。本文采用K-average算法来获得基函数中心,使用如下公式来确定基函数方差。

当上述步骤完成后,就可以把RBFNN看做一个从输入到输出的线性方程,然后通过最小二乘法获得输出层的权重。

4 实验结果与分析

在KTH公共数据库(分辨率为160×120,25帧/s)和Weizmann公共数据库(分辨率为180×144,25帧/s)上,对本文提出的行为序列识别方法进行验证。KTH数据库由25个人分别完成6种行为:box、clap、jog、run、walk、wave。Weizmann数据库由9个人分别完成10种行为:bend、jack、jump、run、side、skip、walk、wavel、wave2、piump。实验在Core2 2.0 GHz的CPU,2 G内存,Matlab 2010a的计算机上进行仿真。算法基本过程如下:

步骤1用背景差分法提取出视频序列10帧到20帧的人体运动序列,并归一化成48×48的灰度图。

步骤2分别提取人体运动序列的ExHOG特征和CLBP特征。

步骤3使用K-L变换将两种特征融合成一个特征向量作为一个视频序列的特征向量。

步骤4采用RBFNN进行行为的训练和识别。

实验中,将KTH数据库中每个人行为分成了4个场景,本文选取室外、视角水平的场景,从中随机选取10个人的行为作为训练样本,剩余15人的行为作为测试样本,20次随机实验结果如表1所示。Weizmann数据库中视频随机分成9组,每组拥有10种行为的各1个样本。选取其中8组来训练,1组用来测试,并重复使每组样本都可以用来作为测试样本,随机分组30次实验结果如表2所示。实验定义识别率为正确的识别样本数和总样本数的百分比。

表1 KTH数据库识别结果

文献[3]采用运动历史图像序列中人的运动,从中提取HOG特征作为行为描述特征;文献[4]采用2DPCA-HOG特征作为行为描述特征。图5给出了本文与文献[3]和文献[4]的描述特征在Weizmann库和KTH库的实验结果比较。在Weizmann库中本文平均识别率、文献[3]和文献[4]平均识别率分别为95.0%、83.8%、91.6%。在KTH库中平均识别率分别为95.6%、92.5%、92.3%。

图5 三种特征在Weizmann库和KTH库中的识别率对比

表2 Weizmann数据库识别结果

由图5的实验结果可知:虽然MHI-HOG、2DPCA-HOG方法在KTH和Weizmann数据库中均能取得一定的识别效果。但是HOG特征仅仅能够表征人体形态的局部梯度特征,这样单独提取HOG特征来表征人体形态容易导致相近人体姿势的误判。相对于MHI-HOG、2DPCA-HOG方法,本文采用ExHOG特征与CLBP特征相融合的运动人体行为识别算法,能够很好地把HOG提取的人体轮廓形状特征和CLBP提取的纹理特征相结合,达到表征人体行为,取得了更好的分类效果。

5 总结

本文提出了一种基于特征融合的人体行为识别方法。将ExHOG和CLBP两种具有互补性的特征采用K-L变换进行融合后用于人体行为识别,使用RBF神经网络作为分类器,在KTH库和Weizmann库的基础上进行实验;实验结果表明提出的方法用于人体行为识别效果较好。今后的工作方向是选择更为优越的融合特征和融合策略,以达到更好的分类效果。

[1]Ronald P.A survey on vision-based human action recognition[J]. Image and Vision Computing,2010,28(6):976-990.

[2]Aggarwal J K,Ryoo M S.Human activity analysis:a review[J]. ACM Computing Surveys,2011,43(3).

[3]Huang C P,Hsieh C H.Human action recognition using histogram of oriented gradient of motion history image[C]// Proceedings of the International Conference on Instrumentation,Measurement,Computer,Communication and Control,2011.

[4]Naiel M A,Abdelwahab M M.Simultaneous human detection and action recognition employing 2DPCA-HOG[C]//Proceedings of the Circuits and Systems(MWSCAS)Conference,2011.

[5]Satpathy A.Extended histogram of gradients with asymmetric principal component and discriminant analyses for human detection[C]//Proceedings of Canadian Conference on Computer and Robot Vision,2011.

[6]Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,8(12):2037-2041.

[7]敦文杰,穆志纯.基于特征融合的人脸人耳多生物身份鉴别[J].天津大学学报,2009,42(7):636-641.

[8]Katidiotis A,Tsagkaris K,Demestichas P.Performance evaluation of artificial neural network-based learning schemes for cognitive radio systems[J].Computersand ElectricalEngineering,2010,36(3):518-535.

[9]Srinivasan S,MitalD P,HaqueS.A novelsolution for maze traversal problems using artificial neural networks[J]. Computers and Electrical Engineering,2004,30(8).

ZHOU Xia,LIU Xuqing,WANG Xian,SUN Ziwen,DENG Yuan

江南大学 轻工过程先进控制教育部重点实验室,江苏 无锡 214122

Key Laboratory of Advanced Process Control for Light Industry Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China

For the inadequate of Histogram of Oriented Gradients(HOG)feature for local gradient features of the human body in human action recognition,this paper presents a recognition algorithm of human action based on multi-features fusion using extended HOG feature and Complete Local Binary Pattern(CLBP)feature.The background subtraction algorithm is used to extract the complete human motion sequence in the video,and it extracts Extended HOG and CLBP feature of human body which are complementary.Then it fuses these two group features by K-L transform to get a new feature which has a higher discriminating power.At last,the paper uses radial basic function neural network to realize the action of multi class classification. The experimental results in the KTH and Weizmann behavior databases show the effectiveness of the proposed algorithm.

action recognition;Histogram of Oriented Gradients(HOG);Complete Local Binary Pattern(CLBP);radial basic function neural network

A

TP391

10.3778/j.issn.1002-8331.1210-0077

ZHOU Xia,LIU Xuqing,WANG Xian,et al.Multi-features fusion algorithm for human action recognition.Computer Engineering and Applications,2013,49(7):162-166.

国家自然科学基金(No.60574051);江苏省产学研联合创新资金-前瞻性联合研究(No.BY201267)。

周霞(1970—),女,讲师,主要研究方向为嵌入式及图像处理;柳絮青(1989—),男,硕士研究生,研究方向为模式识别与智能系统。E-mail:zhouxia501@163.com

2012-10-10

2012-12-03

1002-8331(2013)07-0162-05

猜你喜欢

梯度方向特征向量直方图
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
符合差分隐私的流数据统计直方图发布
克罗内克积的特征向量
基于机器视觉的钢轨接触疲劳裂纹检测方法
基于梯度方向一致性引导的边缘检测研究
用直方图控制画面影调
基于光谱上下文特征的多光谱舰船ROI鉴别方法
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于支持向量机的分类器训练研究