基于LLC与GIST特征的静态人体行为分类

2018-08-17王恩德

计算机工程 2018年8期

王恩德,,3, ,3

(1.中国科学院沈阳自动化研究所,沈阳 110016;2.中国科学院光电信息处理重点实验室,沈阳 110016; 3.东北大学信息科学与工程学院,沈阳 110819)

0 概述

虽然对静态图像的行为识别研究起步的较晚,但是却有很多不错的研究成果出现。目前主要分3类研究方法:基于图像整体的行为识别,基于人的姿势的行为识别以及基于人和物体之间交互关系的方法。早期的静态图像的行为识别主要对整张图像提取底层特征,如方向梯度直方图(Histogram of Oriented Gradients,HOG)、通用搜索树(Generalized Search Trees,GIST)等特征,然后将这些底层特征输入到分类器中进行分类,且目前图像分类比较好的方法主要有特征词袋(Bag of Words,BOF)和空间金字塔匹配(Spatial Pyramid Matching,SPM)[1-2]。

国内关于人体行为分类的文献比较少,不过大部分研究还是集中在提取底层特征、中层特征以及高层特征方面。除此之外,部分研究人员利用深度学习的方法[3]对人体行为进行分类。可以实现比较好的分类效果,不过如果卷积层太多的情况下,时间复杂度和计算复杂度会增加。

有些学者通过研究人和周围物体的交互来实现不同行为的分类,实现了比较好的识别效果[4-5]。文献[6]使计算机能够区分出图像中人是在演奏乐器还是只是拿着乐器。在解决这个问题的过程中,作者认为拿着乐器和演奏乐器,属于不同的行为但是交互的物体却是相同的,例如当演奏小提琴的时候人和物体的交互位置主要集中在图像的上部分区域(人的肩膀的位置),而在拿着小提琴的时候交互位置却集中在下部分区域。基于这种观察结果,作者提出一种描述方法即Grouplet。

基于部分描述整体行为的思想,文献[7]提出了一种新的部分躯干检测算法,即Poselet。它的主要思想是,首先人为对图像中每个人标注其躯干中的关键点(例如双眼、膝盖等),然后将图像切割成不同的小块,得到整个训练集切出的小块的集合。利用聚类得到的多个集合学习不同的块检测器,通过这些检测器对不同的图像进行检测找出是否具有相似结构的块。有学者通过分析动作的语义特征和动作属性来寻找有鉴别力的区域,并且抑制鉴别能力不是很强的区域实现人体动作的识别[8-10],但这类方法中目标区域及特征属性的选取效果仍然不尽如人意。因此,本文提出一种融合局部约束线性编码(Locality-constrained Linear Coding,LLC)和GIST特征的静态人体行为分类方法。

1 本文算法行为识别框图

本文所提出静态人体行为分类算法使用了LLC编码和池化的密集采样尺度不变特征变换(Scale-invariant Feature Transform,SIFT)特征,并且融合了具有全局描述能力的描述子GIST特征,来共同描述图像特征。GIST特征是场景图像中隐含的相似空间结构和形状的结合体的全局特征。池化后的特征不仅具有空间信息描述能力,还加入了局部约束性,而GIST特征是对图像整体的描述,融合这2种特征可以实现对图像更准确地描述。最后用核函数为直方图交叉核函数的支持向量机(Support Vector Machine,SVM)进行分类。本文算法行为识别的框图如图1所示。

图1 行为识别框图

2 特征提取

首先对图像进行归一化处理,把图像归一化成200×200尺寸大小的图像。

2.1 稠密SIFT提取

对图像进行分块处理,每个子图的大小为16像素×16像素大小,每个子图之间的步长为8个像素,把每个子图平均分成4×4的子区域,统计每个子区域8个方向的梯度方向直方图,这样每个子图就可以提取一个128维的SIFT描述子,每张图像就可以得到N×128的描述子。

2.2 GIST特征提取

GIST特征是场景图像中隐含的相似空间结构和形状的结合体的全局特征,通过计算图像的整体特征,来实现对图像的全局描述。首先对图像进行网格化处理,平均分成4×4=16个图像块,然后构造4个尺度8个方向共32个Gabor滤波器构成滤波器组,用滤波器组的32个Gabor滤波器与每个图像块做卷积运算,取每次滤波后图像块的均值作为该块的描述,每个滤波器滤波后图像得到16维的特征描述子,32个滤波器滤波后就得到32×16=512维的GIST特征向量。

最后对得到的GIST描述子进行归一化处理,GIST描述子可视化结果如图2所示。

图2 GIST特征

3 密码本生成

由于训练的图像的描述子数目很大,运用无监督聚类算法K-means对所有图像块提取的所有描述子进行聚类计算复杂度特别大,因此采用在线的方法生成密码本。首先从训练图像提取的稠密SIFT描述子中,随机挑选M个描述子,作为密码本初始类中心,然后每次加入一部分描述子,计算描述子与类中心的欧式距离,然后根据最邻原则,把每个描述子分配给最近的类中心,然后重新计算类中心。不断迭代,把前一次迭代得到的类中心作为新的类中心,重复上面的过程,对类中心进行更新,直到相邻两次迭代产生的类中心不再变化,或者变化程度很小,停止迭代,把最后得到的类中心作为密码本。本文中,取M=256,512,1 024进行实验。

4 局部约束线性编码与最大池化

比较常见特征编码方法有矢量量化编码、稀疏编码、局部约束线性编码(LLC)。本文采用LLC的方法对提取的特征进行编码。

矢量量化的方法是在已经训练好密码本的情况下,根据最近邻原则把描述子分配给最近的密码本词汇,然后计算每张图像所有图像块的描述子分配给每个词汇的概率,最终把每个词汇出现的概率串联成一个向量,作为该图像的描述特征。这种方法通过计算描述子与每个词汇的L2范数,然后根据最近邻原则把每个描述子分配给最近的一个词汇,分配过程太严苛,相似的图像块可能分配给不同的词汇,很容易造成误分类。

稀疏编码[11]的方法是在已经获得一组超完备基向量密码本的情况下,利用L1范数约束计算每个描述子在这组超完备基向量下的权值,由于超完备基向量的基向量个数大于向量的维数,因此每个描述子都可以用一组稀疏系数来表示,然后根据最大池化原则,选择每个词汇下的最大相关系数,作为最后的特征描述。稀疏编码与矢量量化相比,对于描述子的分配方式更平滑一些,但是由于超完备基向量太多,两张相似的子图很容易选择不同的基底,也会造成误分类。

4.1 局部约束线性编码

局部约束线性编码也借鉴了稀疏编码的思想,但是相比于稀疏性,更加注重局部约束。LLC[12]的主要思想是根据K近邻原则把每个描述子分配n个最近的密码本词汇(本文n取5),这样每个描述子就可以用n个词汇的线性组合来表示,线性组合系数就是描述子与n个词汇的相关系数向量ci,计算过程见下面的公式。LLC既克服了矢量量化的量化过程太严苛的缺点,又解决了稀疏编码忽略局部约束的问题,并且把每个描述子用词汇的线性组合来表示,因而能够实现比较好的编码,同时会提高运算速度。LLC编码如式(1)所示。

s.t.1Tci=1,∀i

(1)

其中,[dist(xi,b1),dist(xi,b2),…,dist(xi,bi)]T,dist(xi,bi)是描述子向量xi与密码本词汇向量bi的欧式距离。σ是用来调节下降速度的权值,本文取值0.000 1,矩阵Ci是第i个描述子向量xi与密码本词汇的协方差矩阵。

4.2 最大池化

通过LLC编码和K近邻原则,每个描述子可以选择相关程度最大的n个词汇作为基底,同时表示成n个词汇的线性组合,相关系数就是上面优化得到的向量ci,它是一个M维的向量,只有n个非零系数,其余为0,既保证了稀疏性,又增加了特征选择的局部约束。向量ci中值越大,与对应词汇的相关程度越大。对于从一幅图像提取的所有描述子,找到与M个词汇最相关的描述子,其相关系数就作为整幅图像与M个词汇的相关程度,从而通过最大池化实现了特征的选择。

为了增加空间位置信息,利用空间金字塔匹配(SPM)的思想,对每张图像分层分块处理,把图像分成3层,每层图像的块数为:提取每层每块图像的最大池化后的特征,把每层每块图像池化后的特征串联起来,得到特征维数(1+4+16)K=21K的描述子。本文选择K=256,512,1 024进行测试。

5 特征融合和分类器选择

单一的特征对于图像的描述能力太弱,所以本文提出了融合池化SIFT特征和GIST特征的方法对图像进行描述。分别用不同密码本得到的池化特征与全局特征GIST特征(512维)直接串联的方式,作为最后用来分类识别的特征。

对于分类器的选择,本文采用核函数为线性核函数、径向基函数(Radial Basis Function,RBF)和直方图交叉核函数的SVM分类器进行测试,通过在Willons action数据库上测试可知,当密码本大小为512维的情况下,用直方图交叉核函数的SVM分类器进行分类,分类效果最好。本文采用台湾大学林智仁教授开发的SVM模式识别与回归的软件包LibSVM[13]来进行测试。

使用直方图交叉核函数来衡量不同描述子之间的距离,向量x和向量y的交叉核定义为:

χ2(x,y)=∑min(xi,yi)

(4)

在训练阶段,对训练样本的类别进行标注,然后把每类训练样本融合特征后的特征向量分别用不同核函数的SVM分类器进行训练,得到分类器模型。

在测试阶段,对测试样本的类别进行标注,把每张图像融合后的特征向量和训练阶段产生的分类器模型输入到预测函数进行测试,最后得到每张图像的预测类别。

6 实验结果与分析

为了验证本文算法的效果,本文在2个数据库上进行测试。

6.1 数据库设置

实验中用了2种不同类型的数据库用于动作识别:StillWeb Images[14],Willowaction。具体如下:

1)StillWeb Images:包含1 200多张图像,有6类不同的动作,即Phoning、PlayingGuitar、RidingBike、RidingHorse、Running、Shooting。每类动作任意挑选60张图像用于实验,其中,40张图像作为训练样本,20张图像作为测试样本。

2)Willow-action:包括900多张图片,1 100多个标注的动作类型标注,即PlayingComputer、Photographing、PlayingMusic、RidingBike、RidingHorse、running、walking。每类任意挑选70张图像作为训练样本,剩下其他的图像作为测试样本。由于每张图像都已经标注好包含目标区域的矩形框(bounding box),因此本文选择使用矩形框内的目标图像进行测试。

6.2 实验结果

本文实验环境为:PC配置为内存4 GB的64位Windows7系统,Matlab2013b下运行。实验将数据进行5次训练与测试,然后取5次结果的平均值作为测试结果[15]。

为了测试不同方法的分类效果,对2个数据库在密码本大小为256维和512维的情况下,用直方图交叉核函数的SVM分类器进行测试,StillWeb Images(简称StillWeb)和Willions action(简称Willions)2个数据库的分类结果如表1所示。通过对比可以看出,LLC+GIST能够取得比较好的分类效果。图3给出了Willions action数据库上不同特征在不同密码本下实验结果的折线。

表1 不同特征正确率对比 %

图3 不同特征分类结果

由图3可知,大部分的特征随着特征维度的增加,识别率逐渐增加,但是LLC+GIST特征在密码本为512维时的识别率高于密码本大小为1 024维的识别率,但是总体来看,相比于单一的特征,融合的特征的识别率高于单一的特征,由于LLC利用局部约束来选择特征的优势,使得LLC+GIST的识别率高于其他融合的特征。

为了比较不同核函数的SVM分类器对本文融合特征的分类效果,本文分别用线性核函数、RBF核函数和直方图交叉核函数,对不同密码本下的融合特征进行训练和测试。表2给出了密码本大小分别为256、512和1 024维情况下的分类正确率,通过对比可以看出,基于直方图交叉核函数的SVM分类器的分类效果明显优于其他核函数,因此,本文选择直方图核函数的SVM分类器对融合性特征进行分类。

表2 不同密码本正确率对比 %

图4给出了在密码本大小为512维的情况下,用直方图交叉核函数对提取的LLC+GIST特征进行分类识别的混淆矩阵。

图4 混淆矩阵

通过混淆矩阵可以看出,使用电脑、演奏乐器、骑车和走路这些动作可以实现比较好的分类效果。跑步和走路有些情况下非常相似,很容易混淆。实验表明骑马和照相场景的识别进度不高,因为这2个动作相对于其他动作来说,变化因素更多,骑马的环境更复杂,拿相机的姿势以及相机的位置等差异太大,以后可以考虑对显著(目标)区域的各个组成部分分别进行特征提取及其各部分的位置关系进行分析,并利用卷积神经网络对算法进行改进。

由表3可以看出,平均行为识别精度为58.57%,高于其他3种对比的算法。基于BOF的方法比方法B[16]的识别精度低,这是因为基于BOF的方法只是把人体行为表示成不同词汇的集合,忽略了人体行为的空间位置信息。方法B虽然加入了空间位置信息,但是对于特征的编码采用矢量量化的方式,编码过程太严格,容易造成误分类。多核分类方法[17],虽然也是融合不同特征进行识别,但是运用传统的SPM直方图特征,缺乏稀疏性和局部约束。本文运用了具有稀疏性和局部约束的LLC编码方式,融合了具有全局描述能力的GIST特征,即基于LLC+GIST特征的方法,该方法不仅挑选出具有描述能力的图像子图,还增加了人体行为的空间位置信息,大大提高了图像的描述能力,因而能够实现比较好的分类效果。

表3 不同算法下各类行为的正确率对比 %

7 结束语

本文提出一种融合局部约束线性编码特征和GIST特征的静态图像人体行为识别方法。考虑人体行为的空间位置信息和局部约束,加入鲁棒的全局描述特征GIST,使得对图像的描述能力优于单一的特征和加入空间位置信息的SPM特征和稀疏编码空间金字塔匹配(Sparse Coding Spatial Pyramid Matching,ScSPM)特征,并且优于GIST与SPM和ScSPM融合后的特征。在分类器的选择上,相比于线性核和RBF核函数的SVM分类器,基于直方图交叉核的SVM分类器能够实现更好的分类效果。然而,仍存在很多挑战,比如不同人做同一个动作,由于体型、身高、姿势等差异,对于最终的识别效果也会带来影响,还有人体部分遮挡、光照变化、拍摄角度等问题,这将是下一步的研究重点。