基于关键帧特征库统计特征的双人交互行为识别

2016-09-29姬晓飞左鑫孟

计算机应用 2016年8期

姬晓飞　左鑫孟

摘要：针对双人交互行为识别算法中普遍存在的算法计算复杂度高、识别准确性低的问题，提出一种新的基于关键帧特征库统计特征的双人交互行为识别方法。首先，对预处理后的交互视频分别提取全局GIST和分区域方向梯度直方图（HOG）特征。然后，采用k-means聚类算法对每类动作训练视频的所有帧的特征表示进行聚类，得到若干个近似描述同类动作视频的关键帧特征，构造出训练动作类别对应的关键帧特征库；同时，根据相似性度量统计出特征库中各个关键帧在交互视频中出现的频率，得到一个动作视频的统计直方图特征表示。最后，利用训练后的直方图相交核支持向量机（SVM），对待识别视频采用决策级加权融合的方法得到交互行为的识别结果。在标准数据库测试的结果表明，该方法简单有效，对交互行为的正确识别率达到了85%。

关键词：GIST特征；方向梯度直方图；关键帧特征库；直方图相交核；UT-interaction数据库

中图分类号：TP18； TP391.413

文献标志码：A

0引言

在大数据时代的背景下，计算机视觉领域备受关注，其中人体交互行为识别算法研究已成为热点问题。它使用视频分析的方法从存在交互行为的视频中检测、识别人体及动作对象，并对其交互行为识别与理解。交互行为的识别算法研究具有较高的实用价值和现实意义，其研究成果在智能监控系统、视频检索、智能家居以及虚拟现实中有着广泛的应用前景[1]。

目前，对于交互动作识别的研究有许多的技术和方法。一些学者提出了基于共生原子动作的识别方法：文献[2]提出了一种基于共生视觉词典的方法，该方法通过统计动作执行人间共生视觉词的发生频率对双人交互行为进行表示和识别；文献[3]将视频表示成一系列具有一致空间结构和一致运动的组件，通过对比成对组件的时空关系对交互视频进行识别。该类方法特征表示简单，但识别的准确率十分低。

有一些研究者提出了构造时空匹配核函数的方法进行交互行为的识别：文献[4]中提出时空上下文对局部时空特征及其相互关系进行描述，通过构造时空上下文核函数（Spatio-Temporal Context Kernel， STCK）进行复杂交互视频的识别；文献[5]采用基于语义基元的词典（Bag Of Semantic Texton， BOST）对视频的局部时空体进行描述，并利用金字塔时空关系匹配（Pyramidal Spatiotemporal Relationship Matching， PSRM）核对交互动作进行识别。以上两种方法的问题在于时空匹配核函数较为复杂，且准确度不高。

为此，一些研究者提出采用相对复杂的时空特征的方法对交互行为进行描述，以期提高准确度：文献[6]结合运动上下文的全局特征和局部时空兴趣点的时空特征相关性对交互行为进行描述，以提高识别的准确性；文献[7]组合了密集轨迹（Dense Trajectory Shape， DTS）、方向梯度直方图（Histogram of Oriented Gradient， HOG）、光流直方图（Histogram of Optic Flow， HOF）和运动轮廓直方图（Motion Boundary Histogram， MBH）等四种特征对多尺度密集轨线进行特征提取，并采用矢量量化（Vector Quantization， VQ）、局部软分配Locality Soft-Assignment， LSA）、稀疏编码（Sparse Coding， SC）和局部约束线性编码（Locality-constrained Linear Coding， LLC）等四种先进的特征编码对交互动作描述，进行识别与理解。然而，无论是构造时空匹配核的方法，还是复杂时空特征的方法，计算复杂度都很高，大大地限制了算法的实用性。

而在一些单人动作识别研究中，曾提出使用提取关键帧的方法能够降低动作识别的复杂度：文献[8]提出使用关键帧提取和缩略视频的提取技术来解决人体动作识别算法的时间复杂度的问题；文献[9]提出利用弧长的方向函数对关键帧中的人体轮廓进行描述。以上两种基于关键帧的方法优点在于效率高，空间信息描述较为充分。

根据以上分析，考虑到词袋（Bag Of Words， BOW）框架[2，7]是一种较好的描述特征简易模型，因此本文采用BOW框架来解决交互行为识别技术计算复杂度高、准确性较低的问题，提出一种新的基于关键帧特征库统计的双人交互行为描述及识别方法。在训练过程中，该方法对训练视频中的所有帧图像提取简单的全局GIST和HOG特征，采用改进的k-means聚类方法建立关键帧特征库；再根据相似度量函数，对于每个训练视频统计视频帧特征在特征库中出现的频率，生成该训练视频的直方图统计描述；然后利用训练视频得到的直方图特征描述训练直方图相交核支持向量机（Support Vector Machine， SVM）[10]分类器。在识别过程中，对输入测试视频帧特征进行直方图统计描述，再将其输入到SVM分类器中，融合两种特征分别得到的识别结果，给出测试视频的最终识别的结果。该算法的优势在于特征简单，无需进行建模，识别效果较好，基本可以实现实时处理。

1视频预处理

为了提高识别的准确性和有效性，在特征提取及描述之前对视频预处理必不可少。采用帧差法以及判断两个个体的体心距离的方法，分别得到2-D空间的感兴趣区域（Region of Interest， ROI）和1-D时间上的感兴趣片段。算法的具体步骤如下：

步骤12-D空间预处理。对视频采用帧间差法来获得感兴趣的前景区域边界轮廓，然后找到包含前景区域的最小矩形，进行前景定位。这样能够减少视频中的冗余信息，效果如图1所示。

步骤21-D时间预处理。考虑到一些交互行为在交互前阶段和交互后阶段可能会有很大的相似性，比如：“推人”和“踢打”的动作，这导致二者的特征描述可区分性较差，因此，本文提出判断两个个体的体心距离T（综合考虑不同交互行为发生时个体之间的距离得到的体心距离）的大小来得到主要交互的视频片段。具体算法如下：

2特征提取及描述

2.1算法简介

传统的BOW描述框架往往与局部特征（如兴趣点）进行结合，但是该描述依赖于局部特征的准确提取，存在空间信息和语义信息不足的问题。本文提出的方法则以整帧的特征作为形成词袋的备选单词，并在初始聚类时进行等时间段特征采样，最终完成视频的特征描述。该算法在一定程度上体现了空间信息的整体性以及时间信息的完备性。

算法的基本思想是先对视频中的帧图像提取两种简单的特征（GIST特征[11]、HOG特征[12]），并采用k-means聚类方法（初始时采用等时间段特征采样）建立关键帧特征库，再根据相似度量函数统计视频帧特征在特征库中出现的频率，最后得到交互动作视频的统计直方图表示。具体算法如图2所示。

2.2GIST特征

目前常用于动作识别的全局特征主要包括人体轮廓、全局光流等。全局GIST特征一般应用在图像的分类检索[13]，它通过对动作图像的多方向和多尺度滤波，可以捕捉动作的整体结构信息，尤其对于真实场景的图像序列，GIST特征比同为全局特征的轮廓特征更稳定可靠，而且其计算复杂度低于全局光流特征。

近几年，一些学者已将它应用在了人体动作识别[11，14]中，并且取得了较好的结果，因此本文选择对交互行为的视频提取全局GIST特征。其基本思想是：利用Gabor滤波器多尺度多方向的特点对帧图像进行处理，得到多幅特征图；然后将特征图采取分块处理，每块像素点的平均值作为帧图像的一个特征。这样将特征联接在一起，得到了一个1×nGIST

2.3HOG特征

HOG特征采用分区域的方法对像素点求取梯度的幅值和方向[12]，能够更好地描述细节和分布特征。该特征在单人的动作识别研究中已经取得了较好的效果，因此将GIST特征与HOG特征结合很有意义。算法的具体描述如下：

2.4关键帧特征库统计特征描述

在同类动作的视频中，存在一些出现频率较高的关键帧，而BOW模型是一种统计关键词频的简易模型，在动作识别领域取得了不错的效果。为此，本文在BOW框架下提出了基于关键帧特征库的描述方法。基本思想是将视频中整帧图像的特征进行聚类，得到的一系列类心作为关键帧的特征，形成关键帧特征库，再采用统计直方图对整个交互视频进行特征描述，使得视频的信息表示更加完整和准确。其算法的具体步骤如下。

步骤1提取图像序列每一帧的特征向量，组合起来表征整个视频的特征向量组。

步骤2采用初始化等间距采点的k-means聚类方法，得到mk-means个类心；然后对ptrain个训练视频聚类得到的共mk-means×ptrain个类心，再次聚类，最终得到关键帧特征库。其中特征库的特征向量个数为qword。

步骤3根据相似度量函数对视频集视频帧特征在关键帧特征库中出现的频率进行统计，得到一组qword维视频统计直方图表示。

3交互行为识别

在交互行为识别过程中，通常会根据特征描述的数据特点进行识别方法的判断与选择。在本文中，由于每个视频（测试、训练）经过关键帧特征库的描述，都会得到一个qword维的视频统计直方图描述，即测试集和训练集中的数据维数是相同的。考虑到实验中视频样本的数量是很有限的，而支持向量机在解决小样本、高维及非线性的模式识别问题中表现出一些特有的优势[15]；同时直方图相交核[16]能够较好地描述两个直方图的相似性，有效地解决图像分类以及模式识别问题[17]。所以，本文选择了直方图相交核函数支持向量机进行交互行为的识别。其中，直方图相交核函数的定义如下：

实验过程中采用留一交叉验证法对数据库进行实验。所有实验在主频为2.40GHz，内存2GB，32位Windows 7操作系统下的Matlab 2014a软件平台上完成。

4.1不同特征识别结果

本文先通过Gabor滤波器（尺度个数为1，方向个数为8）获得8幅特征图，并选用8×8的网格分块提取GIST特征，获得了特征维数为512维的向量。在提取HOG特征时，采用6×6的网格进行分块，并选取12个方向区域进行直方图统计，其特征维数为432维。在生成关键帧特征库时，实验参数mk-means取值为10，qword为30。在进行决策级融合之前，分别测试了GIST特征描述和HOG特征描述下的交互行为识别结果，为确定决策级融合时加权数值的分配提供参考。

由表1的实验结果可以看出，除了“踢打”和“推人”的动作外，GIST特征的识别效果在其他四类动作中表现得较好，而在“踢打”的动作中，HOG的识别效果占优，在“拳击”的动作中，GIST的识别效果更好一些。总的来说，HOG以80%的识别率略高于GIST的76.67%的识别率。这也说明了本文对GIST特征和HOG特征进行决策级融合的意义所在。

4.2决策级特征融合识别结果

为了兼顾GIST特征和HOG特征各自的优势和特点，本文对这两种特征的支持向量机进行决策级特征融合，根据4.1节所得到的结果，这里选择决策级融合的系数比为0.6∶0.4，HOG融合系数较高一些。这里，采用归一化后的混淆矩阵来表示最终的识别结果，如图6所示。

从混淆矩阵中可以看出，经过决策级特征融合后的识别结果为85.00%，优于单一特征的识别结果。在“拳击”和“推人”的两类动作中，仍然存在较高的识别误差（“拳击”这一行表示为在实验过程中，有30%的“拳击”动作视频被识别成“推人”的交互动作；而在“推人”这一行中，则有20%的“推人”动作视频被识别成“拳击”交互动作），原因在于这两组动作存在较高的相似性。在计算时间复杂度方面，单帧图像平均识别所用的时间为0.193s，基本上可以实现实时处理。

4.3实验结果与其他文献的比较

为了保持算法测试数据的一致性，本文将同样在UT-interaction数据库上进行算法测试的文献所得到的识别结果与本文方法进行比较和分析，如表2所示。

从表2可以看出，本文提出的新框架特征表示得到了较好的结果。与文献[2-5]相比，本文的方法识别准确性有了较大幅度的提升，且无需进行建模和构造复杂时空匹配核。尽管文献[6]（结合全局特征和时空特征相关性）和文献[7]（组合了4种特征）得到的识别结果很高，但是其算法较为复杂，例如文献[6]中的遗传算法（Genetic Algorithm， GA）部分，需要大量时间进行训练，而文献[7]中本身已经组合了四种特征，且其中的HOF的计算量很大，更加增大了计算的复杂度。而本文方法的优点在于无需建模以及构造匹配核函数，且特征简单、复杂度较低，基本可以实现实时操作。

5结语

本文提出一种新的基于关键帧特征库统计的人体交互行为识别方法，来解决交互行为识别技术复杂、准确性较低的问题。该方法在较为成熟的BOW框架下，充分利用全局特征GIST简单有效的优势以及HOG特征注重细节描述和特征分布情况的优点，进行合理的结合，获得了较理想的识别结果。实验结果表明本文方法简单、实时性好。不足之处在于识别的准确性还有待进一步的提高，后续工作中考虑在此方法的基础上，进一步并完善运动特征的选取及关键帧特征库的构建，以期进一步提高识别的准确率及算法的鲁棒性。

参考文献：

[1]RAPTIS M， SIGAL L. Poselet key-framing： a model for human activity recognition [C]// CVPR 2013： Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2013： 2650-2657.

[2]SLIMANI K， BENEZETH Y， SOUAMI F. Human interaction recognition based on the co-occurrence of visual words [C]// CVPRW 2014： Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington， DC： IEEE Computer Society， 2014： 461-466.

[3]YUAN F， PRINET V， YUAN J. Middle-level representation for human activities recognition： the role of spatio-temporal relationships [C]// ECCV 2010： Proceedings of the 11st European Conference Computer Vision. Berlin： Springer， 2010： 168-180.

[4]YUAN F， SAHBI H， PRINET V. Spatio-temporal context kernel for activity recognition [C]// ACPR 2011： Proceedings of the 1st Asian Conference Pattern Recognition. Washington， DC： IEEE Computer Society， 2011： 436-440.

[5]YU T， KIM T， CIPOLLA R. Real-time action recognition by spatiotemporal semantic and structural forests [C]// BMVC 2010： Proceedings of the 21st British Machine Vision Conference. Durham， UK： BMVA Press， 2010： 1-12.

[6]LI N， CHENG X， GUO H， et al. A hybrid method for human interaction recognition using spatio-temporal interest points [C]// ICPR 2014： Proceedings of the 22nd International Conference on Pattern Recognition. Piscataway， NJ： IEEE， 2014： 2513-2518.

[7]PENG X， PENG Q， QIAO Y. Exploring dense trajectory feature and encoding methods for human interaction recognition [C]// ICIMCS 2013： Proceedings of the 5th International Conference on Internet Multimedia Computing and Service. Piscataway， NJ： IEEE， 2013： 23-27.

[8]NEDA A， ZOHREH A. A new approach to speed up in action recognition based on key-frame extraction [C]// MVIP 2013： Proceedings of the 2013 8th Iranian Conference on Machine Vision and Image Processing. Washington， DC： IEEE Computer Society， 2013： 2166-6776.

[9]成勋，常飞，吴志杰.基于关键帧的人体行为识别方法[J].计算机工程与应用，2013，49（18）：134-137.（CHENG X， CHANG F， WU Z J. Human behavior recognition based on key frame [J]. Computer Engineering and Applications， 2013， 49（18）： 134-137.）

[10]余思泉，曹江涛，李平，等.基于空间金字塔特征包的手势识别算法[J].智能系统学报，2015，10（3）：429-435.（YU S Q， CAO J T， LI P， et al. Hand gesture recognition based on the spatial pyramid bag of features [J]. CAAI Transactions on Intelligent Systems， 2015， 10（3）： 429-435.）

[11]WANG Y， LI Y， JI X. Recognizing human actions based on GIST descriptor and word phrase [C]// MEC 2013： Proceedings of the 2013 International Conference on Mechatronic Sciences， Electric Engineering and Computer. Piscataway， NJ： IEEE， 2013： 1104-1107.

[12]WEIZMAN L， GOLDBERGER J. Urban-area segmentation using visual words [J]. IEEE Geoscience and Remote Sensing Letters， 2009， 6（3）： 388-392.

[13]HAN Y， LIU G. A hierarchical GIST model embedding multiple biological feasibilities for scene classification [C]// ICPR 2010： Proceedings of the 2010 20th International Conference on Pattern Recognition. Piscataway， NJ： IEEE， 2010： 3109-3112.

[14]JI X， ZUO X， WANG C， et al. A simple human interaction recognition based on global GIST feature model [C]// ICIRA 2015： Proceedings of the 8th International Conference Intelligent Robotics and Applications. Berlin： Springer， 2015： 487-498.

[15]衣治安，吕曼.基于多分类支持向量机的入侵检测方法[J].计算机工程，2007，33（5）：167-169.（YI Z A， LYU M. Intrusion detection method based on multi-class support vector machines [J]. Computer Engineering， 2007， 33（5）： 167-169.）

[16]GAO X， MIAO Z. Generalized histogram intersection kernel for image classification [C]// ICSP 2014： Proceedings of the 12th International Conference Signal Processing. Piscataway， NJ： IEEE， 2015： 866-870.

[17]SHARMA G， JURIE F. A novel approach for efficient SVM classification with histogram intersection kernel [C]// BMVC 2013： Proceedings of the 24th British Machine Vision Conference. Durham， UK： BMVA Press， 2013： 1-10.

[18]RYOO M， AGGARWAL J. Spatio-temporal relationship match： Video structure comparison for recognition of complex human activities [C]// ICCV 2009： Proceedings of the 12th International Conference on Computer Vision. Piscataway， NJ： IEEE， 2009： 1593-1600.