APP下载

基于特征融合的支持向量机动作识别研究

2011-04-10朝阳师范高等专科学校数学计算机系辽宁朝阳122000

长江大学学报(自科版) 2011年34期
关键词:码本识别率时空

(朝阳师范高等专科学校数学计算机系,辽宁 朝阳122000)

时空兴趣点检测的目的是找到视频序列中发生的时空事件。通常来说,其方法是给出一种强度函数,计算视频序列中的每个位置强度值并通过极大值滤波的方法找出兴趣点。Laptev等[1]将Harris角点检测的思想扩展到时空域,得到了一种时空兴趣点的检测方法并实现了基于此的人体动作识别。该方法与传统的方法相比,优点在于无需对前景图像进行分割也不要进行运动检测,仅仅依据在时空域上的行为所引起的变化提取特征,一般采用学习的方法进行识别。受上述研究的启发,笔者利用时空兴趣点提取动作特征,进行了基于特征融合的支持向量机动作识别研究。

1 相关理论

1.1 Cuboids特征

为了克服Laptev检测算法特征点稀少的不足,Dollar等[2]提出使用一种基于Gabor滤波器的时空兴趣点检测算法,在该算法中,一维的Gabor滤波器将作用于时间域,而空间域中仍然采用高斯滤波器。得到时空兴趣点的位置后,在每个兴趣点的位置,提取一个称为Cuboids的描述子。Cuboids实际上是一个包含时空窗的像素的一个立方体,其大小通常选取当前尺度大小的6倍。在提取Cuboids后,可以利用一些常见的描述子进行表示,如灰度值的梯度信息、光流描述子以及规范化的像素值等。在得到描述子后,由于特征维数很高,采用PCA对特征进行降维处理[3]。因此,在研究中可以选取和Dollar一样的参数设置,采用灰度值的梯度信息作为Cuboids描述子。

1.2 SIFT特征

SIFT是David Lowe于1999年提出的局部特征描述子[4]。SIFT特征独特性好,信息量丰富,并且对大多数图像变换具有很强的不变性。因此,可以考虑用SIFT进行图像帧中的特征提取。

2 不同特征的融合

笔者在研究中使用了Cuboids特征和SIFT特征,其中Cuboids特征将视频片段当作一个整体进行处理,一个视频片段生成包含N个时空兴趣点的Cuboids描述,在运用司代方法后[5],每个视频片段对应于一个m维的向量,m取决于码本的大小。SIFT特征针对图像帧,每帧图像生成一个128维的特征向量,每个视频片段生成N×128维的特征向量(N为图像帧数),在司代表示下,视频的SIFT特征同样表示为一个m维的向量,m也取决于码本的大小。

为了将不同方法产生的特征利用支持向量机(Support Vector Machine,SVM)进行分类,有必要将上述特征进行融合。可以采用最简单的特征融合方法,即将Cuboids与SIFT生成的2个128维向量连接起来,组成合并后的新向量。

3 基本方法

SVM能够较好地解决常见的非线性分类中的小样本、非线性、高维数和局部极小点等问题,同时可以避免神经网络结构选择和局部极小点的情况,在行为理解研究中得到充分应用。因此,笔者在提取混合特征的基础上,提出采用SVM进行动作识别。

设线性可分样本集为(xi,yi),i=1,2,…,n,x∈Rd,y∈{+1,-1}是类别号。d维空间中线性判别函数和分类面方程分别如下[6]:

式中,w为权向量;b为阀值。

将判别函数归一化,让2类所有样本都满足|g(x)|≥1,使距分类面最近的样本的|g(x)|=1,这样分类间隔就等于2/‖w‖,则间隔最大时‖w‖(或‖w‖2)最小;若要求分类面对所有样本正确分类,则必然满足:

满足上述条件且使‖w‖2最小的分类面就是最优分类面,也叫最优超平面。过2类样本平行于且距离最优超平面最近的超平面H1、H2上的样本就是支持向量。一组支持向量可以唯一地确定一个最优超平面。最大间隔情况下原始的优化问题为:

若训练集是线性不可分的,需要引入松弛变量,其允许在一定程度上违反间隔约束。若采用松弛变量的一阶范数给出误差界,优化问题变为:

式中,C为惩罚因子。

为了使学习器适用于非线性的特征集,需要用一个固定的非线性映射将非线性特征集映射到高维(也可能是无穷维)特征空间,在特征空间中使用线性学习器。因此,分类函数为:

式中,φ是从输入空间到某个特征空间的映射。

引入间隔松弛变量,则优化问题变为:

式中,K为核函数;α为连接度。

则相应的决策分类函数变为:

4 仿真试验及分析

试验采用2种常见行为视频数据库,即KTH数据库和Weizmann数据库。KTH数据库包含人的6种类型的动作,包括行走、单腿跳、跑步、拳击、挥手以及鼓掌。每个动作由25个人分别在4种场景下拍摄,共2391个视频序列。所有序列均在单一背景下,利用固定摄像机以25fps拍摄而成,并以160×120分辨率进行采样,视频平均长度为4s。Weizmann数据库由90个视频组成,每个视频的分辨率为180×144。该数据库包含一些人体自然行为,如跑、行走、单腿跳、短跳、双腿跳跃前进、侧跳、原地跳、伸臂跳、单手挥手以及双手挥手等10种动作。

在提取视频Cuboids特征和SIFT特征的基础上,利用一对多的多类SVM分类器实现特征分类。对每一段视频生成一个Cuboids特征,同时对每一帧图像生成SIFT特征。利用司代方法,生成码本。然后对于所有的视频样本利用码本生成最终的直方图特征,最后采用SVM 进行分类。试验采用libsvm2.8作为SVM的分类工具。试验流程图如图1所示。

图1 试验基本流程图

图2和图3分别给出KTH和Weizmann下选取最优的分类结果,每一行表示了某一动作的识别情况,其中处于对角线上的数据表示在特征融合情况下正确识别的识别率,而同一行中其他数据则表示了误差识别的情况。上述结果是随机选取样本生成码本,在码本为500的情况下,循环20次得到的识别率平均值。

图4给出了采用单一特征和双特征融合情况下的识别率。从图4可以看出,采用双特征融合情况下的识别率明显高于采用单一特征情况下的识别率,说明采用时空兴趣点的Cuboids特征与SIFT特征的简单融合就能有效地识别动作。由于采用双特征融合的分类结果明显好于使用单一特征的分类结果,因而寻找更好的融合策略是未来研究工作的重点。

图2 KTH的混淆矩阵

图3 Weizmann的混淆矩阵

图4 采用单一特征和双特征融合情况下的识别率

[1]Laptev I.Proc of International Workshop on Spatial Coherence for Visual Motion Analysis [A].Local descriptors for spatio-temporal recognition [C].Prague:L I NDEBERG T,2004:120-127.

[2]Dollar P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features [A].IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance [C].Prague:L I NDEBERG T,2005:65-72.

[3]张博宇,刘家锋,唐降龙.一种基于时空兴趣点的人体动作识别方法 [J].自动化技术与应用,2009,28(10):75-78.

[4]Lowe D G.Distinctive image features from scale-invariant keypoints [J].IJCV,2004,60(2):91-110.

[5]Sun X H,Chen M A.Hauptmann Action Recognition via local descriptors and holistic features [J].CVPR,2009,18(3):1-8.

[6]刘堃.基于整体特征的人体动作的识别 [D].南京:南京理工大学,2009.

猜你喜欢

码本识别率时空
免调度NOMA系统中扩频码优化设计
跨越时空的相遇
基于有限域上仿射空间构造新码本
镜中的时空穿梭
基于Zadoff-Chu 矩阵的最优码本构造方法
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
玩一次时空大“穿越”
几类近似达到Welch界码本的构造
提升高速公路MTC二次抓拍车牌识别率方案研究