APP下载

基于运动与结构特征嵌入的人体行为识别*

2022-03-25甄先通张磊

广东石油化工学院学报 2022年1期
关键词:结构特征金字塔高斯

甄先通,张磊

(广东石油化工学院 计算机学院,广东 茂名 525000)

1 人体行为识别概述

目前,人体行为识别广泛应用于运动分析、虚拟现实、人机交互等领域,市场应用前景广。人体行为识别研究是指通过分析与理解传感器采集的人体运动数据,使计算机能够理解人类的行为与意图,赋予计算机智能化特性。在人体行为识别研究中,深度学习近年来也取得了丰硕的成果。时空双流网络模型[1]分别对视频中的RGB信息和光流信息训练单独的神经网络,在最后层将特征融合。文献[2]中提出时空金字塔网络,在其中加入了视觉注意力机制,进一步提高系统性能。文献[3]中将CNN和LSTM结合,先用LSTM处理时序信息,再将编码后的特征输入CNN进行动作识别。

本文研究有别于深度学习,从人体行为主要由运动特征和结构信息组成的事实出发[4,5],从全局特征描述的角度,提出新的基于运动与结构特征嵌入的表示方法。提出了一个统一的框架集成运动和结构信息来表示人体行为,可以有效地捕捉到人体行为动态变化的线索。所提的方法将多尺度分析技术(即高斯金字塔和中心-环绕机制)引入到人体行为表示中,并通过Gabor滤波器和最大池化提取有效的生物特征,进行判别局部对齐分析,获得更具信息性和鉴别性的表示。

2 基于运动与结构特征嵌入的方法

2.1 系统框架

本文所提出的运动与结构特征嵌入方法的系统框架见图1。具体如下:(1)对原始视频序列做相邻帧差分(DoF)预处理,得到具有帧差的三维体。(2)在两个特征通道中分别提取运动特征和结构信息。在运动特征通道中,获得一个对运动信息进行编码的特征映射,即运动历史图像(MHI)。在结构特征通道中,从DoF三维体中提取5个特征映射。(3)将(2)中的每一个特征映射输入高斯金字塔[6],并利用多尺度分析技术,在高斯金字塔不同层得到不同的分辨率。在高斯金字塔的每一层上执行中心-环绕操作[7],从而产生一系列子带映射,其中具有不同尺度的特征划分成不同的子带。(4)采用两段特征提取[8](即Gabor滤波和最大池化)来选择不变特征表示。Gabor滤波器是特征提取中滤波器组的常见选择,它可以捕获边缘和方向信息[7]。第二阶段中的特征池化技术(如最大池化)由于其不变性,在低层特征提取算法中受到了更多的关注。(5)使用一种称为判别局部对齐[9]的降维技术将运动和结构特征嵌入到低维空间中,从而实现更紧凑和更具判别力的表示。

图1 运动与结构特征嵌入描述符提取框架

2.2 运动历史图像

假设I(x,y,t)表示一个进行DoF帧差分后的图像序列,D(x,y,t)为对应的二进制图像序列,其值0和1分别表示对应位置是否存在相应的运动,位置运动信息可由图像的差分得到相关信息。用Hτ(x,y,t)表示运动历史图像,其具体计算如下:

(1)

式中:τ为定义运动范围的持续时间。

2.3 结构信息

视频序列可以看作X-Y-T的三维体。对原始视频序列做相邻帧差分预处理,很好地保留了与动作相关的信息,很大程度上抑制背景差异和噪声。以帧差三维体的中心为中心,获取X-Y、X-T和Y-T三个正交平面,结合帧差三维体的起始和结束切片,可以得到5个结构平面。这些平面中包含动作的空间和时间结构信息。3个X-Y平面给出动作的动态结构(3个方面的身体姿势信息),而X-T和Y-T平面记录时间结构,这5个平面包含相互补充的结构信息。图2显示了从帧差三维体中提取的结构平面特征信息。图2右侧第2~3个平面同时记录空间和时间结构信息,与最上面的起始切面和最下面的结束切面结合,可以提供动作的动态结构信息。

图2 从帧差体积提取的结构平面特征信息

2.4 高斯金字塔

为了刻画人眼可以处理多分辨率和多尺度的信息这种特性,采用图像金字塔技术建立多尺度图像组。高斯金字塔基准层定义为原始图像,重复对前一层图像进行高斯滤波和下采样得到后一层图像,从而得到不同尺度的目标图像,构成图像的金字塔结构。高斯金字塔各尺度层计算如下:

Gl(x,y)=∑m∑nw(m,n)Gl-1(2x+m,2y+n)

(2)

式中:G0(x,y)=I(x,y)为金字塔最底层的原始图像;l为金字塔的层级;w(m,n)为高斯加权函数,其权重对任何层都保持一致。

采用中心-环绕机制来提取局部区域的对比度信息。在中心-环绕机制中,中心区域刺激视觉神经使其兴奋,同心的周边大区域则抑制这种兴奋[10],如图3所示。这种对局部不连续性非常敏感的结构,特别适合检测相对于周边背景突出的目标。

图3 中心-环绕机制的空间形式

在5层高斯金字塔基础上,对中心层c和环绕层s采用中心-环绕机制。由于高斯金字塔的各层的尺度不同,中心层级和环绕层级之间的比例不同,将环绕层级的图像插值成与相应中心层级大小相同,再用中心层级逐点减去插值后的环绕层级的图像,以生成相关子带图像。其中环绕层s=c+d,而d为环绕层级和中心层的距离。本文中,产生6个子带的图像,其(c,s)的取值分别为(2,5)(2,6)(3,6)(3,7)(4,7)(4,8)。

图4给出了高斯金字塔(c,s)为(2,5)的中心环绕操作图。图4左边5层金字塔中,以第2层为中心层、第5层为环绕层,将环绕层对应的图像的尺度利用插值方法扩展到中心层尺度大小,做差分,形成右边的子带映射结果。

图4 高斯金字塔的(c,s)为(2,5)的中心-环绕操作

2.5 特征提取

Gabor滤波器具有如空间定位、方向选择性和空间频率的特性,采用Gabor滤波器来提取方向信息。

2D Gabor母函数定义为

(3)

式中:x0=xcosθ+ysinθ;y0=-xsinθ+ycosθ;x0,y0的范围决定了Gabor滤波器的尺度,而θ决定了Gabor滤波器的方向;r为空间纵横比,决定了Gabor函数形状。

本文采用的Gabor滤波器具有8个尺度,范围为从7×7到21×21像素、4个方向包括0°、45°、90°和135°。利用这些Gabor滤波器对初始输入图像进行卷积,得到32幅包含多方向信息的特征图。

不同子带图像的Gabor滤波器输出,在局部邻域上进行最大池化,池化的结果将对位置偏移和可能尺度错误具有鲁棒性。最大池化定义如下:

h(x,y)=max(x,y)∈G(x,y)[g(x,y)]

(4)

式中:g(x,y)为Gabor滤波器的响应;G(x,y)为像素(x,y)的邻域,即感受野。最大池化的邻域窗口是Gabor滤波器尺度。将最大池化后的结果串联,作为人体行为表示的描述符。

基于运动与结构特征嵌入表示,具体算法的伪代码如下:

算法1:基于运动与结构特征嵌入表示

2.按照式(1)计算得到Hτ(x,y,t)序列,并取中间帧和最后帧作为代表帧。

3.将D进行X-Y、X-T和Y-T平面投影,加上起始帧和结束帧,构成5个平面。

4.将步骤2和3中的7个平面,分别作为输入,生成对应的高斯金字塔,其中金字塔的层数选择8层。

5. 对7个平面中每一个平面对应的金字塔做中心环绕,中心层和环绕层分别为(2,5)(2,6)(3,6)(3,7)(4,7)(4,8),产生6个子带的图像。

6. 对7个平面的6个子带图像,分别用Gabor滤波器从尺度7×7到21×21像素8个尺度,0°、45°、90°和135°这4个方向,共32幅包含多方向信息的特征图,即得到7×6×32幅Gabor滤波后的图像。

7. 对7×6×32幅Gabor滤波后的图像按照保留d个元素进行最大池化。

8. 将7×6×32×d拉直,形成一个特征向量,形成人体行为表示的描述符。

得到人体行为表示的描述符后,采用判别局部对齐(DLA)分析进行降维[9],将其输入SVM分类器得到输出的人体行为类别。

3 实验结果及分析

本方法在多摄像机IXMAS数据集和真实的UCF Sports数据集上对所提出的方法进行了评估。

3.1 中间结果分析

为了分析所提出运动与结构特征嵌入方法各部分有效性,包括高斯金字塔、运动结构信息及降维方法。在对中间结果进行分析中选用降维方法包括主成分分析(PCA)、线性判别分析(LDA)、局部保持映射(LPP)、近邻保持嵌入(NPE)、Isomap方法、判别局部对齐(DLA)方法。

图5为IXMAS数据集5个镜头的性能分析,不同颜色的柱形表示不同的降维方法,每幅子图中三个柱状体群分别对应单独的高斯金字塔(A)、运动结构信息(B)以及高斯金字塔+运动结构信息(A+B)的性能。

图5 各个部分不同组合以及不同降维方法在IXMAS数据集上的性能分析

由图5可知,对于所有镜头数据,高斯金字塔+运动结构信息在几乎所有的降维方法下对性能均有所提高。对比所有的组合下的性能,高斯金字塔+运动结构信息+DLA性能最佳。

表1给出了UCF Sports数据集上降维及各部分性能对比分析。与IXMAS数据集相比,UCF Sports数据集更接近于真实的数据集。

由表1可知,单独使用高斯金字塔系统的性能在各种降维方法下性能较好,这说明高斯金字塔的有效性。对运动结构信息而言,尽管单独使用运动结构信息的性能不佳,但运动结构信息是对高斯金字塔的有效信息补充。对比不同的降维方法,可以看出Isomap和DLA方法都获得了很好的性能。与Isomap相比,DLA方法可以有效利用标签信息,性能更好。

表1 UCF Sports数据集上降维及各部分性能对比分析%PCALDALPPNPEIsomapDLA高斯金字塔91.891.288.391.991.892.4运动结构信息49.644.052.942.654.553.2高斯金字塔+运动结构信息93.190.589.891.293.993.9

3.2 和其他方法对比

表2和表3给出了所提出的基于运动与结构特征嵌入方法与其他方法在IXMAS和UCF Sports数据集性能对比结果。

由表2可知,对镜头1、镜头2、镜头3、镜头5中,所提出的运动与结构特征嵌入方法具有较佳性能。在镜头4中所提出的方法性能略低于Weinland提出的Local SVM方法[12],但高于其他方法。

表2 基于运动与结构特征嵌入方法在IXMAS数据集性能%镜头1镜头2镜头3镜头4镜头5运动与结构特征嵌入方法84.987.990.186.978.9GMKL[11]76.474.573.671.860.4AFMKL[11]81.980.177.177.673.4Local SVM[12]84.785.887.988.572.6Information Maximization Feature[13]76.773.372.173.1-4D Action Feature Models[14]72.053.068.163.0-3D Exemplars[15]65.470.054.566.033.6Temporal Self-similarities[16]76.477.673.668.866.1

表3 基于运动与结构特征嵌入方法在UCF Sports数据集性能 %

由表3可知,在UCF Sports数据集上,本文所提出的方法优于Weinland 所提出的方法[12]。与最新的深度学习结合双向LSTM方法[19]相比,在没有注意力机制的前提下,本文提出的方法性能略优于该方法,但深度模型结合双向LSTM模型在结合注意力机制以及中心损失函数的前提下,其性能优于本文提出方法,这在一定程度上说明了深度学习方法的有效性。

4 结语

本文提出的基于运动与结构特征嵌入方法,在充分考虑运动形态变化以及视频三维体在时空投影后保留的平面结构信息的基础上,结合反映人眼多尺度分析的高斯金字塔和中心-环绕的边缘物体成像机理,利用Gabor滤波器和最大池化提取特征描述符,并通过判别局部对齐方法将描述符嵌入到低维空间,在保证系统性能的同时提高运算效率。通过在IXMAS数据集和真实的UCF Sports数据集上的实验分析,结果表明所提出方法的有效性。

猜你喜欢

结构特征金字塔高斯
论莫言小说的复线式结构特征
“金字塔”
Great Vacation Places
数学王子高斯
天才数学家——高斯
海上有座“金字塔”
金字塔是用金子造的吗
结构特征的交互作用对注塑齿轮翘曲变形的影响
2012年冬季南海西北部营养盐分布及结构特征
基于测井响应评价煤岩结构特征