APP下载

加权HOG 与特征融合行为识别方法研究

2021-11-28刘永涛

软件导刊 2021年11期
关键词:光流识别率像素点

宋 琳,刘永涛

(南京邮电大学通信与信息工程学院,江苏南京 210003)

0 引言

视频中的人体行为识别作为计算机视觉领域一个主要研究方向,在智能监控、医疗辅助、人机交互以及基于内容的视频分析等领域都发挥着重要作用[1-4]。在智能监控领域,在技术方面,不仅要使监控系统能够识别出异常或危险行为,而且要根据不同行为发出不同警报,警示人们作好准备;在经济方面,要求在敏感活动区域内能够实施无人监控,避免配备大量安保装置与安保人员,从而大幅降低人力和物力成本。光流通常用于表达人体行为的运动信息,例如:Jagadeesh 等[5]提出基于光流与SVM 分类器的人体动作检测与识别方法;鲁统伟等[6]将基于光流的人体行为识别算法应用于教室内学生站立与坐下动作识别;薄思宇[7]提出结合光流法与ViBe 算法对视频中的运动目标进行准确检测,以及利用多特征融合方法对人体运动视频进行有效的分类识别。在静态信息表达方面,Dalal 等[8]提出基于方向梯度直方图(Histogram of Oriented Gradient,HOG)的人体检测方法用于表达纹理特征;Ali 等[9]提出基于尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)与视觉词袋的人体行为识别算法用于表达兴趣点特征;Scovanner 等[10]进一步提出将3D SIFT 用于描述视频,并介绍其在行为识别领域的应用。在特征融合方面,韩欣欣等[11]提出将SIFT 与HOG 特征融合的人体行为识别方法,以弥补单一特征的不足。

SIFT 与HOG 特征融合可以很好地表达人体目标的静态外观信息,并且对光照等外部因素的影响也有很好的适应性,但缺乏对动态信息的表述。光流表达了图像变化,包含了目标运动信息,因此本文提出一种将光流强度加权HOG 特征与SIFT 特征进行融合得到改进的融合特征,最后通过SVM 完成分类识别的算法。

1 算法原理

该算法具体步骤为:目标检测、光流场计算、HOG 特征提取、SIFT 特征提取、加权HOG 与SIFT 特征融合、SVM 分类识别。从KTH 人体行为数据库中选取视频,首先对视频帧进行预处理,对彩色图像依次进行灰度化、亮度归一化、滤波,从而增强图像对比度、降低噪声;然后对预处理后的视频帧计算帧间光流,返回光流强度,同时提取HOG 特征与SIFT 特征;接下来用光流强度对HOG 特征进行加权,并与SIFT 特征进行融合;最后通过SVM 完成分类识别。算法流程如图1 所示。

Fig.1 Algorithm flow图1 算法流程

1.1 光流

本文采用Horn-Schunck 光流算法用于估计稠密光流[12]。HS 光流法的提出基于两个假设:①假设在短时间内运动物体灰度值不变;②假设像素点在给定邻域内的移动速度非常缓慢。所以,HS 光流法基于光流约束方程和全局光流平滑约束两个条件。其中,光流平滑约束条件如式(1)所示,u为水平光流矢量,v为垂直光流矢量。

根据光流约束方程Ixu+Iy v+It=0,对Es进行极小值化,可将求解光流场转变为对式(2)的求解:

其中,λ为权重,代表约束条件以及图像数据置信度。λ的值取决于图片质量,若质量高,Ix、Iy和It增加权重值,反之则降低权重值。

对式(2)中的u、v分别求导,可得:

联立式(5)、式(6),并引入松弛迭代法得到u、v的迭代公式如下:

在式(7)、式(8)中,光流矢量初始值为(0,0),依次计算两个相邻迭代光流值的差值。若迭代次数大于指定迭代次数(一般设为20 次),或计算的差值小于设定的误差阈值,则计算结束。

根据上述过程,计算视频序列里所有帧图像的光流场F(x,y)。每个像素点的光流包括水平u(x,y)和垂直v(x,y)分量,由此得出运动强度及方向:

1.2 加权方向梯度直方图

方向梯度直方图特征由Dalai 等[13]最先提出,作为计算机视觉中的一种特征被广泛应用于图像分类、目标检测与跟踪等领域,在行人检测中也取得了一定成果。在一幅视频帧中,为表达出目标形状和表面的一些信息,需要计算边缘的方向密度分布或梯度等特征。其中,梯度角度表明了运动目标的运动方向,梯度幅值表明了邻域像素点灰度值变化。

通过以下差分公式计算图像中每个像素点(x,y)的水平方向梯度Gx(x,y)与垂直方向梯度Gy(x,y):

其中,ν(x,y)为像素点(x,y)的灰度值。梯度幅值和梯度方向分别为:

将光流场中对应像素点的光流强度作为权重加到梯度幅值上,得到加权的HOG 特征如下:

实验中对样本视频帧图像提取加权HOG 特征,首先对图像进行分块处理,分块标准为:每个细胞单元大小为16 ×16 像素,每个区间块大小为2 × 2 个细胞单元;然后在0~180°上划分9 个区间,每个区间包含20°,对于每个细胞单元内的所有像素点,按照由光流强度加权的梯度幅值与梯度方向进行直方图统计,得到一个9 维的特征向量,并将区间块中所有细胞单元的特征串联,得到一个区间块的特征向量,维度为4 × 9=36;最后将所有区间块特征串联起来,得到该视频帧的加权HOG 特征。

1.3 尺度不变特征变换

SIFT 由Lowe 等[14-15]首次提出并加以完善,是一种广泛应用于图像处理领域的局部性质特征描述子,可在尺度空间中提取极值点位置、方向等信息。该描述子不因拍摄角度、尺度缩放等因素而发生变化,还可与其它特征向量联合生成新特征。SIFT 算法主要包括以下几个步骤:

(1)尺度空间极值点检测。首先构建尺度空间L(x,y),由序列帧图像I(x,y)与高斯卷积核进行卷积得到:

其中,G(x,y,σ)是高斯函数且尺度可变,σ是尺度空间因子,σ值越大,包含细节特征越少,反之亦然。

然后,构造高斯差分空间(DOG):

对比相邻两个尺度的图像,初步获取极值点。将每个采样点与相邻的26 个(上下邻近尺度对应的18 个以及同尺度的8 个)像素点作对比,当该采样点数据在这27 个数据中是最大或最小值时,则判断该采样点为当前尺度下的极值点。

(2)极值点精确定位。为减少边缘效应的影响,需要去除不稳定的极值点。对上述步骤得到的极值点采用拟合三维二次函数方法,并通过Hessian 矩阵进一步判断是否为需要的关键点。当极值点满足下列不等式时,表明该点为稳定的边缘响应点,将其保留,否则剔除:

其中,H为像素点(x,y)的Hessian 矩阵,r为H较大特征值与较小特征值的比值。

(3)关键点幅值与方向。利用关键点领域像素的梯度方向分布特性计算该点的梯度幅值与方向,具体公式如下:

实验中对样本图像提取SIFT 特征,根据上述步骤构造高斯尺度空间并检测空间的关键点,获取关键点幅值与方向。将0~360°的方向范围分为8 个柱,每柱45°,利用直方图对关键点领域内像素对应的梯度方向与幅值进行统计,具体步骤为:把坐标系旋转到关键点的主方向,以主方向为中心取8 × 8 的窗口,对窗口进行4 × 4 划分得到4 × 4 个子区域,对每个子区域统计8 个方向上的梯度信息形成一个种子点,对应一个8 维特征向量。一个兴趣点包含4 × 4个种子点,最终得到4 × 4 × 8=128 维向量,即为关键点特征描述。

2 算法步骤

本文算法主要步骤如下:首先读取视频帧,选取含有运动目标的视频帧组成帧序列作为输入,对帧序列依次进行灰度化、归一化等预处理,从而增强图像对比度,降低噪声;然后提取帧序列的稠密光流特征、HOG 特征与SIFT 特征,利用光流强度对HOG 特征进行加权,得到加权HOG 特征,并与SIFT 特征进行串联融合得到融合特征,之后采用PCA+Pearson[16]相关系数法对融合特征进行选择与降维;最后使用SVM 分类器进行分类识别。

3 实验结果与分析

本实验采用MATLAB 进行仿真,SVM 分类器采用RBF核函数。选取KTH 人体行为数据库验证该算法的有效性,该数据库包括6 种人体行为(散步、慢跑、跑步、拳击、鼓掌、挥手),共600 段视频。对数据库中的视频进行划分,筛选出162 个视频,每类动作27 个视频。从每类动作中随机选出60 帧视频图像,其中50 帧作为训练集,剩下的作为测试集[11],把对应的融合特征向量分别输入SVM 多分类器模型进行训练与分类识别,实验结果如图2、图3 所示。其中,图2 是原始方向梯度直方图向量,图3 是由光流强度加权并归一化的方向梯度直方图向量。

由图2、图3 可以看出,梯度幅值经光流强度加权后,运动目标特征保留了图像空间信息,突出了运动部分,并弱化了不相关信息,使得不同动作之间的特征向量区别明显。

Fig.2 Original HOG feature图2 原始HOG 特征

Fig.3 Weighted HOG feature图3 加权HOG 特征

表1 为SVM 识别混淆矩阵,其平均识别率为93.1%。

Table 1 Confusion matrix of SVM recognition表1 SVM 识别混淆矩阵 单位:%

从表1 可以看出,因为拳击动作类与其他动作类之间有明显区别,所以误识率最低,识别率最高,准确率达到96%;识别效果最差的动作类是慢跑,识别准确率为84.1%,这是由于慢跑与跑步、散步在基础动作上基本一致,尤其是腿部动作很相似,导致误识率较高,而且慢跑与拳击在上肢部分的动作也有相似之处,所以识别时会出现一定程度的混淆。

将本文算法与单一特征算法及其他融合特征算法进行比较,结果如表2 所示。

Table 2 Recognition rate of different features on the KTH表2 各特征在KTH 数据集上的识别率

从表2 可以看出,本文算法在KTH 数据集上的识别率达到93.1%,与单一特征算法相比,准确率提高了10%以上;与未经光流强度加权的融合特征算法相比,识别率由91.7%提高到93.1%,增加了1.4%左右。另外在单一特征算法中,加权HOG 的特征识别率为82.1%,与未加权HOG的特征识别率80%相比,准确率提高了2.1%左右,说明光流强度加权HOG 对提高识别率有一定帮助,证明了该算法的有效性。

4 结语

本文从丰富行为特征表达,从而提高行为识别准确率出发,提出使用光流强度加权的HOG 特征并将多特征进行融合,在运动目标静态外观信息基础上添加了动态信息,丰富了运动目标的特征表达。在KTH 数据集上的实验结果表明,与单一特征的传统算法相比,本文算法的识别率显著提升,与未加权的融合特征算法相比也有一定改进,验证了本文算法的有效性。但当运动目标上有遮挡物时,识别效果仍不太理想,提取稠密光流特征也会使运算速度降低。因此,下一步研究方向是通过优化参数,在提高识别准确率的同时,确保算法的高效性。

猜你喜欢

光流识别率像素点
利用掩膜和单应矩阵提高LK光流追踪效果
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于5×5邻域像素点相关性的划痕修复算法
基于物理学的改善粒子图像测速稳健光流方法研究
提升高速公路MTC二次抓拍车牌识别率方案研究
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
高速公路机电日常维护中车牌识别率分析系统的应用
融合光流速度场与背景差分的自适应背景更新方法