APP下载

基于深度学习的人体行为识别技术研究

2019-12-10李红臧晶

科技资讯 2019年29期
关键词:步长卷积矩阵

李红 臧晶

摘  要:人体行为识别是计算机视觉领域研究的一个热点,为了提高视频中的人体行为识别的准确率,提出了一种基于3D卷积神经网络的行为识别方法,首先构建3D CNN模型,通过三维卷积核,来提取视频中人体行为的时-空域信息,最终并在UCF-101数据集上进行训练与测试,证明了该方法具有较好的识别效果。

关键词:人体行为识别  3D卷积神经网络  UCF-101数据集

中图分类号:TP391.41   文献标识码:A 文章编号:1672-3791(2019)10(b)-0023-02

作为智能视频分析领域中必不可少的一部分,人体行为识别技术成为计算机视觉领域中研究的热点,在人体交互、安全监控、安全防护和公共场所等多个领域具有广泛的应用前景。

1  卷积神经网络

卷积神经网络由低隐藏层和高层两部分构成,低隐藏层即特征提取层,是由若各个卷积层和下采样层交替构成,用来提取局部特征。CNN的高层是由全连接层、输出层以及逻辑回归分类器构成。

1.1 卷积层

卷积层每个输出矩阵的大小是(N-m+1),详细运算过程如式(1)所示。

其中,Xil,j中的l表示第l个卷积层,i表示第i个卷积输出矩阵的某个值,j表示对应的输出矩阵的编号,f表示非线性函数。

1.2 池化层

池化层采用局部求均值的方式进行降维[1]。详细运算过程如式(2)所示。

其中,Xil,j为进行池化过程后局部的一个输出项,它是由上一层大小为n×n的局部小矩阵进行均值运算得到的。

2  基于3D卷積神经网络的行为识别模型

3D卷积神经网络的是由8个卷积层、5个池化层、两个全连接层和一个softmax分类层组成的,该文采用大小为 3×3×3的卷积核,步长均为1×1×1。所有池化层都采用最大池化,除第一个池化层外,所有池化层的池化核大小均设为2×2×2,步长也为2×2×2。第一个池化层的池化核大小和步长均设为2×2×1。这是为了避免时间维度上过早地缩短为1。经过两个全连接层之后,每个连接层的输出节点为4096个,再经过了softmax分类器后得到最终的分类结果(见图1)。

3  实验结果与分析

3.1 数据集

该文在UCF-101人体行为数据集上进行实验,UCF-101包含身体动作、人与人之间的交互动作、体育运动等101个动作类别,总共计13320个视频片段,该文选取了数据集中的27类动作类别进行实验。

3.2 实验过程

3D卷积神经网络接收的输入为视频,输出为视频的类别,每帧视频尺寸需要重新调整为128×171,对于UCF101数据集来说,这个分辨率大约是原始视频帧的0.5倍,在训练期间进一步调整为112×112,每个视频随机抽取一个连续的16帧堆叠的片段来作为输入。3D卷积神经网络使用一个形状为16×112×112×3的四维张量来表示一个视频剪辑,意思就是说每个输入的视频剪辑是16个大小为 112×112且有3个RGB通道的图像帧序列。

3.3 实验结果

通过图2、图3、表1的实验结果可以看出,3D CNN的总体平均识别率达到了54.8%。识别准确率比2D CNN总体高了8.6%。由于快走和慢跑的相似度比较高,所以识别率还有待提高。

4  结语

该文构建了3D卷积神经网络模型,使用3D卷积神经网络来对原始视频数据进行预处理并作为网络的输入。并在UCF-101数据集上进行训练与测试,最终完成视频中的人体行为的识别。与二维卷积神经网络相比,3D CNN可以提取时间和空间特征,使得视频中的人体行为识别更加准确。

参考文献

[1] 郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图像图形学报,2014,19(2):175-184.

[2] 张颖,袁和金.基于3D卷积神经网络的人体行为识别方法[J].软件导刊,2017,167(1):9-11.

[3] Du T,Bourdev L,Fergus R,et al.Learning Spatiotemporal Features with 3D Convolutional Networks[A].2015 IEEE International Conference on Computer Vision(ICCV)[C].2015.

猜你喜欢

步长卷积矩阵
基于图像处理与卷积神经网络的零件识别
基于全卷积神经网络的变压器故障诊断
基于深度卷积网络与空洞卷积融合的人群计数
董事长发开脱声明,无助消除步长困境
步长制药50亿元商誉肥了谁?
步长制药50亿元商誉肥了谁?
起底步长制药
多项式理论在矩阵求逆中的应用
卷积神经网络概述
矩阵