基于深度学习的人体行为识别技术研究
2019-12-10李红臧晶
李红 臧晶
摘 要:人体行为识别是计算机视觉领域研究的一个热点,为了提高视频中的人体行为识别的准确率,提出了一种基于3D卷积神经网络的行为识别方法,首先构建3D CNN模型,通过三维卷积核,来提取视频中人体行为的时-空域信息,最终并在UCF-101数据集上进行训练与测试,证明了该方法具有较好的识别效果。
关键词:人体行为识别 3D卷积神经网络 UCF-101数据集
中图分类号:TP391.41 文献标识码:A 文章编号:1672-3791(2019)10(b)-0023-02
作为智能视频分析领域中必不可少的一部分,人体行为识别技术成为计算机视觉领域中研究的热点,在人体交互、安全监控、安全防护和公共场所等多个领域具有广泛的应用前景。
1 卷积神经网络
卷积神经网络由低隐藏层和高层两部分构成,低隐藏层即特征提取层,是由若各个卷积层和下采样层交替构成,用来提取局部特征。CNN的高层是由全连接层、输出层以及逻辑回归分类器构成。
1.1 卷积层
卷积层每个输出矩阵的大小是(N-m+1),详细运算过程如式(1)所示。
其中,Xil,j中的l表示第l个卷积层,i表示第i个卷积输出矩阵的某个值,j表示对应的输出矩阵的编号,f表示非线性函数。
1.2 池化层
池化层采用局部求均值的方式进行降维[1]。详细运算过程如式(2)所示。
其中,Xil,j为进行池化过程后局部的一个输出项,它是由上一层大小为n×n的局部小矩阵进行均值运算得到的。
2 基于3D卷積神经网络的行为识别模型
3D卷积神经网络的是由8个卷积层、5个池化层、两个全连接层和一个softmax分类层组成的,该文采用大小为 3×3×3的卷积核,步长均为1×1×1。所有池化层都采用最大池化,除第一个池化层外,所有池化层的池化核大小均设为2×2×2,步长也为2×2×2。第一个池化层的池化核大小和步长均设为2×2×1。这是为了避免时间维度上过早地缩短为1。经过两个全连接层之后,每个连接层的输出节点为4096个,再经过了softmax分类器后得到最终的分类结果(见图1)。
3 实验结果与分析
3.1 数据集
该文在UCF-101人体行为数据集上进行实验,UCF-101包含身体动作、人与人之间的交互动作、体育运动等101个动作类别,总共计13320个视频片段,该文选取了数据集中的27类动作类别进行实验。
3.2 实验过程
3D卷积神经网络接收的输入为视频,输出为视频的类别,每帧视频尺寸需要重新调整为128×171,对于UCF101数据集来说,这个分辨率大约是原始视频帧的0.5倍,在训练期间进一步调整为112×112,每个视频随机抽取一个连续的16帧堆叠的片段来作为输入。3D卷积神经网络使用一个形状为16×112×112×3的四维张量来表示一个视频剪辑,意思就是说每个输入的视频剪辑是16个大小为 112×112且有3个RGB通道的图像帧序列。
3.3 实验结果
通过图2、图3、表1的实验结果可以看出,3D CNN的总体平均识别率达到了54.8%。识别准确率比2D CNN总体高了8.6%。由于快走和慢跑的相似度比较高,所以识别率还有待提高。
4 结语
该文构建了3D卷积神经网络模型,使用3D卷积神经网络来对原始视频数据进行预处理并作为网络的输入。并在UCF-101数据集上进行训练与测试,最终完成视频中的人体行为的识别。与二维卷积神经网络相比,3D CNN可以提取时间和空间特征,使得视频中的人体行为识别更加准确。
参考文献
[1] 郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图像图形学报,2014,19(2):175-184.
[2] 张颖,袁和金.基于3D卷积神经网络的人体行为识别方法[J].软件导刊,2017,167(1):9-11.
[3] Du T,Bourdev L,Fergus R,et al.Learning Spatiotemporal Features with 3D Convolutional Networks[A].2015 IEEE International Conference on Computer Vision(ICCV)[C].2015.