基于3D 卷积神经网络的视频人体行为识别∗

2023-10-20林庆陈敏

计算机与数字工程 2023年7期

关键词：残差梯度卷积

林庆陈敏

（江苏大学计算机科学与通信工程学院镇江 212013）

1 引言

随着人体行为识别在公共视频监控等的发展，人们对行为识别研究越来越深入［20］。

深度学习算法比传统算法不仅自动提取特征，而且从输入到输出实现了端到端的飞跃。但是也有其不足，比如抓取时空信息时会受到环境的影响。

2015 年Du Tran 等提出了C3D［1］模型，利用三维卷积在行为分类中得到了很好的性能。本文在其基础上优化改进，提出了一种新的基于3D 卷积神经网络的网络模型。

2 相关工作

受到科技的制约，刚开始对视频特征的提取描述还是基于传统的手工提取。Lindeberg［16］通过将图像处理中的Harris 角点检测算法扩展到3D 形式，提出了时空兴趣点STIPs。SIFT 和HOG 还扩展到SIFT-3D［17］和HOG3D［18］进行视频行为识别。Wang 等提出的IDT［19］方法是效果比较突出的方法了，其IDT 描述符表明时间信号可以不同于空间信号处理，从视频帧中密集采样的特征点开始，使用光学流来进行跟踪，在每个跟踪器角，沿着轨迹来提取其特征。

2014 年在NIPS 中提出的双流方法，则先对视频序列中每两帧计算密集光流，然后对视频图像和密集光流分别训练卷积模型，最后进行融合。随之出现了各种深度学习方法，如时域分段网络TSN、LSTM网络融合双流、C3D网络、基于ResNet的双流融合等。

3 基于3D卷积和ResNet学习

3.1 3D卷积和池化

采用2D 卷积对视频的操作，没有考虑到时间维度的帧间运动信息。但是3D卷积能很好地捕获视频中的时空特征信息。

在卷积神经网络中，我们还会用到池化操作来降低卷积层输出的特征向量，同时改善结果。本文中主要采用的是最大池化操作。

3D 卷积神经网络通过3D 卷积和池化建模时间信息，卷积和池化操作都在时空上执行，且在每次卷积运算之后，能够保留输入信号的时间信息，从而产生输出。

3.2 ResNet残差连接

网络的深度对于学习表达能力更强的特征是重要的。但随着网络深度的增加，基于随机梯度下降的网络训练过程中容易引发梯度消散/梯度爆炸。为了解决这个问题，可以使用BatchNorm、将激活函数换为ReLU等。但是随之而来又出现了模型退化的问题。

针对模型退化，何凯明提出了ResNet 残差网络，其性能比传统网络模型更好。本文结合使用了一个简单的残差连接以及一种变形形式的残差连接。

简单的残差连接结构如图1所示。

图1 一个简单的残差连接

图1 公式化在式（1）、（2）中，xl、xl+1表示第l层输入、输出，F表示残差结构学习，f代表激活函数ReLU。式（3）、（4）是从l到L的前向、反向传播过程，对于任何一层x的梯度，有两部分组成，第一部分是直接由L层直导l层，证明了其有效性；第二部分是由链式的累加组成的，缓解了梯度消散的问题。

另一种在本文中使用的残差连接是一个变形形式，具体如图2所示。

图2 加入BN的变形残差连接形式

BN 层是给数据一个固定的分布，经过别的操作会改变数据的分布，削减BN 层的作用。因此在临近输入设置BN层会提升效果，BN层在卷积层之前会提升网络的泛化能力。

3.3 LSTM的分类识别应用

LSTM［2］结构如图3 所示。记忆细胞和三个门的激活情况如式（5）所示，xt、ℎt代表在t时间段的输入、隐藏状态，it、ft、ct、ot代表输入门、遗忘门、记忆单元、输出门，Wij表示门i和j之间的权重矩阵，bi是门i的偏置项，σ是Sigmoid 函数，tanh 是双曲正切函数。

图3 LSTM结构

在本文中，我们将提取到的特征量输入到LSTM 层中去，再将LSTM 层的隐藏状态作为下一层的输入。文献［2］中发现两个堆叠的LSTM 层的效果较好，我们也选择了两层LSTM。

3.4 时空特征学习

本文的网络架构设置如图4所示，使用Adam［5］优化算法训练，其随机梯度下降保持着一个单一的学习率，用于权重的更新，在训练中的学习率不会改变。实验结果表明Adam 优于其它随机优化方法。

图4 网络架构图

4 视频行为识别实验

4.1 数据集

UCF101 数据集有101 类别。对于数据集，将视频保持结构不变截取视频帧，再进行分割处理，随机生成3∶1的训练集与测试集。

4.2 数据处理

图像分类［3］中，在深度学习的训练时将图片的随机裁剪是普遍的数据扩充方法。这个裁剪并不仅仅是增强数据［4］，也是一个弱化数据噪声与增加模型稳定性的方法。

在本文中，我们使用了这种数据扩充方法。实验表明，数据增强可以有效地提高视频中行为识别的结果，减少过拟合的影响。

4.3 结果对比

本文的输入类型是连续的RGB［14］，我们在表1中列出了基于输入类型不同的卷积神经网络用于行为识别分类的准确率的对比。由于设计和训练的制度差异较大，很难直接进行比较。

表1 根据不同的网络输入类型对比

表1 表明基于3D 卷积的残差连接+LSTM 网络在目标数据集上表现出了优越的性能，但是，在准确度与现如今的最佳方法仍然是有一定的差距，具体见表2。

表2 与传统的、深度学习的方法准确度对比

综上所述，我们的方法使用了连续RGB 输入类型，在传统经典的方法中做了有效的融合，测试中得到了不错的识别准确率。

5 结语

本文先对3D 卷积、残差连接、LSTM 详细描述以及如何将其融合运用，提出了一种新的基于3D卷积的残差LSTM 网络模型。我们选择连续的RGB输入，输入数据通过随机裁剪达到数据增强效果，提取特征后通过LSTM 识别分类，Adam 算法不断优化训练得到增强的识别效果。对于输入数据处理以及网络模型还有改善的空间。我们将关注3D 卷积网络的结构，对视频行为方面的各种流行的方法融合应用到我们的框架中。