一种基于改进的卷积神经网络人体跌倒检测算法

2024-06-03柯泓明王梦鸽昝超彭冰

数字通信世界 2024年4期

柯泓明王梦鸽昝超彭冰

摘要：文章针对高质量公开跌倒数据集较少，导致模型泛化能力较弱、检测准确率低、现有网络全连接层参数量过大收敛速度慢的问题，设计了适用于跌倒检测的迁移学习方法，使用GAP（Global Average-Pooling，GAP）层替换全连接层方法，并在隐藏层加入BN（Batch Normalization，BN）操作，优化网络参数，设置了多组对比实验发现改进的网络模型在不同的数据集上训练时间相比于之前有所提升，均取得了不错的效果，使得神经网络既能够在大规模图像数据集上学习通用的特征又能够在公开跌倒数据集上学习跌倒特征，增强了网络的泛化能力。

关键词：图像处理；计算机视觉；跌倒检测算法；神经网络

doi：10.3969/J.ISSN.1672-7274.2024.04.027

中图分类号：TP 394.1 文献标志码：A 文章编码：1672-7274（2024）04-00-03

A Fall Detection Algorithm Based on Improved Convolutional Neural Network

KE Hongming， WANG Mengge， ZAN Chao， PENG Bing

（Hanjiang Normal University， Shiyan 442000， China）

Abstract： This article addresses the problems of weak model generalization ability， low detection accuracy， and slow convergence speed due to the limited number of high-quality public fall datasets. A transfer learning method suitable for fall detection is designed， which replaces the fully connected layer method with a Global Average Pooling （GAP） layer and adds a Batch Normalization （BN） operation in the hidden layer to optimize network parameters， Multiple comparative experiments were conducted， and it was found that the improved network model had improved training time on different datasets compared to before， achieving good results. This enabled the neural network to learn both universal features on large-scale image datasets and fall features on publicly available drop datasets， enhancing the network's generalization ability.

Keywords： image processing; computer vision; fall detection algorithm; neural network

當今世界，人口老龄化愈演愈烈，独居老人易跌倒造成极高的致残率和死亡率。因此，对跌倒检测的研究受到全世界范围内的重视，相关学者先后研发并提出一些性价比高的算法和可行的解决方案，主要分为基于传感器和基于视觉影响的方法，但设备易受光线、复杂场景干扰等问题导致检测误报率高、准确性不足、体验性缺乏人性化。

为提高跌倒检测能力并解决上述问题，本文提出了基于改进的卷积神经网络跌倒检测算法。针对公共跌倒数据集较少，导致模型泛化能力较弱、准确率低问题，使用基于模型的迁移学习方法，先在大规模数据集上学习通用的特征，然后在公开的跌倒数据集上学习跌倒特征，从而增强网络的泛化能力，提高准确率，针对网络全连接层参数量过大，收敛速度慢的问题，设计了使用GAP层替换全连接层方法，并在隐藏层加入BN操作，优化网络参数，从而提高识别效果。

1 基于迁移学习改进的VGG-16跌倒识别

本文主要针对VGG-16网络中存在的问题进行改进实验，在改进的CNN上进行迁移学习的实验，本文将VGG-16网络模型在ImageNet等大规模数据集上进行预训练，将训练好后的参数加载到网络中使其具有一定基础识别能力，再次在UCF101数据集上进行预训练并进行微调网络。使得网络具有能够识别表征人体运动的特征。

1.1 VGG-16网络结构

Simonyan和Zisserman[1]两人在2014年第一次创造性提出VGG模型，它是当前使用最广、应用最多、最成熟的网络模型之一。图1是VGG-16的网络结构图，它由13个卷积层、3个全连接层以及5个池化层相互堆叠而成，卷积层采用的是3×3大小的卷积核提取特征，最后面接入全连接层作为分类，relu函数作为卷积层的激活函数，在全连接层后加入drupout可以防止过拟合。选择很多个比较小的卷积核可以使得网络结构中的参数变得更少，进而提升网络的性能，强化提取复杂图像特征的功能。

1.2 改进的VGG-16网络

1.2.1 全局池化層替换全连接层

原始的VGG-16网络的全连接层参数量过大，占到整个网络的80%以上，导致训练时间长，网络收敛慢，需要算力强的硬件环境，部署到移动视频设备存在一定限制。本文使用GAP[2]替换VGG-16网络中的全连接层，得到特征图的平均值，在经过全连接层后，将结果输送到softmax分类器中进行分类。图2表示了GAP代替全连接层对特征图进行降维的过程，原始图经过CNN卷积层后，其特征图矩阵向下采样到全局平均池化层中，GAP对特征矩阵求平均值，从而实现对特征图进行降维。

1.3 VGG-16模型迁移框架设计

1.3.1 迁移模型

该网络模型迁移框架设计图如图3所示，具体步骤是：在ImageNet数据集上预训练模型，使得模型具有可以区分角落、纹理、基本几何元素等特征，该数据集拥有1 400多万个图像和1 000个类。然后基于在ImageNet上训练的CNN，我们修改输入层使其可以接收光流图像，即224×224×20，在UCF101数据集上继续训练网络，使得网络可以识别人体动作的特征，UCF101数据集是一个人体动作视频库，包含各种人体动作，这些特征可以用于后面识别跌倒。然后固定前面隐藏层的参数和权重，将预训练好的模型和权重参数迁移到跌倒的公开数据集中，在网络结构中加入BN操作并且使用GAP代替全连接层，在优化后的VGG-16网络在新的数据集上微调训练模型，最后选择softmax逻辑回归函数作为输出层。

1.3.2 实验参数设置

本文讨论的是二分类问题，因此可使用二元交叉熵函数作为模型的损失函数，公式如下：

因为要表达某个类的重要性，所以在其中添加类的权重。式中，表示没有跌倒的权重；表示跌倒的权重。

为了更好地评估模型对于跌倒的识别性能，我们采用五折交叉验证的方法，从数据集中随机选择4份作为训练集，1份作为测试集，取测试173.30116结果的平均值，从而避免训练过程中偶然性因素对评价指标的影响，得到更加客观的结果。图4图5分别表示网络在两个跌倒公开数据集上训练的准确率和损失函数曲线。我们根据不同的训练样本数量发现一些超参数的设置在不同数据集中有很好的表现，分别设置三个数据集的学习率为0.001、0.001、0.01和batch size为64、1 024、1 024以及跌倒权重为1、1、2。在分别经过3 000、3 000、6 000次迭代后网络在训练集上准确率和模型的损失函数均逐渐得到很好的收敛。

2 数据和实验结果分析

2.1 实验测试环境与数据集

实验所使用的硬件平台：CPU为Intel（R） Xeon（R） CPU E5-2678 v3 @ 2.50GHz、GPU为NVIDIA GeForce RTX 2080 Ti、内存为16 GB、操作系统使用Linux。本文使用URFD、UCF101两个公开数据集以及一个测试数据集，分别包含72个短视频、8个不同的IP相机、24个场景，由视频和图片数据组成，涵盖大部分场景。

2.2 评价指标

跌倒检测作为一个二分类问题，在该问题上模型具有识别特定序列的视频帧是否表示跌倒的功能，而评估此类模型的性能最常见的指标就是灵敏度（sensitivity），或者称为召回率（recall），又或者称为真阳性率；另外一个评价指标是特异性（specificity）或者称为真阴性率。以上指标不会受到不平衡类别分布的影响，所以它们很适合评价跌倒检测数据集。

2.3 实验结果与分析

为了证明修改后的网络相较于之前网络在训练时间上有所提升，我们分别在每个数据集上进行5次训练，最后取它们的均值，根据图6可以发现修改后的模型相较于修改前模型在训练时间上有明显提升。

在两个公开数据集上分别就召回率、特异性以及精准度完成了对比实验，结果显示在表1和表2中。实验结果显示在两个数据集上召回率和特异性均有较好的表现，这表明该模型具有很好泛化能力，即模型对于老人跌倒与否具有很好的判断性能。

3 结束语

本文主要介绍了VGG-16网络结构，并结合迁移学习对VGG-16网络结构进行改进，在实验中进行了参数的设置，并对实验硬件设备环境、数据集、评判指标分别进行了介绍，比较了改进前后的网络在数据集上训练时间的减少程度、三个数据集上的召回率、特异性以及准确率，最后跟其他文献中的方法在相同数据集上进行了对照实验。实验结果表明，改进后的网络在训练的时间上有了显著提升，而且在不同数据集上的表现证明此模型的泛化能力较好。■

参考文献

[1] Kattenborn T， Leitloff J， Schiefer F， et al. Review on Convolutional Neural Networks （CNN） in vegetation remote sensing[J]. ISPRS journal of photogrammetry and remote sensing， 2021，（173）： 24-49.

[2] Kusuma G P， Jonathan J， Lim A P. Emotion recognition on fer-2013 face images using fine-tuned vgg-16[J]. Advances in Science， Technology and Engineering Systems Journal， 2020， 5（6）： 315-322.