基于BP神经网络的体育视频关键姿态检测

2020-01-02韩美林

商洛学院学报 2019年6期

韩美林

（商洛学院电子信息与电气工程学院，陕西商洛 726000）

随着视频技术的不断进步，体育视频数据急剧增加，但无论对观众还是运动员或教练都重点关注视频中的一小部分，所以对于体育视频中关键帧或运动员关键姿态的检测非常重要[1]。目前对于体育运动员在比赛中的表现大多都是通过观看体育视频来实现，这无疑耗时又耗力。而目标检测技术和深度学习技术为解决这一问题提供了新的思路，将其应用到举重运动员关键姿态检测，高效的提取体育视频中举重运动员关键姿态检测，不仅可以带来更好的体育视频观赏效果，还可以更好地辅助运动员的训练[2]。

1 基于视频监控中行为人的目标检测算法

目标检测法中基于像素点背景建模与更新的背景减除法具有计算简单、实时性好的特点被广泛使用，但由于学习时间长、运算速度慢、并且当摄像机抖动时目标检测效果差等缺点[3]，本文对检测算法进行改进。主要针对原算法容易受到复杂背景干扰的问题，如举重视频中可能出现其他工作人员或设备，所以需要利用空间相关性对背景进行初始化和背景更新以提高检测的准确率。整个目标检测可以分为运动前景检测和运动行人检测两部分，算法组成框图如图1 所示。

图1 基于视频监控中行为人目标检测算法

采用基于像素块的最小差分和算法对背景初始化，利用基于像素块的信息熵估算法对背景模型选择性更新，通过最小类间方差法求自适应阈值，并将该阈值应用于背景减除法求出二值图像，即为运动前景的检测结果[4]；然后通过对运动前景图像采用扫描连通域标记算法提取其运动区域游程信息和特征信息进行运动行人检测[5]。

2 人体姿态特征模型建立

在图像的智能监控领域，人体检测只是处理的第一步，第二步是人体目标的特征提取，第三步是人体目标识别与验证。其中人体目标特征提取是最关键的一步，它主要通过边缘检测技术来分离人体目标，进而根据边缘特征来完成目标的特征提取，最终完成人体姿态的识别和分类[6]。

本文通过分析举重运动员申膝、引膝、发力、最高点四种人体姿态特征，提取了8 种特征量，建立了人体姿态特征模型，模型各特征量具体如表1 所示。

表1 人体姿态特征模型

3 基于BP的人体姿态识别

3.1 BP算法的改进

BP 算法虽然预测的通用性较好、精度高，但在应用中仍存在不少缺陷，比如隐含层数和隐含层节点数难以确定，收敛速度太慢等。因此，BP 算法被不断地改进应用。针对体育视频图像中关键姿态研究，本文中神经网络的训练函数采用L-M 学习规则，动量法作为参数[7]。

3.2 BP神经网络分类器

3.2.1 BP 神经网络的训练策略

1）BP 网络结构的确定

多数情况下，在不确定隐层数及节点的情况下，训练从单隐层的BP 网络即可。本文传递函数使用tansig，输出层使用purelin 函数。隐含层节点数数量过多，会导致训练时间过长、收敛速度慢、测试误差增加等问题，而数量过少，训练结果的正确性无法保证[8]。因此本文使用单隐层，逐渐增加节点数，最终达到学习误差小于给定阈值的目的。

2）误差的选取

为了克服传统BP 算法中迭代误差的缺陷本文选取均方误差MSE[9]。

3.2.2 BP 神经网络分类器的训练过程

BP 神经网络分类器的训练流程图如图2 所示[10]。

图2 BP 神经网络分类器的训练流程图

图3 BP 神经网络分类器测试过程

1）确定BP 神经网络的结构以及初始化。本文的姿态识别算法属于分类问题，所以需要一个隐含层，人体姿态数据经过特征提取之后为8维，本文中需要识别的姿态共有4 种，因此BP 神经网络的结构为8-10-4；然后完成对权值的初始化，最后给定学习速率和神经元激励函数。2）隐含层输出计算、输出层输出计算。3）误差计算和权值更新。4）判断训练是否结束：如果将所有输入样本训练，则算法结束；否，返回到步骤2。

3.2.3 BP 神经网络分类器测试过程

BP 神经网络分类器测试流程如图3 所示[11]。

1）输入测试样本：将测试样本库里面的姿态数据输入网络。2）隐含层输出计算、输出层输出计算。3）判断测试是否结束：如果将所有输入测试训练，则测试结束；否则返回到步骤1。4）给出姿态识别整体结果和识别的正确率。

4 实验结果

为了验证算法的鲁棒性采集不同姿态，分别是申膝、引膝、发力、最高点各100 个样本，BP 神经网络模型建立完成后，分别对四种姿态进行识别与分类。仿真结果如图4、图5、图6、图7 所示。

图4 举重运动员申膝姿态检测

图5 举重运动员引膝姿态检测

图6 举重运动员发力姿态检测

图7 举重运动员最高点姿态检测

最后，针对四种人体姿态利用摄像头分别采集200 帧测试图片，用于BP 网络模型的人体姿态识别的统计分析，结果如表2所示。

表2 人体姿态识别结果

从表2 可以看出，申膝、引膝和发力的人体姿态识别率稍低，分别是95%、95.5%、96.5%。主要原因在于识别过程中有外界的干扰，比如镜头内突然有运动员之外的人员出现，或者申膝和引膝是非常相似的连续动作所引起的误判。最高点姿态识别率较高，达98.50%，检测效果相对比较准确。

5 结论

本文面向举重运动视频，完成了基于BP 神经网络的体育视频关键姿态检测，姿态识别部分采用了BP 神经网络，通过深度学习的方法建立能够表达图像信息的特征参数，本文对举重运动中四个关键姿态进行了识别，经仿真表明，人体姿态识别率较高。在今后的学习和工作中，还需要不断优化算法，研究出高效且适应范围更广的人体姿态研究算法。