APP下载

面向体育测试的人体运动姿势实时识别研究

2024-01-02毛小薇文佳洛王张车儿

软件导刊 2023年12期
关键词:关节点关键点骨骼

周 川,秦 蕾,毛小薇,文佳洛,王张车儿,李 聪

(1.国网湖北省电力有限公司中超建设管理公司,湖北 武汉 430015;2.武汉城市学院 信息工程学部,湖北 武汉 430083)

0 引言

随着科技的不断发展,越来越多的任务被机器代替,其中传统的体育测试方式也不例外。目前,传统的体育测试主要依靠人工记录,这导致测试时间较长且需要大量人力资源。因此,迫切需要建立一套智能、高效的体育测试系统,以帮助高校减轻体育教学负担,并减少体育测试开销。

目前,体育测试检测方法可以分为两种。一种是基于外部传感器(如智能穿戴设备)的方法,这种方法的主要原理是将传感器放置在体育测试对应的环境中,采集人体的运动数据,通过对采集到的数据进行机器学习等分析,可以实现对体育测试所需各项指标的检测和评估;另一种是基于计算机视觉的体育测试的人体运动姿态检测,通过对视频或图片进行特征提取[1]、骨骼绑定、目标跟踪、深度学习[2]等以获取人体运动姿势,通过姿势判断是否符合相关体育测试运动,以完成体育测试的成绩记录等。

传感器方法和计算机视觉方法是两种常用的体育测试方法。传感器方法需要外部设备,使用范围较窄,针对不同的体育测试项目需要不同的传感器,而且硬件成本较高。针对计算机视觉方法具有检测精度低和计量准确度不高的问题,本文提出了一种基于OpenPose[3]改进的人体运动空间融合姿态识别分析模型(Posture Recognition of Spatial Fusion,Pos-RSF),并将它与以前的SOTA 方法进行比较。

目前,已有不少相关研究,Fang 等[4]提出Part-Guided Proposal Generator(PGPG)和多领域知识蒸馏以进一步提高精度,解决了在不准确的边界框和冗余检测情况下同时跟踪人体的问题,但对场景适应性不强且需要较高的硬件条件。William 等[5]提出一种新的体重转移方案,能够以灵活的方式加速神经进化,生成的网络可用更少的计算得到更高的分辨率处理图像。但由于深度可分离卷积的内存访问量较高,受到内存带宽和数据IO 的限制,故在GPU 上的运行速度较慢。Wang 等[6]提出从一个高分辨率卷积流开始,逐步逐个添加高低分辨率卷积流,并将多分辨率流并行连接。它保留了高分辨率支路,对小目标比较友好,但网络结构相对复杂,不适用于对计算资源受限的场景。Feng 等[7]提出一种新的分布感知坐标表示关键点(DARK)方法。通过生成精确的热图分布以改进标准坐标编码过程,以进行无偏模型训练,显著提高了最先进的人体姿势估计模型的性能。

综上所述,当前研究多集中于多人姿态识别准确度检测,而针对体育测试中的体育测试识别,准确度不高且实时性有待提升。鉴于此,本文提出在体育测试中的人体运动空间融合姿态识别的分析模型Pos-RSF。根据PAFs 方法,通过编码肢体位置和运动图像检测向量,以解决面向体育测试人体姿势识别时检测准确度不高、实时性较差等问题。实验结果表明,将该模型运用于体育测试的人体姿态检测具有良好表现。

1 人体运动姿势图像采样与姿势特征提取

1.1 人体运动姿势图像采样

对于体育测试中的人体运动姿态识别,本文主要以图像处理与大数据分析相结合的方法为基础,结合人体运动特征和特征数据提取,构建高校体育测试的人体运动姿势图像和数据分析模型,根据相关特征挖掘方法,对体育测试中的人体进行运动姿态数据信息的模糊度聚类分析,并对体育测试中的人体运动姿态数据进行建模,构建Pos-RSF 模型,从而实现对体育测试中的人体运动姿势图像识别。在该过程中,进行体育测试的人体运动姿势图像采集流程如图1所示。

Fig.1 Flow of sports posture image acquisition in sports test图1 体育测试中运动姿势图像采集流程

1.2 人体运动骨骼信息提取算法

对于人体骨骼信息的研究,目前主流的两种思路是自顶向下(Top-Down)和自底向上(Bottom-Up)。自顶向下的人体骨骼信息检测算法一般流程是:先检测出图片中人体的头部,再根据头部位置单独对每一个人体骨骼的关键点进行预测。该方法的计算量会随着人数的增多而上升,但对不同尺寸的人体精度更高,通俗而言,该方法更准确。AlphaPose、RMPE[8]和Mask-RCNN[9]都属于自顶向下检测。自底向上(Bottom-Up)的人体骨骼信息检测算法是先检测到所有关键点,再进行关键点聚类,组合成人体。该方法的计算量不会随着人数的增多而上升,通俗而言,该方法更快(人越多的时候越明显)。常见算法有Deep Cut、Part Segmentation 等。为了能够更好地对体育测试人员的人体运动姿势图像进行实时识别,本文对OpenPose 算法加以改进,提出了更适合体育测试中人体运动姿态识别的Pos-RSF 模型。

OpenPose 的主要网络架构如图2 所示,它主要以卷积神经网络为基础,检测准确度很高,但所需要时间较长,不能满足于体育测试中的人体运动姿态识别。鉴于此,本文在Open Pose 的网络结构上加以改进,提出了Pos-RSF 模型,其主要网络架构如图3所示。

Fig.2 Main architecture of OpenPose network图2 OpenPose网络主要架构

Fig.3 Main architecture of Pos-RSF network图3 Pos-RSF网络主要架构

OpenPose 通过传统卷积神经网络VGG19[10]进行特征提取得到特征图F,但对于VGG19 而言,深度的增加将影响网络收敛速度,反而会影响检测效果。因此,本文Pos-RSF 模型用ResNet18[11]结构代替VGG19 结构,得到特征图F。ResNet18 网络结构如图4 所示,它与VGG19 相比,本身参数量更少,在结构上也不再是简单的卷积核堆叠,而是利用残差结构的理念解决了深层网络中梯度消失和梯度爆炸的退化问题。

Fig.4 ResNet18 network structure图4 ResNet18网络结构

ResNet18网络通过4个残差层从不同尺度对特征进行提取,每个残差层由两个Basicblock 残差块构成,如图5 所示。随着网络深度的增加,使用跳级连接的方式创建了两条捷径,并在卷积核之间添加了ReLU 激活函数以保证网络的非线性。在训练过程中,主路径和卷积路径的特征不断融合。

Fig.5 ResNet18 residual structure图5 ResNet18残差结构

对于OpenPose 原本双分支神经网络的第t阶段的7×7的卷积核,本文Pos-RSF 模型换成了3 个连续的3×3 卷积核。这样的替换可以减少计算量,同时保留了接收域。具体而言,原先的操作数为2 x 7 x 7 -1=97,而替换后的操作数仅为51,速度更快。

如图6 所示,在双分支卷积神经网络中,第一个分支(S1至St部分)用于预测人体关节点位置的置信相关度热力图(Confidence Map)。该热力图可以表示出每个像素点上某个关节点存在的概率,从而帮助定位人体关节点的位置。

Fig.6 Prediction network structure of confidence and affinity of key points图6 关键点置信度与亲和度预测网络结构

而第二个分支(L1至Lt部分)则用于检测人体部分相关度字段在骨骼中的位置走向,并将其表示为像素点。这个分支可以帮助建立起人体骨骼的连接关系,从而获取到更加完整的姿态信息。

设S表示关节点置信相关度热力图,S=(s1,s2,…,sj),它由j个子图组成,其中Sj∈Rw×h,j∈(1,2,…,J),其中j表示图像中人体关节点的个数;设L为人体部分相关度字段,L=(L1,L2,…,LC),Lc∈Rm×xh×2,c∈(1,2,…,C),C是骨骼连接数,L由C个向量图组成,每个向量图都记录了骨骼连接的方向,这些方向都在二维空间中。

由卷积神经网络预测的关节点2D 置信相关度热力图S1如式(1)所示,人体部分相关度字段L1如式(2)所示。

对Stage1 进行前向计算,得到两个预测结果S1和L1。将这两个预测结果与原始特征F进行整合,形成一个新的输入值。这个新的输入值将被用于下一步分析和预测。其公式分别如式(3)、式(4)所示。

卷积神经网络中的两个分支都是迭代级联结构,各阶段都要通过L2 范式进行Loss 计算,再对关键点2D 置信相关度热力图和人体相关度部分字段进行迭代预测,其公式如式(5)和式(6)所示。

其中,是标注的人体部分相关度字段。在该式中,对于每个像素点p,其权重W(p)表示该点是否被标注,如果未被标注,则权重为0。第t个回归输出中第j个部位的置信相关度热力图在点p上的响应结果表示为W(p)。同时,第j个部位的相关度向量场在点p上的向量表示为(p)。最终,整个网络的损失函数由各阶段的损失项组成,其公式如式(7)所示。

Pos-RSF 模型使用关节点2D 置信相关度热力图以检测人体骨骼关节点,这些置信相关度热力图表示每个像素位置上出现特定身体关节的可能性。在单人检测时,置信相关度热力图中会有一个响应值;而在多人检测时,对于每个关节点,会计算其对应p点在置信相关度热力图中的响应值。对应p点的置信相关度热力图,其公式如式(8)所示。

其中,k是图像中序号为k的人,它的身体部分记作j,对于每个人的身体部位,使用置信相关度热力图(p)表示该部位在图像中每个像素位置出现的可能性。同时,使用标定位置xj,k和σ调整置信相关度热力图的峰值范围。最终,所有人的(p)最大值决定了该位置的置信值,其公式如式(9)所示。

式(5)—式(9)计算了p点的置信值。

对关键点进行分析和处理得到热力图标签(见图7),它们反映了关键点的位置信息。接下来,可以通过计算这些关键点之间的关联性,将它们连接起来形成骨骼结构。

Fig.7 Key point thermogram label图7 关键点热力图标签

图8 的研究对象是肢体c,坐标分别用来表示在第k个人肢体上的两个骨骼关节点,p是图像上任意一点。当p在肢体上时,人体相关度字段在p点的向量(p)是单位向量v,表示p点与肢体c的相关度程度。当p不在肢体c上时,Lc,k(p)的值是0,表示p点与肢体c没有相关度关系。在计算第k个人肢体c上的相关度向量场L时,其公式如式(10)和式(11)所示。

Fig.8 Schematic diagram of limb movement图8 肢体运动示意图

其中,xj,k表示肢体方向上的单位向量,该向量表示第j个关键点在第k个人身上的位置。当判断点p是否存在于肢体c上时,需要设定该点的范围。具体而言,可以使用式(12)确定点p在肢体c上的范围。

其中,μ1用来表示肢体宽度,肢体长度则是用lc,k=(xj2,k-xj,k)2加以表示,p点的真实值为所有人在p点的部分相关度力向量场的平均值,其公式如式(13)所示。

其中,非零向量的个数是nc(p),在获得二维坐标中的关键点后,需要对它们之间的关系进行评估。这可以通过计算连接这些关键点的线的权重值加以实现。其公式如式(14)和式(15)所示。

由于视频图像会有多人的情况,就会检测出多个关节j在一个关节点置信相关度热力图的情况,j∈{1,…,J}。设关节集合为中分别是检测出的关节类型是j1和j2的集合,m和n分别是和中的点。j1中的第m个点和j2中的第n个点的连接状态用表示,其公式如式(16)所示。

多维匹配问题是关于关节点之间的最优匹配问题,可以通过匈牙利算法对上式求解,其中Pos-RSF 模型使用上式独立地求解子问题为最优解。其公式如式(17)所示。

最终通过Pos-RSF 模型输出得到的人体骨骼信息通过骨骼坐标点加以表示,其中每个关键点对应于人体的18个部位,如鼻子、脖子、肩膀、手腕等,它们分别对应的映射点如图9所示。

Fig.9 Location map of eighteen key points of human body图9 人体18个关键点位置图

2 仿真实验

2.1 仰卧起坐状态机

仰卧起坐是一项非常重要的运动,可帮助人们强身健体。在这项运动中,测试人员需要平躺在地上,膝盖弯曲成90°,双脚放在地上。同伴可以用双手按住脚踝,但不能使用器械固定脚步,否则会减少腹部肌肉的训练效果。测试人员需要利用腹部肌肉的力量将双手放在脑后,并且双手越贴近后脑勺,动作就越难做。通过腹部肌肉的收缩,测试人员可以将上半身向前抬起,然后回到躺姿,不断重复这个动作。仰卧起坐运动状态机流程如图10所示。

Fig.10 Flow of sit-up motion state machine图10 仰卧起坐运动状态机流程

2.2 仰卧起坐识别原理

该系统的首要难点是特征值的样品采集和提取,它有两个非常重要的组成部分:①骨骼特征序列;②运动特征序列。

人体的骨骼点分布可以用角度加以描述,这些角度表示骨骼点之间的相对位置和关系,其人体的骨骼点分布在二维平面的相对应角度如图11 所示。为了更直观地理解和分析姿势数据,可以将这些数据映射到直角坐标系中,(见图12),以更好地观察和分析骨骼位置。在直角坐标系中,每个骨骼点都可以用一个坐标点表示,连接起来就形成骨骼。

Fig.11 Feature extraction action图11 特征提取动作

Fig.12 Action coordinate map图 12 动作坐标映射图

XOY 平面的法向量如式(22)所示

由此可得旋转角α,如式(23)所示。

在运动姿势识别中,针对每个关键时间点的每个关键姿势特征,会提取与之对应的角度所组成的骨骼特征序列,这是通过上面描述的骨骼角度方法计算得到。为了更准确和全面地识别运动姿势,分别对运动特征和骨骼特征进行同步分类提取,以提高其准确性和完整性。这意味着针对运动特征和骨骼特征,将会分别进行分类和提取,以提高识别准确性和完整性。

2.3 运动特征提取

仰卧起坐人体运动关键姿势转化如图13所示。

Fig.13 Motion posture transformation图13 运动姿势转化

不同姿势转换是仰卧起坐运动识别的关键,其中仰卧状态和起坐状态所占比例为c1:c2。假设一个仰卧起坐的周期满分为m,那么在实际情况下m为100 分。仰卧起坐状态的相似度为k,根据公式得到最终成绩如式(24)所示。

2.4 功能展示

在进行仰卧起坐运动时,正确的动作要求非常严格。根据《国家学生体质健康标准》可知,测试人员必须先平躺在垫子上,双腿稍微分开,膝盖弯曲呈90°夹角,双手紧贴在脑袋后面。在仰卧起坐测试中,每次超过膝盖算作一次完成。运动过程实测情况如图14所示。

Fig.14 Actual measurement of movement process图14 运动过程实测

3 实验结果与分析

3.1 实验数据集

本文将提出的Pos-RSF 模型在两个人体姿态估计数据集(MS COCO[12]数据集和MPII 数据集)上进行了实验。MS COCO 的全称是Microsoft Common Objects in Context,它是一个数据集,其大部分数据来自于各种复杂的生活场景,并包含了91 类不同的目标物。在将MS COCO 用作数据集进行预处理操作时,可以提高实验数据的可靠性,从而获得更好的目标识别效果。数据预处理部分主要对数据进行归一化处理和数据增强处理。通过这些预处理操作,可以使得网络训练过程更加稳定和有效。MPII[13]数据集包含了410 种不同的人类活动,并且每个图像都附带有对应的活动标签。这些图像是从YouTube 视频中提取,并且还提供了每个图像之前和之后的未注释帧。对于测试集,MPII 数据集提供了更丰富的注释,包括身体部位的遮挡情况以及3D 躯干和头部的方向信息。这些注释对于进行人体姿态估计和行为识别等任务非常有帮助,并且能够提供更准确的结果。

3.2 评估指标

本文模型框架在高分辨率网络的基础上进行构建。模型训练数据集为2020MS COCO 数据集,评估指标为目标关节点相似性(Object Keypoint Similarity,OKS),其公式如式(25)所示。

其中:dpj表示任意一个人的实际关节点和预测点之间的欧式距离;表示目标尺度因子,用于校正不同人体目标之间的尺度差异表示对所在目标的第i个关节点的归一化因子,用于归一化关节点的坐标;δ是一个函数,用于计算和筛选可见的点;vpi即第k个人的第p个关节点是否可见的结果;i为关节点的id;p为人体目标实例的id。

3.3 模型比较

3.3.1 基线模型

(1)AlphaPose。自上而下的算法,也即先检测到人体,再得到关键点和骨架,因而其准确率、Ap 值比OpenPose高。但缺点是随着图片上人数的增加,计算量增大,速度也相应变慢。

(2)DarkPose。通过生成精确的热图分布改进标准坐标编码过程(将地真坐标转换为热图),以进行无偏模型训练。将此与分布感知解码方法结合起来,提出一种新的分布感知坐标表示关键点(DARK)方法。

(3)EvoPose2D。提出一种新的权重转移机制,该方案可以放松保留函数的突变,从而能够灵活地加速神经进化。该方法产生的2D 人体姿态网络设计比最新的手工设计网络更有效、更准确。实际上,产生的网络可以使用较少的计算以处理高分辨率的图像,这使得2D 人体姿态估计界限得以突破。

(4)HRNet。采用一个多阶段的网络结构,其中从一个高分辨率子网开始,逐步增加由高到低分辨率的子网,并将它们并行连接在一起。在多尺度融合过程中,重复地让每个高分辨率表示从其他并行表示中接收信息,以产生丰富的高分辨率表示。这种设计可以使得预测的关键点热图[14]更准确,并在空间上更精确。通过这种方式,HRNet 能够有效地处理不同尺度的特征信息,提供更优秀的关键点预测性能。

3.3.2 与基线模型比较

本文将Pos-RSF 与其他方法进行了比较,如表1 所示。Pos-RSF 的总体得分PCKh@0.2 为91.2%,与最先进的技术相比有显著提高。值得注意的是,Pos-RSF 在所有个体关节组的姿势估计中都比以前的SOTA 方法有所改进,证明了框架的鲁棒性和准确性,特别是在更难检测的关节,比如脚踝和手腕都有明显提升。

Table 1 Comparison of Pos-RSF and other SOAT methods on MPII data sets表1 Pos-RSF与其他SOAT方法在MPII数据集上的比较(%)

进一步评估不同对象、不同大小的精度如表2 所示。结果显示,Pos-RSF 在AP50、AP75 不同阈值精确度上相较于AlphaPose 分别提高7.18%和47.63%;Pos-RSF 在APM、APL 的指标下对AlphaPose 分别提高10.37%和22.72%;Pos-RSF 在AP50、AP75 不同阈值精确度上相较于Dark-Pose 分别提高1.10%和13.22%;Pos-RSF 在APM 的指标下对DarkPose 分别提高2.33%;Pos-RSF 在AP50、AP75 不同阈值精确度上相较于HRNet 分别提高0.88%和1.68%;Pos-RSF 在APM、APL 的指标下对HRNet 分别提高3.04%和0.36%;Pos-RSF 在AP50、AP75 不同阈值精确度上相较于EvoPose2D 分别提高2.69%和6.57%;Pos-RSF 在APM、APL 的指标下对HRNet分别提高9.55%和6.49%。

Table 2 Comparison and validation of Pos-RSF and SOTA methods on COCO dataset表2 Pos-RSF与SOTA方法对COCO数据集的比较验证(%)

结果表明,面向体育测试的人体运动空间融合姿态识别分析模型(Pos-RSF)在测试数据集上优于其他传统或基于CNN 的预测模型。改进主要体现在以下方面:①Pos-RSF 提出了使用部分相关度字段表示关节点间关联度,提高了聚类准确性和效率;②采用了融合边缘轮廓特征分解的方法处理体育测试人体运动姿态特征表达,并且在其基础之上建立了人体运动空间融合的姿态识别分析模型,利用梯度下降方法实现体育测试中人体运动姿态图像的区域分块分割,使得体育测试中人体运动姿态图像满足稀疏特征值要求。

3.4 模型应用测试结果

系统测试过程中,对不同的人进行了多次测试。对测试样本进行结果分析,得出运动次数和运动识别率如表3所示。

Table 3 Statistics of test results表3 测试结果统计

结果表明,仰卧起坐的运动辨识度非常好,运动姿势识别功能很强。由此可以看出,这种技术方法有着相当高的辨识能力,同时能够对活动过程作出较为准确的认识判断。这样的技术曾试用在部分学校活动中,而且受到了校方和教师的充分肯定。

4 结语

为了将姿势识别更好地应用于体育测试,本文提出了Pos-RSF 模型,通过估计的姿势判断相关体育测试项目,并获取相关项目的体育测试成绩。同时,可根据测试者的运动姿态,判断其运动姿势是否标准等。实验结果显示,采用本文模型进行人体运动姿势图像识别准确性和实时性较好,满足体育测试基本要求。同时,该方法在体育活动中的人体运动姿势纠正方面具有一定实际应用意义。

猜你喜欢

关节点关键点骨骼
做家务的女性骨骼更强壮
肉兔育肥抓好七个关键点
三减三健全民行动——健康骨骼
基于深度学习和视觉检测的地铁违规行为预警系统研究与应用
关节点连接历史图与卷积神经网络结合的双人交互动作识别
骨骼和肌肉
搞好新形势下军营美术活动需把握的关节点
RGBD人体行为识别中的自适应特征选择方法
医联体要把握三个关键点
锁定两个关键点——我这样教《送考》