基于图卷积神经网络的健美操难度动作识别方法

2022-05-18李慧萌孙建刚黄云逸

皖西学院学报 2022年2期

贺莉，李慧萌，孙建刚，黄云逸

(皖西学院体育学院，安徽六安 237012)

运动动作识别是计算机视觉领域的一个研究热点，在视觉监控、内容分析、辅助医疗、智能人机交互等领域被广泛地应用。其中，健美操领域也应用人体动作的识别方法以提升健美操动作的标准程度，但识别中容易受到场景的变化、光照的变化、视角的不同等因素的影响，导致健美操困难的动作识别效果不佳。针对此问题，相关研究者进行了很多研究。

陆付祥等人研究了基于特征提取的健美操分解动作图像自适应识别方法[1]。该方法采用背景小剪法对人体目标提取，构建人体轮廓的二值图像序列，并采用相似性检测方法对健美操图像进行分解与匹配，实现对健美操动作的识别。但该方法在健美操难度动作的细节识别上考虑较少，存在一定的局限。罗会兰等人研究了基于深度学习的视频中人体动作识别方法[2]。该方法将图像和光流场作为空域和时域的输入，采用决策融合策略进行动作识别。将此方法应用到健美操难度动作识别中，可提升动作识别的精度，但识别的时间开销较大，仍然需要进一步的改进。

针对上述方法，本文提出一种基于图卷积神经网络的健美操难度动作识别方法。图卷积神经网络是一种前馈神经网络，人工神经元在其覆盖区域内的部分周围单元会产生响应，将纹理、颜色等特征输入到随机森林等分类器中，再利用神经网络进行分类，完成目标特征提取，基于该网络的这个优点，将其应用到健美操难度动作识别中，提升了健美操难度动作的识别效果。

1 健美操动作视频图像的采集及预处理

健美操动作视频图像识别之前，首先需要采集健美操动作视频图像。采用专业防抖动相机拍摄健美操动作，然后将得到的健美操动作图像通过图像传感器采集健美操动作图像的信息。通过BF609的EPPI1口传感器对视频图像进行处理。将部分健美操运动图像传至图像获取系统的缓冲区，另一部分传至预处理模块中，将视频图像进行流水线的处理。通过BF609的EPPI1口完成健美操视频图像的采集传输，如图1所示。

图1 健美操视频图像采集框图

在本次健美操图像采集中OV9650芯片作为采集系统的关键，该芯片像素较高，获取的图像像素较高。SIO-B和SIO-C共同构成时钟传输信号，传输时与TWIO接口相连，通过TWIO的控制健美操视频图像的输出格式，为后续的健美操动作识别奠定基础。

在上述采集的健美操视频图像基础上，为实现健美操难度动作的识别，首先需要对健美操动作视频图像进行分析。该视频中包含了许多健美操动作，且动作长短不一，相同的动作也会存在差异。因此，需要将健美操视频划分成几幅图像。采用能量金字塔法对划分后的动作图像进行预处理。在此过程中，构造动作图像的多层金字塔结构[3]，求得时间金字塔能量直方图，然后求解每层的金字塔，计算公式表示为：

(1)

通过上述处理方法能够将健美操图像序列存储到金字塔各个层次中，在此基础上，采用帧间差分法，消除图像的背景。帧间差分法的具体算法是将两帧图像[4]进行灰度变换后相减，以得到每个像素点之间的差值，计算公式如下：

(2)

公式(2)中，1对应计算过程中所有变化的像素点，0代表检测过程中没有出现变化的像素点，fk-1(x,y)、fk(x,y)均代表检测图像，T代表阈值。

通过上述过程将健美操视频划分，将其划分为图像，并对图像做了背景消除处理，为健美操难度动作识别提供了基础。

2 健美操动作图像视觉误差校正

在对上述健美操动作视频图像预处理的基础上，对健美操难度动作图像视觉误差校正，具体过程如下：

Step 1：设定灰度共生矩阵分析健美操动作图像纹理[5]，对图像像素空间分布状态进行描述，得到：

f(x,y)=fij(x+a,y+b)

(3)

公式(3)中，fij分别为i,j像素临接状态，a代表x方向的长度，b代表y方向的长度。

Step 2：估计健美操图像局部区域模糊核，在上述处理后，将动作图像像素强度与梯度作为模糊核的先验知识，以求解出整个动作图像的复原程度，计算公式表示为：

P(x)=σPt(x)+Pt(∇x)

(4)

公式(4)中，Pt(x)代表非零值像素的个数，Pt(∇x)代表像素的梯度值，P(x)代表先验知识，σ为加权系数。

Step 3：动作图像视觉误差校正。视觉图像和原始健美操图像之间存在一定的误差，需要对此做进一步处理，即：

(5)

在此基础上，进行最优估计，将表达式表示为：

(6)

公式(6)中，gb为差值算子，E代表图像误差。

通过上述过程对健美操动作图像的误差校正，为健美操难度动作识别提供了基础。

3 基于图卷积神经网络的健美操难度动作识别实现

3.1 图卷积神经网络预训练

图卷积神经网络模型主要包含两个部分，第一部分为卷积运算，第二部分为池化操作[6]，具体过程如下所示：

卷积层作为网络核心部分，主要是对健美操难度动作特征图进行卷积计算，以获得更为抽象的图像特征。该方法通过在该层内对前一层输入数据进行卷积计算，得到不同的输出特征图，其计算公式表示为：

(7)

公式(7)中，xm+i,n+j代表点m+i,n+j的图像像素值，wij代表卷积核尺寸在点(i,j)上的权重值，b代表该层的偏置大小，f代表网络激活函数，Q、P分别代表图像分辨率大小参数。

池化层：该层主要减少特征图的分辨率[7]，加速健美操难度动作识别的速度，池化操作过程如下：

(8)

公式(8)中，xm×S1+i,n×S2+j代表输入数据在点m×S1+i,n×S2+j上的像素值，ymn代表池化操作后的输出值。

为了使网络中权重与偏置等参数能够达到最佳拟合状态，还需要构建一个多层次的计算模型[8]，计算公式如下：

(9)

公式(9)中，X为输入向量，wi、xi分别代表第i个数据的偏置参数，b代表激活函数。

然后，将多个连续帧在卷积层中叠加起来，多个连续帧依次通过卷积层生成上一层的多个相邻连续帧串序列：

(10)

公式(10)中，bij代表第i层第j个特征图的偏差，m代表特征图的个数，K代表空间维度大小参数，p代表卷积核权重。

通过上述过程对网络预训练，使网络中的神经单元连接，进而可以直接输入图像，便于图像数据的处理。

3.2 人体有向时空骨架图的构建

原始骨架数据为列帧，每帧都包含一组人体关节坐标，为了准确地对健美操难度动作进行识别，构建人体有向时空骨架图[9]。根据关节的2D或者3D坐标提取骨骼信息构建自适应有向无环图，以3D骨架数据为例，将原始数据的关节坐标记作(x,y,z)，给定一个骨骼，原关节为vs=(xs,ys,zs)，目标关节表示为v′s=(x′s,y′s,z′s)，则将骨骼的向量表示为：

Evs,v′s=(xs-x′s,ys-y′s,zs-z′s)

(11)

传统的骨架数据建模方法忽略关节和骨骼之间的运动学依赖性，此次研究中，将人体骨骼表示为有向无环图[10]。将关节的点作为顶点，将骨骼作为边，每个骨骼边的方向由关节点与根结点之间的关系确定。

通过上述过程将骨架结构表示为有向图，为提取图中信息提供了基础。

3.3 人体有向时空图表示

利用有向图神经网络构造有向图，该神经网络由多个图层组成，每一层之间都填充了带有顶点和骨属性的图形[11]，能够在相邻的关节和骨骼中传播信息，并且能够在各层之间更新它们的关联信息，输出属性更新的图形[12]。在每一层中，根据相邻的边和顶点来更新属性，在每一层中，顶点和边都能收到来自相邻边或顶点的属性信息。在人体骨架有向图中，包含hv、he两个聚合函数，该聚合函数主要用于顶点的多个传入与传出边属性的表达，由于根节点中存在较多向心点和离心点，即存在多个输入、输出边以及多源、目标关节点的情况，为此根据根节点的输入与输出边建立信息的传播公式，计算公式表示为：

为自适应学习人体骨架之间的协同关系[13]，将αk通过两层全连接层学习表示，第一次采用非线性函数激活，第二层为softmax层，利用其学习根节点与向心点之间的相关度。如果一个动作中同时出现共现根节点与无共现相关节点，则对这两个动作之间的相关节点计算。将节点群有向矩阵Av与共相关度矩阵Ar分别表示为：

节点有向矩阵Av中共有三行，第一行为向心节点群，其中，0代表无连接，1代表源关节点；第二行为根节点，第三行代表离心节点群，1代表目标节点，0代表无连接。

共相关度矩阵Ar中，第一行代表向心点与根节点之间的共现相关度，第二行代表根节点自身的共现相关度，第三行代表根节点与离心点之间的共现相关度。αi1、αi4、αi5分别代表自适应更新参数。

通过上述过程完成对人体有向时空图的表示，能够保证有向图网络节点和边的动作信息的自适应更新。

3.4 时序动态信息建模

在上述处理后，对骨架序列时域上的运动变化信息建模，许多非线性动态模型都能够解决这个问题，此次研究中采用递归神经网络进行解决。将运动变化模型表示为：

i=σ(Whiht-1+wci⊙ct-1+bi)

f=σ(Whfht-1+wcf⊙ct-1+bf)

ct=ft⊙ct-1+it⊙tanh(Whcht-1+bc)

ot=σ(Whoht-1+wco⊙ct+bo)

ht=o⊙tanh(ct)

(16)

上述公式中，⊙代表哈达玛积，i，f，ct，ot，ht分别代表状态更新向量，bi，bf，bc，bc分别代表偏置向量，ct代表中间状态向量，wci，wcf，Wzc，Who分别代表权重矩阵。

由于健美操动作是由不同身体部位协作完成的，为此，在健美操难度动作识别过程中，对动作单元预先检测十分有必要，其可降低不相关部位的干扰[14]。为了准确检测到动作单元，设计动作关注层作为新的神经网络层，目的是对不同类别动作骨架关节自适应进行加权处理。用一个投影矩阵描述每个节点的特征，但是考虑到动作不同，期望投影矩阵随着输入Z的不同而动态变化，即形式化变化表示为：

(17)

其中，Wij代表第i个动作对j个动作识别的重要性，该值越大，说明这个关节对动作识别越重要。为了对其动态属性描述，定义动态函数：

(18)

公式(18)中，wik代表动态函数输入特征，wij代表第i个指标在动作j上的元素向量。

基于上述过程对健美操动作时序动态建模，得到每个节点的特征。

3.5 健美操难度动作识别实现

根据上述分析，对人体骨架拓扑结构图进行参数化处理，将其嵌入到网络中，目的是方便与模型共同学习和更新。将多种不同骨架图结合在一起，使人体骨架图的拓扑结构具有适应性，如下述公式：

(19)

第一部分AK，构建有向邻接矩阵，将其作为人体骨架的自然铰接式物理结构；

第二部分BK，为每个骨架节点的共同协同表示，为确定两个顶点之间的相似度[15]，需要实时更新边和目标节点的信息，将该过程表示为：

(20)

(21)

第四部分DK，该矩阵通过学习时序差异有向图，对节点与关节点连接边信息更新，将公式表示为：

(22)

最后，在健美操难度动作识别上，采用softamx函数对网络输出归一化处理，将公式表示为：

(23)

公式(23)中，C代表动作的类别数，eoi代表输出网络。

通过上述过程，将不同样本的特征图池化为相同大小，输出并发送到分类器中，实现健美操难度动作的识别。

4 实验分析

此次实验在两个场景下进行，第一部分实验在固定背景下拍摄健美操动作；第二部分在实际场景下拍摄，其中含有光照信息、部分遮挡、摄像头移动等情况。分别从拍摄的视频中选择100张图像，共进行十次实验，每次实验对10幅图像进行识别，取其平均数。对比两个场景下所提方法、基于特征提取的识别方法与基于深度学习的识别方法的识别效果。