基于多特征融合的复杂舞蹈动作识别

2022-06-20金庆红

安徽工程大学学报 2022年3期

许诚，金庆红

(安徽工程大学体育学院，安徽芜湖 241000)

近年来，随着机器视觉的广泛应用，利用机器视觉对图像进行识别和分类取得了较好的应用效果。传统的舞蹈动作识别方法只能对某一个单一的舞蹈动作进行识别，当舞蹈动作加快或更为复杂时，传统识别方法不能精准捕捉到舞蹈的动作，从而不能对其进行特征提取，更不能实现精准识别。复杂舞蹈动作的识别和分类可以帮助舞蹈训练者找出动作存在的问题，从而进行针对性的改进和纠正，取得更好的复杂舞蹈效果。因此，对于复杂舞蹈动作的识别还有待进一步研究。为解决此问题，已有众多专家和学者进行了深入研究并取得了一些成果。闫琳[1]提出基于深度学习网络的舞蹈动作识别方法，利用深度学习的基本原理和结构特点，对舞蹈动作进行深层特征提取，相较于传统方法，此方法的识别精度提升了2.8%；毕雪超[2]提出基于2D姿势估计的高动态复杂舞蹈动作识别方法，构建了舞蹈高动态内的2D模型，该模型性能优越，可准确快速地对复杂高动态时的舞蹈进行捕捉和识别；王雪娇等[3]提出基于可变形卷积神经网络的人体动作识别方法，此方法的识别准确率提升了10.5%，可在动作识别领域进行大力推广和应用。但以上学者采用的动作识别方法大部分只针对于单一舞蹈动作，对于复杂舞蹈动作的研究较少。基于以上经验，本研究尝试提出一种多核学习特征融合的舞蹈动作识别方法，以更好地对舞蹈特征进行提取，提高舞蹈动作的识别率。

1 基本算法

1.1 多核学习方法

多核学习属于核方法的一类，其特别之处在于由多个核函数以线性方式组成，具体如图1所示。图1中，线性组合的核函数为

(1)

式中，M代表核函数数目；kj(x,z)表示核函数；βj表示核函数对应权重；k(x,z)由特征相关性确立，为使k(x,z)满足Mercer定理，设βj≥0[4]。

1.2 算法改进

多核学习方法对于图像特征的提取优于单核学习，但也存在损耗时间长和空间范围过大的问题。由于SimpleMKL可快速得到多核学习算法的最佳核函数权值，故采用该方法对多核学习进行改进，并通过梯度下降的方式对核函数的权值进行迭代[5]，由此得到多核学习的目标函数：

(2)

式中，fm为映射函数[6]；dm对fm范式产生约束，dm值越小，表明fm越平滑[7]。该函数的对偶式为

(3)

式(3)通过梯度下降可取得核函数的权值，具体计算为

(4)

式中，Dm为梯度下降的指向。在对核函数进行迭代的过程中，线性搜索方式可准确高效地捕捉到最优权值[8]。

图1 多核学习核函数线性组合示意图

2 基于改进多核学习特征融合的舞蹈动作识别

2.1 特征提取流程

为更好地对复杂舞蹈动作进行识别，将舞蹈视频或图像进行特征提取，提取流程如图2所示。从图2可以看出，舞蹈视频进行特征提取前需对数据进行预处理，然后再采用累加边缘方法和音频流文件分别对特征进行提取[9]。

2.2 多特征融合与识别

基于以上改进的多核学习方法将3种特征融合起来，由此更全面地对复杂舞蹈动作进行识别和分类，从而提高识别准确率[10]。具体流程如图3所示。

若舞蹈动作数据集中存在p个舞蹈动作x1,x2,…,xp和类别y1,y2,…,yp。同时将HOG特征对应的G个核函数定义为kg(xi,xj),g=1,2,…,G；HOG特征对应的F个核函数定义为kf(xi,xj)，f=1,2,…,F；音频签名特征对应的M个核函数为km(xi,xj),m=1,2,…,M[11]。将上述3种特征的核函数线性组合进行融合，采用式(5)进行计算：

(5)

式(5)满足条件：

(6)

式中，βg、βf和βm均为核函数权重[12]。

图2 特征提取流程图3 特征融合过程

舞蹈动作识别中，对各参数进行训练的目的是对权值β以及支持向量机分类器自身的参数α和b进行学习和求解。根据以上SimpleMKL算法的基本原理，确定多特征融合算法的目标函数，可表示为

(7)

式中，通过梯度下降算法将目标函数进行最小化，由此计算出最佳参数[13]。首先，利用权值β，求出分类器参数α和b；然后再计算出新的权值参数β。由此得到多核学习的分类函数，用式(8)表示为

(8)

其中，本算法的目标为对复杂舞蹈动作进行多分类。目前常用多分类方法包括一对一和一对多的方式。根据舞蹈动作的分类特点，将选择一对多的多分类方法，具体表示为

(9)

式中，J表示目标函数；Jp表示分类器；p表示舞蹈动作分类。

3 仿真实验

3.1 实验环境

为验证以上方案的可行性，实验环境选择CPU型号为Intel(R) Core(TM) i5-4460 @ 3.20 GHZ，内存大小8 GB。在64位Ubuntu下进行实验操作。仿真实验平台为MATLAB2018b。

3.2 数据来源及预处理

数据集选择常用的DanceDB舞蹈数据集和FolkDance舞蹈数据集。其中，DanceDB内包含12种舞蹈动作，用情绪标签表示，主要包括恐惧的、恼怒的、无聊的、高兴的、痛苦的、疲惫的动作等[14]；FolkDance 包含4类舞蹈动作，即跟步双花组合、里片花组合、手巾花组合和片花组合。两个数据集的帧速率均为20 fps，帧节尺寸为480*360。

上述两个数据集均为现场录制的视频图像。视频转化为图像的过程中出现了大量噪声，从而导致舞蹈动作特征提取效果不佳。为解决此问题，对两个数据集进行预处理。具体处理方法为背景消除和中值滤波方法。其中，背景消除主要功能是对前景进行提取，然后将人体动作区域进行分离；中值滤波方法则对数据集中的噪声进行过滤，以此降低噪声对特征提取的影响，提取效果如图4所示。

3.3 验证方法

为更好地对提出的算法进行验证，采用交叉验证法进行测试。常用方法为 K折交叉和留一交叉验证，其中留一交叉取得的结果更真实准确，即取10次验证结果的均值，因此选择留一交叉进行算法验证。

3.4 结果与分析

(1)算法验证。为验证所提算法的有效性，实验将FolkDance 和DanceDB数据集作为测试集，以此实现复杂舞蹈动作识别。并将所提方法与另外3种单一特征分别在两个数据集中的识别率进行对比，结果如图5、6所示。由图5可知，4种方法中，所提方法的识别准确率均高于另外3种方法。其中，舞蹈动作不同，每个方法的识别效果均有所不同。在跟步双花动作中，所提方法的识别准确率达到52.5%，方向梯度直方图的识别率为43.1%，均高于光流特征和音频特征的识别率；在里片花中，本方法识别率为53.9%，方向梯度特征与音频特征识别率相同，均为40%，光流特征识别率最低；在手巾花和片花组合中，本方法识别率分别为50%和45%，均高于另外3种方法，但不同之处在于音频特征的识别率比方向梯度和光流特征的识别率更高，分别为42.8%和37.5%。综合分析可知，在FolkDance数据集中，所提出的方法对复杂舞蹈动作的识别准确率最高，具备一定的有效性。

图4 图像预处理结果示例

DanceDB数据集上各特征与方法的识别率对比如图6所示。从图6可以直观地看出，相较于另外3种单一方法，本文方法的识别准确率最高，识别率高达41.7%，分别比方向梯度、光流方向和音频特征高了11%、6.7%和9.2%。由此说明，相较于单一的特征识别方法，本文方法对复杂舞蹈动作的识别准确率更高，识别效果更好。

图5 FolkDance 数据集实验结果对比图6 DanceDB 数据集实验结果对比

(2)算法对比。为更好地探讨提出的算法是否更为优越，实验将本文方法与深度学习中的多模态时空动作识别方法[15]进行动作识别对比，依旧采用以上复杂舞蹈动作FolkDance 和DanceDB 数据集。对比结果如图7、8所示。

由图7可知，本文方法除里片花组合外，均高于多模态时空动作识别方法的识别率，且在跟步双花组合、手巾花组合和片花组合中，本文方法识别率分别为51.9%、50%和44.7%，比多模态时空动作识别方法分别高了4.8%、2.1%和4.2%。由此可知，本文方法对多种舞蹈的识别率有所提升，具有一定的有效性和可行性。

从图8可以看出，本文方法的识别准确率高达41.82%，深度学习方法的识别率为39.5%，本文方法比多模态时空动作识别方法识别率提高了2.32%，说明本文方法对于舞蹈动作的识别准确率更高。

图7 FolkDance 数据集中本文方法与多模态时空动作识别方法在4个分组上的实验结果图8 DanceDB 数据集上两种方法对比结果

4 结论

综上所述，本文提出的基于多核学习特征融合的舞蹈动作识别方法，具备可行性和有效性，相对于单一特征在复杂舞蹈动作DanceDB和FolkDance数据集同组中的表现，该方法的鲁棒性更强，识别准确率更高。同时，采用本文方法识别率为41.82%，相较于多模态时空动作识别方法提高了2.32%，说明本文算法舞蹈动作识别准确率较高，算法性能更为优越，也进一步验证该识别算法具备有效性。