APP下载

基于动作捕捉的舞蹈视频动作识别技术研究

2022-10-17晏国良

赤峰学院学报·自然科学版 2022年9期
关键词:高斯分布舞者像素

晏国良

(安徽文达信息工程学院,安徽 合肥 231201)

0 引言

动作捕捉识别在计算机研究中是非常有挑战性的,主要是使用分类识别与图像处理技术分析视频数据,以实现人体动作的识别。该方向具有很高的研究价值,吸引了大量学者与科研机构工作者进行研究[1]。动作识别技术适用于多种视频场景,在视频检索、智能人机交互、虚拟现实、智能、运动辅助分析等领域得到了广泛应用。但当前该技术在舞蹈视频中的应用还较少,并且由于舞蹈视频中存在自遮挡以及动作的高度复杂性等难题,使该方面的研究有待进一步开展。在其他领域中动作识别技术的成功应用也为该方面的研究提供了充足的依据。对于目前存在的大量舞蹈视频资料,往往需要专业人员花费大量时间,利用看、听等方式分析资料,需要耗费极大的人力物力并且效率极低。在这些资料的分析中应用动作识别技术,实现舞蹈动作识别,不仅可以减轻资料分析人员的工作强度,便于视频资料检索,也能提高舞蹈自动编排系统的工作效率,对于挖掘和保护艺术领域文化遗产以及舞蹈教学等方面也有很大意义[2]。除此以外,该方面的研究对于不同环境下的视频动作识别也有一定借鉴、指导意义,同时能够丰富动作识别技术方向的研究。基于该背景对舞蹈视频动作识别技术进行研究。动作识别技术方向是基于舞蹈视频的动作来研究的,如文献[3]提出的,通过图像块的标记矩阵来计算舞蹈动作,由Camshift算法计算其对应的轮廓目标,并进行跟踪,步态轮廓识别可以通过计算步态轮廓变化的距离来实现。文献[4]提出的,通过目标检测算法提取舞蹈图像中的人体检测帧,基于人体姿态估计算法实时估计舞者的人体位置信息,并根据标准动作进行校正。

现综合这些阶段性研究成果对该问题进行研究,提出一种基于动作捕捉的舞蹈视频动作识别技术。

1 舞蹈视频动作识别技术

1.1 舞蹈动作捕捉

舞蹈动作捕捉技术主要采集表演对象身体主要关节的长度和运动角度的数据,并利用虚拟显示等显示技术将这些数据重新转换成直观的图像。在舞蹈非物质文化遗产保护中,针对不同类型的非物质文化遗产舞蹈或仪式,引入动作捕捉技术,如对舞蹈动作或仪式的准确保存和分析。然而,在实现这些成熟且更复杂的运动捕捉技术的过程中仍然存在一些问题,例如:第一,表演的载体——身体的内在关注是不够的。它仅限于机械地收集三维空间中运动的基本组成和直线的轨迹方向信息,并在此基础上实现交互式多媒体设计中的虚拟记录恢复。它没有关注舞者在动作过程中形成这些轨迹线的身体状态的变化;第二,对运动数据的研究不足。作为文化资源收集中动作构成的判别依据,动作数据尚未被应用于深入分析这类舞蹈的内在特征;第三,动画形象的动画造型还不足以了解真正的舞者,所以我们应该利用肢体符号和数据的变化,辅以动画形象的舞蹈动作来增强直观的理解;第四,在目前的运动捕捉技术中,传感设备基本上是基于光斑反射技术,而柔性传感器可以佩戴在舞者身上,以保证最佳的捕捉效果。

舞蹈视频动作高准确率识别的前提是精准捕捉舞蹈动作,包括被遮挡动作、复杂程度较高的动作等。为此首先配置一种视频动作捕捉设备,采集舞蹈视频中的动作[5]。配置后的视频动作捕捉设备主要由PC主机、Giganet设备、动作捕捉摄像机、摄像机组件、摄像机专用连接线以及标准套件构成。

主机上需要安装Vicon Polygon与Vicon Nexus数据处理软件。其中Vicon Polygon软件能够重建点云数据,标定点数据名称,实现缠绕数据的修复以及数据解算;Vicon Nexus软件可以实现数据采集、传感器校准等功能;Giganet设备具体包括多个千兆智能路由器;动作捕捉摄像机使用的是30-2000fps传 输 帧 数、2000fps捕 捉 速 率、1600*1280px分辨率的专业动作捕捉摄像,由网络连线、镜头、光学图像过滤器、发光器等构成,能够实现运动轨迹的记录;摄像机组件由MX Ultranet HD、MX Link以及MXNET等组件构成,呈现分布式架构;摄像机专用连接线用于各组件之间的连接;标准套件具体包括多个T形校正架,主要用于校准设备[6]。

在舞蹈视频的舞蹈动作捕捉中,制订的数字化元数据规范表能够对采集的动作信息进行记录,具体如表1所示。

表1 数字化元数据规范表

捕捉舞蹈动作数据的具体流程如图1所示。

图1 捕捉舞蹈动作数据的具体流程

在前期准备中,需要在视频播放处对设备进行架设。在骨骼设定中共标记27个发光点,具体如表2所示[7]。

表2 骨骼设定中标记的发光点

在实时采集中,对于采集的视频可以进行多次动作采集,通过Vicon Polygon软件对人物发光点进行记录,并通过Vicon Nexus软件实施后期的数据分析与处理[8]。

在数据输出中,通过Vicon Nexus软件对关节物理量进行计算,并导出人物动作时空数据。至此实现舞蹈识别中的动作捕捉。

1.2 数据预处理

计算机视觉系统主要由舞蹈视频图像运动识别并进行的,且考虑到在识别之前计算机计算的问题,需要提前对其进行相应的预处理,以便提取出正确的图像信息,为计算机减少相应的计算问题。

对于捕捉的舞蹈动作数据,对其实施预处理操作,包括背景减除、中值滤波操作[9]。

背景减除可以提取舞蹈视频中的前景,从而分离人体动作区域和背景区域,其主要采用的方法是高斯混合模型,具体步骤如下:

(1)模型构建。将t时刻某像素点的实际值设为Xt,通过下式构建该点的背景高斯分布模型:

式(1)中,K是指高斯分布的数量;ωi,t指的是第i个高斯分布在t时刻的权重;η(·)指的是ωi,t的概率密度函数;γi,t指的是ωi,t的均值;σi,t指的是ωi,t的方差[10]。

ωi,t的概率密度函数计算公式具体如下:

(2)模型更新。假设新输入的图像中存在Xt值的像素点,利用下式对其是否与模型相匹配进行判断:

当该点与模型相匹配,利用该点对模型中的权值、方差以及均值进行更新,具体如下式所示:

式(4)中,α指的是高斯混合学习率,其取值范围为0≤α≤1;β指的是参数更新因子,其计算公式具体如下:

(3)前景的检测。完成模型的更新后,高斯分布进行排序要按大小顺序来进行的,选择前A个较大的高斯分布,通过下式对前景进行检测:

式(6)中,ωk指的是第k个高斯分布;T是指前景阈值。

当新像素值相邻高斯分布符合上式时,该像素为前景像素,否则即为背景像素[11]。

(4)减除背景。将背景直接减除后,还需要实施去噪处理,通过中值滤波法实施去噪处理[12]。

去噪处理的具体公式如下:

式(7)中,g(x,y)=指的是输出像素的对应灰度值;f(x-i,y-i)指的是输入像素对应灰度值[13],其中,i,j∈B,B指的是模板窗口。

就此实现捕捉图像的预处理。

1.3 特征提取

普通人的日常动作和舞者的舞蹈动作是有很大区别的。舞者的许多动作都需要用双手和双腿来合作来完成。在识别背景的选择目标区域时,舞者运动的全身信息是必须掌握到的,以便更准确的识别其舞蹈动作。舞舞者的动态识别可分为静态特征和动态特征。静态特征的主要表现为舞者人体目标的大小、服装颜色、身体形象和动作等方面。舞者动作的整体信息就是它来传达出来的。例如,当前的基本形态是通过舞者的轮廓特征得到的;动态特征主要表现为舞者的运动速度、运动方向和之后的轨迹上,可以反映舞者在舞蹈上的运动轨迹。

在图像提取的前景中,是3D配准图像算法:尺度不变特征变换的算法匹配(3D Scale Invariant Feature Transform,3D-SIFT)提取舞蹈动作的人体姿态特征[14]。人体姿态特征提取的具体流程如下:

(1)选取关键点。首先对图像前景的3D尺度空间进行构建,选择其中的局部极值点,将其作为人体姿态特征提取的关键点。然后检查各个关键点,将不具备稳定边缘响应的点以及较低对比度的点去掉。

(2)定向分配,也就是对各关键点的梯度与方向进行确定[15]。

具体步骤如下:

步骤1:定义各像素的2D方向与梯度,具体如下式所示:

式(8)和(9)中,θ(x,y)指的是各像素的2D梯度;Ly指的是图像内像素时空梯度的2D纵坐标;Lx指的是图像内像素时空梯度的2D横坐标;D(x,y)指的是各像素的2D方向[16]。

步骤2:利用有限差分对Lx、Ly进行计算,具体公式如下:

式(10)中,t'指的是有限差分阈值[17]。

在3D-SIFT特征提取中,还需要对图像内像素时空梯度的3D竖坐标Lz进行计算,计算公式具体如下:

步骤3:通过图像内像素时空梯度的三个坐标对各像素的3D方向与梯度进行计算。

步骤4:根据定向分配结果生成3D SIFT人体姿态特征描述符合,实现人体姿态特征提取。

1.4 舞蹈视频动作识别

在舞蹈视频动作图像数字计算和识别之前,灰度处理变换是必须先进行的、图像的阈值、图像的分割等预处理方面,计算机的运算量相对应得减少了,并且提取出了舞蹈视频动作识别的有效信息。

将灰色预测模型作为模板,通过计算测试样本与模板之间的相似度实现舞蹈视频动作识别[18]。在识别中,首先将各测试样本即提取的人体特征姿态映射至相应的簇中,生成索引序列。在映射中需要对人体特征姿态对应的躯体部分进行定义。然后去除索引序列内的冗余,将其与灰色预测模型相匹配。计算二者相似度,具体公式如下:

式(12)中,s(x,y)指的是索引序列与灰色预测模型之间的相似度;h(x,y)指的是二者之间五个部位中存在的相似姿势个数。

根据相似度计算结果实现舞蹈视频动作识别。

2 动作识别测试

对于设计的基于动作捕捉的舞蹈视频动作识别技术,通过舞蹈视频数据集对其性能进行检测。

2.1 实验数据集

实验中使用的数据集包括FolkDance舞蹈数据集与北塞浦路斯舞蹈数据集。

其中FolkDance舞蹈数据集的技术数据具体如下:

帧速率:20fps;

各帧大小:560*480。

该数据集主要来自一个德国民间舞蹈视频,其示例帧具体如图2所示。

图2 FolkDance舞蹈数据集示例帧

北塞浦路斯舞蹈数据集的技术数据具体如下:

帧速率:25fps;

各帧大小:560*420。

该数据集主要来自一个北塞浦路斯的民间舞蹈视频,其示例帧具体如图3所示。

图3 北塞浦路斯舞蹈数据集示例帧

利用以上实验数据集对设计方法的动作识别性能进行测试。

2.2 实验环境

测试中的实验环境具体如下:CPU:Core(TM)i5-4460;开发环境:OpenCV 2.4.8;操作系统:64位Ubuntu。

2.3 实验设计

分别对两个舞蹈视频数据集中的5个重复率较高的单一动作进行识别,测试设计方法各个单一动作的识别准确率。

2.4 识别结果

在FolkDance舞蹈数据集中,识别的五个重复率较高的单一动作分别为双人拉手转圈、双手45°高举、大画圆、小画圆、深弯曲。其中双人拉手转圈的识别结果具体如图4所示。

图4 双人拉手转圈的识别结果

在北塞浦路斯舞蹈数据集中,识别的五个重复率较高的单一动作分别为拍手、劈腿跳、小踢腿、双手45°高举、深弯曲。其中小踢腿的识别结果具体如图5所示。

图5 小踢腿的识别结果

综合所有识别结果对两个舞蹈视频数据集单一动作的识别准确率进行计算。

具体计算结果如表3所示。

表3 识别准确率计算结果

根据表3识别准确率计算结果,设计方法对于较为简单的动作可以达到极高识别率,对于较为复杂的动作也可以达到很大的识别率,整体舞蹈动作识别准确率较高。

3 结束语

在舞蹈视频动作识别技术的研究中,应用了动作捕捉技术,设计了一种视频动作捕捉系统,实现精准的舞蹈动作捕捉,并对捕捉数据进行处理,通过3D-SIFT特征提取法与灰色预测模型相似度计算实现了较为准确的舞蹈动作识别,取得了一定研究成果。日后将对该研究成果进行进一步完善与拓展,争取获得更准确的识别率,使研究成果更严谨。

猜你喜欢

高斯分布舞者像素
像素前线之“幻影”2000
舞者
风中的舞者——蜡梅
利用Box-Cox变换对移动通信中小区级业务流量分布的研究
2种非对称广义高斯分布模型的构造
《郁金香》《孤独的舞者》
“像素”仙人掌
ÉVOLUTIONDIGAE Style de vie tactile
刀尖上的『舞者』
一种基于改进混合高斯模型的前景检测