面向行为识别的人体空间协同运动结构特征表示与融合
2020-01-02莫宇剑侯振杰常兴治梁久祯陈宸宦娟
莫宇剑,侯振杰,*,常兴治,梁久祯,陈宸,宦娟
(1.常州大学 信息科学与工程学院,常州213164; 2.常州信息职业技术学院 智能制造工业云开放实验室,常州213164;3.北卡罗来纳大学夏洛特分校 电气与计算机工程系,夏洛特市28223)
行为识别实现了计算机对人体行为的理解与描述,是视频监控[1]、智能看护、人机交互[2]等领域的关键技术。人体行为识别的研究具有广泛的应用前景以及可观的经济价值[3]。执行不同动作时,不同身体部位的协同运动结构特征是行为识别的难题。现今行为识别的方法大致分为3类:①利用单一模态的行为数据进行人体行为识别;②利用多个不同模态的行为数据进行人体行为识别;③利用单一模态内的不同人体部位间的协同运动结构特征进行行为识别。
利用单一模态的行为数据进行人体行为识别,学者们已经提出了许多成熟的算法。按行为识别算法使用的数据类型大致分为:①基于深度图像的人体行为识别,如DMM-LBP-FF(Depth Motion Maps-based Local Binary Patterns-Feature Fusion)[4]、HOJ3D(Histograms of 3D Joint locations)[5]等;②基于骨骼数据的人体行为识别,如协方差描述符[6]等;③基于惯性传感器数据的人体行为识别,如函数拟合[7]等。
利用多个不同模态的行为数据进行人体行为识别,也有很多的学者进行了研究。多模态行为数据的融合大致可以分为2类:特征级融合和决策级融合[8]。常见的特征级融合方法有CRC(Collaborative Representation Classifier)[9]、SRC(Sparse Representation Classifier)[10]、CCA(Canonical Correlation Analysis)[11]、DCA(Discriminant Correlation Analysis)[12]等。决 策 级 融 合 方 法 如DS(Dempster-Shafer)证据理论[10]、多学习器协同训练[13]。
利用单一模态内的不同人体部位间的协同运动结构特征进行行为识别,目前已有少量的研究。Si等[14]提出空间推理网络,其利用Kinect采集的人体关节点位置数据来捕捉每个帧内的高级空间结构特征。首先将身体每个部位的连接转换成具有线性层的单独空间特征,然后将身体部位的个体空间特征输入到残差图神经网络(Residual Graph Neutral Network,RGNN)以捕获不同身体部位之间的高级结构特征。Liu等[15]提出动态姿态图像描述人体行为,其利用姿态估计方法得到人体14个联合估计图,每一个联合估计图表示一个关节的运动,然后使用神经网络融合不同关节的运动。邓诗卓等[16]利用人体不同部位的三轴向传感器(三轴加速度、三轴陀螺仪等)的相同轴向数据间隐藏的空间依赖性并结合卷积神经网络(Convolutional Neural Networks,CNN)进 行 动 作识别。
基于单模态、多模态的行为识别方法虽然可以识别不同的行为,但是忽略了人体在执行动作时不同身体部位的空间协同运动结构特征。动作的完成需要多块肌肉共同协调配合,例如走路不仅需要双腿,同时也需要摆动手臂以协调身体平衡[14]。现有计算不同身体部位结构特征的方法大都使用了神经网络,其训练时间复杂度高、计算资源消耗高、可解释性差等。
本文针对使用神经网络计算结构特征的复杂性高等问题,提出利用人体不同部位的三轴加速度数据构建人体空间协同运动的结构特征模型,并无监督、自适应地对不同身体部位的运动特征进行约束。首先对执行不同动作时的人体不同部位的三轴加速度曲线进行曲线特征分析,确定不同身体部位对不同动作的完成具有不同的贡献度;其次对执行某一动作时人体全身三轴加速度曲线进行曲线特征分析,并提出利用曲线的多个统计值度量人体不同部位的贡献度;然后由于多个统计量对构建结构特征模型具有不同的权重,需要进行权重的确定;再使用协同运动结构特征模型对人体不同部位的运动特征进行无监督、自适应地约束;最后使用多模态特征选择与特征融合算法将不同模态的特征进行融合并分类识别。
1 总体框架
本文提出利用人体空间协同运动的结构特征模型,对不同人体部位的运动特征进行约束,然后对多模态特征进行特征选择与特征融合,总体框架如图1所示。对骨骼图序列按Chen等[17]方法进行特征提取,图1中的“骨骼图序列”引自文献[18]。首先,对人体不同部位的三轴加速度数据分别提取特征;然后使用结构特征模型约束特征;最后使用多模态特征选择与特征融合方法训练多模态特征投影矩阵用于融合三轴加速度数据特征与关节点位置数据特征,使用分类器对融合后的特征进行分类识别,得到类别标签。
图1 总体框架Fig.1 Overall framework
2 协同运动结构特征表示
设γk={ax,ay,az}为人体第k个惯性传感器采集的三轴加速度数据,人体执行动作时全身的三轴加速度数据为γ={γ1,…,γk,…,γK},其中K为人体惯性传感器的总数。对人体不同部位的三轴加速度数据进行特征提取,得到人体全身的运动特征FK=[fxk,fyk,fzk],k=1,2,…,K,其中fxk为人体第k个部位x轴的特征,fyk为人体第k个部位y轴的特征,fzk为人体第k个部位z轴的特征。然后使用协同运动结构特征模型对特征进行约束从而使得样本具有更好的分类能力。
分别计算类间距离Sb与类内距离Sw:
然后计算类间距离Sb与类内距离Sw的比值Jw。为了使得样本具有更好的可分离性,需要增大比值Jw:
本文利用人体空间协同运动的结构特征模型对特征进行约束,约束后的第i类样本均值、所有c类样本均值的计算式分别为
式中:Wij=[wxk,wyk,wzk],k=1,2,…,K为第i类第j个样本对应的结构特征,并用于约束人体全身的运动特征,得到约束后的特征(FK)*=[,,],k=1,2,…,K。以计算为例=wykfyk。计算约束后的类间距离与类内距离:
以左高挥手、右高挥手动作为例,左高挥手动作的主运动结点为左手肘、左手腕;右高挥手动作的主运动结点为右手肘、右手腕,其他的身体部位为附加运动结点。本文分别对比左高挥手与右高挥手动作的主运动结点以及附加运动结点的三轴加速度曲线。主运动结点曲线的对比如图2所示,附加运动结点曲线的对比如图3所示。图2(a)为执行左高挥手动作时左手肘、左手腕、右手肘、右手腕部位对应的三轴加速度曲线图。类似地,图2(b)为执行右高挥手动作时左手肘、左手腕、右手肘、右手腕部位对应的三轴加速度曲线图。图3(a)为左高挥手动作附加运动结点的三轴加速度曲线图,图3(b)为右高挥手动作附加运动结点的三轴加速度曲线图。
首先对比左高挥手、右高挥手动作附加运动结点的三轴加速度曲线,可以发现这2个动作附加结点的三轴加速度曲线形状相同均保持平稳即方差差异性小,此外曲线的均值也接近,即这2个动作附加结点的类间距离小,分类能力差。然后比对左高挥手、右高挥手动作主运动结点的三轴加速度曲线,对于区分左高挥手与右高挥手动作主要是根据左手肘、左手腕、右手肘、右手腕处三轴加速度曲线的统计特征。为了使样本更好地分离,需要强化每个动作主运动结点的特征、削弱附加运动结点的特征,基于此本文使用基于人体空间协同运动的结构特征模型对不同身体部位的特征进行约束。以右高挥手动作为例,从图2(b)、图3(b)中可以观察到,对于动作的完成不同身体部位的贡献度是不同的,其主运动结点为右手肘、右手腕,即右手肘、右手腕对动作的完成具有高的贡献度,附加运动结点的贡献度相对较小。本文使用执行动作时不同身体部位的贡献度构建协同运动的结构特征模型。为了度量不同部位对完成动作的贡献,本文通过式(10)度量人体第k个部位x、y、z轴的贡献,其他结点贡献度的度量与此类似:
图2 左高挥手、右高挥手动作主运动结点的三轴加速度曲线Fig.2 Triaxial acceleration curves of main motion nodes of left high wave and right high wave
图3 左高挥手、右高挥手动作附加运动结点的三轴加速度曲线Fig.3 Triaxial acceleration curves of additional motion nodes of left high wave and right high wave
为了说明本文提出的结构特征模型的有效性,分别计算类间距离为2 175、类内距离为10383以及Jw为0.209 5。然后再计算使用结构特征模型约束后的特征的类间距离为575、类内距离为2 046以及为0.281 0。从计算结果可知>Jw,即使用结构特征模型约束后的特征具有更佳的分离能力。
3 多模态特征选择与特征融合
在采集人体的行为数据时一般会采集多个模态的数据。为了利用不同模态的数据进行行为识别,需要融合多模态特征。此外每个模态内包含了大量的冗余特征,需要对特征进行选择。设Γ={,,…,}表示N个动作样本,其中每个样本包含M个不同模态的特征。虽然第i个样本Γi={,,…,}包含了M个不同模态的特征,但类别标签相同,,…,→yi。本文为每个模态的特征分别学习投影矩阵。用于将不同模态的特征投影到子空间。并在投影的过程中完成对特征的选择。最后按式(12)进行多模态特征的融合:
式中:f为融合后的特征;xp为第p个模态的特征,p=1,2,…,M;Up为第p个模态的投影矩阵,p=1,2,…,M;为第p个模态投影后的特征,p=1,2,…,M。将融合后的特征称之为多模态融合特征(multi-modal fusion features)并用于分类识别。本文借鉴联合特征选择与子空间学习JFSSL方法[19]学习多模态投影矩阵,用于将不同模态的特征投影到子空间,并使用ℓ2,1范数来实现特征选择[20],其最小化问题如下:
式中:Xp为第p个模态的特征矩阵,p=1,2,…,M;Y 为JFSSL方 法 构 造 的 子 空 间,Y∈RN×c。式(13)的第1项用于学习投影矩阵,第2项用于特征选择,第3项用于保持模态内和模态间的相似关系。式(13)的第3项的推导为
本文使用式(16)迭代计算得到不同模态的投影矩阵,将不同模态的特征投影到子空间,再将子空间的特征按式(12)进行融合用于行为识别。
4 数据采集
本节介绍自建的数据采集系统,并将其用于全身运动数据的获取。
4.1 采样系统搭建
Kinect v2传感器可以采集RGB-D图像以及人体25个关节点的位置数据。MPU9250惯性传感器是一种体积小、功耗小的传感器,采样率为500 Hz,可同时捕获三轴加速度、三轴角速度和三轴磁场强度数据并输出四元数等。
本文利用Kinect采集深度图像和关节点位置数据,利用MPU9250采集三轴加速度数据。为了采集人体全身部位的三轴加速度数据,本文搭建了包含10个惯性传感器的运动数据采集系统,采样系统架构如图4所示,其中NTP(Network Time Protocol)服务器用于提供标准时间,无线AP(wireless Access Point)用于组建无线局域网络。利用卡片式计算机树莓派控制MPU9250传感器,利用笔记本电脑控制Kinect v2,每次采集数据时都与NTP服务器进行时间同步。本文综合考虑了MHAD[22]、UTD-MHAD[23]等行为数据库的采样方案后,确定惯性传感器的位置如图5所示,图中红色标记点为惯性传感器的位置,“左”为人体的左侧,“右”为人体的右侧。图6为本文的真实采样场景。
图4 采样系统架构Fig.4 Sampling system architecture
图5 可穿戴传感器位置示意图Fig.5 Position schematic diagram of wearable sensor
图6 真实采样场景Fig.6 Real sampling scene
4.2 数据库描述
本文自建的行为数据库包含7位男性受试者,年龄分布为20~26岁,其中包括一个肥胖型受试者、一个瘦弱型受试者。7个男性受试者分别执行15个动作,每个动作重复执行10次。15个动作类别如表1所示。
表1 自建的行为数据库中的15个动作Table 1 Fifteen actions in self-built behavior database
5 实验结果与分析
5.1 特征提取
本文在自建的数据库上进行实验,实验选取了5位受试者执行的15个行为动作,其中每个动作由每位受试者重复执行8次,实验用的行为数据库一共包含600个样本。对三轴加速度数据提取经典的时域特征:均值、方差、标准差、峰度、偏度。
5.2 实验设置
1)设置1。与Chen等[4]类似,在第1组实验中将3/8样本作为训练,剩下数据作为测试;在第2组实验中将4/8样本作为训练;在第3组实验中将5/8样本作为训练;在第4组实验中将6/8样本作为训练。本文使用T1~T4代表上述4组实验。
2)设置2。与Chen等[24]类似,在第1组实验中将标记为1、2对象的数据作为训练样本;在第2组实验中将标记为1、2、5对象的数据作为训练样本;在第3组实验中将标记为1、2、3、5对象的数据作为训练样本。本文使用T5~T7代表上述3组实验。
5.3 参数设置
本文的实验需要对分类器参数、超参数等进行选择,所需参数都通过CV(Cross Validation)校验的方法进行确定。
1)分类器参数设置。本文中使用的分类器如CRC(Collaborative Respresentation Classifier)、KNN (K-Nearest Neighbor)、RandomF(Random Forest)等需要确定最佳参数。最终确定的分类器最优参数为:KNN的参数设置为1;RandomF的参数设置为65;CRC的参数设置为0.000 1。
2)超参数设置。联合特征选择与子空间学习的参数λ1、λ2分别设置为0.001和0.001;本文提出的结构特征模型中的超参数λ1、λ2分别设置为5和0.05。
5.4 三轴加速度数据特征分类识别
本节对全身三轴加速度数据的特征以及使用结构特征模型约束后的特征进行分类识别。表2为使用人体全身的三轴加速度数据特征的识别率(即本节的基线实验),表3为使用结构特征模型约束后的特征的识别率。
从表2可知,封闭测试T1~T4在使用判别分析、RandomF分类器的情况下识别率很高,如表2中的T4实验使用判别分析分类器的识别率可高达到97.40%。然而表2中的开放测试T5~T7的识别率均低于T1~T4的识别率。因此本文的目的是提高开放测试T5~T7的识别率。为此,将表3中的T5~T7与表2中的T5~T7的识别率进行对比,对比的结果如图7所示。
图7中每个分类器后的数字为特征约束后的识别率减去基线识别率的结果。从图7中可以直观看出,特征约束后T5~T7的识别率明显高于基线识别率。说明本文利用基于人体空间协同运动的结构特征模型约束的特征具有更佳的分类能力。
表2 三轴加速度识别率Table 2 Recognition rate of triaxial acceleration %
表3 三轴加速度约束后的识别率Table 3 Recognition rate of constrained triaxial acceleration %
图7 约束后的识别率与基线识别率的对比Fig.7 Comparison of recognition rate after constraints with baseline recognition rate
5.5 关节点位置数据的识别率
表4为关节点位置数据的识别率。由于5.6节实验为多模态特征的融合,故本节先计算关节点位置数据的识别率作为多模态特征融合的基线识别率。
5.6 多模态特征选择与特征融合的识别率
本节使用多模态特征选择与特征融合方法对三轴加速度数据特征、关节点位置数据特征进行融合并使用多个分类器进行分类识别,其识别结果如表5所示,并且将表5作为本节的基线实验,将表5与表4、表3的T1~T7识别率进行对比可知,多模态特征融合的识别率均优于单个模态特征的识别率。将本文结构特征模型约束后的特征与关节点位置数据特征进行融合,结果如表6所示。
表6与表5的T1~T4相比,融合约束后的特征与关节点位置数据特征的识别率均显著高于基线实验。由于本文的重点是提高开放测试的识别率,因此将表6与表5的T5~T7进行对比,对比结果如图8所示。
表4 关节点位置识别率Table 4 Recognition rate of joint point position %
表5 多模态特征选择与特征融合的识别率Table 5 Recognition rate of multi-modal feature selection and feature fusion %
表6 融合约束后的三轴加速度数据特征与关节点位置数据特征识别率Table 6 Recognition rate of triaxial acceleration featur e and joint point position data feature after fusion constraints %
从图8中可以直观看出,在T6、T7实验中本文方法明显优于基线实验,在T5测试中本文方法略低于基线实验。这是由于T5测试选取2/5受试者的样本作为训练,选取的受试者数量少,从侧面说明本文提出的算法还可以进一步改良。此外表6中T7实验的识别率在5个分类器中高达100.00%。上述的对比结果说明本文提出的基于人体空间协同运动的结构特征模型的有效性。
6 结 论
本文提出了利用人体不同部位三轴加速度数据的多个统计值用于度量不同部位对完成动作的贡献度,利用不同部位的贡献度构建面向行为识别的人体空间协同运动结构特征模型,并无监督、自适应地对人体不同部位的特征进行约束。在此基础上,借鉴JFSSL方法融合多模态的行为特征,并在融合过程中完成了对特征的筛选。实验结果表明:
1)该模型适用于具有全身三轴加速度数据的行为识别,模型的构建不需要复杂的算法计算,具有较好的实时性。
2)在自建的行为数据库的封闭测试(T1~T4)、开放测试(T5~T7)中均有优异的效果。
3)通过实验证明了人体在执行动作时不同部位之间存在协同性。这为进一步探索人体空间协同运动的结构特征提供了实验依据。