APP下载

基于混合关节特征的人体行为识别*

2018-03-26胡珂杰

传感器与微系统 2018年3期
关键词:关节点势能动能

胡珂杰, 蒋 敏, 孔 军

(江南大学 轻工业先进过程控制重点实验室,江苏 无锡 214122)

0 引 言

近几年中,基于深度信息的行为识别因其受环境影响小等特点得到了广泛关注和重视。微软公司生产的Kinect是可以同时获取红绿蓝三原色(red green blue,RGB)彩色图像和深度图像的三目摄像头,能通过深度信息快速地获取人体关节位置和三维骨架,这些数据包含了丰富的信息,给人体行为识别带来了新的思路和方法。

Ofli F等人[1]根据人体关节点空间坐标点提取了关节角,并计算每个关节角在整个动作过程中的方差,然后根据方差的大小排序,获取了若干个最具信息量的关节点,最后采用排序靠前的关节点数据进行分类。Lin S Y等人[2]计算了人体各部分的平均速度,根据各部分速度变化规律采用马尔可夫模型实现行为识别。Papadopoulos G T等人[3]采用了关节点形成的球面角以及角速度并结合动能表征不同的行为动作,再利用马尔可夫模型进行分类识别。Khoshhal K等人[4]根据拉班运动分析(Laban movement analysis,LMA)法,将人体分为6个部分并计算了各个部分的形状、空间位置变化等作为特征进行人体识别。

综上所述,人的不同动作不仅表现在位置信息上的区别,而且表现在关节点序列的能量特征上。受动能定理和万有引力的启发,发现动能和势能能够有效地表现出人体能量的变化,这种能量变化相较于单个骨骼特征更加具有意义的描述。因此,本文将能量信息和骨骼关节信息结合作为一个新的特征,定义为混合关节特征。

1 混合关节特征提取

1.1 关节点动能特征

人的行为状态可以分为2种:静止和运动。当人从静止状态变为运动状态时,多个关节点位置信息均会发生变化,此时这些关节点都具有运动速度。定义关节点的动能作为运动的特征。在不同的行为下,人体关节点动能还表现出不同的变化规律,例如当人在踢腿时踝关节点的动能变化幅度很大且变化频率较快,而在慢跑时踝关节的动能变化幅度相对平缓且变化频率较慢。因此,关节点动能是人体行为识别的重要特征。

为了计算人体骨骼关节点动能信息,首先要获取人体关节点的空间三维坐标(x,y,z),然后根据相邻两帧的坐标信息变化计算出每一帧人体骨骼关节点动能

(zi,t-zi,t-Δt)2),

Δs=Δt×(1/30)

(1)

式中EKi,t为Ft帧中第i个关节点的动能;k为动能参数,文中k取1;Δt为相邻两帧的时间间隔,根据所使用Kinect的性能指标,文中取1/30 s;Pi,t为第i个关节点在Ft帧中的空间位置,即三维空间坐标(xi,t,yi,t,zi,t)。

1.2 方向变化特征

根据三维关节点坐标计算每个关节点的方向变化向量,计算公式为

φi,t=(xi,t-xi,t-1,yi,t-yi,t-1,zi,t-zi,t-1)

(2)

式中φi,t为Ft帧中第i个关节点相对于上一帧中第i个关节点的方向变化向量;xi,t,yi,t,zi,t分别为该关节点在Ft帧中的空间三维坐标。

1.3 人体姿态势能特征

由于关节点的坐标是相对于摄像机的坐标,而摄像机的位置不同会导致同一个人同一个动作的关节点的坐标值相差很大。考虑到人的姿态主要是由人体各部分之间的相对位置来决定的,若在人体上取一个运动相对稳定的点作为参照点,计算各关节点相对于这点的相对坐标,可以消除人和摄像机的相对位置不同而造成的影响。本文引入相对势能Ei,t来表示关节点之间的相对位置信息。选择头部关节点Ph,t作为零势能参照点效果较好且便于计算,人体姿态势能定义如下

Ei,t=L(|Pi,t-Ph,t|)

(3)

式中L为势能参数,取值9.8;Pi,t为t帧中第i个关节点位置;Ph,t为t帧中头部关节点即零势能参照点位置。

1.4 关节角特征

四肢关节角作为一种识别特征是非常直观有效的。本文根据人体运动规律定义了6个最具代表性人体关节角。

图1 关节角示意

如图1所示θ4和θ2表示左、右手大臂与小臂形成的夹角,θ5和θ6分别表示左、右腿大腿与小腿的夹角,θ1和θ3分别表示左、右手大臂与躯干形成的夹角。关节角计算方法如下

(4)

式中θn,t为Ft帧中第n个关节角;“·”符号为向量的内积;“| |”表示向量的模;α和β分别为关节角对应向量。

2 LSTM神经网络

选择LSTM神经网络[5]作为分类器对每个动作分类,利用特殊的调控机制存储长时间的信息,网络包括一个输入层、一个输出层、一个具有记忆块的隐含层。单独的记忆单元块,包含4个特殊的神经元:输入门、记忆细胞、遗忘门和输出门。根据前述特征描述,网络的输入为由4个特征组成的行向量

xt=[EK1,t…EK20,t,φ1,t…φ20,t,E1,t…E20,t,θ1,t…θ6,t]

(5)

式中EKi,t,φi,t,Ei,t分别为动能特征、方向特征、势能特征,t=1,…,T;T为动作的总帧数;i=1,…,20为每帧的特征值个数;θn,t为关节角度特征;n=1,…,6为关节角的个数。

输出门、输入门和遗忘门均选用Sigmoid激活函数,记忆细胞选用Tanh激活函数。

如图2,给出了整个LSTM神经网络。本文网络中,共114个输入神经元,一个记忆块,20个输出神经元(每个神经元对应每个动作类别)。在每个时间步长中,输入神经元的值是混合关节特征组成的行向量。随后,基于上一个时间步长的存储单元值和当前时间步长的输入值,计算记忆单元与各个门之间的激活值,然后将激活值传送至输出层,通过输出层的激活函数Softmax得出输出值。每个输出的神经元加权过后应用于Softmax激活函数,可以确保输出的总和等于1。最后,通过网络预测将最高输出的神经元的值对应相应的类别。

图2 LSTM神经网络

3 实 验

3.1 数据库

本文在MSR Action 3D数据库上进行实验, 数据库包含了20个动作类别,由10个人演示。每个动作演示2~3次,从RGB-D视频中提取3D人体位置的20个关节,包含了567个序列,在实验中因为其中有10个序列的骨骼点缺失或错误太严重,不使用。进行了2组实验,在第一组实验,从所有序列中选择1,3,5,7,9实验者作为训练,剩余的实验者作为测试;第二组实验,与文献[6]相似,将数据库分为AS1,AS2,AS3。AS1和AS2掺杂了一些相近的动作,而AS3将各类动作组合在一起。

3.2 结果与分析

将本文方法与其他最新基于骨骼特征的行为识别方法相比较。实验结果表明:仅使用关节轨迹[7]作为特征对MSR Action 3D数据库分类准确率为89 %,仅采用关节点位置[8]信息作为特征识别率为78.97 %,文献[9]将关节角度与深度图像相融合进行分类,准确率提高至85.35%。本文采用混合关节作为特征利用LSTM神经网络进行分类,识别率达到了93.3 %。本文方法得出的特征表达更加具有描述性。

图3给出了在实验1设定下重复实验得出的混淆矩阵。从混淆矩阵中可以发现20个类中有14个类的识别率达到了100 %,但挥手、锤击、画叉、画圈和网球罚球这几个动作却有着明显的混淆。发现错误分类主要发生在一些非常相似的行为。例如,动作挥手主要是被误分类为高抛,动作锤击被误分类为画勾。这些动作有很多重叠的序列,区分这些行为是项目的关键技术。

图3 MSR Action 3D数据分类混淆矩阵

由表1可以看出本文提出的方法在某些方面要于方法文献[10~12]。尽管文献[11,12]在AS3和AS2的数据集上取得了最好的结果,但本文方法相对于AS1拥有更高的识别率,在其他2个数据集上的表现亦较好,说明对于各种数据本文方法具有一定的鲁棒性。

表1 MSR Action 3D(实验2设定)的动作分类识别率 %

4 结束语

提出了一种新的人体骨骼特征。根据人体生物学和运动学提取人体的动能特征、姿态势能、方向变化特征以及关节角度特征构成混合关节特征,然后利用LSTM神经网络作为分类器进行分类和识别。结果表明:运用混合关节特征和LSTM分类器的效果优于现有的行为识别方法,具有良好的研究价值和应用前景。未来工作方向是提取与环境有关的特征,实现对与人体发生交互物体的识别,并考虑人体与周围环境的交互信息,进一步提高行为识别的准确性和适用性。

[1] Ofli F,Chaudhry R,Kurillo G,et al.Sequence of the most infor-mative joints(SMIJ):A new representation for human skeletal action recognition[J].Journal of Visual Communication and Image Representation,2014,25(1):24-38.

[2] Lin S Y,Shie C K,Chen S C,et al.Human action recognition using action trait code[C]∥2012 The 21st International Confe-rence on Pattern Recognition (ICPR),IEEE,Tsukuba,Japan,2012:3456-3459.

[3] Papadopoulos G T,Axenopoulos A,Daras P.Real-time skeleton-tracking-based human action recognition using kinect data[M].Multi-Media Modeling,Springer International Publishing,2014:473-483.

[4] Khoshhal K,Aliakbarpour H,Quintas J,et al.Probabilistic LMA-based classification of human behavior understanding using power spectrum technique[C]∥2010 The 13th Conference on Information Fusion,IEEE,UK,2010:1-7.

[5] Gers F A,Schmidhuber J,Cummins F.Learning to forget:Conti-nual prediction with LSTM[J].Neural Computation,2000,12(10):2451.

[6] Eweiwi A,Cheema F,Bauckhage C,et al.Efficient pose-based action recognition[C]∥Proceedings of Asian Conference on Computer Vision,Singapore,2015:428-443.

[7] Amor B B,Su J,Srivastava A.Action recognition using rate-invariant analysis of skeletal shape trajectories[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):1-13.

[8] Xia L,Chen C C,Aggarwal J K.View invariant human action recognition using histograms of 3D joints[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,Xi’an,China,2012:20-27.

[9] Ohnbar E,Trivedi M M.Joint angles similarities and HOG 2 for action recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,Tianjin,China,2013:465-470.

[10] Li W,Zhang Z,Liu Z.Action recognition based on a bag of 3D points[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,San Francisco,USA,2010:9-14.

[11] Vemulapalli R,Arrate F,Chellappa R.Human action recognition by representing 3D skeletons as points in a lie group[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,OH,USA,2014:588-595.

[12] Du Y,Wang W,Wang L.Hierarchical recurrent neural network for skeleton-based action recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015:1110-1118.

猜你喜欢

关节点势能动能
“动能和势能”知识巩固
作 品:景观设计
——《势能》
“动能和势能”知识巩固
新动能,源自创新力
“动能和势能”随堂练
基于深度学习和视觉检测的地铁违规行为预警系统研究与应用
关节点连接历史图与卷积神经网络结合的双人交互动作识别
为构建开放创新新高地增添动能
“金企对接”转换旧动能
澎湃新动能