基于时空兴趣点的单人行为及交互行为识别

2015-06-14王世刚孙爱朦赵文婷惠祥龙

吉林大学学报（工学版） 2015年1期

王世刚，孙爱朦，赵文婷，惠祥龙

(吉林大学通信工程学院，长春130012)

0 引言

人体行为识别是计算机机器视觉、模式识别研究领域的一个非常重要的研究方向［1－3］，近年来，已经在视频监控、病人监控及人机交互等很多领域内得到广泛的应用。一般来说，人体行为识别可以分为以下的几个基本过程:底层的特征提取和运动表征、简单动作识别;高层的复杂行为和场景理解等［2］。

大部分研究在分析双人交互行为时都先分析单人原子行为，再分析双人行为。例如Park 等［4］采用贝叶斯网络识别单个人体部分的姿态，然后建模单人原子行为，最后创建描述交互行为的决策树。Ryoo 等［5］将交互行为分为人体部分提取层、姿态层、单人动作层和交互行为层。韩磊等［6］将两人的交互行为识别分为底层采用概率图模型建模单人原子行为。本文认为，双人交互行为同单人行为一样，可以被看做是一个整体的行为，在识别时不需要将两人单独进行研究，所以本文提出一种将交互行为作为一个整体的人体行为的识别方法，既可用于单人行为识别又可用于双人交互行为识别。最后，通过实验验证了本文方法。

1 时空特征的提取

1.1 时空特征点的提取

在空间域内提取兴趣点有很多种方法，比如比较常见的Harris 角点检测方法［7］。该方法认为，角点为图像中正交方向上梯度向量比较大的点。该梯度向量由以下公式获得:

式中:(x，y)为空间坐标信息，g(x，y)是高斯平滑函数。

通常空域中的兴趣点只包含图像中的空域信息，而没有图像的运动信息，这对人体行为的特征表示而言是非常重要的。Laptev 等［8］将Harris 的角点检测思想扩展到了时域，该方法认为，时空角点是在x、y、t 三个方向正交向量上比较大的点(t为时间轴信息)，但是该方法无法提取到足够丰富的时空兴趣点。而Dollár 等［9］所提出的时空兴趣点检测方法，能够提取出丰富的时空兴趣点，所以在本文中采取了Dollár 的时空兴趣点检测方法。其响应函数为:

式中:g(x，y;σ)是一个二维的高斯平滑核，作用于空间维度，其公式为:

hev(t;τ，ω)与hod(t;τ，ω)是一对一维的高斯平滑核，作用于时间维度，其公式为:

实验中，ω=4/τ，σ=1，τ=10。图1 表示挥手、跑步、握手、踢腿的兴趣点检测结果。红色点即为检测出的时空兴趣点。

图1 时空兴趣点检测结果Fig.1 Spatio－temporal detection results

1.2 双人交互行为时空点集的选取

时空兴趣点可以正确地表示视频序列中具有明显运动的区域，值得注意的是，当两人进行双人交互行为时，那些包含信息量最大的兴趣点通常是在两人有接触时，即两个人体剪影区域C1、C2连通时，以及连通前后一段时间的视频序列中。本文认为这一部分的信息才是两人交互行为中最关键的信息，所以本实验中只取这一部分的时空兴趣点。

设视频序列的时空兴趣点集为P={p1，p2，…，pn}，这里n 代表所有特征点的个数。

(1)视频序列中有两个互不连通人体剪影的区域C1、C2，若在t=a 时即第a 帧图像中只有一个连通区域S，在t=b(b ＞a)时即第b 帧图像中，又重新出现两个连通区域C1、C2。则可以得到:

(2)若在整个视频序列中，始终有两个互不连通的人体剪影区域C1、C2。这是因为某些交互行为比如挥拳或踢腿发生时会有闪躲发生，两人并没有接触到。针对这种情况，选取一个中心时间:

则可以得到:

式中:ε1、ε2为尺度参数，决定连通前后的视频所取帧数的多少。

选取的时空兴趣点集时间轴上的范围为{Pt1，Pt1+1，…，Pt2－1，Pt2}。在本文中，用pi={xi，yi，ti}来描述时空兴趣点，xi，yi为兴趣点的二维空间坐标，ti为兴趣点的时间量值。也就是说，本文只采用了兴趣点的坐标信息，这样做可以在很大程度上减少时空单词的维度，提高运算速度。

由式(7)可以看出，η 是与连通帧数b－a 成反比的，也就是说，连通帧数越多，该连通部分时空兴趣点所含的信息量越多，足以区分不同的行为所需要的连通前后的帧数越少;若连通的时间越少，连通部分的时空兴趣点所含信息量不足以区分不同的行为，则所需要的连通前后的帧数越多。

2 时空单词的生成及行为模型建模

高斯混合模型是一种聚类算法，按一定的概率将样本划分给不同的类，一般用于视频背景的生成及前景的提取。在本文中，将其应用于时空兴趣点的聚类，生成时空单词。再对时空单词进行聚类，产生最终的高斯混合模型，即行为模型的建模。

对于不同人的相同行为动作，由于行为尺度的不同，所得到的时空单词也会不同，即高斯混合模型的聚类中心μ1，μ2，…，μk的坐标位置会有轻微的差异。但是本文认为该差异只在一定范围内浮动，高斯混合模型能够找到这种浮动的概率范围，所以再次采用高斯混合模型来对时空单词进行聚类，即行为的高斯混合模型建模。

2.1 GMM 及其参数估计

高斯混合模型的公式如下:

式中:参数θ 包含2 个高斯模型的参数:均值μk和协方差Σk这两部分;K 为聚类的种类数;服从高斯分布，表示点xi属于第k 类的概率密度函数;πk表示某一个点属于第k 类的概率;p 为点xi的维度，在本实验中p=3。即点xi包含兴趣点的x，y，t 方向的坐标值信息。

由于样本的分类即模型参数未知，需要对高斯混合模型的参数进行估计，这里采用EM 算法对其进行估计。在GMM 建模中，EM 算法的公式为:

这样就得到了高斯混合模型中的各个参数。

2.2 时空单词的生成

由于时空特征点集里的点都是一些散乱无关的点，所以需要对这些时空兴趣点进行统计，生成时空单词。大部分研究者采用K－means 聚类算法［3，6］来对时空兴趣点进行聚类，这种方法将点强硬地分配给各个聚类中心，没有考虑其概率分布，不符合实际情况。高斯混合模型是按一定的概率将点分配给各个聚类中心，所以本文采用高斯混合模型对时空兴趣点进行聚类，生成时空单词。为保证时空兴趣点的平移与缩放的不变性，本文对所有时空兴趣点进行归一化。

归一化后的时空兴趣点集为:将X=(x1，x2，…，xn)作为EM 算法的输入带入式(13)～(17)中，得到第一次高斯混合模型的参数。取所得高斯模型的中心点M={μ1，μ2，…，μk}做为时空单词，本文中，k双人=90。

图2 分别是挥手、跑步、握手、踢腿的时空兴趣点聚类结果及其聚类中心。

图2 各种动作聚类结果及中心Fig.2 Clustering results and clustering centers of different behaviors

2.3 行为模型建模

得到行为库中所有的时空单词后，要对其进行高斯混合模型训练。设行为库中某一行为的所有时空单词集为:

式中:N 为该行为的训练集视频个数。将其带入式(13)～(17)中，训练得到该行为最终的高斯混合模型:

对行为库内每种行为的MN进行GMM 训练，则可得到每一种行为的高斯混合模型。最后采用匹配的方法进行行为识别，将待测试视频的时空单词输入到每一个GMM 中，符合该行为的高斯混合模型将得到最大值，则可判断该视频为哪一种行为。

3 实验结果及分析

本文采用Weizmann 行为数据库(单人行为)，UT 行为数据库(双人交互行为)及拍摄的若干单人行为和双人交互行为视频，对本文算法进行测试及验证。单人行为有10 种:bend(弯腰)，jack(挥手+跳)，jump(向前跳)，pjump(原地跳)，run(跑)，side(横向步行)，skip(单腿跳)，walk(走)，wave1(单手挥手)，wave2(双手挥手)。双人行为有5 种:拥抱，踢腿，挥拳，握手，推。在实验中，每种行为都取公开行为库中的5 个与自己拍摄的20 个视频片段作为训练集，用来训练高斯混合模型，其余的视频片段作为测试集，每种行为视频45 个。表1、表2 为实验结果。

由于本实验中，只采用了时空兴趣点的坐标信息，所以对归一化的要求比较高，归一化的效果直接影响到实验结果的准确度。本文中归一化的结果依赖于前景的提取，而双人行为时，很难训练得到很好的背景，以至于无法提取到很好的前景区域，这是导致双人行为识别准确率不高的一个重要原因。

表1 单人行为检测结果Table 1 Result of single behavior recognition

表2 双人交互行为检测结果Table 2 Result of interactive behavior recognition

4 结束语

针对人体行为识别问题，提出了一种基于时空兴趣点的高斯混合模型聚类信息的人体行为识别方法。该方法分三层:特征提取层，特征表示层与行为表示层。通过提取视频中的时空兴趣点，对其进行GMM 聚类得到时空单词，再通过训练得到时空单词的GMM 模型来达到行为识别的目的。虽然本文方法双人交互行为识别正确率不高，但是本文方法可以通用于单人与双人交互行为识别，且比其他的双人交互行为识别方法减少了一个层次的分析，使算法更为简洁，并得到了较为理想的实验效果。由于本文方法只采用了时空兴趣点的坐标信息，对归一化的要求较高，需要较好的归一化结果以达到较高的识别正确率，且需要大量的训练视频以提高训练得到的GMM 模型的准确度，并且本文没有考虑复杂场景或多组行为场景的情况，这些都是我们下一步要解决的问题。

［1］Candamo J，Shreve M，Goldgof D B，et al.Understanding transit scenes:a survey on human behavior－recognition algorithms［J］.IEEE Transactions on Intelligent Transportation Systems，2010，11(1):206－224.

［2］吴联世，夏利民，罗大庸.人的交互行为识别与理解研究综述［J］.计算机应用与软件，2011，28(11):60－63.Wu Lian－shi，Xia Li－min，Luo Da－yong.Survey on human interactive behavior recognition and comprehension［J］.Computer Applications and Software，2011，28(11):60－63.

［3］Ryoo M S，Aggarwal J K.Spatio－temporal relationship match:video structure comparison for recognition of complex human activities［C］∥IEEE 12th International Conference on Computer Vision，2009:1593－1600.

［4］Park S，Aggarwal J K.A hierarchical Bayesian network for event recognition of human actions and interactions［J］.ACM Journal of Multimedia Systems，Special Issue on Video Surveillance，2004，10(2):164－179.

［5］Ryoo M S，Aggarwal J K.Recognition of composite human activities through context－free grammar based representation［C］∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2006:1709－1718.

［6］韩磊，李君峰，贾云得.基于时空单词的两人交互行为识别方法［J］.计算机学报，2010，33(4):776－784.Han Lei，Li Jun－feng，Jia Yun－de.Human interaction recognition using Spatio－Temporal words［J］.Chinese Journal of Computers，2010，33(4):776－784.

［7］Harris C，Stephens M.A combined corner and edge detector［C］∥Proceeding of the 4th Alvey Vision Conference，1988:147－151.

［8］Laptev I，Lindeberg T.Space－time interest points［C］∥Proceedings of Ninth IEEE International Conference on Computer Vision，2003:432－439.

［9］Dollár P，Rabaud V，Cottrell G，et al.Behavior recognition via sparse spatio－temporal features［C］∥Proceedings of 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance，2005:65－72.