一种基于光流场的群体运动特征描述子

2016-12-22范九伦

西安邮电大学学报 2016年6期

关键词：特征描述流场聚类

郝羽, 刘颖, 范九伦

(1. 西安邮电大学计算机学院，陕西西安 710121； 2. 西安邮电大学通信工程学院，陕西西安 710121)

一种基于光流场的群体运动特征描述子

郝羽1, 刘颖2, 范九伦2

(1. 西安邮电大学计算机学院，陕西西安 710121； 2. 西安邮电大学通信工程学院，陕西西安 710121)

为了实现公共区域中的群体异常行为的自动识别，提出一种基于光流场向量的人群运动特征描述子。通过从视频中提出的光流场信息，用位置、运动向量、运动方向和运动强度4个维度构建描述子，使用K聚类算法对描述子进行聚类处理，并对K聚类之后的结果进行了运动角度与强度数据的合并处理，最终获得能够描述场景中人群的全局运动特征。在试验中，使用提出的描述子进行了异常行为检测，并与类似的异常检测算法进行了比较，获得了较好的异常检测效果。

视频处理;行为检测;光流

1 相关研究介绍

公共区域中的斗殴及踩踏等突发危害性行为严重威胁了市民的安全。如果此类行为能够被预测，或在发生时自动将警报发送至公共安全部门，就可能避免进一步的伤亡。由于城市中绝大部分区域都安装了摄像装置，从中获取到的视频流能够被用于实时自动分析，并警告异常，监控人员就能够立即对突发事件进行确认。从而使有关部门能够进行更加有效的行动，以减少事故的危害。

在作者之前的研究中，提出了一种能够快速检测出人群中出现恐慌类型异常行为的方法[1]。文中提出的异常行为检测系统使用了包含阶段或模块如特征提取、模型训练、异常检测与行为匹配步骤的结构，图1给出了检测方法的系统结构图。

检测方法的主要思想是：对于恐慌行为，场景中人群的运动速率在异常事件发生前后存在着剧烈变化。在恐慌情况下，运动相对强度(以下简称强度)大于普通状态。对于单个个人，分析其运动变化可能会存在着较大误差，由于相比于噪音，其变化值并不大。然而，全局的强度变化则较为明显，通过比较计算场景中所有运动强度绝对值之和，可以观察到所构造特征的显著变化。如图2所示，在群体恐慌状况下，总体强度值急剧增加，

很容易判断出恐慌状态是否已经发生。

图1 群体异常行为检测框架

图2 由文献[1]检测方法所得结果

文[1]提出的方法使用了UMN[2]数据库来验证探测的准确度。这里截取了11个检测结果的前6个，如图3所示。

在图3中，虚线标记了实际发生的异常恐慌行为，实线标记了算法的检测结果。可以观察到虽然总体上每段视频中的恐慌都能够被成功检测出，然而与实际标记出的真实异常并不能完全匹配。图4中第3～6个结果立即检测到了恐慌的发生，然而随着场景内行人的数量迅速减少，图像中的总体运动强度小于训练得到的阈值，导致异常没有被发现。另外,由于虚线所示的实际异常是人为标记的原因，存在不准确的状况。

图3 文献[1]算法对UMN数据集的检测结果

λ2-τλ+Δ=0

的解。然后，通过本征值获得两个用于判断当前全局状况的Δ与τ值。在检测阶段，可以通过Δ与τ的值来对5种不同情况进行匹配，获取关键点ω*周围的场景结构。例如当Δ>0且τ<0时，场景可以归类为瓶颈型。

这种方法虽然能够对场景的整体结构进行判断，却不能获得局部的具体细节，因此如果出现了相对较为复杂的场景结构，此方法可能会出现无法正确检测到场景细节结构的情况。

本文拟在利用全局流特征对人群恐慌行为进行快速检测的方法[1]的基础上，提出一种基于光流场向量的人群运动特征描述子，使用该描述子对群体异常行为进行检测实验，并将实验结果与其他方法进行比较。

2 基于光流场的群体运动特征描述子

特征描述子的基本构建与处理的流程是：首先，提取当前图像中的光流场；其次，根据运动方向、空间位置等基础信息进行对特征描述子的构建；再次，对描述子进行聚类处理；最后，将聚类处理后的每个聚群进行整合，得到当前场景中的全局运动特征，如图4所示。

图4 特征描述子的构建与处理流程

2.1 光流特征提取

对于光流特征场的提取，可以采用传统的HS[4]或LK[5]等光流场方法，光流场的提取方法不是本文的重点，这里不再赘述。

2.2 描述子的构建

文[6]中使用了光流场中采样点的运动方向与强度作为衡量特征，而本文中采用了4种特征进行描述子的构建，可表示为

Di,j=[si,j,vi,j,Ai,j,li,j]。

(1)

其中si,j代表当前采样点在图像中所处的位置，考虑到在恐慌的异常群体行为中，临近人群的行为往往具有更多的相似性，因此将采样点的位置信息引入了描述子，以便于在之后的聚类工作中将临近且行为相似的人群聚为一类。vi,j代表采样点当前光流场向量在水平与竖直方向上的分量，Ai,j代表当前采样点光流场向量与水平方向夹角，都描述了当前采样点的行为特征，这2种信息对场景中相对细节的运动特征分类起了较为重要的作用。li,j代表当前采样点的运动强度，该特征主要为了防止背景中的噪音，尽量保证运动人群与运动的背景不被归为一类。

2.3 对描述子的聚类

在完成对描述子的构建之后，就可以采用多种聚类方法对描述子进行聚类，例如GMM或SVM等方法。为了保证运行速度，采取了速度较快的k均值算法对描述子进行聚类，k的值根据场景的实际复杂程度进行设定。

2.4 对聚类的结果进行合并

聚类结束后，分别对每一个聚群进行合并，对同一个聚群中的所有采样点的角度与运动强度进行整合，最终每一个聚群得到一个向量特征，可表示为

(2)

其中，m为每个聚群中假定的样本个数，li,j,n表示第n个样本的运动强度，Ai,j,n表示第n个样本的光流场向量沿水平方向的夹角。

至此提出的基于光流场向量的人群运动特征描述子的构建与处理过程全部执行完毕，最终得到了k个能够描述当前场景中全局运动状态的特征向量。

3 实验结果

使用UMN数据集来对新提出的特征向量进行实验。首先根据之前提出的特征描述子构建方法流程对数据进行处理，得到的结果如图5所示。

图5(a)是原视频图像，可以注意到行人在按照不同方向行走。图5(b)是通过光流算法提取出的光流场，可以观察到光流场反映了原视频图像中各个行人的运动情况。图5(c)是通过k均值聚类对特征描述子进行聚类的结果，一般情况下可以将全方位的运动方向粗分为8个，为避免噪音增加了2个方向，因此本实验中k的值被固定设定为10，即将全部的描述子分为了10个聚群，直方图的纵轴反映了各个聚群包含的特征描述子数量。图5(d)反映了原视频图像中各采样点所属的聚类，使用不同灰度的方格进行了区分。通过与原视频图像对比，可以观察到聚类大致准确地反映了全局的运动特征。

接着通过式(2)对聚类结果进行处理，可以得到10个用于描述场景全局运动的向量特征，如图6所示。

图6(c)是聚类之后的结果，对此结果使用式(2)进行合并，则得到图6(a)中的10个运动向量。注意到图6(a)中存在若干个强度较小的向量，对应聚类结果图6(a)来看，这些向量大多对应图像中的背景区域，由于此类区域理论上不存在光流，因此这类小强度向量实际是由噪声产生的。图6(b)中通过设定阈值将其进行了过滤，得到合并后的最终特征图。

图5 UMN数据集处理结果

图6 合并后得到的向量特征

得到描述场景全局运动的向量特征后，设定一个阈值用于对向量进行衡量，向量强度超过设定阈值的图像帧将被标记为异常。为了与文[1]中算法的进行对比，我们分别使用两种算法对相同视频进行了处理，得如图7所示的结果。

当值为0时表示正常，值为1时表示异常，其中虚线表示真实情况，实线表示算法侦测结果。图7中，上图是文献[1]中算法的侦测结果，下图是本文提出算法的侦测结果。由图中可以直观地看到本文提出的算法对异常的侦测准确率明显高于文[1]中提出的方法。而在第250帧左右出现的错误报警，由于是单帧出现，在实际应用中可以通过连续帧检测方法，进行去噪处理。接着比较了对4个UMN数据集中群体异常行为的检测准确率，实验结果如表1所示。其中算法1表示文[1]中提出的算法，算法2表示本文中提出的算法，数值代表检测准确率。通过比较可知，除了第三组数据的检测准确率略低外，其他均优于算法1。

(a) 文献[1]算法侦测结果

(b) 本文所给算法侦测结果

算法UMN1UMN2UMN3UMN4算法177．93%83．56%85．74%82．25%算法280．52%84．33%84．96%89．71%

4 结语

从视频图像信息提取光流场信息，通过提取信息中的位置、运动速度、运动方向及运动强度构建描述子；然后利用k聚类算法，对运动方向和运动强度合并处理，给出了对公共区域中群体异常行为特征判断的一种方法。模拟实验表明，该方法是一种相对较准确的表述和处理方法。

实际视频特征是二维图像随时间发生变化。把时间维度作为参数，研究视频图像在时间与空间上的关联性[7]，利用本文的方法，结合全局流特征建立一种与时间有关的描述子，有望进一步加强群体异常行为探测系统的性能，增强对群体异常行为判断的准确性与适应性。

[1] HAO Y, XU Z J, WANG J, et al. An Approach to Detect Crowd Panic Behavior using Flow-based Feature[C/OL]//The 22nd International Conference on Automation and Computing, 2016.

[2] UMN.UMN Crowd Dataset[EB/OL]. [2016-05-15〗.http://mha.cs.umn.edu/proj_ events.shtml#crowd.

[3] SOLMAZ B, MOORE B E, SHAH M. Identifying behaviors in crowd scenes using stability analysis for dynamical systems[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):2064-2070[2016-06-12].http://dx.doi.org/10.1109/TPAMI.2012.123.

[4] HORN B K P, SCHUNCK B G. Determining optical flow[J/OL]. Artificial Intelligence,1981,17(1-3): 185-203[2016-06-12]. http://dx.doi.org/10.1016/0004-3702(81)90024-2.

[5] LUCAS B, KANADE T. An Iterative Image Registration Technique with an Application to Stereo Vision[C/OL]//IJCAI'81 Proceedings of the 7th International Joint Conference on Artificial intelligence:Volume 2. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1981:674-679[2016-06-06].http://dl.acm.org/citation.cfm?id=1623280.

[6] KRAUSZ B, BAUCKHAGE C. Loveparade 2010: Automatic video analysis of a crowd disaster[J/OL]. Computer Vision and Image Understanding, 2012,116(3):307-319[2016-06-06].http://dx.doi.org/10.1016/j.cviu.2011.08.006.

[7] WANG J, XU Z J. STV-based video feature processing for action recognition[J/OL].Signal Processing, 2012, 93(8):2151-2168[2016-06-08].http://dx.doi.org/10.1016/j.sigpro.2012.06.009.

[责任编辑:陈文学]

A crowd behavior feature descriptor based on optical flow field

HAO Yu1, LIU Ying2, FAN Jiulun2

(1.School of Computer Science and Technology, Xi’an University of Posts and Telecommunications, Xi’an 710121, China;2.School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China)

On the purpose of achieving the automatic recognition of crowd behavior abnormality in public field, a crowd behavior feature descriptor based on optical flow field is proposed. This descriptor is modeled from the extracted optical flow information with four dimensional data including coordination, motion vectors, orientation and magnitude, and clustered with K-mean cluster algorithm, then converged by orientation and magnitude, to obtain the feature which can describe the global motion feature of the crowd. In the following experiments the proposed descriptor successfully described the motion feature in video, finally an experiment is conducted by comparing the detection result with other algorithms, which proves the proposed algorithms abtains better anonaly detection performance.

video processing, behavior detection, optical flow

10.13682/j.issn.2095-6533.2016.06.011

2016-09-01

国家自然科学基金资助项目(41504115,61202183);陕西省教育厅科学研究计划资助项目(14JK1680)

郝羽(1986-)，男，博士研究生，研究方向为人群异常行为分析。E-mail:haoyu@xupt.edu.cn 刘颖(1972-)，女，博士，高级工程师，从事图像和视频处理研究。E-mail: ly_yolanda@sina.com

TP181

2095-6533(2016)06-0055-05