基于图像熵的密集人群异常事件实时检测方法*

2016-10-12潘磊

计算机与生活 2016年7期

关键词：光流二值实时性

潘　磊

1.中国民用航空飞行学院计算机学院，四川广汉 618307 2.四川大学计算机学院，成都 610065

基于图像熵的密集人群异常事件实时检测方法*

潘磊1,2+

1.中国民用航空飞行学院计算机学院，四川广汉 618307 2.四川大学计算机学院，成都 610065

PAN Lei.Real-time detection method of abnormal event in crowds based on image entropy.Journal of Frontiers of Computer Science and Technology,2016,10(7)：1044-1050.

在智能视频监控领域，为了提高密集人群中异常事件的检测效率，改善已有算法在实时性和适用性方面的不足，提出了一种实时高效的检测方法。该方法首先提取图像的全局光流强度作为运动特征，并构造全局光流强度的图像化表达；然后利用图像熵进行分析，获取正常状态下图像熵的统计参数；最后确定正常状态的可信区间和自适应的异常判定公式，从而判断异常事件是否发生。实验结果表明，该算法对尺寸为320×240像素的视频，平均每帧的检测时间低至0.031 s，且准确率可达96%以上，具有较高的检测效率，且实时性较好。

智能视频监控；密集人群；异常事件检测；全局光流图；图像熵

1　引言

近年来，各类重大群体性异常事件的可能性显著增加，公共安全问题日益受到国家重视。智能视频监控（intelligent video surveillance，IVS）[1]作为公共安防领域的关键技术，被广泛研究和普遍推广。该技术融合了图像处理、模式识别及人工智能等多个学术领域，是计算机领域的研究热点之一。

群体性异常事件（如恐怖袭击、拥挤踩踏等）通常发生在人员高度密集的场所。所谓密集人群场景，指的是人员密集、流量较大的公共场所。从视频处理的角度来看，群体中的个体运动存在随机性和无序性，无法提取出有序、规律的运动模式；场景中的复杂背景动态变化，且遮挡严重，背景差分和显著点检测等经典算法都不适用，故很难对个体进行有效的运动检测；此外，由于异常事件的发生率极低，样本少，且形式迥异，不能穷举，无法利用异常样本来训练出异常事件的表达。因此，密集人群场景下的异常事件检测充满着挑战。

虽然各类异常事件的形式迥异，难以用统一的标准来衡量，但是人都具有趋利避害的本能，当异常事件产生时，人会本能地做出一些反应。这表现为：异常状态下，人群的运动要比正常情况更为剧烈。因此，通过分析人群的运动特征来检测异常事件是可行的。

异常事件检测的算法主要包含4个步骤。

（1）视频预处理：减少视频图像中的干扰信息或冗余，如模糊、噪声等，提高图像质量。

（2）特征提取：从视频流中提取恰当的特征来表征事件，如光流[2]、轮廓[3]、时空轨迹[4]等。大多数学者采用光流法来描述运动特征，也有学者将多类特征加以组合，包括目标尺寸[3]、速度[5]、混合动态纹理[6]等。

（3）模型的建立：从提取的特征中建立描述人群和基本事件的模型。主流的描述模型有3类，粒子模型（particle model）[7]、流体动力学模型（fluid dynamical model）[8]和代理人模型（agent-based model）[9]。

（4）异常检测：设置特定的判定标准来衡量是否发生了异常事件。典型的推断算法包括隐马尔科夫模型（hidden Markov model，HMM）[10]、条件随机场模型（conditional random field，CRF）[11]以及动态贝叶斯网络（dynamic Bayesian network，DBN）[4]等。也有学者采用SVM（support vector machine）[12]和神经网络[13]进行模式分类。

目前，现有的检测方法还存在适用性和实时性两方面不足：一方面，由于异常事件的多样性和场景的复杂性，描述人群和异常事件的数学模型具有一定的局限性。例如，流体动力学模型[8]和混合动态纹理模型[6]在某些场景下会失效，因此建模与场景相关，缺乏广泛的适用性。另一方面，由于异常事件在较短时间内可能会造成较高的危害，这要求算法应具备实时在线处理能力，而现有的各类方法，均未考虑到实时性要求，特别是SVM[12]、神经网络[13]等算法的复杂度较高，实时性较差。

因此，针对现有检测方法在实时性和适用性方面的不足，本文提出了一种基于光流特征和图像熵的实时检测算法。考虑到算法的实时性要求，采用光流来表示场景的运动特征。由于光流算法既不需要分离前景，也不需要背景建模，很适合背景复杂、遮挡严重的密集场景，对各类场景都具有良好的适用性。同时，基于全局光流的图像熵计算复杂度较低，计算特征的时间代价较小，且异常事件发生前后，全局光流的图像熵变化较为明显，故本文算法在保证实时性的同时，还具备良好的检测性能。

本文算法具有以下几方面的优点：首先，算法具有较高的实时性，对异常事件的反应时间可达几十毫秒级别；其次，算法与场景无关，不需要对特定场景建模，具备较广泛的适用性；另外，算法具有较低的复杂度，容易移植和部署到现有的监控系统中；最后，算法的准确率可以达到其他经典算法的平均水平。

本文的贡献主要有两个方面：第一，将图像熵引入到人群异常事件检测。第二，提出了一种全局光流的图像化表达方法。

2　基本思路和步骤

本文算法的基本思路是：首先将每一帧输入图像的光流场作为运动特征，利用阶跃函数去除静态噪声，获取光流场的二值分布，构造全局光流图；其次逐帧求图像熵，从而得到每一帧的信息量；然后统计正常状态下图像熵的期望值和标准差，进而设定正常状态下的异常判定公式；最后设定合适的滑动检测块，当检测块的均值超出可信区间范围，则判定异常事件发生。

2.1光流的计算

虽然光流算法很适用于人群密集场景的表示，然而光流法容易受噪声干扰，因此在后续处理中，将采取措施，消除静态噪声的影响。考虑到算法的实时性要求，本文结合Harris角点和金字塔Lucas-Kanade光流方法[14]来计算场景的稀疏光流场。

输入的视频图像尺寸为X×Y；检测当前图像的所有Harris角点作为特征点；然后运用金字塔Lucas-Kanade光流方法，取5×5的特征窗口，根据光流约束条件Ixu+Iyv+It=0求解特征点的光流(u,v)：

其中，Ix、Iy是图像的空间梯度；It是图像的时间梯度。

式（1）可求解如下：

在t时刻，图像中的每个特征点pi,t，其光流值强度hi,t为：

利用阶跃函数，获取光流场的二值分布。同时，设定合理的阈值ΘTH消除静态噪声干扰。则处理后的二值光流强度bi,t为：

2.2光流的图像化表达

光流强度变化越大，说明人群运动越剧烈，则发生异常事件的可能性就越大。从宏观的角度，为了准确度量整个场景的光流强度变化，本文提出了“全局光流图（global optical flow image，GOFI）”的概念，将式（4）处理后的光流，以圆点的形式加以描述，如图1所示。

Fig.1　Global optical flow image(r=3)图1　全局光流图(r=3)

GOFI的相关定义如下。

定义1 GOFI为8位的灰度图像，其尺寸与输入视频图像相同。

定义2 GOFI中，每个光流特征点px,y以圆点来表示，通过4个属性特征加以描述。其中，x、y表示光流点位置；r表示光流圆点的半径；h∈[0,255]表示归一化的光流强度。

定义3 GOFI中，若px,y的二值光流强度bx,y=0，则其r=0，h=255。

定义4 GOFI中，若px,y的二值光流强度bx,y≠0，则进行离差标准化：

其中，bx,y表示当前点的二值光流强度；bmax表示二值光流强度的极大值。

2.3图像熵的计算

熵（entropy）表示一个系统的无序程度。1948年Shannon将熵的概念引入到信息论中，表示系统（信源）的不确定性，用于衡量信息量的多少，称为“信息熵”。图像的信息熵度量称为图像熵，表示图像中信息量的多少。

由于GOFI包含了场景的大量运动信息，通过计算其熵值，可以准确量化人群的运动变化情况。当异常事件产生时，剧烈变化的场景，必然表现为GOFI熵值的急速上升，因此利用图像熵来检测异常事件是可行的。

对于灰度值为8位的图像，其一维熵的计算公式[15]为：

其中，pi表示图像中灰度值为i的像素点所占比例。

2.4异常事件的判定

本文的检测算法分为3个阶段：算法初始化阶段、正常检测阶段和异常事件检测阶段。

在算法初始化阶段，首先从监控视频的前w帧中确定最大的光流强度bmax，并以此作为归一化操作的样本极大值。然后根据式（5），对每一个光流点进行离差标准化。接下来根据式（6），计算每一帧的图像熵。

在正常检测阶段，考虑到异常事件具有极小的发生概率，而绝大多数时间都属于正常状态。因此，假设监控视频的前T帧图像都属于正常状态。根据式（6），计算并统计这T帧图像熵的均值μ和标准差σ。

在异常检测阶段，将每一帧的图像熵作为检测样本。考虑到在正常状态下，图像熵在一定的可信区间内波动，因此根据已知正常状态下的均值μ和标准差σ，确定正常状态的可信区间。当检测样本超出了可信区间范围，则认为异常事件发生。判定公式如式（7）：

其中，ε为松弛系数，决定了异常事件检测的敏感程度，ε越小，检测的敏感程度越高。因此，ε的取值与场景在正常状态下的人群运动剧烈程度相关。例如，在图书馆、咖啡厅等人群运动相对平稳的场景，通常取2≤ε<3；在广场、公园等人群运动不太剧烈的场景，通常取ε=3；在十字路口、地铁口等人群运动较为剧烈的场景，通常取ε>3。

式（7）中的各项参数都取决于场景中的正常状态，因此该异常判定条件具有自适应的特性。

为了减少噪声样本的影响，降低虚警率，可设定宽度为m的滑动检测块。检测样本被定义为连续帧的残差均值，即：

3　算法描述

步骤1检测算法的初始化。

输入：监控视频SV，初始化的终止帧数w，阈值ΘTH。

输出：图像熵H。

begin

1.for each frame inw

2.{计算每一帧图像的Harris角点，共N个；

3.for each point inN

4.{由式（2），计算每个特征点的光流(u,v)；

5.由式（3），计算每个光流点的强度h；

6.由式（4），计算二值光流强度b；}}

7.计算最大二值光流强度bmax；

8.for each frame

9.{for each point

10.{由式（5），计算标准化的光流强度h；}

11.由式（6），计算图像熵H；}

end

步骤2正常状态的检测。

输入：监控视频SV，终止帧数T，阈值ΘTH，最大二值光流强度bmax。

输出：图像熵的均值μ和标准差σ。

begin

1.for each frame inT

2.{计算每一帧图像的Harris角点，共N个；

3.for each point inN

4.{由式（2），计算每个特征点的光流(u,v)；

5.由式（3），计算每个光流点的强度h；

6.由式（4），计算二值光流强度b；

7.由式（5），计算标准化的光流强度h；}

8.由式（6），计算图像熵H；}

9.计算图像熵的均值μ和标准差σ；

end

步骤3异常事件的检测。

输入：监控视频SV，阈值ΘTH，滑动检测块宽度m，均值μ和标准差σ，松弛系数ε。

输出：异常事件的判定true。

begin

1.for each frame

2.{计算每一帧图像的Harris角点，共N个；

3.for each point inN

4.{由式（2），计算每个特征点的光流(u,v)；

5.由式（3），计算每个光流点的强度h；

6.由式（4），计算二值光流强度b；

7.由式（5），计算标准化的光流强度h；}

8.由式（6），计算图像熵H；

10.由式（7），判断异常事件；

11.if state==abnormal return true；}

end

4　实验与分析

本实验的硬件平台采用Intel i5 3.3 GHz+4 GB内存，软件平台为VS2010+OpenCV，选取了UMN Dataset[16]中的场景1、场景3和场景10以及PETS-2009 Dataset[17]中的场景1，总共4段视频作为测试对象，分别命名为UMN1、UMN3、UMN10和PETS1。本实验的内容包括：（1）异常事件的检测；（2）实验结果的分析。

4.1异常事件的检测

根据算法1、算法2和算法3，对4段视频分别进行异常事件的检测。设定初始化的终止帧数w=5，正常状态检测的终止帧数T=50，阈值ΘTH=1.5，滑动检测块宽度m=10，松弛系数ε=3.0。实验结果如图2～图5所示。

Fig.2　Abnormal detection for UMN1图2　UMN1的异常事件检测结果

Fig.3　Abnormal detection for UMN3图3　UMN3的异常事件检测结果

Fig.4　Abnormal detection for UMN10图4　UMN10的异常事件检测结果

Fig.5　Abnormal detection for PETS1图5　PETS1的异常事件检测结果

从图2～图5的实验结果可以看到，本文算法的准确率较高，在异常事件刚刚发生时，都检测到异常，并产生了报警，且均未出现漏检和虚警。

4.2实验结果的分析

UMN的图像尺寸为320×240像素，平均每帧的处理时间为0.031 s；PETS的图像尺寸为768×576像素，平均每帧的处理时间为0.078 s。由此可见，本文算法具有良好的实时性。

如表1所示，本文算法在4个场景下的准确率均达到了96%以上。如表2所示，本文算法与几种经典算法（贝叶斯模型算法BM[18]、混沌不变算法CI[19]、社会力算法SF[7]、稀疏重构算法SRC[20]）相比较，其准确率都处于前列。如表3所示，基于UMN Dataset[16]和UCSD Dataset[21]，本文算法与几种经典算法（贝叶斯模型算法BM[18]、混合动态纹理算法MDT[6]、稀疏重构算法SRC[20]）相比，实时性的优势明显。

Table 1　Accuracy of this paper method表1　本文算法的准确率

Table 2　Accuracy comparison of several methods表2　几种算法的准确率比较　%

Table 3　Real-time performance comparison of several methods表3　几种算法的实时性比较

5　结束语

本文提出了一种异常事件的实时检测算法，其核心思想是：构造全局光流强度的图像化表达，即全局光流图，并将其图像熵作为特征进行检测；分析正常状态下的统计参数；将异常事件看作是超出了可信区间的检测样本。经实验证明，本文算法既有良好的检测效果和较高的检测率，又具备较低的算法复杂度，实时性较好。

下一步的工作，将继续改进本文算法，使其能适用于多视点的异常事件检测。

[1]Ekpar F.A framework for intelligent video surveillance[C]// Proceedings of the 2008 IEEE 8th International Conference on Computer and Information Technology Workshops,Sydney,Australia,Jul 8-11,2008.Piscataway,USA:IEEE,2008: 421-426.

[2]Benezeth Y,Jodoin P M,Saligrama V,et al.Abnormal events detection based on spatio-temporal co-occurences[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition,Miami,USA,Jun 20-25, 2009.Piscataway,USA:IEEE,2009:2458-2465.

[3]Reddy V,Sanderson C,Lovell B C.Improved anomaly detection in crowded scenes via cell-based analysis of foreground speed,size and texture[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recogni-tion,Colorado Springs,USA,Jun 20-25,2011.Piscataway, USA:IEEE,2011:55-61.

[4]Zhao Beibei,Monekosso D N,Remagnino P,et al.Crowd analysis:a survey[J].Machine Vision and Applications, 2008,19(5/6):345-357.

[5]Wang Lijun,Dong Ming.Real-time detection of abnormal crowd behavior using a matrix approximation-based approach [C]//Proceedings of the 2012 IEEE International Conference on Image Processing,Orlando,USA,Sep 30-Oct 3, 2012.Piscataway,USA:IEEE,2012:2701-2704.

[6]Mahadevan V,Li Weixin,Bhalodia V,et al.Anomaly detection in crowded scenes[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition, San Francisco,USA,Jun 13-18,2010.Piscataway,USA: IEEE,2010:1975-1981.

[7]Mehran R,Oyama A,Shah M.Abnormal crowd behavior detection using social force model[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition,Miami,USA,Jun 20-25,2009.Piscataway, USA:IEEE,2009:935-942.

[8]Helbing D.A fluid dynamic model for the movement of pedestrians[J].Complex Systems,1992,6:391-415.

[9]Heliövaara S,Korhonen T,Hostikka S,et al.Counterflow model for agent-based simulation of crowd dynamics[J]. Building and Environment,2012,48:89-100.

[10]Andrade E L,Blunsden S,Fisher R B.Hidden Markov models for optical flow analysis in crowds[C]//Proceedings of the 18th International Conference on Pattern Recognition,Hong Kong,China,Aug 20-24,2006.Piscataway,USA:IEEE, 2006:460-463.

[11]Pathan S S,Al-Hamadi A,Michaelis B.Using conditional random field for crowd behavior analysis[C]//LNCS 6468: Proceedings of the 10th Asian Conference on Computer Vision,Queenstown,New Zealand,Nov 8-9,2010.Berlin, Heidelberg:Springer,2011:370-379.

[12]Wu Xinyu,Ou Yongsheng,Qian Huihuan,et al.A detection system for human abnormal behavior[C]//Proceedings of the 2005 IEEE/RSJ International Conference on Intelligent Robots and Systems,Edmonton,Canada,Aug 2-6,2005. Piscataway,USA:IEEE,2005:1204-1208.

[13]Hou Beiping,Zhu Wen,Ma Lianwei,et al.Moving target classification based on shape features from real-time video[J]. Chinese Journal of Scientific Instrument,2010,31(8):1819-1825.

[14]Jean B.Pyramidal implementation of the Lucas Kanade feature tracker description of the algorithm[R].Intel Corporation,Microprocessor Research Labs,2000.

[15]Entropy Wikipedia.Entropy[EB/OL].(2015-08-08)[2015-08-29].http://en.wikipedia.org/wiki/Entropy.

[16]University of Minnesota.Unusual crowd activity dataset of University of Minnesota[EB/OL].(2006-10-25)[2015-08-29].http://mha.cs.umn.edu/proj_events.shtml.

[17]Ferryman J,Shahrokni A.PETS2009:dataset and challenge [C]//Proceedings of the 2009 IEEE International Workshop on Performance Evaluation of Tracking and Surveillance, Snowbird,USA,Dec 7-9,2009.Piscataway,USA:IEEE, 2009:1-6.

[18]Wu Si,Wong H S,Yu Zhiwei.A Bayesian model for crowd Escape behavior detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2014,24(1):85-98.

[19]Wu Shandong,Moore B,Shah M.Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition,San Francisco,Jun 13-18,2010.Piscataway,USA:IEEE,2010: 2054-2060.

[20]Yang Cong,Yuan Junsong,Liu Ji.Sparse reconstruction cost for abnormal event detection[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition,Providence,USA,Jun 20-25,2011.Piscataway,USA:IEEE,2011:3449-3456.

[21]University of California.Crowd anomaly detection dataset [EB/OL].(2013-06-06)[2015-08-29].http://www.svcl.ucsd. edu/projects/anomaly.

附中文参考文献：

[13]侯北平,朱文,马连伟,等.基于形状特征的移动目标实施分类研究[J].仪器仪表学报,2010,31(8):1819-1825.

PAN Lei was born in 1982.He received the M.S.degree in computer science from Chongqing University in 2009. Now he is a Ph.D.candidate at College of Computer Science,Sichuan University,a lecturer at Civil Aviation Flight University of China,and the student member of CCF.His research interests include image processing and pattern recognition,etc.

潘磊（1982—），男，四川彭州人，2009年于重庆大学获得硕士学位，现为四川大学计算机学院博士研究生，中国民用航空飞行学院讲师，CCF学生会员，主要研究领域为图像处理，模式识别等。

Real-Time Detection Method ofAbnormal Event in Crowds Based on Image Entropyƽ

PAN Lei1,2+
1.College of Computer Science,CivilAviation Flight University of China,Guanghan,Sichuan 618307,China 2.College of Computer Science,Sichuan University,Chengdu 610065,China +Corresponding author:E-mail:L_PAN@126.com

In the field of intelligent video surveillance,in order to improve the efficiency of abnormal event detection and the defects of present methods in poor real-time performance and applicability,this paper proposes a real-time and high efficiency method.This method firstly extracts the global optical flow value as the movement characters,and constructs the visualizing expression of global optical flow.Then the image entropy analysis is used to obtain the statistical parameter in normal conditions.Finally,the confidence interval in normal condition and the anomaly judgment formula are given,which can be used to detect the abnormal event.The experimental results show that,for the video size of 320×240,the average detection time can be as low as 0.031 s in each frame and the accuracy can reach above 96%. As a result,the method has high efficiency and good real-time.

intelligent video surveillance;dense crowd;abnormal event detection;global optical flow image;image entropy

2015-09,Accepted 2015-12.

10.3778/j.issn.1673-9418.1509006

TP391.4

*The National Natural Science Foundation of China under Grant No.61071162(国家自然科学基金);the Scientific Research Program of Education Department of Sichuan Province under Grant No.16ZB0032(四川省教育厅科研项目);the Science and Technology Program of Civil Aviation Administration of China under Grant No.MHRD20140212(中国民用航空局民航科技项目);the General Foundation of CivilAviation Flight University of China under Grant No.J2012-40(中国民用航空飞行学院面上基金项目).

CNKI网络优先出版:2015-12-08,http://www.cnki.net/kcms/detail/11.5602.TP.20151208.0856.002.html