APP下载

基于图像处理的人群行为识别方法综述

2016-09-10刘勇奎汪大峰

计算机与数字工程 2016年8期
关键词:人群建模人体

高 玄 刘勇奎 汪大峰

(1.北方民族大学计算机科学与工程学院 银川 750021)(2.大连民族学院计算机科学与工程学院 大连 116600)



基于图像处理的人群行为识别方法综述

高玄1刘勇奎2汪大峰1

(1.北方民族大学计算机科学与工程学院银川750021)(2.大连民族学院计算机科学与工程学院大连116600)

基于图像处理的人体行为识别是计算机视觉中一个活跃的研究领域,目前大部分研究者主要针对个人行为识别展开研究。对人群的行为识别研究相对较少而人群行为识别在智能监控、虚拟现实、公共安全等方面有着广泛的应用前景。例如,恐怖活动、可疑事件、群体性暴力事件的实时监控等。人体行为识别对包含人的图像序列进行检测、跟踪、目标分类、异常检测以及对人的行为理解与识别。论文通过从一般的单人行为识别出发,介绍了人群识别方面近年来研究发展状况以及当前该研究方向亟待解决的问题,并展望了未来可能的发展方向。

图像处理; 行为识别; 智能监控; 人群

Class NumberTP393

1 引言

当前,基于图像处理的人体行为识别是一个非常活跃的研究领域,人体行为识别是对包含人的图像序列进行检测[1]、跟踪、目标分类[2]、异常检测[3]以及对人的行为理解与识别,而图像处理技术是通过提取运动物体的颜色和形状等特征信息,用于背景检测和跟踪[4]。就目前而言,绝大部分的监控系统只局限于简单的图像处理,而无法进行人体异常识别,对于人群行为的识别以及在人群发生异常行为时能够实时报警的研究相对较少[5]。由于在公共安全等领域有着广泛的应用前景,人群行为识别逐渐成为近几年研究热点。尤其在视频监控领域应用范围广泛而且有着较大的市场空间,图1为2012年我国智能监控在各行业在市场占有率。

图1 2012年智能监控系统在各行业的占有比例

目前,人的行为识别理解和描述已经在国际期刊以及重要会议上得到关注,与其相关的论文也在逐年增多。在世界范围内已经展开了大量的人体行为识别研究。2012年Sarvesh等对人体行为识别研究方法进行分类[6],阐述了人类活动的识别框架,还通过在四种不同的场景中对25名测试者的六种行为(步行、慢跑、跑步、拳击、手挥舞着、鼓掌)进行测试,并利用数据集提供的行为识别方法作为基准进行分析。总结了近几年人体识别领域中简单规则的人体行为识别过程和方法,但基于图像的人群行为识别与理解的文献相对较少,而针对行为识别的具体整个流程的整理研究也比较少,本文从目标检测、目标分类、目标跟踪以及人体行为识别出发,详细介绍人体行为的整个流程及各个阶段的优缺点,进而对基于图像人群识别的方法进行了分析,并展望了未来发展趋势。

2 目标检测

运动人体检测是指从连续的视频图像序列中将运动目标区域从背景中提取出来,再按照一定规则对目标进行分类,进而确定出人体目标。目标检测作为行为识别中的低级处理层次已引起人们的关注,国内外的研究人员对目标检测的算法进行大量的研究,目前比较常用的检测算法主要有时间差分法、背景减除法。时间差分法[7]的实质就是将同一背景不同时刻两幅图像进行比较,可以反映出一个运动物体在此背景下运动的结果,时间差分法的优点是简单、容易实现、实时性强,对于动态环境具有较强的自适应性,当然时间差分法的缺点也是很明显的,一般不能得到完整的前景信息,影响行为识别的效果。背景减除法[8]则利用当前图像与背景图像的差分来检测运动目标,与时间差分法相比,基于背景减除法的运动目标检测方法可以提取出更为完整的目标图像,但在实际应用中所采集到的背景图像随着时间的推移,会对光照和外部条件造成的场景变化比较敏感,会出现许多伪运动目标点,影响到目标检测的结果,为了解决上述两种问题,Kim提出的一种运动检测方法[9],在利用连续两帧图像差的同时又加入了背景图像差,将两者结合起来,比较精确地提取了二值运动模板。

3 目标分类

运动目标分类是指区分出场景中的人和其他运动物体,目标分类的目的就是正确地从检测到的运动区域中将人体的运动区域提取出来[10]。常用于行为识别的分类方法有:基于形状信息的分类、基于运动特征的分类。基于形状信息的分类是对所检测出来的运动目标,根据它们的形状轮廓信息来进行分类。该方法采用区域的宽高比、投影特性、轮廓变化、直方图、面积信息等特征作为物体分类的依据。基于运动特征的分类,人体的运动有时呈现出一定的周期性,同时也是非刚体运动。基于运动特征的分类通常使用人体运动的周期性,有效地区别出人与其他物体。

4 目标跟踪

目标跟踪实质就是在逐帧更新视频图像中找到感兴趣运动目标的位置。在研究领域,研究人员通常经过多次试验总结,选择较好的试验方法,进行目标跟踪试验,下面介绍常用的两种方法。一是基于特征匹配的目标跟踪方法包括特征提取和特征匹配两部分[10],特征提取是指在图像处理过程中提取运动目标的一些特征,比如纹理、颜色和形状等。特征匹配是指将当前帧中提取出的特征和上一帧的特征按照某种规则进行比较,满足规则要求的两个特征形成匹配。该方法[11]主要适用于视频序列之间的时间间隔比较小,而且运动目标在短时间内的特征不会发生很大变化的情况。二是基于区域的目标跟踪方法的基本思路是:将运动目标划分成几个子区域,对各区域进行描述并做相邻帧间匹配,组合各子区域的跟踪结果从而得到整个运动目标的跟踪结果。

5 行为识别

与运动检测、目标分类和人的跟踪研究相比,越来越多的研究人员投入到对人体行为识别与理解的研究当中行为识别可以理解为从视频序列中抽取相关的视觉信息,用合适的方法进行表达,然后将抽取的序列与事先的模板序列的参考行为进行匹配,然后进行行为分类,并解释这些视觉信息,实现人的行为的识别理解,常见的行为识别方法有:基于模板匹配的方法[12]、基于概率网络的方法[13]等。模板匹配方法首先从给定的序列图像中抽取相关特征,接着将图像序列转换为一组静态形式模板,再接着通过测试序列的模板与事先存储着的代表“正确”行为的模板匹配来获得识别结果。是基于概率网络方法又称为基于状态空间法[14],这种方法可以避免行为时间间隔建模,但模型训练复杂,它的优点是对时间和空间尺度上的运动微小变化的鲁棒性较好,可以避免行为时间间隔建模,运动持续时间得到很好的解决。缺点是计算比较复杂,需建立非线性模型,模型训练复杂,没有固定解决方法,需选择合适的状态数和特征矢量的维数[15]。目前在人的运动识别中使用的状态空间法主要有隐马尔可夫模型和动态贝叶斯网络。

6 群体行为识别

近年来,随着世界范围内的城市化,人群现象变得越来越频繁,比如体育比赛、游行示威、恐怖活动等,因此人群识别与理解开始逐渐地引起世界科研机构以及研究人员的兴趣。对视频中的群体事件分析方法可分为面向个体特征和面向群体特征两类方法。面向个体的特征的方法基于对每个目标的分割和跟踪,用个体的特征来研究人群中的事件。面向群体特征的方法对全局图像进行处理和采样,获取整体的信息,然后对采集到的数据进行处理工作,对异常情况和正常情况进行分类,这种方法关注于人群中行为的一致性,因此对于群体事件的分析效果较好。本文将在面向群体特征的分析方法基础上对群体的特征提取、人群模型、事件检测、人群行为识别进行分析。

6.1特征提取

特征提取一般又可分为三步骤:人群密度测量、识别、跟踪。早期在英国,由EPSRC资助的项目就是关于测量群众的运动和密度潜在的危险情况的研究[16]。Marana等[17]提出假设,低密度人群往往出现粗纹理,而图像的密集人群往往出现细纹理。自组织神经网络[18]结合几何的闵可夫斯基维数推断来自图像纹理的人群密度。Marana和Ihaddadene等只是对人群密度进行了估计分析,Lin等则提出一个估计人群大小的系统[19],该系统是通过哈尔小波和支持向量机来识别头部轮廓,从而推理出人群大小。

对于人群特征提取而言,当人群密度过大时,对每个目标的跟踪很难实现,但是可以获得人群的整体运动轨迹。从上面的几个例子中可以看出,密度测量在人群行为识别中起到很重要的作用,此外人群速度、方向和人群受力等因素也可以有效描述人群特征,目前,常用的人群特征提取的算法是LK光流法和基于块匹配的光流检测方法。其中基于块匹配的光流检测方法是将图像分为多个小块,假设每个小块中的光流矢量相同,然后在参考图像帧中寻找每个小块的最佳匹配位置。对于LK光流法来说可能在计算的过程中产生难以控制的误差,而块匹配的光流法计算量较大,块的大小影响检测结果,只有通过参数的调整才能减小块对检测结果影响。

6.2人群模型

人群建模将视频中提取的特征输入人群模型进行训练,计算模型中的参数,对人在群体中的运动情况进行建模。概率图模型作为一类用图形模式表达基于概率相关关系的模型总称,是基于概率论中贝叶斯规则而建立起来的一种图形结构,也是计算机人工智能领域最流行的一种图模型结构[20],该模型最早由Whittaker基于统计学的一些理论提出的,模型能够很好地根据上下文的关系进行预测,有效的解决训练样本的不确定性,取得了很好的预测效果[21]。2013年Chen等利用基于图的人群建模[22]、分析人群基于图形的拓扑变化,并使用德劳内三角形系统的连接顶点法对人群行为进行分析实验。为了解决人群内部异常行为以及人群遮挡问题,他们通过背景建模来检测由个人或被遮挡的人群组成的孤立区域,每个孤立的地区被认为是一个顶点和人群模型如图2所示。因此比较人群之间的连续视频帧可以转化为与之匹配图的问题。而对于人群中的异常行为则要通过定期建立图表利用德劳内三角测量以及在时间顺序图中制定连续变化的拓扑测量等方法进行解决,该方法只有通过使用大量的数据集检测异常事件是有效的。

图2 人群建模图

人群建模是个非常复杂的过程,在建模过程人会出现受力情况,在受力的影响下会影响其运动方向及速度,为了克服这些问题一些研究学者提出了类似于物理学中的动力学模型来对人群中的个人进行建模。但对于人来说作为一个运动体需要转动而不仅仅平移运动,作为传统的人群建模并没有很好的解决这个问题。

6.3事件检测

事件检测根据检测场景中的人群密度不同,检测效果也会存在差异。在目标稀疏的视频中基于个体的研究方法可以较好的提取每个目标的特征,对每个目标建模,使用跟踪等方法研究个体行为。对于人群密度较高的场景,对人群整体建模可以有效的检测人群异常情况。然而存在一种人群检测方法既不需要对目标进行检测跟踪,也不需要背景建模即基于时空特性的人群行为检测。时空特性检测人群异常行为方法,是一种不需要对目标进行检测跟踪,也不需要背景建模,直接对感兴趣的事件进行检测分析。Zhu等[23]结合候选兴趣点的光流矢量值来对兴趣点进行筛选。对于视频中的第n帧图像In(n=1,…,N-1)(N是视频的帧长度),利用SURF算法检测到的兴趣点集合为Scand。结合下一帧图像In+1可以计算出集合Scand中每个候选兴趣点的光流矢量。如果光流矢量的幅度值小于某个确定的阈值,则认为这样的候选点为背景像素或者近似于背景的像素,从集合Scand剔除代表背景的兴趣点之后,就获得了最终的时空兴趣点如图3所示。

图3 兴趣点检测对比

图3(a)是某监控视频序列中的一帧图像,3(b)是SURF算法检测到的兴趣点,3(c)是本文算法检测到的时空兴趣点,可以发现,通过结合兴趣点光流矢量值检测到的时空兴趣点代表了图像中有明显人体运动的区域。

在人群事件检测中基于群体特征的方法应用于人群稀疏的情况下效果较差,而基于个体特征的方法对每个目标跟踪比较困难,多目标跟踪算法计算复杂度也非常高,所以难以在密度高的人群中提取特征。如果将个体特征提取和群体特征提取结合,可以提高事件检测的精度。

6.4人群行为识别

人群行为识别方法比较复杂一般可分为:基于统计的方法、基于描述的方法。

6.4.1基于统计的方法

基于统计的方法一般先根据特征序列对子动作进行识别,然后将这些子动作看作统计模型第二层的观测。Park和Aggaral[24~25]采用分层贝叶斯网的方法对两个人交互行为识别进行分析,身体局部姿势和整个身体的行为分别采用低层贝叶斯网络和高层贝叶斯网络来估计,利用贝叶斯网络描述姿势的变化。识别则通过加入时空约束的高层语义描述实现。

基于统计的方法应用于行为序列的识别非常合适,在训练数据足够的前提下,可以提供可靠的概率框架,但对于复杂的时序结构行为很难识别。另外,由于行为越复杂,所以需要更多的序列数据,这也就导致了该方法不适合于复杂行为。

6.4.2基于描述的方法

基于描述的方法能够保持行为的空间和时间结构,它将人群运动看作满足一定关系的子运动,因此对行为的识别通过搜索满足定义的子行为来完成。基于描述的方法可以处理同时发生的子运动,通过描述子运动在时间和空间上的逻辑关系来表征复杂运动,因此人群行为分析就转化成了搜索满足一定关系的子行为。在基于描述的方法中,时间间隔一般与发生的子行为联系在一起,以说明子行为间的时间关系,空间和时间关系的描述对复杂事件是非常重要的,该方法从人群视频中自动的发现重要的上下文信息,并检测对应于上下文斑点的异常行为。

基于描述的方法的特点就是能够很好的理解识别复杂的人群行为,不仅对顺序发生的行为进行识别,而且对于同时发生的子行为也可以进行识别。基于描述的方法的缺点就是无法弥补低层子行为的检测或识别的错误,对低层的检测结果过分依赖。

综上所述,两种方法各有优缺点,文章中对其优缺点有了详细的介绍在此不再赘述,针对两种方法各自的弱点,发挥两者的优势,可以将两者结合,基于统计的方法能够准确识别低层子行为,为高层基于描述的方法的有效性提供保证,而基于统计的方法无需处理复杂的群行为,只需对子行为进行识别,在训练数据较少的情况下,仍能在一定程度上保证准确性。

7 存在问题

人的行为识别技术有着广泛的应用前景,而且得到长足的发展,但人的行为识别的研究并不是一帆风顺,人的行为识别研究仍处于起步阶段,一些难题仍未得到解决。 1) 对人的行为特征分析,在人的交互过程中不可能只有简单的几个身体动作,就目前的研究情况而言只能对人的行为进行简单的事件检测,不同的情况下人会本能地做出各种异常的行为,例如,蛙跳、高抬腿、锁骨等。由于人的动作多而且复杂,对其建模选择过多的特征其特征向量维数就会过高从而导致计算量提升,反之,则导致对人行为判断不准,而且研究起来有一定难度,一个行之有效的方法就是基于多分辨率的特征提取。 2) 关于重叠的问题,在现实生活中,人群之间的交互随处可见,人与人之间出现重叠问题在所难免,人群拥挤会给智能监控系统的检测与跟踪带来很大麻烦,尽管有研究人员提出了基于多摄像机的跟踪系统能够解决重叠问题,但在实际生活中普及还有一定的难度。 3) 人的行为识别问题,对其的研究仅限于对简单背景、固定视角且已分好的行为序列进行分析而对包含各种复杂动作、持续的行为序列的研究较少而且鲁棒差。在受到外界复杂环境的影响下识别率大大下降。 4) 对于人群的行为分析问题,在现实生活中的应用对智能监控系统的鲁棒性要求很高,尤其是车站、机场、地铁、公园等公共场所。现有的系统对于声音、光线、天气以及摄像头抖动因素影响太过敏感。当前对人群行为理解的研究还很不完善,研究仍受一些基础问题的束缚,如像素级的分割、遮挡以及处理可变性的能力。人群行为识别还处在初级阶段,由于人群行为复杂性高,变化较多,人群行为分析的研究现在主要是针对特定领域应用的研究,有些只是提取场景信息高层的语义,对人群行为分析还有一定困难。

8 结语

尽管人群行为识别还处在萌芽时期,很多算法只能解决基础的问题,但人群行为识别的前景比较光明。基于图像处理的人群行为识别正在逐渐的成为研究热点,其强大的识别能力,可以应用于诸多重要领域。近几年对人群行为识别领域研究逐渐增多,对其深入研究的却相对较少,所以基于图像处理的人群行为识别也面临诸多挑战,人群行为识别也可以说是一种全新的探索。对于行为识别理解的展望,行为理解可以与生物特征结合。生物特征技术已经在身份识别上得到了应用。计算机科学与社会学理论相融合也是一种新发展趋势,对于引进社会模式进入人群分析也是未来的研究方向之一。随着科学技术的的快速发展人群行为识别将会朝着抗扰性强、辨识度高、自动识别异常行为的方向发展,并在社会安全等方面发挥重要作用。

[1] 魏志强,纪筱鹏,冯业伟.基于自适应背景图像更新的运动目标检测方法[J].电子学报,2005,33(12):261-264.

WEI Zhiqiang, JI Xiaopeng, FENG Yewei. A Moving object detection method based on self-adaptive updating of background[J]. Acta Electronica Sinica,2005,33(12):261-264.

[2] JAVED O, SHAH M. Tracking and object classification for automated surveillance[C]//Copenhagen:Proc of the 7th European Conference on Computer Vision,2002:10-11.

[3] N. Bird, S. Atev, N. Caramelli, et al. Real-time, onlinedetection of abandoned objects in public areas[C]//Proceedings of IEEE InternationalConference on Robotics and Automation,2012:4-5.

[4] 王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25(3):225-237.

WANG Liang, HU Weiming, TAN Tieniu. A survey of visual analysis of human motion[J]. Chinese Journal of Computers,2002,25(3):225-237.

[5] Vaswani N, Chowdhury A R, Chellappa R. “Shape activity”: A continuous-state HMM for moving deforming shapes with application to abnormal activity detection[J]. IEEE Trans Image Processing,2005,14(10):1603-1616.

[6] Sarvesh Vishwakarma, Anupam Agrawal. A survey on activity recognition and behaviorunderstanding in video surveillance[C]//Springer-Verlag Berlin Heidelberg,2012:4-6.

[7] Lipton A, Fujiyoshi H, Patil R. Moving target classification and tracking from real-timevideo[C]//IEEE Workshop on Application of Computer Vision, Princeton,1998:8-14.

[8] 黎昌林.基于时空特征的异常行为识别研究[D].成都:电子科技大学,2011:48-50.

LI Changlin. Research on abnormal behavior recognition based on spatio-temporal feature[D]. Chengdu: University of Electronic Science and Technology of China,2011:48-50.

[9] 王庆帅.智能监控系统中人体行为识别技术研究与实现[D].西安:西安电子科技大学,2010:13-16.

WANG Qingshuai. Research and implementation of human behavior recognition technology in intelligent monitoring system[D]. Xi’an: Xidian University,2010:13-16.

[10] 阮涛涛.基于视觉的人体行为检测识别研究[D].杭州:浙江工业大学,2011:10-14.

RUAN Taotao. Research on human behavior detection and recognition based on vision[D]. Hangzhou: Zhejiang University of Technology,2011:10-14.

[11] Chen S, Zhang C. An Intelligent Framework Spatio-temporal vehicle Tracking[C]//Intelligent Transpotation Systems Conference Procedings,2001:213-218.

[12] 赵海勇,贾保先.基于轮廓特征的人体行为识别[J].计算机科学,2013,40(2):1547-1551.

ZHAO Haiyong, JIA Baoxian. Human behavior recognition based on contour feature[J]. Computer Science,2013,40(2):1547-1551.

[13] 刘相滨,向坚持,王胜春.人行为识别与理解研究探讨[J].计算机与现代化,2004,(12):1-5.

LIU Xiangbin, XIANG Jianchi, WANG Shengchun. Exploration of Recognition andUnderstanding of Human Behavior[J]. Computer and Modernization,2004,(12):1-5.

[14] 游苏英.基于视频序列的人体异常行为检测研究[D].南京:南京邮电大学,2013:18-21.

YOU Suying. Research on human abnormal behavior detection based on video se-quence[D]. Nanjing: Nanjing University of Posts and Telecommunications,2013:18-21.

[15] SA Velastin, JH Yin, AC Davies, et al. Automated measurement of crowd density and motion using image processing[C]//International Conference on Road Traffic Monitoring & Control,1994:127-132.

[16] N. Ihaddadene, C. Djeraba. Real-time crowd motion analysis[C]//International Conference on Pattern Recognition,2009:1-4.

[17] Lin, S., Chen, J., Chao, H. Estimation of number of people in crowded scenes using perspective transformation[J]. IEEE Trans. Syst. Man Cybernet. A,2001,31(6):645-654.

[18] Wang Y, Vassileva J. Bayesian network-based trust model[C]//Proceedings of IEEE International Conference on Web Intelligence, Halifax, Canada,2003:372-378.

[19] Duan-Yu Chen, Po-Chung Huang. Visual-based human crowds behavior analysis based on graph modeling and matching[J]. IEEE Sensors Journal,2013,13:6-16.

[20] 朱启兵.基于局部时空特征的人体行为识别以及打架行为检测[D].合肥:合肥工业大学,2012:20-22.

ZHU Qibing. Human behavior recognition and fighting behavior detection based on local space-time features[D]. Hefei: Hefei University of Technology,2012:20-22.

[21] Park S, Aggaral J K. Semantic-level understanding of human actions and interactions using event hierarchy[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition Workshop,2004:12-20.

[22] Park S, Aggarwal J K. A hierarchical B recognition of human actions and interactions[J]. Multimedia Systems,2004,10(2):164-179.

[23] F. Jiang, Y. Wu, A. K. Katsaggelos.Detecting contextual anomalies of crowd motion in surveillance video[C]//Proc. IEEE Int. Conf. Image Process.,2009:1117-1120.

[24] AGGARWAL J K, CA I Q. Human motion analysis: a review[C]//Proc of IEEE Nonrigid and Articulated Motion Workshop. Piscataway: IEEE Computer Society,1997:90-102.

[25] LU Si-jun, ZHANG Jian, FENG D D. Detecting unattended packages through humanactivity recognition and object association[J]. Journal of the Pattern Recognition,2007,40(8):2173-2184.

Survey on Group Behavior Recognition Method Based on Image Processing
GAO Xuan1LIU Yongkui2WANG Dafeng1
(1. College of Computer Science and Engineering, Northern University for Nationalities, Yinchuan750021)

(2. College of Computer Science and Engineering, Dalian Nationalities University, Dalian116600)

Recognition of human action using image-based processing is an active research area in computer vision. At present most of the researchers mainly study the recognition of individual behavior. For recognition of group activities research is relatively less while the recognition of group behavior in intelligent monitoring, virtual reality, public security, etc has a broad application prospect, such as ACTS of terrorism, suspicious event, mass violence in real-time monitoring. Human behavior recognition consists of detection, tracking and object classification of image sequence,and image understanding and recognition of human behavior. By introducing the recognition of individual behavior, this paper analyzes the development and current status of group behavior in recent years and the research problems to be solved. And possible directions of future are discussed.

image processing, behavior identification, intelligent monitoring, the crowd

2016年2月1日,

2016年3月19日

辽宁省科技基金项目“图形图像处理中形状表示的压缩方法研究”(编号:201102042);辽宁省自然科学基金项目“虚拟现实中三维图形的应用基础研究”(编号:20082175);辽宁省教育厅科学基金项目(编号:L2014544);中央高校基本科研业务费专项资金项目(编号:DC201502030201;DC201502030404)资助。

高玄,男,硕士研究生,研究方向:计算机图像处理。刘勇奎,男,教授,研究方向:多媒体信息处理技术。汪大峰,男,研究方向:计算机图像处理。

TP393

10.3969/j.issn.1672-9722.2016.08.034

猜你喜欢

人群建模人体
人体“修补匠”
人体冷知识(一)
排便顺畅,人体无毒一身轻
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
糖尿病早预防、早控制
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
奇妙的人体止咳点
我走进人群
财富焦虑人群