视频监控智能识别的关键技术研究*

2015-01-07程芳察豪

舰船电子工程 2015年3期

关键词：像素监控图像

程芳察豪

(海军工程大学海洋电磁环境研究所武汉 430033)

视频监控智能识别的关键技术研究*

程芳察豪

(海军工程大学海洋电磁环境研究所武汉 430033)

随着视频监控需求的迅速增长,人工监视已远不能满足监控的要求,视频监控系统的“智能化”变得越来越迫切。论文研究的核心是从理论层面出发,在视频序列中检测、跟踪人体,获取人体运动数据,描述和理解人体运动。

视频监控; 智能化; 核心理论

Class Number TP391

1 引言

美国911事件发生以后,各单位对于安全防范工作的重视程度逐渐加强。在信息化的今天,视频监控无疑是预警危险的最佳方式。现在的视频监控的应用越来越普及,但大量的图像信息也成为困扰监控管理员的一个难题。如何有效地采集信息,而且有效地对采集的信息进行分析,将大量没有威胁、无关紧要的信息剔除,并将有用信息能够直接呈现给用户,这就是智能化视频监控系统主要的任务之一。现今智能视频监控主要应用于银行、超市、仓库、停车场等对安全性要求比较高的场合中,要求能够进行物体识别、轨迹跟踪、车牌识别、车速测量、行为识别等[1]。

2 视频图像的基本概念

1) 图像

图像是客观对象的一种相似性的、生动的描述或写真,是人类社会活动中最常用的信息载体。图就是物体透射或反射光的分布;像是人的视觉系统接受视觉信息而在人的大脑中形成的印象或认识。前者是客观存在的,而后者是人的感觉,二者的结合即为图像。图像处理中,仅仅把图像看成是二维平面或三维立体空间中具有明暗或色彩变化的光分布是不全面的。图像根据记录方式不同可分为两大类:模拟图像和数字图像。模拟图像可以通过某种物理量(如光、电等)的强弱变化来记录图像亮度信息,例如模拟电视图像;数字图像是指由像素组成的二维矩阵,数字图像在现代工程实践中应用最为广泛。为了方便计算机运算与储存,传统照片或录像带模拟图像经取样及数字化后转化为数字图像。数字图像的最基本单元称为像素(Pixel)。像素的亮度以灰度值(Gray-level)表示,灰度值被划分为256阶,最暗为0,最亮为255。图像按其灰度分成黑白图像(是指图像的每个像素只能是黑或者白,没有中间的过渡,故又称为二值图像,二值图像的像素值为0.1)、灰度图像(灰度图像是指每个像素的信息由一个量化的灰度级来描述的图像,没有彩色信息)、彩色图像(彩色图像是指每个像素的信息由RGB三原色构成的图像,其中RGB是由不同的灰度级来描述的)。

2) 图片识别问题

智能视频监控实质就是对一帧帧的视频图片进行处理,图片的模式识别涉及下列几步[2]:

1) 图片的取样和量化:一张照片被转化为一个计算机能识别的数组。

2) 图片分割:按亮色、彩色或纹理的一致与否确定区域。

3) 景物分析:由分割获得的区域被合并或修改,使计算机能定位其为物体。

4) 形状描述:物体被编码为反映它们形状的定量的结构。

5) 物体描述:根据服务需求进行简单分类或语言描述。

3 视频监控智能识别的关键技术

视频监控智能识别系统是防止人为的盗窃、破坏,不法分子的入侵,从而确保财产及生命的安全。它主要是对场景进行实时监控,自动检测到闯入目标(主要是人),并由预先设定好的规则判断该目标的行为是否合法。整个系统结构将由运动检测、人体识别和目标跟踪三个部分组成,这种系统可以有效解决现有人工监控系统的缺陷,能胜任无人值守情况下的智能监控[3]。

1) 运动检测(motion detection)

应用于任何场合的智能视频监控,一个首要问题就是运动检测[4],因为监控区域潜在的危险通常是运动的目标。通过运动目标检测过滤掉无用的静止信息,把注意力集中在活动目标上,然后再对运动的目标进行跟踪以及目标分类识别、行为理解等处理,对相应的情况做出反应,达到智能监控的目的[5]。运动检测的结果会作为前提条件传递给跟踪和识别,因此运动检测的好坏,直接关系到后续处理的准确性。可见,运动检测是实现智能化的第一步,也是最关键的一步。针对不同的环境,对于如何从视频流中准确地提取运动目标,许多研究者对此进行了大量的研究,得到了许多适应不同情况的方法。其中最常见是帧差法和背景相减法。

(1)帧差法

帧差法是通过判断相邻两帧图片之间的显著差异来检测运动目标,是一种图像序列运动分析的基本方法[6]。它的思想是通过对相邻的两帧图片作差,利用视频序列相邻帧间的强相关性进行变化检测,从而确定运动目标。如果差的绝对位大于某一设定的阈值,则存在运动物体。反之,则不存在运动物体。具体公式如下:

其中Pk(x,y)为当前时刻t图像的一个像素点,Pk-1为对应的t-1时刻图像的一个像素点。当它们的差大于预先设定的阈值,则认为是前景点,反之,则是背景点。再将差分后的图片二值化,前景点置1,背景点置0。

帧差法的特点是:算法简单;速度快;对场景光线的变化不太敏感;受目标阴影的影响也不大;适用于实时性高的环境。缺点是:容易产生前景空洞,无法得到完整性的运动目标轮廓;无法处理复杂的噪声;检测效果有赖于运动物体的运动速度,如果运动速度较快,可能会造成两帧之间无覆盖区域,从而无法分割出运动物体;而如果运动速度过慢或是运动物体有所滞留时,则会造成过度覆盖或是完全重叠,根本就检测不到物体。

(2)背景相减法

背景相减法首先储存一张图片作为背景,并以一定的方法进行更新。用当前帧与背景帧绝对相减,然后以一定的阈值进行前景划分,从而检测到运动的物体。具体算法描述如下:

式中Pk(x,y)为当前帧中坐标为(x,y)的像素点的位,Bk(x,y)为对应的背景模型的像素点的位,T为设定的阈值。若当前帧像素与对应背景帧差的像素绝对差值大于阈值T时,则此像素为判定为前景点,否则为背景点。背景相减法的好坏,关键取决于背景模型的准确性。

2) 人体识别(body recognition)

人体识别的目的是对检测到的运动区域做出是否存在活动人体的判断。运动检测后得到运动物体的区域表示(一般用二值图像表示:1表示运动目标,0表示静态背景),而不同的运动区域可能对应于不同的运动目标。由于监控系统的关注对象一般情况下就是人,所以根据运动区域的目标分类就可简化为对人和非人的简单判别。人体识别是监控智能识别的核心问题之一,目前常用的人体识别方法有:基于人的形体知识的分类方法和基于人的运动学知识的分类方法。基于形状信息的分类方法有两种,一种是利用检测出的运动区域的形状特征进行目标分类的方法。例如,VSAM分散度、面积、宽高比等作为特征,利用三层神经网络方法将运动目标划分为人、人群、车和背景干扰。另一种方法是建立人体形态模型库的识别方法。这种方法一般比较复杂,多用在要求非常精准识别的场合。基于人的运动学知识的分类方法是利用人体运动的周期特性,运动方向的一致性来区分人或物的,这方面值得一提的是中国科学院自动化研究所模式识别国家重点实验室视觉监控组,正在根据人体运动的周期性进行步态识别方而的研究,这项技术可以和人脸识别、指纹识别一起用于对特定人的识别方面,在刑事侦察领域有广阔的应用前景。

3) 目标跟踪((object tracking)

运动目标跟踪是指通过对图像序列中的运动目标进行检测、提取、识别和跟踪,获得目标如位置、速度、加速度以及运动轨迹等运动参数,从而进行进一步处理与分析,实现运动目标的行为理解,以完成更高一级的任务(智能视频监控系统目标跟踪与分类算法研究)。常用的数学工具有卡尔曼滤波(Kalman Filtering)、粒子滤波算法(particle filter)及隐式马尔可夫模型(Hidden Markov Model,HMM)等。其中Kalman滤波是基于高斯分布的状态预测方法,不能有效地处理多峰模式(Multi-mode)的分布情况;Condensation算法[7](粒子滤波算法的简化模型)是以因子抽样为基础的条件密度传播方法,结合可学习的动态模型,可完成稳定的运动跟踪。下面依据不同的跟踪方法加以分类介绍:

(1)基于区域的跟踪

基于区域的跟踪方法基本思想是:首先得到包含目标的模板,该模板通过图像分割获得或是预先人为确定,模板通常为略大于目标的矩形,也可为不规则形状;然后在序列图像中,运用相关算法跟踪目标,对灰度图像可以采用基于纹理和特征的相关,对彩色图像还可利用基于颜色的相关。系统可将人体看作由头、躯干、四肢等身体部分所对应的小区域块所组成,通过跟踪各个小区域块来完成整个人的跟踪。基于区域的跟踪方法根据运动目标区域的属性变化(比如目标区域的位置、大小等)进行跟踪,在很少运动目标的场景下效果很好,但当运动目标出现遮挡时很难持续地正确跟踪。

(2)基于模型的跟踪

通过匹配目标模型跟踪目标,通常有三种形式:①线图模型—人的运动是骨骼的运动,该表达方法就是将身体的各个部分以直线来近似。②二维轮廓—该人体表达方法的使用直接与人体在图像中的投影有关,如纸板人模型[8],它将人的身体用一组连接的平面区域块所表达。③立体模型:它是利用广义椭圆柱、锥台、球等三维模型来描述人体的结构细节,因此要求更多的计算参数和匹配过程中更大的计算量。基于模型的跟踪方法利用目标模型进行匹配跟踪,能达到较稳定的跟踪效果,但该方法需要事先构造好目标模型,运动分析的精度取决于几何模型的精度,在现实生活中获得运动目标的精确几何模型是非常困难的,并且跟踪过程计算复杂、非常耗时,很难实现实时的运动目标跟踪。

(3)基于活动轮廓的跟踪

基于活动轮廓的跟踪是利用封闭的曲线轮廓来表达运动目标,并且该轮廓能够自动连续地更新[9]。例如可以利用随机微分方程去描述复杂的运动模型,并与可变形模板相结合应用于人的跟踪。相对于基于区域的跟踪方法,轮廓表达有减少计算复杂度的优点,然而初始化通常是很困难的。基于活动轮廓的跟踪方法主要根据目标的外形轮廓进行跟踪,轮廓描述正确与否决定了跟踪的精度,该方法对跟踪的初始化非常敏感,以致很难自动地启动跟踪。

(4)基于特征的跟踪

基于特征的跟踪包括特征的提取和特征的匹配两个过程。Polana与Nelson的文章[10]给了一个很好的解决方案,文中将每个行人用一个矩形框封闭起来,封闭框的质心被选择作为跟踪的特征,在跟踪过程中若两人出现相互遮挡时,只要质心的速度能被区分开来,跟踪仍能被成功地执行。另外,利用区域的形状、纹理、色彩和边缘特征信息建立了活动模板,结合卡尔曼滤波的预测方法,使特征匹配能量函数最小化来完成运动目标的跟踪过程,该活动模型对于非刚性物体的跟踪具有很好的自适应性。基于特征的跟踪方法主要通过目标区域的全局特征(比如面积、周长等)或局部特征(比如点、线特征等)进行跟踪,该方法能处理部分遮挡下的跟踪问题,其难点是如何确定目标的唯一特征集,若采用特征过多,系统效率将降低,且容易产生错误。

4 结语

智能视频监控系统所涉问题较多,一方面要对图像识别有较为深入的了解,另一方面还要对相关的数学理论有较为透彻的认识。智能系统性能的提升,重点还是能否选取最适合的数学解决方案解决具体的问题。

[1] 高振远.基于视频的几种人体行为识别技术研究[D].哈尔滨:哈尔滨工业大学,2011.

[2] 顾毅.数字图像识别技术对危险化学品船舶监控中的应用[J].中国水运,2006(11):25-26.

[3] 栾海龙.基于视频检测的智能监控系统及其关键技术研究[D].西安:西安电子科技大学,2009.

[4] 文军.如何有效的实现智能视频监控[J].中国安防(技术与应用),2007(3):65-68.

[5] 房玲江.视频监控中的运动检测与跟踪[D].长春:吉林大学,2010.

[6] 何峻峰.运动检测技术在数字化监控中的实现与应用[J].中国安防产品信息技术论坛系统开发,2004(4):47-49.

[7] Isard M, Blake A. CONDENSATION-Conditional density propagation for visual tracking[J]. International Journalof Computer Vision,1998,29(1):52-81.

[8] S. Ju, M. Black, Y. Yaccob. Cardboard people: a parameterized model of articulated image motion[C]//Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition,1996:38-44.

[9] A. Galata, N. Johnson, D. Hogg. Learningvariable-length Markov models of behavior[J]. Computer Vision and Image Understanding,2001,81(3):398-413.

[10] R. Polana, R. Nelson. Low level recognition of human motion[C]//Proceedings of IEEE Workshop Motion of Non-Rigid and Articulated Objects, Austin, TX,1994:77-82.

Key Techniques Research of Intelligent Monitoring System

CHENG Fang CHA Hao

(Electromagnetism Institute of Ocean, Naval University of Engineering, Wuhan 430033)

With the rapid growth of video surveillance requirements, manual monitoring can’t meet the needs of surveillance and the intelligentization of video surveillance systems gets more and more urgent. Starting from the theoretical level, the core of this paper is how to detect and track human body, extract human motion data, describe and understand human movement, to judge people’s intentions from video sequences.

video surveillance, intelligentization, core theory

2014年9月1日,

2014年10月17日

程芳,女,硕士研究生,研究方向:通信与信息系统。察豪,男,教授,研究方向:雷达总体技术。

TP391

10.3969/j.issn1672-9730.2015.03.025