智能视频监控技术的架构与特征
2014-12-24
视频监控是视频工程中重要的技术和应用领域,支撑其发展的视频技术在不到一个世纪的发展过程中,大致经历了3个跨越式的发展阶段。20世纪30年代,以电视广播为代表的视频技术走出了实验室,进入广播电视台和千万家庭,实现了从静止图像传输到活动图像传输的跨越;20世纪80年代末,以会议电视、视频监控等为代表的视频技术走出了实验室,进入众多的电视会议室、安防系统,实现了从模拟视频通信到数字视频通信的跨越;如今,以智能视频监控(IVS)为代表的视频技术,正处在走出实验室、进入到各行各业的应用阶段,将要实现从“机械”的视频信息处理向智能化视频信息处理的跨越。当前中国正处在这一跨越的关键时段。智能视频监控只是智能视频技术的一个部分,一个将视频技术引入智能时代的部分。
智能视频监控技术两种构架方式
视频监控的智能化表现为计算机视觉算法在视频分析中的应用。智能视频监控区别于传统意义上的监控系统在于变被动监控为主动监控(自动检测、识别潜在入侵者、可疑目标和突发事件),即它的智能性。简单而言,不仅用摄像机代替人眼,而且用计算机代替人、协助人,来完成监视或控制的任务,从而减轻人的负担。智能视频监控系统的结构通常有如下两种:
主动智能监视系统,这类系统的特点是主动摄像机不仅可以理解视场内的场景,还可以有选择性专注于特定的活动或感兴趣的事件。主动智能监视系统需要额外完成两个任务:管理主动摄像机资源,即确定哪些摄像机用于监视全景,哪些摄像机用于监视特定行为或事件;利用视频分析算法提供的信息控制摄像机的运动和变焦。
分布式智能视频监视系统,通过无线视频通信网络将各点智能摄像机与中心站连接起来,智能监视服务器不仅可以生成图像还可以分析视频,根据视频分析的信息控制摄像机以及确定使用恰当的存储资源和带宽传送高质量视频给终端用户。智能摄像机最大程度减小了系统结构的成本。
智能视频监控技术特性
智能视频监控技术一直在发展,然而,环境的复杂性以及目标行为的多样性等原因使得智能监控算法变得复杂,且算法通常是针对具体的应用而设计的。尽管已经提出许多被证明是有效的智能分析算法,但是受计算机数据处理能力的限制,难以适合实时计算,自适应性也较差,应用场合受限。目前,对于以目标整体的运动轨迹作为研究目标,提取运动目标的运动特征或者其本身所具有的特性这种类型的视频智能分析已经取得了一定的成果。这一类研究目标不一定是人,也可以是车辆、动物或飞机、坦克等军事目标。以目标的局部部分运动为研究目标,提取其局部的“肢体语言”特征分析判断目标的行为,比如视频的手语识别、步态识别、表情识别或者动作识别等。此类监视问题的困难在于运动模式的提取以及高效可靠的识别算法。智能视频监控系统可以解决两个主要问题:一个是将安防操作人员从繁杂而枯燥的“盯屏幕”任务中解脱出来。由机器来完成这部分工作,对异常情况能够及时处理等,比如报警等;另外一个是为在海量的视频数据中快速搜索到想要找的图像。对于上述两个问题,视频分析厂家经常提到的案例是:操作人员盯着屏幕超过1O分钟后将漏掉90%的视频信息而使这项工作失去意义;伦敦地铁案中,安保人员花了70个工时才在大量磁带中找到需要的信息。智能视频监控的核心内容是对特定目标的自动检测、跟踪与行为识别,包括运动检测、目标分类、目标跟踪、行为识别等4个方面内容。例如对人体的跟踪:首先从实时图像序列中检测出运动物体,再判定运动物体中的人体,然后跟踪人体的运动轨迹,并分析和选定有异常行为的人,如在车站,机场等遗留包裹的人。最后对行为异常的人进行持续跟踪。
移动目标提取
运动检测是从图像序列中将变化区域从背景图像中提取出来。运动区域的有效分割将大大减少后续过程的运算量。然而,背景图像的不稳定性,如阴影、光照、慢移动、静移动(树叶的摆动)等等,也使得运动检测非常困难。目前较为实用的视频分析方法主要有两类:一类是背景减除方法,另一类是时间差分方法。背景减除方法是利用当前图像和背景图象的差分来检测出运动区域的一种方法,可以提供比较完整的运动目标特征数据,精确度和灵敏度比较高,具有良好的性能表现。时间差分法利用视频图像特征,从连续得到的视频流中提取所需要的动态目标信息。时间差分实质是利用相邻帧图像相减来提取前景目标移动的信息,此方法不能完全提取所有相关特征像素点,在运动实体内部可能产生空洞,能检测出目标的边缘。
移动目标跟踪
移动目标跟踪等价于在连续的图像帧间,创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题。常用的数学工具有卡尔曼滤波、Condensation算法及动态贝叶斯网络等。其中Kalman滤波是基于高斯分布的状态预测方法。不能有效地处理多峰模式的分布情况;Condensation算法是以因子抽样为基础的条件密度传播方法,结合可学习的动态模型,可完成鲁棒的运动跟踪。就跟踪对象而言,跟踪如手、脸、头、腿等身体部分与跟踪整个目标;就跟踪视角而言,有对应于单摄像机的单一视角、对应于多摄像机的多视角和全方位视角;当然还可以通过跟踪空间(二维或三维)、跟踪环境(室内或户外)、跟踪人数(单人、多人、人群)、摄像机状态(运动或固定)等方面进行分类。从跟踪方法的不同讨论跟踪算法。
基于模型的跟踪
传统的人体表达方法有如下三种:①线图法:人运动的实质是骨骼的运动,因此该表达方法将身体的各个部分以直线来近似。②二维轮廓(2D Contour):该人体表达方法的使用直接与人体在图像中的投影有关,如Ju等提出的纸板人模型,它将人的肢体用一组连接的平面区域块所表达,该区域块的参数化运动受关节运动(Articulated Movement)的约束,该模型被用于关节运动图像的分析。③立体模型(Volumetric Model):它是利用广义锥台、椭圆柱、球等三维模型来描述人体的结构细节,因此要求更多的计算参数和匹配过程中更大的计算量。例如Rohr使用14个椭圆柱体模型来表达人体结构,坐标系统的原点被定位在躯干的中心,目的是想利用该模型来产生人的行走的三维描述;Wachter与Nagel利用椭圆锥台建立三维人体模型,通过在连续的图像帧问匹配三维人体模型的投影来获得人运动的定量描述,其中,它利用了迭代的扩展卡尔曼滤波方法,结合边缘、区域信息及身体解析约束确定的身体关节运动的自由度,实现单目图像序列中人的跟踪。
基于区域的跟踪
基于区域的跟踪方法目前已有较多的应用,例如Wren等利用小区域特征进行室内单人的跟踪,文中将人体看作由头、躯干、四肢等身体部分所对应的小区域块所组成,利用高斯分布建立人体和场景的模型,属于人体的像素被规划于不同的身体部分。通过跟踪各个小区域块来完成整个人的跟踪。基于区域跟踪的难点是处理运动目标的影子和遮挡,这或许可利用彩色信息以及阴影区域缺乏纹理的性质来加以解决,如McKenna等首先利用色彩和梯度信息建立自适应的背景模型,并且利用背景减除方法提取运动区域,有效地消除了影子的影响;然后,跟踪过程在区域、目标、目标群三个抽象级别上执行,区域可以合并和分离,而人是由许多身体部分区域在满足几何约束的条件下组成的,同时人群又是由单个的人组成的,因此利用区域跟踪器并结合人的表面颜色模型,在遮挡情况下也能够较好地完成多人的跟踪。
基于活动轮廓的跟踪
基于活动轮廓的跟踪思想是利用封闭的曲线轮廓来表达运动目标,并且该轮廓能够自动连续地更新。例如Paragios与Deriche利用短程线的活动轮廓、结合Level Set理论在图像序列中检测和跟踪多个运动目标;采用基于卡尔曼滤波的活动轮廓来跟踪非刚性的运动物体;利用随机微分方程去描述复杂的运动模型,并与可变形模板相结合应用于人的跟踪。相对于基于区域的跟踪方法,轮廓表达有减少计算复杂度的优点。如果开始能够合理地分开每个运动目标并实现轮廓初始化的话,既使在有部分遮挡存在的情况下也能连续地进行跟踪,然而初始化通常是很困难的。
基于特征的跟踪
基于特征的跟踪包括特征的提取和特征的匹配两个过程。一个很好的例子是点特征跟踪,将每个目标用一个矩形框封闭起来,封闭框的质心被选择作为跟踪的特征;在跟踪过程中若两人出现相互遮挡时。只要质心的速度能被区分开来,跟踪仍能被成功地执行;该方法的优点是实现简单,并能利用人体运动来解决遮挡问题,但是它仅仅考虑了平移运动。如果结合纹理、彩色及形状等特征可能会进一步提高跟踪的鲁棒性。另外,Segen与Pingali的跟踪系统使用了运动轮廓的角点作为对应特征,这些特征点采用基于位置和点的曲率值的距离度量在连续帧间进行匹配。
目标分类
目标分类的目的是从检测到的运动区域中将特定类型物体的运动区域提取出来,例如分类场景中的人、车辆、人群等不同的目标。根据可利用信息的不同,目标分类可以分为基于运动特性的分类和基于形状信息的分类两种方法。基于运动特性的识别利用目标运动的周期性进行识别。受颜色、光照的影响较小。基于形状信息的识别利用检测出的运动区域的形状特征与模板或者统计量进行匹配。
基于形状信息的分类
基于形状信息的分类是利用检测出的运动区域的形状特征进行目标分类的方法。例如VSAM采用区域的分散度、面积、宽高比等作为特征。利用三层神经网络方法将运动目标划分为人、人群、车和背景干扰;Lipton等利用分散度和面积信息对二维运动区域进行分类,主要是区分人、车及混乱扰动,时间一致性约束使其分类更加准确;Kuno与Watanabe使用简单的人体轮廓模式的形状参数从图像中检测运动的人。
基于运动特性的分类
基于运动特性的分类是利用人体运动的周期性进行目标分类的方法。例如Cutler与Davis通过跟踪感兴趣的运动目标,计算出目标随着时间变化的自相关特性,而人的周期性运动使得其自相关也是周期性的,因此通过时频化方法分析目标是否存在周期性的运动特性而将人识别出来;Lipton通过计算运动区域的残余光流来分析运动实体的刚性和周期性,非刚性的人的运动相比于刚性的车辆运动而言具有较高的平均残余光流,同时它也呈现了周期性的运动特征,据此可以将人区分出来。目标识别是系统对之前提取并跟踪的目标进行识别和辨识。要想让系统具有目标识别和辨识能力,需要对系统进行模型训练。就是利用已知的目标特征(如车辆、人员、动物等),对系统进行训练,系统将会在大量已知的样本信息上了解、学习不同目标的特征(大小、颜色、速度、行为方式等),这样当系统发现一个目标时,系统将自动与已经建立好的模型进行比对或匹配特征,从而对目标进行识别和分类。
行为识别
目标的行为识别是近年来被广泛关注的研究热点,它是指对目标的运动模式进行分析和识别。行为识别可以简单地被认为是时变数据的分类问题,即将测试序列与预先标定的代表典型行为的参考序列进行匹配。通过在跟踪过程中检测目标的行为以及行为变化,根据用户的自定义行为规则,判断被跟踪目标的行为是否存在威胁。
模板匹配方法
采用模板匹配技术的行为识别方法首先将图像序列转换为一组静态形状模式,然后在识别过程中和预先存储的行为标本相比较。模板匹配技术的优点是计算复杂度低、实现简单,然而它对于噪声和运动时间间隔的变化是敏感的。
状态空间方法
基于状态空间模型的方法定义每个静态姿势作为一个状态,这些状态之间通过某种概率联系起来。任何运动序列可以看作为这些静态姿势的不同状态之间的一次遍历过程,在这些遍历期间计算联合概率。其最大值被选择作为分类行为的标准。目前,状态空间模型已经被广泛地应用于时间序列的预测、估计和检测,最有代表性的是HMMS。每个状态中可用于识别的特征包括点、线或二维小区域。状态空间方法虽然能克服模板匹配的缺点,但通常涉及到复杂的迭代运算。
结束语
视频监控系统的核心价值在于智能视频分析技术,由运动目标检测、分类、跟踪和行为识别等几个基本节组成,还包括智能视频检索技术,其中行为识别又包括异常行为检测、异常事件检测以及视频内容理解描述等。近年来,智能视频监控技术取得长足发展,应用领域不断扩大,从自动目标检测到现在的事件检测、自动目标识别,其监控产品也逐渐由模拟化向数字化、网络化与智能化方向发展。