基于运动目标检测的智能视频监控系统
2015-10-21周微彭力
周微, 彭力
(江南大学物联网工程学院,江苏无锡214122)
基于运动目标检测的智能视频监控系统
周微, 彭力*
(江南大学物联网工程学院,江苏无锡214122)
通过对视频序列的处理,使计算机在无人操作的情况下,检测出监控区域内的运动目标,并与预先设定的报警规则相比较,当发现异常行为时自动产生报警信号,提醒监管人员查看。系统中所用算法是将自适应混合高斯模型背景更新方法加以改进,结合基于帧间差分思想的双向匹配法,配合图像滤波方法,进行一系列后处理。实现室外场景运动目标检测,克服了树叶摇摆及轻微光照变化的影响,有效地滤除了各种噪声。提取出的运动目标精确完整,效果较已有算法得到了明显改善。
智能视频监控;运动目标检测;混合高斯模型;入侵检测报警系统
随着中国城市化进程的逐渐深化,社会对安全防范的需求与日俱增。监控摄像头数量的增长和清晰度的提高都引起监控视频数据的爆发式增长,对检测视频中不符合规定的行为带来巨大压力。传统的视频监控采用人工方法,这种方法费时费力且难以满足实时性要求,因此要求监控系统智能化。智能视频监控利用计算机技术对特定监控场景中摄像头采集到的视频图像进行实时分析和处理,并对预先设定的兴趣目标与异常事件进行自动检测与报警。
运动目标检测是智能视频监控的重要组成部分,目前常用的运动目标检测方法主要有3种:光流法、帧差法和背景差法。光流法[1]能够检测运动背景中独立运动的对象,但多数计算复杂、耗时多,很难实现实时检测;帧差法[2]对动态环境具有较强的自适应性,稳健性较好,但一般不能完全提取出所有相关的特征像素点;背景差法[3]直接通过当前帧与场景背景做差得到前景物体,原理简单可靠,已经得到了广泛的应用。背景差法的关键与难点在于如何提取出高质量的背景图像,并跟随场景的变化保持实时更新。
Wren等[4]研究像素灰度值在时间轴上的统计特性,提出了单高斯背景模型;Stauffer和Grimson[5]在单高斯模型基础上,针对复杂场景中像素统计特征的多峰情况,提出对单个像素的灰度值采用混合高斯建模(Gaussian Mixture Model,简称GMM);Zhang等[6]通过前几帧的检测结果得到当前时刻的预测目标,融合该预测目标和通过背景差法检测出的目标进行综合判决,得到最终的检测结果;杨涛等[7]在混合高斯模型的基础上,引入一个由多个独立单高斯模型组成的参考背景用以检测静止目标。张恒等[8]通过定义像素样本对模型更新的有效因子,提出一种自适应学习的混合高斯模型检测算法。
混合高斯背景建模对多模态场景具有良好的描述能力,能较好地克服背景中的扰动因素,但是算法比较耗时,且检测到的目标容易出现破碎现象。为此,文中提出一种改进的基于混合高斯模型的背景更新方法,结合基于帧间差分思想的双向匹配法,配合图像滤波方法,在快速提取出完整前景图像的同时有效地滤除了图像中的各种噪声,为实现智能视频监控提供有效的支撑。文中实现的系统是在微软Microsoft Visual Studio 2010软件平台上,利用Intel公司提供的用于计算机视觉处理的OpenCV函数库,对采集的视频进行运动目标检测,一旦发现目标出现在场景中预定义的区域,系统便自动发出报警,并将存在入侵目标的视频片段保存下来。
1 运动目标检测算法
1.1 混合高斯背景建模
混合高斯模型是将图像上某一像素点在时间序列的观测值视为一系列随机变量,用多个单高斯分布函数描述多模态的场景背景。经典混合高斯背景建模的步骤如下:
从t时刻开始,对于某个像素点在时间轴上的历史像素点(xi,yi)可以表示为
对背景图像中的每个点用k个独立的单高斯模型描述,图像中某一像素当前取值为Xt的概率为
1.1.1 初始化 第1个高斯模型的均值是第1帧对应的像素值,其他高斯模型初始均值为0。所有高斯模型的初始方差相等,其值与对象运动的剧烈程度有关。给每一个高斯模型都初始化一个权值,一般第1个模型的权值较大,其他取平均。
1.1.2 更新 每个新像素值输入模型,都会对现有的模型参数进行更新。若对以下式进行遍历:
如果发现此像素点符合当前某高斯模型,则对其进更新:
其中,α为学习速率;β=αη(Xt,μi,t,∑i,t)为参数更新速率。对未匹配的高斯模型只改变其权值:
若发现此像素点与所有高斯模型都不匹配,则引入一个新的高斯分布替换其中对应权值最小的高斯分布。新的高斯分布的均值为Xt,并具有一个较小的权重和一个较大的方差。
1.1.3 排序 把所有高斯分布对应的权值归一化,然后按照优先级从大到小的顺序排列,优先级越大越接近背景分布。最后取前K个高斯模型构建背景图片。K由下式确定:
1.2 对混合高斯模型的改进
为了满足视频监控系统的检测快速性,对混合高斯模型进行相应改进。
1.2.1 初始背景建模阶段 传统混合高斯模型是用第一帧图像作为初始背景模型进行建模的。然而对于一些场景,目标较多,含有各种噪声,故采用基于概率的统计背景作为背景图像的初始高斯模型参数。首先选取n帧序列图像,对每帧图像中对应位置每一点的像素值进行统计;统计完成后,图像中的每个像素点有n个对应的值。将其中出现次数最多的值作为混合高斯模型的初始背景值,这样比直接进行高斯更新要节省一定的时间而且效果较好。
1.2.2 参数更新阶段 传统的混合高斯模型在参数更新阶段,对所有像素作判决更新处理。这一过程中计算高斯成分的方差和更新速率使算法占用较多的时间,尤其是在高分辨率画面下,难以达到实时性要求。因此,文中将更新时的判断准则改为|Xt-μi,t-1|<T,T为经验阈值,从而省略了对方差的更新,节省了大量时间。将更新公式改为
使均值的更新不依赖于方差而进行,并对学习因子α进行动态调整。α的值随着被检测为前景像素值的个数增减而增减,从而更好地适应场景的变化。
2 前景提取及分割
经过以上的背景建模,可以得到初步的前景和背景。为了使运动对象更加精细完整且在空间和时间上更加连续,进行一系列后续处理。
2.1 邻域平滑
通过前面的运动检测处理得到的二值前景图像,除了有感兴趣的前景目标外,还含有不同种类的噪声。为了提高图像的质量,首先对其进行3×3中值滤波处理,以消弱图像中噪声的影响。
2.2 形态学处理
经背景建模后得到的前景对象往往会因为光照变化存在中间有孔洞、周围有毛刺的不平滑情况,因此引入数学形态学处理以改善这一情况,其基本算子主要包括膨胀、腐蚀以及两者组合的开运算和闭运算。开运算,即为先腐蚀后膨胀,可以去掉运动对象周围的孤立小点和毛刺;闭运算,即先膨胀后腐蚀,可以填平运动对象中的小孔洞,以及因光照出现的一些小缝隙。为了在去噪的同时充分保留细节信息,文中采用膨胀两次,腐蚀两次,再膨胀两次,腐蚀两次的开闭运算混合法处理。
2.3 帧内滤波
由于轻微光照变化,风及阴影的影响,得到的前景图片往往不可避免地在帧内引入孤立噪声点。但是相对于同帧内的运动对象而言,这些噪声点面积往往较小,通过阈值法就可以轻松去除。文中采用Canny算子检测帧内各个连通域的轮廓,首先统计轮廓内的像素点数(连通域面积),若小于阈值T1就认定为噪声直接去除,若大于阈值T1,则统计轮廓的像素点数(连通域周长);若大于阈值T2,则认定为运动目标,小于阈值T2则去除。阈值的大小可以根据背景前景的相似度以及监控环境由用户调整。
2.4 帧间滤波
经过帧内滤波,面积较小的噪声点一般去除,但不排除一些面积较大的噪声仍然存在。由于运动对象一般在时域上具有强连续性而噪声一般分布较为随机,因此文中提出引入基于帧间差分思想的双向匹配法,利用时域相关性滤去空间上不连续的随机噪声解决这一问题。将当前帧的前景掩模和后一帧相与,若匹配区域面积大于阈值Td,则认为这个区域是前景,做保留处理;若小于阈值Td,就验证当前帧与前一帧相与区域。若前向匹配区域大于阈值,那么认定此帧为运动对象消失,否则丢弃。阈值一般定为当前帧最大连通域面积的d倍(0<d<1),d的大小可根据场景需要进行调整。
通过以上一系列处理,得到背景图像和二值前景掩膜图像,采用背景消减法将当前帧与前景掩膜相与,得到完整的前景图片。
3 系统构建
3.1 系统结构
文中设计的智能视频监控系统是在摄像机监视的场景范围内,根据监控的需要和目的设置警戒区域。系统可以自动检测入侵到警戒区域内的运动目标,并发出警报信息,主要步骤如下:
1)获取监控场景中的视频图像;
2)根据需要设置警戒区域;
3)对视频图像进行分析,获取场景中出现的运动目标;
4)与预先设定的警戒区域相比较,判断是否出现入侵行为,对于存在入侵行为的帧发出警报,将含有入侵目标的视频片段保存下来。
根据入侵目标检测步骤,可以将入侵报警系统分为视频序列采集模块、警戒区域设置模块、运动目标检测模块、入侵检测及报警模块4部分,其框架如图1所示。其中,运动目标检测模块为实现区域入侵报警功能的核心模块。
图1 系统框架Fig.1 System framework
系统主要模块实现如下功能:
1)视频序列采集模块。视频序列采集模块实现视频序列的输入功能。实验中,本模块输入的数据为AVI格式的视频文件,输出为视频帧流,可为后续处理提供图像序列来源。
2)警戒区域设置模块。对监控区域范围初始化,首先在监控视频的首帧中用鼠标标注出警戒区域,获得警戒区域边界的具体坐标等。
3)运动目标检测模块。入侵目标检测模块是系统设计中的重要功能模块,它实现了运动目标检测的主要算法,将前景与背景分离。由于背景建模后的视频帧中存在噪声,系统采用一系列图像处理方法(包括滤波平滑,形态学处理,帧内滤波及帧间差分滤波),去除前景图像中的噪声及其他干扰,同时去除运动对象周围的孤立小点和毛刺,填平运动对象中的小孔洞,保留原视频序列的细节信息。
4)入侵检测及报警模块。报警模块的主要功能是根据预先设定的警戒区域边界条件,检测前景区域与警戒区域出现公共像素点的个数。如果超过预先设定好的阈值,则判定为入侵行为。对于异常事件,警戒区域边界颜色变为红色并在视频中发出报警信号进行报警,同时对进入警戒区域目标的视频片段进行采集保存。
3.2 设计流程
系统工作时,首先将采集的视频序列转换成图像序列,然后对每一帧图像进行运动检测,对得到的运动目标进行模块化处理,检测到入侵时则进行报警,整体流程如图2所示。
图2 系统设计流程Fig.2 System design process
4 实验及分析
文中主要针对交通车辆场景和校园行人场景进行实验。整个系统程序在VS2010+OpenCV2.2环境下编写,硬件采用DELL的PC机(Pentium(R) Dual-Core CPU,3 GHz,2 GB内存),对两段标准测试视频进行分析,视频图像大小分别为352×288和360×260,格式为AVI格式。分别将两段监控视频输入该系统,得到如图3所示的检测结果。
图3 校园场景检测结果Fig.3 Cam pus scene detection results
由图3(f)可以看出,传统的GMM算法检测出的前景图像含有较多的噪声,运动目标也不够清晰完整。文中在传统混合高斯模型背景更新方法的基础上进行改进,结合基于帧间差分思想的双向匹配法,配合图像滤波方法,克服了树叶摇摆及轻微光照的影响,有效地滤除了各种噪声,精确完整地检测出运动目标,效果较传统算法得到了明显改善。
将道路交通场景应用于本系统中,同样得到良好的检测效果(见图4)。
图4 道路交通场景检测结果Fig.4 Road scene detection results
由图3和图4两个实验可以看出,文中算法的分割结果不仅虚假前景信息少,而且分割较为完整,与传统GMM算法相比,效果得到明显改善。
为了定量分析实验结果,将文中提出的运动目标检测算法与传统GMM算法及文献[9-10]提出的算法进行对比。实验结果采用近几年由Maddalena L提出的查全率(Recall)和查准率(Precision)[11]进行度量。查全率是检测的正确数与手工标注(ground truth)的总数之比,可以表示为
查准率是检测正确数和总的检测数之比,即
其中,TP为前景像素点中被正确标记为前景的像素数目;FN为前景像素点中被错误标记为背景的像素数目;FP为背景像素点中被错误标记为前景的像素数目。
F度量则是查全率和查准率的一个综合,是反应整个结果好坏的一个综合指标[12],即
在相同软硬件条件下,对不同算法进行评估与比较。表1为对校园场景监控视频进行检测的定量实验结果,表2为道路交通场景监控视频的定量实验结果。
表1 校园场景不同算法的实验比较Tab.1 Experimental com parison of different algorithm s in cam pus scene
表2 道路交通场景不同算法的实验比较Tab.2 Experimental com parison of different algorithm s in road scene
由表1和表2可以看出,文中算法的查准率和查全率均优于GMM算法、文献[9]和文献[10]中的算法。由于文中算法填补了连通域中的孔洞,检测出的目标清晰完整,查全率较其他算法有一定的提高。由于文中算法通过一系列后续处理,克服了树叶摇晃及轻微光照的影响,滤除了图像中的大部分噪声,消除虚假前景信息,查准率得到很大程度的提高,比查全率提高幅度更大。
为了检验算法的实时性,取道路交通场景视频对GMM算法、文献[9-10]和文中算法的平均单帧处理时间进行比较,具体结果见表3。
表3 单帧处理时间测试结果Tab.3 Test resu lt of single fram e p rocessing tim e
由表3可以看出,传统混合高斯背景建模方法耗时较长,文献[9]算法不需要计算高斯模型的均值和方差,所以速度很快,但也因此牺牲了部分的查全率。文献[10]算法为了获取高检出率,需利用前景模型并计算短时稳定度,算法复杂度较高,耗费时间长。文中算法由于对参数更新阶段进行改进,大大减少了计算量,从而满足了监控系统快速处理的要求。
由此可知,文中算法能较好地检测出入侵目标,在当前图像中发出警报,并将出现入侵的视频序列保存下来,生成的新视频与原始视频相比,长度大大减小,便于监管人员查看。同时开发的视频监控系统具有很大的实用价值,可用于银行、校园等公共场所的监控管理,也可以用于公安部门的刑事侦查。可将出现在特定区域的可疑人员检测出来,大大节省时间和人力。
5 结 语
文中从实际应用的角度出发,对监控视频中的运动目标检测相关技术进行了研究,在Microsoft Visual Studio 2010软件平台上编程实现了文中提出的运动目标检测算法。该算法在快速提取出精准完整的前景图像的同时能有效地滤除各种噪声,对各种类型的运动目标具有较好的检测效果。由此实现了具有区域入侵报警功能的智能监控系统,系统性能优良,实用价值明显。
[1]Eveland,Konolige K,Bolles R.Background modeling for segmentation of video-rate stereo sequences[C]//IEEE CVPR.Santa Barbara,CA:IEEE Computer Society,1998:266-271.
[2]Neri A,Clonnese S,Gusso G,etal.Automaticmoving objectand background separation[J].Signal Processing,1998,66(2):219-232.
[3]Arseneau,Cooperstock J.Real-time image segmentation for action recognition[C]//1999 IEEE Pacific Rim Conference on Communications,Computers and Signal Processing.Victoria,Canada:IEEE,1999:86-89.
[4]Wrren C,AzarhayejaniA,Darrell T.Pfinder:real-time tracking of the human body[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.
[5]Stauffer C,Grimson W.Adaptive background mixture models for real-time tracking[C]//1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins,CO:IEEE,1999:246-252.
[6]ZHANG Xiang,YANG Jie.A novel algorithm to segment foreground from a similarly colored background[J].International Journal of Electronics and Communications,2009,63(11):831-840.
[7]杨涛,李静,潘泉.一种基于多层背景模型的前景检测算法[J].中国图象图形学报,2008,13(7):1303-1308.
YANG Tao,LIJing,PAN Quan.A multiple layer background model for foreground detection[J].Jounal of Image and Graphics, 2008,13(7):1303-1308.(in Chinese)
[8]张恒,胡文龙,丁赤飚.一种自适应学习的混合高斯模型视频目标检测算法[J].中国图像图形学报,2010,15(4): 631-636.
ZHANG Heng,HUWenlong,DING Chibiao.Adaptive learning Gaussian mixturemodels for video target detection[J].Jounal of Image and Graphics,2010,15(4):631-636.(in Chinese)
[9]蒋鹏,秦小麟.复杂背景下的自适应前景分割算法[J].中国图象图形学报,2011,16(1):37-43.
JIANG Peng,QIN Xiaolin.Robust foreground detection with adaptive threshold estimation[J].Journal of Image and Graphics, 2011,16(1):37-43.(in Chinese)
[10]张超,吴小培,周建英.基于改进高斯混合模型和短时稳定度的运动目标检测算法[J].电子与信息学报,2012,34(10): 2402-2408.
ZHANG Chao,WU Xiaopei,ZHOU Jianying.A moving object detection algorithm based on improved GMM and short-term stabilitymeasure[J].Journal of Electronic and Information,2012,34(10):2402-2408.(in Chinese)
[11]Maddalena L,Petrosino A.A self-organizing approach to background subtraction for visual surveillance applications[J].IEEE Transactions on Image Processing,2008,17(7):1168-1177.
[12]甘超,王莹,王向阳.多特征稳健主成分分析的视频运动目标分割[J].中国图像图形学报,2013,18(9):1124-1132.
GAN Chao,WANG Ying,WANG Xiangyang.Multi-feature robust principal component analysis for video moving object segmentation[J].Journal of Image and Graphics,2013,18(9):1124-1132.(in Chinese)
(责任编辑:邢宝妹)
Intelligent Surveillance System Based on M oving Object Detection
ZHOUWei, PENG Li*
(School of Internet of Things Engineering,Jiangnan University,Wuxi214122,China)
To let computer discover the abnormity by processing and analyzing the video sequences,and send the alarm and useful information without human action,this paper places the emphasis on the invasion target detection.The algorithm in this intelligent surveillance system is based on the adaptivemixture Gaussian model proposed by Stauffer et al.The basic is to combined the two-way matching method based on the frame difference thoughts with a series of image filteringmethods.This results in a stable outdoor detector which reliably dealswith lighting changes,swing of leaves, and various noises.The proposedmethod can extract themoving object exactly and is superior to the traditionalmethods.
intelligent surveillance,moving object detection,mixture Gaussian model,intrusion detection alarming system
TP 391.41
A
1671-7147(2015)03-0310-06
2014-12-14;
2015-03-16。
江苏省产学研前瞻性联合研究项目(BY2013015—33,BY2014024,BY2014023—362014, BY2014023—25)。
周 微(1990—),女,黑龙江黑河人,电子与通信工程专业硕士研究生。
*通信作者:彭 力(1967—),男,河北唐山人,教授,博士生导师。主要从事视觉传感器网络、人工智能、计算机仿真等研究。Email:pengli@jiangnan.edu.cn