APP下载

基于多摄像头拼接的视频摘要

2014-01-15肖碧波

电子设计工程 2014年17期
关键词:图像匹配摄像头时空

宋 戈,胡 伟,肖碧波

(北京化工大学 北京 100029)

在社会公共安全领域,视频监控系统已经成为维护社会治安,加强社会管理的一个重要组成部分。然而视频录像存在存储数据量大,存储时间长的特点,通过录像寻找线索,获取信息的传统做法需要耗费大量的人力、物力以及时间,效率极低。因此,如果在视频监控系统中,对原始视频进行浓缩即视频摘要,就可以快速浏览,锁定检索对象,提高工作效率,满足各种监控方面的需求及应用。但是由于单个摄像机所能获取到的场景信息有限,而高清广角摄像机因其价格较高在一般的场合无法广泛使用,因而,在对将要进行视频摘要的视频流进行获取时,运用技术对多摄像头进行拼接具有重要的实用价值。基于多摄像头拼接的视频摘要就是利用图像拼接技术将多个有公共视野的摄像头拼接为视野范围更广的摄像头,并对此拼接而成的摄像头所捕获的视频流进行视频摘要处理。

1 多摄像头的实时拼接

1.1 多摄像头拼接的总体思路

摄像头拼接的基础是图像拼接,国内外对图像拼接方面的研究,早从上世纪七八十年代就已经开始,并且在多年的研究中取得了较多的成果,产生了多种不同的图像拼接算法和溶合方法。

在当前已经出现的多种图像拼接方法中,David Lowe于1999年提出并于2004年进行更深入发展和完善的以局部特征描述子SIFT为核心的算法因其对平移、旋转、光照、尺度等具有较好的鲁棒性而得到广泛应用[1-2],该算法能实现较好的拼接效果,但是也存在算法复杂、计算量庞大的缺点,计算的复杂度过高就难以满足实时性需求,而摄像头的拼接恰恰需要的就是一定的实时性,因此,如何在取得较好拼接效果的前提下实现多摄像头拼接的实时性,是本文第一部分的研究重点。多摄像头拼接的流程图如图1所示。

摄像头的基本组成是帧图像。所以多摄像头拼接的本质是摄像头捕获的帧图像的拼接。帧图像的拼接则主要有匹配和融合这两步组成。

1.2 帧图像匹配

图1 多摄像头拼接流程图Fig.1 The flowchart of multi-camera stitching

帧图像拼接的质量主要依赖于图像匹配的精确度,因此帧图像匹配算法是本实验的核心和关键。选择的匹配算法要同时兼顾匹配精度和计算复杂度。特征匹配的重点是特征点检测,常用的特征点检测算法有Canny算法[3]、Harris算法[4]等。本文采用比较经典的基于sift变换的帧图像拼接技术[1-2]。 SIFT特征匹配算法包括两个阶段,第一阶段是SIFT特征的生成;第二阶段是SIFT特征向量的匹配。当两幅帧图像的SIFT特征向量生成完成后,我们用关键点特征向量的欧式距离(如公式(1)所示)来作为两幅帧图像中关键点的相似性的判定度量。

由于自动提取和匹配得到的伪匹配特征点集合中难免存在误配点使帧图像拼接不准确,因此,通过一种纠错能力很强的算法即RANSAC算法[5]来提纯匹配点集合。

1.3 帧图像融合

帧图像融合算法有很多种,本实验参考Szeliski提出的一种图像平滑过渡算法[6]:设融合区域的渐变因子为d,imagel和image2分别代表前后两幅图像在重叠区域的对应像素值,image3代表融合区域的对应像素值,则image3的值如公式(2)所示,d与帧图像之间水平方向重叠距离有关(0

通过这样的帧图像融合,帧图像之间就能慢慢过渡平滑拼接。

1.4 消除接缝并产生公用模板

由于曝光程度等原因,在帧图像融合的过程中极容易产生拼接缝,拼接缝对于整幅图像来说可以理解为帧图像的噪声,因此消除拼接缝可以采用图像去噪的方法。传统去噪的方法有很多[7],中值滤波法速度快,但质量一般。小波变换法算法比较复杂[8-9],实用性低。因此,我们最终采用对重叠区域进行加权平滑的方法。这种方法的思路是:图像重叠区域中像素点的灰度值由两幅图像中对应点的灰度值加权平均得到。当一组帧图像匹配完成后,它们匹配过程中产生的变换矩阵及剪切模板也随之被记录下来。

1.5 多摄像头实时拼接成一个摄像头

摄像头一组帧图像拼接过程中,帧图像匹配,帧图像融合这两个是最主要且耗时最多的步骤,如果能在后续的帧图像拼接中把这两步简化,对于实现多摄像头拼接的实时性将起到至关重要的作用。

由于摄像头位置相对固定,当再次从多个摄像头提取帧图像时,我们将每组对应帧按照首帧图像匹配时产生的变换矩阵进行变形;将变形后的帧图像用之前首帧图像配准后产生的剪切模板进行裁剪及融合;将每帧融合好的新镜头循环显示,如此,便使之达到多摄像头融合成一个摄像头的效果。使用公用变换和剪切模板加速前后摄像头单帧拼接时间的对比如图2所示。

图2 摄像头单帧拼接时间对比图Fig.2 Time comparison chart of camera single-frame splicing

2 新摄像头的视频摘要

我们知道,摄像头被普遍用于监控领域,多个摄像头拼接成一个摄像头之后,监控方的捕捉视野在变宽的同时,也存在着单个摄像头录制视频后同样的问题,即视频信息量巨大,其中无用的信息占大多数[10],为了更高效的获得所需的信息,我们需要运用近年来被广泛使用于刑侦监控领域的视频摘要[11]。视频摘要是对视频内容的一个简单概括,它先通过运动目标分析与检测,提取运动目标及背景,然后对各个目标的运动轨迹进行分析,将不同的目标放到一个共同的背景场景中,并将它们以某种方式进行组合。我们要做的,就是将拼接而成的摄像头所捕获的视频进行视频摘要处理,实现摄像头拼接更高效的实际应用。

视频摘要的形式多种多样[11],两种最基本的摘要形式为关键帧序列和缩略视频。

对于多摄像头拼接而成的新摄像头,本文采用的视频摘要方法参考来自于Yael Pritch提出的乱序视频摘要法[12],基本步骤如下:首先产生背景视频;一旦背景视频提取确定,在可能的时间内每个对象的一致性损耗将被计算;上一步即能量最小化步骤确定哪些时空对象出现在摘要中以及出现的时间点;最后将所选择的时空对象与时间推移后的背景相结合。

2.1 创建背景视频

摘要视频的背景是一个延时的背景视频,用于延时的背景视频的背景帧是按照内插的时间直方图选择的,这个选择的完成,使得每两个被选择为背景的帧之间的直方图面积是相等的。虽然我们不能实现运动物体的精确分割,但我们可以将运动对象缝合于具有相似外观的背景图像上。这种运动对象与背景的一致性由此能量函数(如公式(3)确定[12]。

2.2 基于对象的摘要

2.2.1 运动目标的检测与分割

为了产生有用的摘要,动态对象需要被识别。我们使用一种简化方法即计算时空管来代表动态对象[12],同时将背景减法与最小化切割结合在一起,用以得到光滑的前景对象的分割,在此过程中,与背景梯度相吻合的图像梯度需进行衰减。动态对象集的生成依赖于标记函数,通过标记函数f可以标记作为前景或背景图像的每个像素r。一个理想的标记函数f通常能够最小化吉布斯自由能(如公式(4)所示)[13]。

标记完成后,我们在时空体中构建一个包含所有的前景像素的掩模,并在此掩模上应用一个三维形态的扩张。其结果是,每一个对象被来自背景几个像素包围。最后,三维掩膜被分组为连接部件,表示为活动对象时空管。每个活动对象时空管b用特征函数(如公式(5)所示)表示[14]。

摘要视频是基于时间映射M而生成,M将输入视频的原始时间在时间上移动对象b映射到摘要视频的时间片段中。这个映射过程中需满足能量最小化,能量约束如公式(6)所示:

2.2.2 运动对象序列

所有检测到的运动对象,必须表示为时空场中的运动对象活动集[15]并在队列中等待用户排列。当一个对象时空管被插入到队列中时,其活动损耗将被计算用以加速摘要视频的生成。由于空间有限,在分配的空间将被耗尽的时候,部分对象时空管必须从队列中删除。删除与否是通过3个条件判定:“时长”,“重要性”,“潜在的碰撞”[12]。 其中,判定物体重要性是通过计算它的特征函数和。

2.3 缝合成摘要视频

把所有对象时空管缝合在一起可能导致来自不同对象的颜色混和,因此,在消除了对象和背景之间唯一的接缝的同时需要在不同对象之间保持尖锐跃迁。对所有对象使用相似的背景并且独立的拼接每一个运动对象到延时背景中。在融合阶段,使用修改版本的泊松校对法(如公式(7)所示)[11]。

在将各活动对象集缝合到背景上之后,通过计算每一个象素相应的像素的加权平均值,得到每一个像素的值,与此同时,重叠的对象被融合在一起。

3 实验结果

3.1 多摄像头拼接成果

如图3~图5所示,在几个不同的地点,将多摄像头拼接成一个摄像头使观察者视野拓宽。

3.2 多摄像头拼接后视频摘要处理

图3 带绿地的校园一角Fig.3 Corner of the campus with green

图4 教学楼大门口Fig.4 At the gate of the building

图5 一条小路的入口Fig.5 Entrance to an alley

在常用于监控的教学楼大门口处,进行了摄像头拼接后新摄像头所捕获的视频进行视频摘要处理,结果如下。

图6(a)中画面里的4个人分别来自于3个时间段,左边的对象A和B第一个时段,中间的对象C第二个时段,右边的对象D第三个时段(如图6(b)、图6(c)及图6(d)所示),这些运动物体通过视频摘要组合在一起,使摄像头视频中的有用信息能最快的被获得。

图6 原视频及摘要视频中的4个对象A,B,C,DFig.6 The four object A,B,C and D in source video and abstract video

通过视频摘要处理后,拼接的新摄像头拍摄的几十分钟视频,在不失去重要信息的情况下就可以通过这种方式浓缩成几分钟,给工作效率带来了极大的提高。

4 结束语

由于价格优势和便携程度,摄像头在诸如一般小型监控等方面具有极大的应用前景,而提取有用信息和拓宽捕获区域又是这类应用所追求的重点,文中把多摄像头拼接与视频摘要相结合,实现了基于多摄像头拼接的视频摘要,使得这两方面的优势得到充分发挥并具有更高的实用价值。但是由于视频摘要在处理时所需工作量较大,虽然最终效果很好,但是处理的时长却有时远大于视频本身的时长,精确性和速度很难两全,因此,如何在保证精确性的同时提高速度,是今后继续研究的重点。

[1]David G.L.Distinctive Image Features from Scale-Invariant Keypoints.[J].international journal of computer vision 2004,39-46.

[2]Lowe,D.G.Object recognition from local scale-invariant features [J].The Proceedings ofthe Seventh IEEE International Conference on 1999,1150-1157.

[3]Canny.J.A Computational Approach to Edge Detection[J].IEEE Trans Pattern Analysis and Machine Intelligence,1 986(8):679?698.

[4]Harris.C.and Stephens.M.A Combined Comerand Edge Detector [C]//In:Proceedings ofthe 4th Alvey Vision Conference,1988:147—151.

[5]David A.Forsyth,等.计算机视觉——一种现代方法[M].林学阁,译.北京:电子工业出版社,2004.

[6]Szeliski.R.Video mosaics for virtual environments[J].IEEE Computer Graphics and Applications,1996,16(2):22—30.

[7]丁迎,洪继光.图像拼接中伪匹配的判别和消解[J].中国图象图形学报,1999,4(10):886-890.DING ying,HONG Ji-guang.Thediscriminationand digestion of pseudo-match in image stitching [J].Journal of Image and Graphics,1999,4(10):886-890.

[8]Jane.Y,Parbir Bhattacharya.A Wavelet—Based Coarse-to-Fine Image Matching Scheme in A Parallel Virtual Machine Enviroment[J].IEEE Transactions on Image Processing.2000,9(9):1547-1559.

[9]晃锐,张科,李言俊.一种基于小波变换的图像融合算法[J].电子学报,2004,32(5):750-753.HUANG Rui,ZHANG Ke,LI Yan-jun.An image fusion algorithm based on wavelet transform [J].chinese journal of electronics,2004,32(5):750-753.

[10]LI Ying.An OverView of Video Abstraction Technique[R].Image Systems Laboralory,HP Laboralory Palo Alto,HPL-2001-191,2001.

[11]欧阳健全,李锦涛,张勇东.视频摘要技术综述[J].计算机工程,2005,30(10):7-9.OUYANG Jian-quan,LI Jin-tao,ZHANG Yong-dong.The summary ofvideo abstract [J].Computerengineering,2005,30(10):7-9.

[12]Yael P,Alex R,Shmuel P.Nonchronological video synopsis and indexing[J].IEEE Transactions on Pattern Analysis And Machine Intelligence.2008(11):1971-1984.

[13]Boykov Y,Kolmogorov V.An experimental comparison of Min-Cut/Max-flow algorithms for energy minimization in vision [J].IEEE Trans on Pattern Analysis and Machine Intelligence 2004(9),1124-1137.

[14]Irani M,Anandan P,Bergen J,et al.Efficient representations of video sequences and their applications[J].Signal Processing on Image Comm,1996(4):327-351.

[15]王成,刘桂清,老松场,等.面向事件影片摘要生成办法[J].中国图象图形学报,2005,10(5):642-649.WANG Chen,LIU Gui-qing,LAO Song-yang,et al.The generation approach of event-oriented movie summary[J].Journal of Image and Graphics,2005,10(5):642-649.

猜你喜欢

图像匹配摄像头时空
浙江首试公路非现场执法新型摄像头
跨越时空的相遇
摄像头连接器可提供360°视角图像
镜中的时空穿梭
玩一次时空大“穿越”
基于图像匹配和小波神经网络的RFID标签三维位置坐标测量法
一种用于光照变化图像匹配的改进KAZE算法
时空之门
奔驰360°摄像头系统介绍
基于SIFT和LTP的图像匹配方法