APP下载

一种基于双目PTZ相机的主从跟踪方法

2013-07-25崔智高李艾华

电子与信息学报 2013年4期
关键词:主从球面高分辨率

崔智高 李艾华 姜 柯 周 杰

①(清华大学自动化系 北京 100084)

②(第二炮兵工程大学502教研室 西安 710025)

1 引言

随着世界范围内对公共安全以及军事安全的迫切需要,视觉监控成为计算机视觉领域的重要研究课题。一般来说视觉监控包括以下几个方面的研究内容:感兴趣目标检测、目标分割与跟踪、行为分析与理解等[1-3]。由于目标跟踪是其中的中心环节,因此得到了国内外学者的广泛关注。传统的跟踪系统[4]多采用静止相机,由于相机视场固定,分辨率单一,无法获得跟踪目标的高分辨率图像,为日后的查询、举证等工作带来困难;随着硬件水平的提高,基于单目 PTZ(Pan-Tilt-Zoom)相机的主动跟踪系统得到了广泛研究与应用[5],这些系统可使目标以较大尺度出现在图像中心,但由于视场狭小丢失了全景信息,难以直观获得目标在场景中的位置。

针对上述缺陷,包含PTZ相机的多目视觉系统成为视觉监控中的研究热点,这些系统一般工作在主从模式下,主相机实现目标在全景下的跟踪,并控制PTZ相机对目标进行主动跟踪。如文献[6,7]提出了一个静止相机与一个 PTZ相机相结合的系统构架,该系统主要问题在于监控视场有限,仅局限于静止摄像机的监控视场,无法适应于大场景下的监控;为了扩大系统的监控范围,文献[8]提出了多静止相机与PTZ相机相结合的系统配置,这无疑增大了系统的硬件开销;此外,文献[9,10]提出了全向相机与PTZ相机相结合的跟踪系统配置,但该系统一般应用于室内场景,且由于全向相机分辨率低,较难实现两相机之间的信息融合。

受变色龙视觉系统的启发,本文提出一种基于双PTZ相机的主从跟踪方法。由于双目PTZ相机的对称性和参数的可变性、可控性,相比于传统主从跟踪系统,具有灵活性强、监控范围广、便于信息融合等优势。针对传统主从控制方法的局限性,本文设计了一种基于球面坐标模型的主从控制方法,统一了两相机不同参数下的情况,可以实现两摄像机任意pan-tilt-zoom参数下的主从模式跟踪,适应于大范围场景下的监控。实际监控场景中的多组实验结果验证了本文方法的有效性。

2 系统结构

系统总体结构如图1所示。可分为图像捕获模块,两个摄像机的控制模块以及两个摄像机的跟踪模块。摄像机控制模块一方面的用途是改变摄像机pan-tilt-zoom参数以切换监控视场,另一方面的用途是主动跟踪时受另一相机(主相机)控制,从而获得目标的高分辨率图像。两摄像机的跟踪模块具有对称的结构,某一相机发现目标后即成为主相机,另一相机为从相机,主相机在每一帧图像中将跟踪目标的预测值传送给从相机,从相机根据预测值以及主相机pan-tilt-zoom参数利用球面坐标模型计算其pan-tilt-zoom参数。

3 基于球面坐标模型的主从跟踪方法

3.1 问题描述

视觉巡视过程中,发现感兴趣目标的相机为主相机,记为 Cam-M,另一相机为从相机,记为Cam-S。本质上,本文问题可描述为主从跟踪过程中的从相机参数估计问题,即主相机 Cam-M 在任意pan-tilt-zoom参数(PM,TM,ZM)下,由跟踪目标在 Cam-M 观测图像IM上的运动轨迹(t=1,…,n),估计从相机 pan-tilt-zoom参数(t=1,…,n),使得跟踪目标始终处于Cam-S图像中心位置。本文之所以强调 Cam-M 在任意 pan-tiltzoom参数下,是因为实际应用中不同的监控场景或监控任务对应的pan-tilt-zoom参数不同,实现任意参数下的主从模式跟踪,具有更大的实际应用价值。

图1 系统结构图

传统静止相机加PTZ相机的系统配置中[6,7],两摄像机的协同控制采用离散采样的标定方法。设[xs,ys,1]T为静止摄像机图像中目标的齐次坐标,[p,t]T为使该图像坐标位于PTZ相机图像中心的参数,通过手动采集一系列图像点及其对应的参数,可获得两者之间的匹配函数F。

针对本文系统,如果采用上文提到的离散采样映射的标定方法,当 Cam-M 参数变化时,需要重新建立Cam-M图像坐标与Cam-S的pan-tilt-zoom参数之间的映射关系,这无疑会影响系统的应用。本文设计了一种基于球面坐标模型的主从控制方法,只要两个相机安装固定,不受 Cam-M 参数改变的影响,可实现任意pan-tilt-zoom参数下的主从模式跟踪。

3.2 具体实现

3.2.1主相机目标跟踪主相机 Cam-M 发现目标后,采用静止相机下的跟踪方法逐帧跟踪目标。基于系统的实时性要求,本文采用基于颜色直方图的Mean Shift跟踪算法[16]。颜色模型选用受光照影响较小的H分量作为目标的颜色特征向量,并把H分量量化为16个色度空间,利用该分量核函数加权直方图作为目标模型,通过Mean Shift的迭代运算,可在当前帧中搜索与目标模型最相似的潜在目标,目标模型与候选模型的相似度用巴氏系数度量。

在2008年,针对英语专业课程改革,文秋芳以 Swain 的“输出假设”作为理论基础,首次提出了基于“学用一体”理念的“输出驱动假设”。2013 年文秋芳将该假设拓展应用到大学英语教学,2014年该假设被修订为“输出驱动-输入促成假设”,并将其正式命名为“产出导向法”(如图1所示)。

Mean Shift跟踪算法一般采用前一帧目标的中心作为当前帧跟踪窗口的初值进行迭代,当目标运动速度较快时,有可能丢失跟踪目标,为此,本文引入Kalman滤波器。本文中Kalman滤波器有两个作用:一是通过先前帧的观测预测目标在当前帧的中心位置,并在当前帧的预测邻域内进行目标搜索与匹配,这样既可提高迭代收敛速度,又可以减小目标丢失的可能性;二是将跟踪目标中心位置的预测值传送给从相机,从而可以抵消图像处理和从相机机械运动的延时误差,保证目标处于从相机中心位置。如图2所示。

3.2.2 从相机参数估计主相机能够及时捕捉目标运动的全景信息,但分辨率较低,目标的精确定位与跟踪需要由从相机完成,从相机需要不断调整自身参数以适应目标位置的变化。本文设计了基于球面坐标模型的从相机参数估计方法,其基本思想是对两个摄像机坐标系分别求取一个变换矩阵RM和RS,建立球面坐标系,并使两摄像机坐标系上对应点在球面坐标系上的经度值保持一致,纬度差可用来表达视角差异。这样以两个摄像机的球面坐标系为桥梁,通过一系列坐标变换,可准确地估计从相机参数。

图2 目标跟踪与目标预测示意图

为了估计变换矩阵RM和RS,采用文献[11,13]的方法:手动采集监控场景中的N对图像,并使每对图像的视场基本保持一致以获得更多的匹配特征点对,然后采用多组基础矩阵的方法计算变换矩阵RM和RS,由于此方法是基于统计意义上的,理论上讲N越大,RM和RS估计越准确,本文中取N=2 0。当摄像机安装固定后,即使两摄像机pantilt-zoom参数变化,RM和RS也不会改变,因此可以方便处理相机参数变化的情形。

从相机参数估计过程具体可以分为4个步骤,如图3所示。

图3 从相机参数估计流程

本文采用匹配特征点[17]的方法对 PTZ相机进行标定,摄像机参数矩阵R和K可直接通过摄像机pan-tilt-zoom参数进行计算。

步骤 2 Cam-M 摄像机坐标到球面坐标的变换。将变换到Cam-M对应的球面坐标系,并计算经度和纬度,计算公式如式(2)所示。

因此

事实上场景中目标的深度Dt是未知的,系统无法准确估计目标在Cam-S球面坐标系下的纬度。本质上,计算目标深度Dt和计算目标在 Cam-S球面坐标系下的纬度是基本等价的,它们可看作chicken-and-egg问题。

图4 根据深度范围确定从相机纬度范围

其中λ和γ为加权系数,满足λ+γ=1 。

3.2.3 从相机控制估计出从相机pan-tilt-zoom 参数后,即可通过串口发送命令控制相机运动到指定参数。PTZ控制包括参数控制和速度控制两部分。对于参数控制,由于本文在主相机目标跟踪环节引入了预测机制,因此可以部分抵消指令发出的通讯延迟以及相机机械运动的延时误差,保证目标处于从相机中心位置。此外,相机 pan-tilt运动的速度应与目标运动的速度成正比,因此本文在主相机中度量前一帧目标中心位置和当前帧目标预测位置的差异,如果某个方向坐标偏移较大,则给定一较大速度,反之,则给定一较小速度(x方向坐标差异对应pan控制速度,y方向坐标差异对应tilt控制速度),这样可保证跟踪的平滑性,并可降低相机运动带来的图像模糊。

3.2.4高分辨率结果图跟踪结束后,系统以高分辨率全景形式输出,其作用在于可以提高可视化效果,并且有利于后期进行行为分析、犯罪取证等应用。

首先,采用基于特征点和直接像素相结合的方法[14]对两相机的同步帧图像进行配准,由于基线长度相对于监控场景深度可忽略不计,本文采用仿射配准模型。采用running average[18]方法估计主相机背景区域并分离前景,通过两相机同步帧不同分辨率图像间的配准模型,估计出从相机对应帧图像中的前景区域和背景区域。

依次将从相机每一帧高分辨率图像的背景区域映射到IH中,并采用running average[18]的方法进行更新。

最后,依次将从相机每一帧高分辨率图像的前景区域映射到IH中,生成每一帧的高分辨率全景图。

4 实验结果与分析

4.1 系统配置

本文系统使用SONY EVI D70系列PTZ相机,两个 PTZ相机固定在室内屋顶用来监控室外大场景。两个PTZ相机通过RS232串口总线控制,捕获图像的大小为320×240,整个系统在C++环境执行,运行环境为3.0 G CPU和1 G内存的PC机。

实验中给定场景深度范围为 50~200 m,两相机基线长度为0.78 m,由于监控场景较大,跟踪目标尺度变化较小,本文对从相机给定固定的 zoom值,令zoom=18。加权系数λ和γ取0.5,生成的高分辨率全景图大小为1600×1200,即k=5。在室外场景中进行了多组实验,验证了方法的有效性,实验结果可从http://ivg.au.tsinghua.edu.cn/index.php?n=Main.Data下载。下文中给出了其中的两个实验结果。

4.2 实验结果

实验1Cam-L发现感兴趣目标成为主相机(Cam-M),对应的pan-tilt-zoom参数为p=-63.52,t=-1 1.32,z=1 1.50。实验结果如图5所示。图5(a)给出了其中几帧的跟踪结果,在第 1帧图像中Cam-L发现目标并开始跟踪,Cam-R从初始位置开始调整PTZ参数,在第48帧获得目标的高分辨率图像,中间图像为第195帧、310帧以及460帧的跟踪结果,第565帧为目标离开Cam-L视场,跟踪结束,两相机恢复到预先设定位置。图 5(b)为高分辨率全景拼接结果(为了可视效果及节省空间,本文将48帧、195帧、310帧以及460帧的前景映射到一张图像中)。

实验2Cam-R发现感兴趣目标成为主相机(Cam-M),对应的pan-tilt-zoom参数为p=-90.66,t=-1 3.50,z=10.00。实验结果如图6所示(说明可参照实验1)。

为了验证从相机主动跟踪过程中参数估计的准确性,本文以实验1为例,根据目标在主相机的运动轨迹,手动调整从相机参数,使目标在主相机每一帧图像上轨迹点坐标处于从相机中心位置,并记录从相机 pan-tilt参数,该参数可以看作真实值,将其与本文从相机参数估计结果进行比较,如图 7所示。可以看出,本文方法能够比较精确地估计从相机参数,其中pan参数的平均估计误差为0.243°,tilt参数的平均估计误差为0.299°。

5 结束语

本文借鉴变色龙视觉系统的机制,利用两个PTZ相机构建了能够实现大场景下广域监视和高分辨率精确关注的主从跟踪系统。该系统相对于其它系统具有灵活性强、监控范围广、便于信息融合等优势。针对传统主从控制方法的局限性,我们设计了一种基于球面坐标模型的主从控制策略,可方便处理两相机参数变化的情形,能够实现两摄像机在任意参数下的主从模式跟踪。此外,为了直观获得目标运动的高分辨率信息,系统以高分辨率全景作为结果输出,增强了系统的可视性和实用性。在室外场景中进行了多组实验,验证了方法的有效性,为大场景下可变视角监控以及多分辨率视觉跟踪提供了一条有价值的途径。

图5 主从跟踪与高分辨率全景拼接结果(Cam-L为主相机)

图6 主从跟踪与高分辨率全景拼接结果(Cam-R为主相机)

图7 pan参数和tilt参数估计结果

本文下一步将构建准确的场景深度模型以实现对从相机的精确控制,此外,考虑到一般监控场景下,地平面总是可见的,研究如何利用地平面约束实现主从模式跟踪也是本文下一步的研究内容。

[1]Salti S, Cavallaro A, and Stefano L D. Adaptive appearance modeling for video tracking: survey and evaluation[J].IEEE Transactions on Image Processing, 2012, 21(10): 4334-4348.

[2]李拥军, 曾标, 徐克付, 等. 复杂背景下基于贝叶斯-全概率联合估计的前景检测[J]. 电子与信息学报, 2012, 34(2): 388-392.

Li Yong-jun, Zeng Biao, Xu Ke-fu,et al.. Foreground object detection in complex background based on Bayes-total probability joint estimation[J].Journal of Electronics&Information Technology, 2012, 34(2): 388-392.

[3]Jiang F, Yuan J S, Tsaftaris S,et al..Anomalous video event detection using spatiotemporal context[J].Computer Vision and Image Understanding, 2011, 115(3): 323-333.

[4]赵高鹏, 薄煜明, 尹明锋. 一种红外和可见光双通道视频目标跟踪方法[J]. 电子与信息学报, 2012, 34(3): 529-534.

Zhao Gao-peng, Bo Yu-ming, and Yin Ming-feng. An object tracking method based on infrared and visible dual-channel video[J].Journal of Electronics&Information Technology,2012, 34(3): 529-534.

[5]Varcheie P D Z and Bilodeau G A. People tracking using a network-based PTZ camera[J].Machine Vision and Application, 2011, 22(4): 671-690.

[6]Zhou X H, Collins R T, Kanade T,et al.. A master-slave system to acquire biometric imagery of humans at a distance[C]. ACM SIGMM International Workshop on Video Surveillance, Berkeley, USA, Nov. 7, 2003: 113-120.

[7]Choi H C, Park U, and Jain A K. PTZ camera assisted face acquisition, tracking & recognition[C]. IEEE International Conference on Biometrics: Theory, Application and Systems,Washington, USA, Sept. 27-29, 2010: 1-6.

[8]Krahnstoever N O, Yu T, Lim S N,et al..Collaborative real-time control of active cameras in large-scale surveillance systems[C]. Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications, Marseille,France, Oct. 18, 2008: 1-12.

[9]Chen C H, Yao Y, Page D,et al..Heterogeneous fusion of omnidirectional and PTZ cameras for multiple object tracking[J].IEEE Transactions on Circuits and Systems for Video Technology, 2008, 18(8): 1052-1063.

[10]毛晓波, 陈铁军. 基于人类视觉特性的机器视觉系统[J]. 仪器仪表学报, 2010, 31(4): 832-836.

Mao Xiao-bo and Chen Tie-jun. Machine vision system based on human vision features[J].Chinese Journal of Scientific Instrument, 2010, 31(4): 832-836.

[11]Wan D R and Zhou J. Stereo vision using two PTZ cameras[J].Computer Vision and Image Understanding, 2008,112(2): 184-194.

[12]Wan D R and Zhou J. Multi-resolution and wide-scope depth estimation using a dual-PTZ-camera system[J].IEEE Transactions on Image Processing, 2009, 18(3): 677-682.

[13]Wan D R and Zhou J. Self-calibration of spherical rectification for a PTZ-stereo system[J].Image and VisionComputing, 2010, 28(3): 367-375.

[14]Zhou J, Hu H, and Wan D R. Video stabilization and completion using two cameras[J].IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(12):1879-1889.

[15]Zhou J, Wan D R, and Wu Y. The chameleon-like vision system[J].IEEE Signal Processing Magazine, 2010, 27(5):91-101.

[16]Comaniciu D, Ramesh V, and Meer P. Kernel-based object tracking[J].IEEE Transactionson Pattern Analysis and Machine Intelligence, 2003, 25(5): 564-577.

[17]Sinha S N and Pollefeys M. Pan-tilt-zoom camera calibration and high-resolution mosaic generation[J].Computer Vision and ImageUnderstanding, 2006, 103(3): 170-183.

[18]Cucchiara R, Grana C, Piccardi M,et al..Detecting moving objects, ghosts, and shadows in video streams[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003, 25(10): 1337-1342.

猜你喜欢

主从球面高分辨率
高分辨率合成孔径雷达图像解译系统
球面检测量具的开发
FANUC系统PROFIBUS主从功能应用
Heisenberg群上移动球面法的应用——一类半线性方程的Liouville型定理
基于主从控制的微电网平滑切换控制策略研究
基于飞行试验数据的仿真模型主从一体化检验
高分辨率对地观测系统
基于Curvelet-Wavelet变换高分辨率遥感图像降噪
球面稳定同伦群中的ξn-相关元素的非平凡性
高分辨率遥感相机CCD器件精密热控制