APP下载

复杂环境下视频目标鲁棒跟踪方法研究

2020-11-27

装备制造技术 2020年6期
关键词:背景建模监控

莫 茜

(柳州职业技术学院,广西 柳州545006)

0 前言

视频目标跟踪(Visual object tracking,VOT)是计算机视觉领域的研究热点之一。其主要目的就是对视频序列中的帧图像进行目标检测,确定目标在图像坐标中的位置信息,从而进行后续更深入的研究和分析。基于视频目标跟踪所得的目标位置、速度、加速度、形状等特征信息进行分类识别、或者更高层次的行为分析和情感沟通,从而达到及其和目标的友好交互,实现真正的智能视觉系统,基本实现的原理如图1 所示。

图1 计算机视觉系统应用框图

目前,VOT 具有十分广泛的应用领域,无论是民用还是军事应用领域,VOT 的重要性越来越凸显,随着信息技术的发展,各种智能设备层出不穷,机器智能视觉系统已经开启了高科技快速发展、走进生活的通道[1]。由于视频目标跟踪技术综合运用了图像处理、模式识别以及人工智能等多个学科领域的知识,具有复杂的应用环境和算法优化空间。虽然近四十年的发展,已经为机器智能视觉技术的发展奠定了一定的基础,但是,由于视觉系统面临的环境复杂:遮挡、多目标交互、光照突变、姿态改变等多种条件的影响,目前的发展远远未能解决实际应用的需求。因此,开展复杂环境下的鲁棒视频目标跟踪技术的研究,不论是从理论探索优化深入来说,还是从目前生活息息相关的实际应用来说,都是一个极具挑战而又具有重要应用价值的研究方向。

1 研究现状

1.1 国外研究现状

美国在智能视频监控领域的研究起步最早,其中,以卡内基梅隆大学、麻省理工学院等高校牵头的研究VSAM(Video Surveillance and Monitoring)项目最具有代表性,该项目综合利用视频分析、多传感器融合等技术对未来的城市和战场场景进行场景模拟,从而实现场景的智能视频监控,解决现代战争中视频监控安全性难题;作为IT 领域的领军企业,IBM研究院早期也在智能视频监控系统的研究投入了大量的精力,相关成果一直处于全球领先地位,部分产品已经实现了商业化,比如S3(Smart Surveillance System)最具有代表性,该系统首先通过对视频流中的运动物体进行跟踪、分类、检测和识别形成元数据,然后捕捉这些运动物体的轨迹、颜色、形状、大小、类别从而实现身份识别,大大提高用户定义的报警系统和视频检索系统应用的精确度[2]。

在欧洲,英国雷丁大学、伦敦大学等高校研究院所也相继在智能视频监控领域做了大量的研究工作。英国雷丁大学开发了一个称为“Pfinder”实时的智能视频监控系统,该系统不仅能对人体进行跟踪,而且还可以对跟踪人体的行为进行解释,系统的技术关键是通过构建颜色和形状的多级静态模型获得人体头和手的二维表示,从而可以实现在复杂的场景中对人体进行跟踪监控,成果已经在相关领域推广应用;伦敦大学协同英国国内的六所大学共同进行了“用于智能监控和优化检索的带注释数字视频方法”项目的研究,项目的英文简称为“ADVISOR”。该项目通过利用多摄像机协同监控的方式实现公共交通系统的智能管理。基于该项目技术的交通管理系统具备对人群密度和运动趋势综合计算分析的功能,如此在解决城市交通引导与减缓交通压力的同时,又可以对人群行为进行分析,方便快捷地对公共安全事件进行评估与报警[3]。

1.2 国内研究现状

我国在视频监控领域研究相对迟缓,但是也是后续发力,在相关领域也是发展迅速。1995 年开始国内的清华大学、上海交通大学和中国科学院等高校与研究机构投入了大量的人力、物力从事图像识别、视频跟踪等相关研究。例如,国家ITS(国家智能交通系统工程技术研究中心)中心实验室从1999 年开始就从事智能交通系统平台的研发工作[4],在已经在交通对象信息采集、交通信号识别与处理、交通运输安全与故障处理等技术方面做深入研究并取得了一定的成果。中国科学院模式识别国家重点实验室(NLPR)则从视频目标跟踪的角度出发,基于模式识别的理论与实践研究,结合数据挖掘技术[5],实现了海量图像中的目标全天候定位与跟踪,解决了目标行为解释与理解的难题。作为交通领域图像识别与视频跟踪研究最早的国内高校,上海交通大学模式识别与计算机视觉实验室从80 年代开始就在视频目标检测和跟踪领域研究进行了研究与探索,先后承担项国家863 计划、国家攀登计划等重大国家攻关项目研究工作,基于“借鉴—创新—实践应用”的指导思想,在引进吸收与创新方面取得了骄人成绩,相关成果已经在国内外的项目中推广应用[6]。

2 基于目标检测的跟踪方法

视觉对象目标跟踪由四个环节构成,分别是跟踪目标初始化的构建、外观模型设计以及运动估计和目标定位。其中,目标初始化就是要通过人工或者是自动标注视频序列的方法确定系同跟踪的目标;构建外观模型就是通过视觉表示和统计建模方式构建模型,以便用于对象识别;运动估计与定位就是利用线性回归、卡尔曼滤波器等技术计算目标的当前帧的位置[7]。所谓目标检测就是从海量的视频或图像中提取出运动前景或感兴趣目标,也就是确定当前时刻目标在当前帧的位置,所占大小。目标检测在所有的视频监控中所起的作用非常关键,它的性能可以直接影响视频监控后续目标跟踪、目标分类与识别的好坏。目标检测的对象纷多繁杂,根据处理的对象的不同可以分为基于背景建模和基于目标建模的检测两种方法。前者所跟踪的兴趣目标背景不变但一直处于运动状态,当背景发生变化的时候,这种方法容易出现误判,因为它容易将变化背景误检为运动前景,其实在运动目标静止之后也会被归为背景,因此该方法不擅长在背景变化的场景应用。如果针对通过手持摄像机或车载摄像机拍摄的视频进行跟踪,那么该方法又是得天独厚,实时性能非常好[8]。

2.1 基于背景建模的方法

基于背景建模的方法以视频图像为目标分析对象,通过识别视频图像底层特征的基础上,构建一种基于背景分析的模型分割出视频图像运动前景,同时确定被分割的运动前景的具体形状、大小与位置信息,该模型为动态模型,会随时间变化不断更新背景。基于背景建模方法检测设备性能关键在于其鲁棒的背景模型算法设计。目前关于背景建模的算法比较多,各有优势,其中,混合多高斯背景建模方法是比较常见也比较稳定的一种前景提取方法,性能好。通过该方法可以精准检测复杂场景中的前景图像,可以克服其他算法因受动态背景、摄像机抖动等因素干扰而检测效果不佳的问题。

2.2 基于目标建模的目标检测方法

基于目标建模的检测方法必须有大量的图像或视频训练样本作为训练目标,通过对训练目标进行学习与分类。把图像或视频分为目标和背景两部分(如图2 所示),采用滑动窗口扫描的方法在图像多个尺度上扫描,判定所扫描的窗口是目标还是背景,这样就可以在图像的目标上找到所有感兴趣目标的大小和位置,具备比较高的准确度。与上述提到的基于背景建模的方法不同,基于目标建模方法提取的目标是滑动窗口所扫描到的一个包围框,该方法受场景限制,不用考虑目标的轮廓,检测结果不需要再进行个体分割,最适合应用于移动摄像头下的目标检测[9]。

图2 背景建模与目标建模的目标检测结果

2.3 基于深度学习的目标检测方法

近年来,人工智能、深度学习在目标视频跟踪领域的应用已经成为研究热点,基于深度学习的目标检测主要借助神经网络的原理模仿人类大脑机制,整合特征学习和分类器,对人脑的多层数据进行抽象表达。基于深度学习的目标检测方法主要包括三个步骤实施:首先是对输入图像进行区域块提取,然后采用卷积神经网络计算所提取区域块的特征,最后通过SVM 分类器对前面两个步骤所提取的区域块进行分类。由于深度学习模型具有丰富的数据资源以及强大数据表达能力,在该领域的研究发展迅速,相关成果比较多,目前,基于深度学习的目标检测与分类识别已经在许多领域得到应用与推广。但是,在推广应用的过程中也伴随着一些不利的因素,比如说计算强度高、解释性差、模型构建复杂度高,优化困难等都是学者们亟待解决的问题[10]。

3 结束语

过去几十年,视频目标跟踪技术有了较大的发展,特别是2012 年,检测跟踪(TBD)方法的提出,为精确视频跟踪技术的实时在线学习跟踪带来了革命性的变革,但是该方法只是解决了在图像清晰环境中的单目标跟踪问题;2015 年,哥伦毕业大学的Joao F Henriques 提出了快速核相关视频滤波跟踪方法,为复杂背景的实时鲁棒跟踪问题开辟了一个新的思路。虽然视觉目标跟踪技术近年来取得了一系列的丰硕成果,但是在实际的跟踪环境中,通常面临着众多复杂环境的挑战,因此,相关领域的研究仍然在继续研究。

猜你喜欢

背景建模监控
“新四化”背景下汽车NVH的发展趋势
The Great Barrier Reef shows coral comeback
《论持久战》的写作背景
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
黑洞背景知识
求距求值方程建模
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
基于PSS/E的风电场建模与动态分析
科学训练监控新趋势——适时监控