智慧视频感知中复杂环境下目标检测的研究

2017-09-07邹香玲

河南广播电视大学学报 2017年3期

关键词：部件利用智慧

邹香玲门威

（河南广播电视大学，河南郑州 450046）

智慧视频感知中复杂环境下目标检测的研究

邹香玲门威

（河南广播电视大学，河南郑州 450046）

基于视频监控技术和物联网技术的智慧视频感知应用体系，是智慧城市建设的重要组成部分，更是整个智慧城市感知体系的关键部分和重要的信息来源。本文拟基于深度学习中的卷积神经网络（CNN）进行复杂场景下目标检测的相关研究，从认知角度、更高层次地、更抽象地融入上下文信息对于目标辅助刻画目标本身具有更为重要的作用，从而提高复杂背景下目标检测的准确性；针对复杂场景中目标多视角问题，拟提出利用GBRF改进基于随机森林的局部图像块聚类方法，基于传统霍夫投票目标检测框架，提出一种适用于多视角目标的加权投票检测方法，并利用多类线性SVM学习不同视角下投票组合权重，从而提高复杂场景下，多视角目标检测的准确性。

智慧视频；复杂环境；目标检测

一、引言

基于视频信息的目标检测和视频数据压缩是计算机视觉的重要研究方向，该技术能广泛适应于目标跟踪、物体检测和识别、情报分析、图像检索、信息安全、物联网等学科和工程应用领域；是《国家自然科学基金“十三五”发展规划》中重点支持的研究方向和信息科学学部优先发展领域（第十二项网络数据挖掘与理解），同时也是《国家中长期科学和技术发展规划纲要》前沿技术类智能感知技术方向，对智慧视频感知中复杂环境下目标检测进行深入的开发和研究，对机器学习、视频图像处理、数据挖掘等学科和领域的发展具有重要促进作用。

智慧视频感知中复杂环境下的目标检测，对于智慧城市电子平台建设以及城市资源分配具有很强的社会意义和经济意义。智慧视频感知中复杂环境下的目标检测，能够有效获取城市中摄像机场景内出现的关注目标，同时对检测到的关注目标的种类、颜色、特征、速度等其他相关细节进行处理和分析，为智慧视频感知的应用系统中的大数据应用积累原始的、可识别的信息基础，实现对图像视频中所含信息数据的智能分析与情报服务，从而能有效根据城市实时情况自适应地进行流量控制、移动目标的智能交通、城市资源分配、城市安防检测、电子商务、身份管理等，极大提高资源分配的效率和合理性，有利于提升政府管理水平。

二、国内外相关领域技术发展水平

智慧视频感知中复杂环境下的目标检测，是当今信息时代和将来相当长一段时间的研究热点，对于智慧城市中的智慧视频感知来说极其重要，是实现系统智能化的基础，提供了系统识别和利用图像数据信息的能力。

复杂环境下的目标检测由于城市场景中目标自身类型变化大（如刚性/非刚性形变、视角差异）、目标所处环境复杂（如光照、遮挡）等造成了对该问题的研究一直面临严峻的挑战。目前国内外的众多研究者都从不同角度对该问题进行了研究。Felzenszwalb等人在传统画报模型的基础上，提出了基于部件的目标检测模型，它既考虑了部件的局部外观信息，也加入了各部件相对于目标中心的位置形变约束。［1］该模型能容忍一定的几何形变和遮挡问题，但是它对如何将目标划分为多个部件以及形变和遮挡情况下多个部件间的相互约束关系表达不够充分，同时该模型中各部件对整体目标检测的重要性并没有做出区分。基于Hough投票的目标检测算法，该方法首先基于特征点将图像划分为很多小块，然后利用大量样本的图像块聚类得到视觉单词，最后利用单词在检测图像中对目标中心位置和尺度进行投票，并最终确定目标中心。该类方法简单、高效，但单词之间关系独立，上下文信息并未得到利用，在大的形变和遮挡情况下效果并不理想。在此基础上用树结构组织单词，加快检测速度，但在形变和遮挡情况下单词之间的约束关系并没有充分表达。在对遮挡的处理中，Xiaoyu Wang提出了一种利用LBP+HOG特征，通过部件遮挡的关联图建立联合全局目标检测和局部部件区域检测的目标检测算法，该算法虽然显示建立了部件及整体的遮挡关系，但是局限性很大，对更复杂场景并不适用。为了设计适合于复杂背景下的目标检测算法，特别是针对形变和遮挡问题，必须对传统目标检测算法进行改进，

三、复杂环境下目标检测研究

传统的基于全局窗口的检测算法已不再适用，不论是处理形变还是遮挡问题，目标的全局信息已经发生了很大的变化，但是目标内部很多区域信息却变化不大。Martin Bergtholdt［2］提出一种基于部件的检测模型，并用完全图建立了部件之间的关联，最后利用上下文信息在图上进行MAP推理，得到检测目标。基于图模型的算法可以很好建立部件之间的上下文信息，但是此类算法训练和检测过程时间复杂度太大，不能很好满足实际需求；对于各种不同目标，确定部件划分和部件对目标整体检测的贡献也是研究者重点关注的问题。P.Felzenszwalb直接利用LSVM对样本进行训练，自动聚类学习部件，但是在形变较大且无监督情况下，部件聚类效果并不理想。RoozbehMottaghi［3］提出了无监督的针对不规则形变目标的部件划分方法，其具体做法是利用HOG bundles［4］，结合统计的几何信息和外观信息，建立部件模型。在复杂背景下，如何建立部件与目标整体、部件与部件之间的上下文约束是当前研究的热点。为了处理目标形变，基于星型模型建立了各部件位置和目标中心的几何约束关系。但在实际应用中，星型模型不足以描述这种几何约束，为此提出了完全图模型，但该类方法由于其极大的时间和空间开销限制了该类算法的实际应用。近年来，深度学习模型越来越多地被应用于目标检测领域，其中Marc'Aurelio Ranzato［5］将深度学习用于目标识别，利用RBM来构建深度网络模型，学习了部件之间的依赖关系。王晓刚团队利用深度网络模型建立了目标部件之间的可见关系，很好地处理了遮挡情况下的行人检测问题。虽然当前方法取得了一定的成果，但与真正的人类视觉系统还有一定的差距，不能满足在复杂场景中，准确进行目标检测，无法满足现实生活中实际应用的需求。

本文主要从理论和应用两个方面进行研究，理论研究针对智慧视频感知中复杂环境下目标检测的关键技术问题进行深入研究，拟沿着传统的机器学习方法和深度学习方法两条技术路线提出有效的智慧视频感知中复杂环境下目标检测算法。应用研究是把该项目产品以全新的角度通过情报服务应用于智慧城市中资源分配、安全预警等众多领域。

（一）理论上主要是解决智慧视频感知中复杂环境下目标检测的关键问题

1.拟基于深度学习中的卷积神经网络（CNN）进行复杂场景下目标检测的相关研究，基于上下文信息的目标检测主要从两个层面上进行上下文信息的迁移融入。一方面是针对原始图像本身的目标上下文信息的融合；另一方面是首先对原始图像进行相应处理，在处理后获得更高抽象层次的图像信息，然后在此基础上完成更抽象的上下文信息的迁移融合。本文是针对当前已有的基于迁移学习中没有重视利用上下文信息进行迁移学习的一个有效补充，特别是关于第二方面利用更高层次的上下文信息的迁移研究，从认知角度、更高层次的、更抽象的上下文信息对于目标辅助刻画目标本身具有更为重要的作用。利用深度学习的CNN从数据本身进行多层次的特征提取，能够更准确地刻画目标本征，从而提高目标检测的准确性。

2.针对复杂场景中目标自身移动或者拍摄位置不同，导致最终目标在图像/视频中以多种不同视角呈现的问题。首先拟提出利用GBRF改进基于随机森林的局部图像块聚类方法，给出一种紧致性视觉单词定义方法；然后，基于生成的紧致性视觉单词集，扩展传统霍夫投票目标检测框架，提出一种适用于多视角目标的加权投票检测方法，通过投票组合权重约束投票单元对不同视角目标的贡献；最后，给出一种无监督视角子类划分方法，并利用多类线性SVM学习不同视角下投票组合权重，从而提高复杂场景下，多视角目标检测的准确性。

（二）利用智慧视频感知中复杂环境下的目标检测的智能分析系统获取相关情报信息的应用

目前，国内外的应用设计相对层次都较低，大多需要人为干预和监督，自动化程度较低，往往会因为人为疏忽导致重要的数据信息遗漏，不利于大规模推广应用。利用基于视频的相应图像处理技术，能自动实现相应目标检测，提高其应用的自动化程度，从而易于操作和推广。该系统基于获取的视频信息，通过对现有数据的智能分析，能自适应地提供更为丰富的多样化的情报服务，实现智慧城市中资源的合理高效快速分配，极大提高智慧城市中相应资源的使用效率。比如利用获取的视频信息的智能分析，通过情报服务实现车流疏导、车位停靠、货物和行李存放、人流疏导、安全预警等。

四、应用领域

智慧视频感知中复杂环境下目标检测的研究内容包含复杂场景下如何针对视频或图片进行相关的目标检测，以及在目标检测的基础上利用感知获取的相关信息进行智能分析。基于视频信息的复杂环境下目标检测及智能分析主要是提供基于视频的城市目标检测和智能分析模块，集成到智慧城市的整体系统中，以便增加智慧城市中基于视频数据的智能分析能力，提升智慧城市建设的竞争力。智慧城市的智能分析系统是在智慧视频感知中复杂环境下目标检测的基础上，通过对其相应数据的分析结果进行自动播报，内容确认、监听和校对，以及预警、权限管理、决策管理等情报服务。［6］

具体两个子模块的设计如下：智慧视频感知中复杂环境下目标检测及智能分析，通过对视频进行分析，从而获得相应的识别结果。智慧视频感知中复杂环境下目标检测及智能分析系统组织结构图如1图所示，其模块内容包括如下几个方面。

图1 智慧视频感知中复杂环境下目标检测及智能分析系统三层结构

（1）前景检测：包括城市中复杂场景下目标的检测。

（2）目标分割：将诸如车辆、行人等移动目标从前景检测结果中分割出来。

（3）行人目标检测：将前景团块中属于行人的目标检测出来。

（4）车辆目标检测：将前景团块中属于车辆的目标检测出来。

（5）行李或货物目标检测：将前景团块中属于行李或货物的目标检测出来。

（6）其他地面目标：根据智慧城市的具体要求进行相关目标的检测。

（7）人脸检测：对行人的人脸定位，以便识别人脸更精细的特征。

（8）目标识别：首先根据用户宏观特征识别的需求，对输入的包含航空港地面目标的清晰画面进行宏观特征区域的选择（比如车形，车系，行人衣着、人群密度、车流人流运动趋势、外貌等），然后对特征区域进行识别并且将结果转换为文字形式。

基于视频的目标检测是目标跟踪的前提，对于复杂场景下，研究融合目标场景的上下文信息能更为准确地检测迁移目标，利用与目标相关的上下文信息和CNN技术实现不同的地面多目标检测。针对复杂场景中目标自身移动或者拍摄位置不同，导致最终目标在图像/视频中以多种不同视角呈现的问题，利用GBRF改进聚类方法等实现多视角的目标检测。

智慧视频感知中复杂环境下目标检测的技术路线主要从基于传统机器学习的目标检测和基于深度学习的目标检测两方面进行论述。

1.针对复杂场景下基于传统的机器学习方法的目标检测

对于多视角的目标检测拟采用GBRF改进基于随机森林的局部图像块聚类方法，给出一种紧致性视觉单词定义方法；然后，基于生成的紧致性视觉单词集，扩展传统霍夫投票目标检测框架，提出一种适用于多视角目标的加权投票检测方法，通过投票组合权重约束投票单元对不同视角目标的贡献；最后，给出了一种无监督视角子类划分方法，并利用多类线性SVM学习不同视角下投票组合权重，从而提高复杂场景下，多视角目标检测的准确性。其具体流程包括：（1）在样本图像中随机提取局部图像块，构成训练集合，类似ISM方法，正样例局部图像块标记其相对目标图像中心的偏移向量。（2）利用GBRF，训练局基于部图像块的视觉单词。类似霍夫森林中利用随机森林训练视觉单词的做法，在利用GBRF逐层划分图像块集合过程中，节点分裂函数需通过交替优化节点图像块集合类纯度和节点中正样例局部图像块相对偏移向量的偏离平方差得到视觉单词的判别力。（3）对训练好的森林中每个叶子节点中图像块集合，利用聚类算法对其划分成不同子集，每个显著的子集被定义为一个视觉单词，最终构成一种紧致的视觉单词集。（4）检测过程中，先遍历测试图像中所有图像块，然后利用构建的GBRF建立测试图像块和视觉单词的匹配关系，并计算每个视觉单词对假设中心位置的投票分值，最终利用不同视角下的投票组合权重，组合各单词投票分值，并在霍夫空间对应位置记录各视角中最大的那个投票分值。（5）类似ISM 方法，利用Mean-Shift算法在霍夫空间找到真正的目标中心。整体流程如图2所示，主要包含局部图像块提取、视觉单词生成和加权投票三部分。

图 2智慧视频感知中复杂环境下基于传统机器学习的目标检测方法流程

2.沿着基于深度学习的目标检测

在复杂背景下，利用卷积神经网络（CNN）进行目标检测。研究如何在特定场景下，利用CNN获得的高层图像表达完成上下文表示，并利用学习的自适应上下文信息，辅助进行目标检测。提出了复杂场景下基于上下文信息的CNN目标检测模型。整体框架主要包含训练阶段和检测阶段两步。第一步，训练自适应的上下文特征选择模型，在特定场景下，提取目标图像及其上下文图像的两组CNN特征图；在同一尺度下，计算两组特征图间的差异；记录并统计所有样本差异度小于设定阈值的特征图位置索引；选取有效的上下文CNN特征图的位置索引。第二步，在获取自适应的上下文特征选择模型的基础上，训练基于自适应上下文信息的CNN目标检测模型。

本文在复杂场景中目标检测的基础上提出了智能分析系统，该系统拟解决以下几个关键问题：（1）根据智能分析的结果自动进行决策管理。比如利用相应的复杂场景中获取的各类目标信息，利用网络化特点对城市中大范围内出现的相应检测目标进行关联，有效分析检测目标的实时状态，并对检测信息进行智能分析。（2）能够根据历史数据进行自主学习，进行常规性信息服务，如根据城市中日常不同目标的分布特点；自主学习其运动规律分布情况，从而结合历史规律进行常规性的信息服务，比如相应路段的智能交通服务等。