APP下载

面向图像的有效目标区域提取方法

2019-04-29崔云博杜友田王航

西安交通大学学报 2019年5期
关键词:搜索算法类别样本

崔云博,杜友田,王航

(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安)

随着计算机视觉技术及深度学习的迅速发展,面向图像的目标检测任务重新成为了备受关注的研究问题。目标检测是将图像中的有效目标从背景中分离出来并进行识别,为图像内容的进一步分析提供基础,对于图像分类[1]、图像标注[2]、图像标题与描述生成[3]、图像搜索[4]等应用具有重要意义。

Freund等于1995年提出了基于Adaboost和矩形Harr特征相结合的人脸检测方法[5]。2005年,Dalal等提出利用方向梯度直方图(HOG)[6]来进行目标的特征表示。近年来,基于深度学习的目标检测研究也被广泛关注。2014年,Girshick等提出了R-CNN算法,并将其应用于目标检测任务中[7],在此基础上,2015年提出一种改进的Fast R-CNN算法,提高了算法的效率[8]。2015年,Ren等提出了Faster R-CNN算法,通过引入自主设计的候选区域网络RPN(region proposal networks),提高了目标检测速度[9]。2017年,He等提出了Mask R-CNN算法,用于目标语义识别并取得了良好的识别效果[10]。一般地,目标检测算法包括两步:首先是对目标进行定位,即找出目标的候选区域;然后在此基础上进行目标识别或分类。提取目标候选区域的效果在很大程度上影响了后续的目标识别或分类结果,传统的目标候选区域产生方法是将矩形窗口在不同尺度的图像上进行滑动,其缺点是计算量巨大、计算速度慢。此后,研究者提出了Bing、EdgeBoxes等算法[11-12]来挑选目标候选区域,在保证召回率的基础上提高了计算速度,但是在实际应用中,该类方法仍然会存在大量冗余的区域建议。

为了解决以往算法的图像中前景目标位置不准确、精确度不高等问题,本文提出一种高效的有效目标区域提取方法,主要包括基于选择性搜索[13]的候选目标区域(object proposal)生成、目标区域特征增强、基于深度网络的分类、区域筛选与融合4个步骤。实验结果表明,在保证较高召回率的基础上,本文方法得到了更加准确的有效目标区域提取结果。

图1 有效目标区域提取框架

1 有效目标区域提取框架

由于在很多情况下难以获取到大量具有目标类别标注的样本,而且在一些应用中也不需要进行端对端的目标类别识别。因此,本文忽略了目标类别信息,提出一种提取图像中有效目标区域的方法,将目标区域提取过程看作一个二分类问题:目标区域和背景区域,实现了对图片中前景目标和背景的区分,最终获取到有效目标的区域位置。整体方案框架如图1所示,主要包括4个环节:①基于选择性搜索算法对图像进行搜索和计算,生成一定数量的候选目标区域;②对候选区域进行目标特征增强处理,增强不同目标之间的共性视觉特征,使不同类别目标的颜色特征聚合更为紧凑;③构建基于深度学习的分类网络,并利用该分类网络对图像中的目标区域和背景区域进行分类,判断其是否属于目标区域;④将被识别为有效目标的候选区域进行区域筛选和融合,最终实现有效目标区域的提取过程。

2 有效目标区域提取算法

2.1 选择性搜索

在生成候选目标区域时,传统方法利用不同尺度的滑动窗口对图像进行扫描,其缺点是会产生大量冗余的候选区域,增加不必要的计算量。因此,本文基于选择性搜索算法[13]进行候选目标区域的生成。选择性搜索算法是将图像作为输入,首先产生大量的初始候选区域,然后根据相邻区域之间的相似度,计算出相似区域的层次分组,并不断进行区域融合,最终输出一定数量的候选区域。相邻区域之间的相似度计算基于颜色、纹理、尺寸和空间交叠这4种属性进行。对于通过选择性搜索算法所生成的目标区域建议,本文去掉了一些面积过小的候选区域(实验中设定像素点数小于2 000)。

2.2 目标区域特征增强

本文忽略了目标的类别信息,没有对图像中的目标进行类别区分,而是将提取目标的所在区域作为算法的核心内容,该过程也可以看作是将不同类别的目标作为同一类别进行提取。由于多种类别的目标之间有较大区别,使得目标在特征空间中的位置较为分散,增大了目标区域提取的难度,因此本文提出采用目标区域增强的方法来增大目标区域样本与背景区域样本之间的区别。

目标区域内容具有较为连续的视觉感受、明显的边缘区域、较为复杂的细节结构等共性特点,而对于不同的目标,通常具有不同的颜色、纹理、亮度等。因此,目标区域特征增强的目的是突出目标区域的共性特点,增强过程可以看作将目标区域差值化,即

(1)

在实际的图像中,目标区域特征增强前后的对比结果如图2所示。由图2可知,对目标区域进行特征增强之后,使得目标之间的差异程度更小,同时该操作依旧保留了目标的形状信息,有利于区分生成的有效目标区域和其他区域。

(a)特征增强前 (b)特征增强后图2 目标区域特征增强前后比较

2.3 基于深度网络的目标区域检测

本文采用的网络结构基于VGG-16深度网络[7],保留了该网络的前13层结构作为提取图片特征的部分,在此基础上添加了3个全连接层作为分类网络,最终输出一个2维向量,以此判断输入图像区域是有效目标区域还是背景区域(非有效目标)。其中对输入到网络中的图像区域(imagepatch)要首先进行缩放处理,调整至224×224大小,其目的是对于不同输入都可以保证在进入到全连接层之前,网络所产生的向量长度是一致的。另外,在具体的网络结构中,卷积层所使用的激活函数是ReLU函数;池化层所采用的池化方式为最大池化;3个全连接层的神经元个数则分别设置为1 024、256和2;为了消除过拟合现象,层与层之间会随机丢掉一些连接权重;最后,使用softmax函数作为激活函数,保证输出向量的元素值大小属于区间[0,1]。

在训练网络时,首先需要构建训练样本集,包括正样本和负样本两部分。本文将图像集提供的真实目标边界框所标记的图像区域作为正样本;在选择负样本时,则是基于2.1节选择性搜索算法得到的目标候选区域,并选择与真实目标区域交叠度小于一定阈值的图像区域作为负样本。本文采用交并比U来度量图像区域之间的交叠度,定义为

(2)

式中:S+、S分别为正样本x+代表的图像区域和其他任意图像区域;A(·)为图像区域的面积。在挑选负样本时将交叠度阈值ξ1设为0.3,即若U<0.3,则将S对应的图像区域定义为负样本x-。对于样本标签,定义向量y=(1,0)T为正样本标签,向量y=(0,1)T为负样本标签。

2.4 基于目标响应的区域选择与融合

(3)

3 实验结果与分析

3.1 实验数据集

本文选择MSCOCO2014数据集作为实验数据来源,该数据集分成训练集、验证集和测试集3个部分,包含了图像文件以及其对应的目标区域标注结果,其中图像内容共包含80类目标概念,标注结果提供了图像中目标的类别及位置。在实验过程中,本文随机选择了训练集中的3万张图像来训练网络,其中涵盖了所有的80类目标概念,为了保证训练样本平衡性与学习性能,本文基于这些图像共生成10万个正样本和10万个负样本用于训练深度网络。由于本工作不涉及不同目标类别的判别,因此在使用标注结果时,利用了图像中目标的位置信息而忽略了其类别信息。在测试过程中,为了评估本文方法,采用了具有标注结果的验证集。从验证集中选取涵盖所有的80类目标概念的1 000张图像来评估最终的实验结果。

3.2 目标区域特征增强的结果

图3展示了进行特征增强前后,目标区域中所有像素值在特征空间中的分布变化,本文随机选取了20个目标区域并对其增强前后像素值的分布在RGB空间进行了展示,图3中x、y、z分别表示R、G、B空间。由图3可知:在特征增强前,目标区域的多样性导致了像素值分布非常分散;对目标区域进行特征增强之后,目标区域在特征空间中的分布更加集中,且分布在原点附近的较小范围内,这对于提高目标区域分类的性能有很大帮助。

(a)特征增强前 (b)特征增强后图3 特征增强前后区域像素值在空间中的分布

3.3 目标区域的融合结果

针对深度网络输出的候选目标区域,基于目标响应方法,将提取结果进行进一步融合,得到最终的目标区域,目标区域的融合过程如图4所示。由图4可知,通过基于目标响应的区域融合过程,最终得到的目标区域不仅保留了网络输出结果中置信度高的区域,保证了有效目标可以达到较高的召回率,同时也过滤掉了大量对应于同一目标的重叠区域,在一定程度上提高了目标检测的准确率。

(a)原始图像上的候选目标区域

(b)目标区域响应

(c)区域融合后的目标区域图4 目标区域的选择

3.4 目标区域提取召回率比较

本文工作的目的是提取出目标候选区域,为图像分类、目标识别等应用提供帮助。召回率是判断方法有效性的一个重要指标,召回率低意味着检测结果会漏掉一些目标区域,影响后续研究任务的性能,以往工作多采用召回率作为性能评估指标[14]。

对相关算法以及不同的深度网络模型与本文方法在MSCOCO数据集上进行了性能比较,结果如图5所示。平均召回率是指对不同U阈值情况下的召回率取平均值,在本实验中,U阈值取0.5~1,步长为0.1。本文选取的3种对比算法都是目前候选目标区域提取任务中性能较好的算法,为了分析不同网络结构对本文方法性能的影响,将AlexNet[15]作为深度网络模型进行对比。由图5可知,相比于其他算法,本文方法在较少候选区域的条件下就可以达到更高的召回率,同时本文方法选取的VGG-16网络也较AlexNet表现出更好的性能。

图5 平均召回率比较(U∈[0.5,1])

为了进一步分析本文方法在特定类别的目标区域提取中的性能差别,统计了不同类别目标的目标区域提取结果,并选取了MSCOCO数据集中部分类别的结果,如表1所示,其中δ=0.7,即把与正样本的交叠度大于0.7的目标区域作为正例进行统计,同时在实验中比较了选择性搜索算法和本文方法的性能。为了保证算法比较的公平性,考虑到算法之间存在差异性,对于选择性搜索算法,每张原始图像的候选区域数量平均选择了100个左右,而对于本文方法则平均选取了40个左右的目标区域。

表1 不同类别目标的召回率对比

由表1可知,相比于选择性搜索算法,本文方法在目标区域更少的条件下,对有效目标得到了更高的召回率,表现出了更好的性能,对不同类别的目标,本文方法在性能上表现出了一定的差异性。对truck、bowl这2类目标,最终的召回率统计结果有比较大的差别,这可能因为对于图像面积较大的某些类目标(如truck),其图像内容也会变得更加复杂,这就在一定程度上对分类结果的准确性造成了影响,并且在利用选择性搜索策略进行候选区域生成时,面积较大、内容较复杂的区域也无法完整找到,相比于面积较小、内容较单一的某些类目标(如bowl),最终性能上存在一定的差异。

图6展示了有效目标区域提取的部分样例。由图6可知,本文方法对于图像中大部分的有效目标区域实现了较好提取,并且最终的提取结果在保证较高召回率的基础上,有较高的准确性。

图6 本文方法在MSCOCO验证集上的部分结果

4 结 论

本文提出了一种提取图像中有效目标区域的方法以解决目标检测等任务中有效目标定位不准确的问题。以选择性搜索策略为基础,通过目标区域特征增强、深度网络分类、目标区域融合等环节,完成了对区域中是否存在有效目标的准确判别,并实现了对目标区域的提取。本文的目标区域提取结果是独立于目标类别的,不需要目标类别标注,该方案复杂度较低,具有较好的性能。实验结果表明:本文方法对选择性搜索算法在性能上有较大的提高;相较于其他的目标候选区域提取算法,本文方法也可以使对有效目标的提取达到更高的召回率。

猜你喜欢

搜索算法类别样本
一种基于分层前探回溯搜索算法的合环回路拓扑分析方法
改进的非结构化对等网络动态搜索算法
改进的和声搜索算法求解凸二次规划及线性规划
用样本估计总体复习点拨
推动医改的“直销样本”
壮字喃字同形字的三种类别及简要分析
随机微分方程的样本Lyapunov二次型估计
西夏刻本中小装饰的类别及流变
村企共赢的样本
多类别复合资源的空间匹配