轮廓匹配的复杂背景中目标检测算法

2020-02-24侯春萍张倩文王晓燕王致芃

哈尔滨工业大学学报 2020年5期

侯春萍，张倩文，王晓燕，王致芃

(1.天津大学电气自动化与信息工程学院，天津 300072; 2.天津大学期刊中心，天津 300072)

目标检测是计算机视觉和图像分析领域非常重要的任务，旨在定位和识别图像内的特定目标.现阶段研究中，基于机器学习的目标检测效果最好，但是需要大量的训练样本，训练过程也很耗时，并不适用于所有的检测任务[1].而模板匹配的方法简单，适应性强，能够处理复杂场景并且不用进行额外的训练，越来越被广泛使用[2-3]，模板匹配是指用事先定义好的模板在图像中搜索从而找到匹配目标的一种高级的机器视觉技术.

本文的研究重点是复杂背景的图像中的目标检测，是指图像中的目标除了受到尺度变化，光照影响等类内变化之外，图像的背景中也会含有杂乱的无关场景，目标在图像中出现的区域定位一般是不确定的.基于形状的模板匹配技术由于能够在目标类内变化的情况下仍得到较好的匹配结果而吸引了研究者的注意[4-6].Ferrari等[7]建立了一个由K个接近直线的轮廓段组成的网络，可以呈现尺度不变的局部形状特征.但该算法所提取的轮廓片段不连贯会导致形状特征不够准确.Nguyen[8]提出了一种基于平均场的倒角模板匹配方法，但该方法没有很好地处理复杂背景.Wei等[9]则通过对轮廓线段的优化来减少背景边缘，可是处理流程仍然容易受到背景的影响.

然而，这些问题在目标检测中却是不可避免的，针对上述问题，本文提出了一种基于轮廓匹配的新型目标检测算法，算法结合了图像显著性检测和形状模板匹配的方法，显著性检测算法可以帮助定位目标所在区域，结合模板匹配算法实现目标检测，有效解决了在复杂背景下形状目标检测不准确、效率低的问题.

1 基于轮廓匹配的复杂背景中目标检测算法

基于轮廓匹配的复杂背景中目标检测算法结合显著性检测和模板匹配，首先应用显著性检测算法对输入图像进行显著性预处理，之后在得的显著性区域内进行模板匹配，有效降低目标检测结果受背景的影响.轮廓匹配的第一步是对显著性区域图像进行边缘检测，但是边缘检测去噪声的同时削弱了边缘信息会导致初始边缘图像轮廓线段不完整；同时目标周围部分也可能产生一些与目标无关的轮廓段，因此本文通过边缘链接和轮廓线段筛选来对初始边缘图像进行优化.在轮廓匹配过程中，本文提出了一种新的形状描述子用来描述轮廓形状，实现边缘图像和模板轮廓的匹配，最终验证候选假设，完成目标检测任务.

1.1 显著性区域检测

对人类视觉感知来说，显著性区域往往比背景具有更独特的颜色[10]，因此可以利用颜色特征分离显著区域和背景，完成显著性区域检测.但是这种颜色特征的全局显著性区域检测的方法会受到图像的纹理影响而产生较高漏报率，本文中又提出基于相邻超像素距离特征的局部显著性检测方法，结合两种算法就实现更有效的显著性区域检测.

图1 算法的整体流程

1.1.1 全局显著性区域检测

首先需要应用SLIC超像素[11]提取超像素的颜色特征[12-14]和位置特征，组合构建特征向量，然后利用超像素的特征向量判断其显著度，根据显著度进行分类，组成由前景区域，背景区域和未知区域组成的初始三元图.

单一颜色空间并不能完全对应人脑视觉颜色处理[15]，因此本文将多种空间映射为一种高维空间，找到最佳颜色系数的线性组合，区分显著区域和背景.利用RGB，CIELab，色调，饱和度以及RGB空间的颜色渐变11个颜色通道，获得高维颜色转换矩阵K.然后通过三元图中的前景候选和背景候选颜色样本来估计颜色系数的最佳线性组合，以分离显著区域颜色和背景颜色，可以表述为l2正则化最小二乘问题

(1)

式中：α∈l是需要估计的系数向量，λ是控制α的大小的加权参数，是M×l矩阵

(2)

式中：每行对应于前景/背景候选区域中的颜色样本，FSi和BSj依次表示三元图中的f个前景候选超像素和b个背景超像素；每列对应测试图像超像素的11个颜色通道平均像素值，例如R,G分别代表颜色通道R和G.

最终显著图可以由高维颜色空间的颜色系数的线性组合表示为

(3)

式中α*是α通过l2正则化最小二乘得到.

1.1.2 局部显著性区域检测

局部显著性区域检测方法用相邻超像素的空间距离和颜色距离作为特征.对于图像中的每个超像素Xi，计算其空间和颜色距离特征[16].显著性检测的完成使用随机森林回归算法，根据超像素的特征向量估计其显著度，生成最终检测结果.

1.1.3 显著性区域图的生成

在应用两种方法分别生成显著性区域图之后，需要将其组合在一起以获得最终显著性区域图，Borji等[17]提出了一种结合两种显著性检测结果的方法

(4)

式中：Z是归一化因子，p(·)是逐像素组合函数，SG和SL分别是全局和局部显著性检测结果.

p(x)=exp(x)可以作为逐像素组合函数来给予高显著性度的区域更高权重值.权重值由显著性区域检测结果和显著性区域真实结果GT的比较来得到.通过求解非线性最小二乘问题来计算线性求和的最佳权重值.

(5)

本文针对每个变量迭代优化其中的非负最小二乘目标函数来找到最优权重.式中的目标函数是双凸的，经过几个优化步骤后一定会收敛.然而通过不同的初始值会得到不同的结果，因此可以使用随机初始化的变量重复优化过程几次，得到最终的结果，权重值为ω={1.15,0.74,1.57,0.89}.

最终显著性区域图组合方式为

(6)

显著性区域检测结果如图2所示，图中还展示了显著性区域内提取边缘图像和直接提取对比.与直接提取相比，显著性区域提取的边缘图像能有效减少图像背景对模板匹配过程的影响.

图2 显著性区域检测及边缘图像对比

1.2 轮廓匹配

基于轮廓匹配的目标检测算法在显著性区域图像中进行，包括对边缘图像的处理和后续的轮廓匹配过程.

1.2.1 边缘图像处理

本文将对显著性区域进行轮廓提取得到的图像定义为初始边缘图像，对其进行的优化处理包括边缘链接和轮廓线段筛选.

边缘链接：对显著性区域图像的边缘检测算法利用高斯模糊去除噪声的同时削弱了边缘信息，造成初始边缘图像轮廓线段不完整，因此需要进行边缘链接，本文用到Kovesi[18]开发的边缘链接软件.图2中由显著性区域得到的边缘图像就是通过边缘检测和边缘链接算法得到.

轮廓线段筛选：显著性区域检测并未完全将目标之外的部分删除，因此边缘检测算法也会产生一些与目标无关的轮廓线段.这些轮廓线段分为两类：第一类是边缘链接后仍然较短的轮廓线段，基本不具有形状描述能力，可以设置阈值将其删除；第二类是孤立轮廓线段，满足阈值长度，但不与其余轮廓线段产生联系，图像边缘轮廓的连续性决定了此类线段也不具有形状描述能力，在边缘图像处理过程中也可以删除.处理过程如图3所示，以图片彩色边缘图像为例，最终得到的边缘图像可直接进行轮廓匹配.

图3 边缘图像处理

1.2.2 形状描述子

对于一段给定的轮廓段S，对其进行像素点采样，如图4所示,首先采样得到采样点Pi=(xi,yi)，(i=1,2,…,N)，N是轮廓段采样点的个数.首先计算该段轮廓的质心点G.然后对每个采样点找到其最远距离点fPi，通过计算采样点Pi到其它所有采样点的距离，最远距离点fPi.

图4 轮廓段形状描述子示意

Fig.4 Schematic diagram of the shape descriptor of contour segment

函数DS(Pi)计算每个采样点的形状描述子为

(7)

(8)

得到每个采样点的形状描述子后，每条轮廓段S的形状描述子SD(S)可以由式(7)组合表示为

SD(S)=(DS(P1),DS(P2),…DS(PN))=

(9)

式中SD(S)是3×N维矩阵.其中每列代表该轮廓段上第i个采样点的形状描述子DS(Pi)；每行代表轮廓段的距离信息，角度信息和弧度信息.

得到完整轮廓段的形状描述子之后可以进行模板匹配.通过形状描述子间的相似度来表示两条轮廓段的匹配关系.形状描述子以矩阵表示，二者的矩阵相关系数可以反映其关系得密切程度，就能代表不同轮廓段的匹配程度.不同形状描述子之间的相关系数被称为轮廓的匹配系数.

(10)

形状描述子已经广泛应用于现在的形状匹配算法中，本文中提出的形状描述子中，轮廓段的角度信息和弧长弦长的关系表示其边界信息，采样点和质心点之间的距离关系表示其区域信息，所以能够对轮廓段的形状有完全定量的描述，更全面地描述轮廓的形状，显著提高描述能力.

1.2.3 轮廓匹配

上述处理后，就可以对边缘图像和模板边缘进行轮廓匹配，图5是本文中轮廓匹配的流程图.

图5 轮廓匹配流程图

轮廓匹配过程中，首先要建立边缘图像和模板边缘轮廓匹配的空间关系，然后应用深度优先搜索获得候选假设.因为提前对模板边缘做了优化处理，所以3～4条轮廓线段足以描述整个目标，搜索到多于3个片段可以被确定为候选假设.验证候选假设时使用了支持向量机的分类器模型(SVM)进行二分类判断每个假设是否可以作为最终检测.

2 结果及分析

2.1 实验结果

本文在ETHZ形状数据集中[8]进行了实验，该数据集有5个不同的类别，分别是苹果标志，马克杯，长颈鹿，天鹅和瓶子五种，共包含155个图像，每个类别包含32～37张图像，所有类别都包含有显著的比例变化，光照变化和类内变化，而且图像中目标大都被不相关的背景杂波包围，因此非常适合本文所提出的目标检测算法.实验中将数据集中所有图像作为测试图像，部分检测结果如图6所示，在实验中，苹果标志类图像进行目标检测时，训练了处理数据集中原有图像来得到模板轮廓，其余的类别使用了数据集中所提供的模型来进行轮廓匹配，每个类别的模板图像都在图6中最右列给出.

2.2 结果分析

本节对实验结果进行分析，利用检测结果与真实值的交并比(Intersection-over-Union，IoU)进行目标检测性能评估，IoU是目标检测问题中的标准性能度量，一般大于50%时就可以认定检测性能良好.本文使用了20%-IoU和50%-IoU的检测标准，分别认定当检测结果与真实值的交并比大于20%或者50%的时候目标检测任务完成.将本文算法的结果与现有的基于形状的方法(包括Ferrari等[7]提取尺度不变的形状特征组成网络的方法，张桂梅等[19]提出的改进局部轮廓特征方法，Nguyen等[8]提出的倒角匹配方法，毕威等[20]提出的基于图像显著性轮廓的方法和Wei等[9]利用轮廓分割和优化进行形状匹配的方法)进行比较，评估各算法的检测性能.首先统计目标检测率和误报率的曲线关系，检测率是用符合标准的检测结果次数除以总数，误报率表示每个图像在实验过程中的平均误报数，也就是全部错误次数除以图像数量.检测率/误报率曲线表示不同误报率的情况下的目标检测率，可以用来评价不同目标检测算法的性能.在图7中展示了不同算法的检测率/误报率的关系曲线.

图7中可以看到，在误报率较低的情况下，本文方法在瓶子和苹果标志类的检测性能比Nguyen的方法略差.但其余情况下，本文方法在所有类别的检测中均优于其它算法.这是因为与Ferrari和张桂梅提出的方法相比，实验中对初始边缘图像进行了轮廓优化，得到的轮廓段更完整，而且形状描述子包含轮廓段的角度信息和边界信息，可以改善因为提取

图6 算法在ETHZ数据集中部分检测结果

图7 不同算法ETHZ数据集中各类别的检测率/误报率曲线的比较

片段不连贯造成的检测性能略低的问题.和Nguyen的方法相比，显著性区域检测算法的应用可以保证复杂背景下的检测性能.毕威也选取了基于显著性的方法，但是该方法仅考虑了显著性轮廓.与Wei的方法比较，算法也有相对较好的性能表现，这是因为Wei的轮廓预处理程序受限于图像背景，但是本文方法无需对背景进行轮廓处理.

总的来看，图7中可以看出，本文算法在不同误报率的容错条件下目标检测率均比其余算法有所提升，可以更有效地检测复杂背景中的目标.表1单独列出了在50%-IoU的检测标准下误报率分别为0.3和0.4时不同算法的检测率.

表1 误报率分别为0.3/0.4时不同算法的检测率对比

2.3 其他数据集

本文还在其他数据集做了实验来验证算法的可行性，在INRIA Horse[21],Weizmann Horse[22]和Caltech101[23]数据集中都做了实验，部分检测结果如图8所示.

图8 其他数据库中的部分检测结果(每行对应INRIA Horse，Weizmann Horse和Caltech101中的蝴蝶和锚)

Fig.8 Examples of detection results for other datasets (INRIA Horse, Weizmann Horse, and the butterfly and anchor in Caltech101 are presented in the four rows, respectively)

3 结论

本文提出了一种在复杂背景图像中进行目标检测的新算法，将显著性区域检测算法和基于形状的模板匹配算法相结合.与之前的工作相比，本文首先在传统的目标检测基础上对输入图像进行显著性检测的预处理，在显著性区域内进行模板匹配能够降低目标检测结果受背景的影响.在基于轮廓形状实现模板匹配的过程中，用到了具有更全面轮廓信息的形状描述子.然后采用深度优先搜索策略对候选假设进行验证，确定目标位置.最后在ETHZ形状数据集中进行了实验，结果表明与现有基于形状的目标检测方法相比，本文算法显著提高了检测率，在图像目标检测技术的广泛应用下具有十分重要的意义.