商标标志检测技术研究

2016-12-19廖露丝刘杰

中国传媒大学学报(自然科学版) 2016年5期

关键词：重合分类器选择性

廖露丝，刘杰

(中国传媒大学信息工程学院，北京 100024)

商标标志检测技术研究

廖露丝，刘杰

(中国传媒大学信息工程学院，北京 100024)

针对现有的商标检测方法存在依赖大量训练样本、不利于应用扩展的问题，本文基于最大稳定极值区域特征检测算法及选择性搜索，提出了不依赖特定商标的、用于获取大规模类别下的可能商标区域的商标区域快速估计法。利用最大稳定极值区域对选择性搜索产生的待测窗口进行过滤，两个方法互相提供信息，从而实现快速准确的商标区域估计。

商标检测；稳定区域；选择性搜索；最佳覆盖率

1 引言

商标检测是商标识别技术的关键之一，检测准确与否直接关系到商标识别的准确性。目前关于商标的检测方法都由目标检测演化而来，检测方法主要是提取商标的全局或局部特征，然后进行特征训练，得到模型及分类方程。H.Sahbi等人[1]提出的基于上下文依赖的商标检测定位算法，Romberg等人[2]提出的空间尺度可变的商标检测算法，以及Kalantidis等人[3]提出的商标种类尺度可变的商标识别算法，都是通过提取商标的局部特征进行训练，实现商标检测识别。尽管这些方法可以实现对商标的快速检测识别，但是这些方法需要对每一种商标都进行训练。当对大规模种类商标进行检测时，需要用到大量训练图片来训练模型，且每加入一个新商标也需要进行训练，不利于应用扩展。

本文所介绍的商标区域快速估计法，是不依赖特定商标的、用于获取大规模类别下的可能商标区域的方法。该方法分为两部分，第一部分包含两种并行的方法，方法一有效地利用了商标区域的稳定性特征进行稳定区域提取，方法二基于目标区域估计的模型提取待测图像中的显著目标区域。在第二部分里，将第一部分提取出的两个区域进行重合度计算，最终获得待测图像中的可能商标区域。本文在包含150种商标类型的1000张图像的自建数据库上进行了测试，实验结果充分表明本文算法的有效性。

2 商标区域快速估计法

大规模类别下的商标区域快速估计法总体框架如图1所示。

图1 商标区域快速估计流程图

整个过程分为两个部分：第一部分为待测区域的提取，该部分由两个并行方法构成，分别提取两类待测区域，提取商标稳定性区域使用到最大稳定极值区域特征检测算法(Maximally Stable ExternalRegion Detector，MSER)[4]，提取显著性目标区域使用到选择性搜索(Selective Search)[5]；第二部分为窗口筛选，利用MSER区域对选择性搜索产生的待测窗口进行过滤，最终得到商标区域估计结果。

2.1 基于商标区域稳定性的区域提取方法

由于商标是由文字、图形等连通区块组成的，而且每块连通区域的颜色和强度基本一致，也就是说商标的这些区域可以认为是相对显著的。在显著性区域检测算法中，最大稳定极值区域特征检测算法是最好的区域检测子之一，它对于自然环境中的光照、形变具有鲁棒性，而且检测速度非常快，常用于自然场景中的文本检测。由于商标本身可以看成一种特殊的文本，构成商标的每个连通域可以看成是文本中的字符，因此，本方法将基于MSER提取出图像中的商标稳定性区域。

由文献[4]可知，MSER的基本原理是对一幅灰度图像取阈值进行二值化处理，随着阈值的递增，图像中的某些连通区域变化很小，甚至没有变化，这些区域就称为最大稳定极值区域。MSER的数学定义为：

q(i)=|Qi-Qi-△|/|Qi-△|

(1)

其中，Qi表示阈值为i时的某一连通区域，Δ为阈值的微小变化量，q(i)为阈值为i时的区域Qi的变化率。由公式(1)可知，判断一个区域是否为MSER区域受参数Δ的控制，随着Δ增加，MSER区域减少。而图像的构成有简单的也有复杂的，不同复杂度的图像可提取出的连通区域数量不等，如果取一个固定的Δ值容易造成干扰区域过多或商标区域的遗漏。为避免这种问题，应针对每张图像选取适合的Δ值。因此，本方法按照公式(2)为待测图像设计合适的Δ：

Δ=10+3*NKpC

(2)

NKpC表示图像的复杂度。由于SIFT算法可以准确描述图像的复杂性，本方法用单位面积上的SIFT关键点数目来表示图像的复杂度。

初步提取出的MSER区域中，包含商标连通区域和很多非商标区域。对包含商标的MSER区域的几何特征进行分析之后，设计了一个boost分类器用于判断并删除非商标区域。包含商标的MSER区域的几何特征有以下几类：

(1)面积

MSER区域的面积。将面积较大的MSER区域保留下来，删除较小的区域。

(2)占空比

MSER区域与其外接最小矩形框的面积比。商标区域的占空比一般适中，非商标区域可能过大或过小。

(3)宽高比

MSER外接最小矩形框的宽高比。商标区域的宽高比在适合的范围内，非商标区域可能过大或过小。

(4)规则性

MSER区域原始边界像素值和进行平滑处理后的边界像素值的比值。商标区域的边界比较平滑，非商标区域的边界容易出现“毛刺”现象。

(5)非边界性

在自然图像中，在图像边界检测出的MSER区域很可能是非商标区域，商标区域即使在边界，检测出了也难以进行识别。

对多个商标区域和非商标区域提取上述五个几何特征，将商标区域的几何特征集标记为正样本，非商标区域的几何特征集标记为负样本。设计boost分类器进行几何特征值的训练，训练循环次数为20次。经过20次循环后，得到20个弱分类器，按照每次循环更新的权重进行叠加，最终得到强分类器。

将训练出的分类器应用到对MSER区域的几何过滤中，可以尽量保证明显的商标区域不被误删，同时有效地过滤掉非商标区域的干扰。

2.2 基于选择性搜索的窗口提取方法

商标在自然环境中经过光照、形变等影响后，还能保持连通域的颜色、强度的相对稳定性，与周围背景形成显著对比。在基于目标区域估计的算法中，选择性搜索算法可以在不依赖特定目标类别的前提下，准确快速地获得图像的可能目标区域。因此本文方法将基于选择性搜索对图像进行显著性区域的窗口提取。

由文献[5]可知，根据选择性搜索将图像进行分层分组后通过多颜色模型等多种分割策略进行图像分割，输出若干个矩形区域。由于初步得到的待测窗口数目较多，在进入下一步之前先对待测窗口做一个几何过滤。而待测窗口都是矩形，几何特征相对简单，所以用于过滤的几何特征有以下两项：

(1)面积

待测窗口面积。过小的窗口包含商标的可能性较小，过大的窗口可能包含过多的非商标区域在内，故只留下大小合适的窗口。

(2)宽高比

窗口的宽高比。宽高比过大或过小的窗口包含商标的可能性较小，只保留宽高比合适的窗口。

经过简单的几何过滤后保留下的待测窗口数量较之前有一定的减少，为下一步的窗口筛选减少了输入量。

2.3 基于MSER区域最佳覆盖率的窗口筛选方法

经过对待测图像中提取的MSER区域进行分类器过滤后，许多非商标区域已被删除，同时商标区域被很好的保留下来。接着可以利用这些保留的MSER区域对选择性搜索产生的待测区域进行重合度计算，窗口与MSER区域重合度越高的区域越有可能包含商标。计算方法如下：

基于MSER区域最佳覆盖率的窗口筛选方法输入：选择性搜索生成的M个窗口SSWin，N个MSER区域的外接矩形框MSERWin。输出：保留的窗口RESULTWin。 //每个SSWin与全部MSERWin之间的重合率(intersection-over-uion，iou)1．For(inti=0；i

10．DeleteSSWin[i]；//保留下的窗口为KEEPWin111．If(iou[i]>0．4) WinNum++；//统计KEEPWin1的窗口里iou大于0．4的窗口数目WinNum12．if(WinNum<10) //重新统计iouwhole大于0．2的窗口数目WinNum13．if(iou[i]>0．2)14．WinNum++； //保留不大于10个的窗口，为KEEPWin215．WinNum=min(10，WinNum)；16．//筛选出与商标区域重合度最好的K个窗口17．RESULTWin=compute(KEEPWin2，MSERWin) //计算各个RESULTWin相互间的重合度(Iouresult)，若重合度大于0．5则判断两个RESULTWin基本重合。18．For(inti=0；i0．5&&win[i]>win[j]||iou[i]>iou[j]+0．1)22．deleteRESULTWin[j]；23．}24．} //保留下的窗口作为有可能含商标的窗口输出25．returnRESULTWin

对于待测窗口，经过以上步骤的计算及筛选，去除了较小的MSER区域对结果的干扰。iouwhole越大，窗口包含商标区域的可能性就越大。经过筛选之后剩余的窗口中，有部分窗口与窗口之间的重合度较高，所以在窗口间进行对比来过滤掉重合的窗口。过滤时仍然以与MSER区域的重合度为优先标准，将可能商标区域包含得最好的区域保留下来。通过本筛选方法可以得到较少的结果区域，同时保证最终输出的窗口与真实商标区域有较高的重合度，大大减少后期识别的负担。

3 实验结果与分析

为了验证本方法的有效性，本文在1000张图像的自建数据库上进行了商标检测实验，并与当前主流的目标检测法进行了对比。

3.1 数据库建立

实验所用的数据库为在自然场景中采集的不针对特定商标的1000张图像，每个图像中的商标位置均用矩形框进行了人工标注。图像中的标志受到形变、拍摄角度、光照等影响，采集的部分图像本身也存在光照不均、过暗、过亮、出现色差、模糊不清等情况，这些都可能对测试带来一定的干扰。

3.2 训练boost分类器

设计分类器时，使用的特征为几何特征。MSER区域的几何特征易于提取，考虑到训练及检测时的效率，将分类器设计成直接针对特征值进行训练及检测。训练分类器用到的正负样本，是从包含不同类型商标的100张图像中提取出的MSER区域的几何特征值集合。而构成一个商标区域的MSER区域有可能为多个，如图2所示。

一个商标区域可能被分为多个部分被分别提取出来，每个部分作为一个正样本在训练中被使用。负样本则是从图像中提取出的非商标区域，可以明显看出这些区域的面积、占空比、宽高比、规则性、非边界性都与商标区域有很大差别。

本实验最终从100张图像中提取出的正样本数量为400，负样本数量为2000，经过训练得到一个用于进行几何过滤的boost分类器。

正样本负样本图2 训练boost分类器使用的正负样本图像

3.3 检测过程

按照基于商标区域稳定性的区域提取方法对待测图像进行MSER区域提取。结果如图3所示，并将MSER区域用二值图像表示。从图中可以看出，商标区域总是能被很好地检测出来，而且这些区域相对非商标区域更加稳定。

原图

二值图像图3 自然场景图片中的MSER区域检测结果的二值化表示

将提取出的所有MSER区域通过训练好的boost分类器进行筛选。经过分类器筛选之后成功去掉了大部分非商标区域，商标区域得到了很好的保留，其中有少数属于商标区域一部分的MSER区域被误删，但是依赖保留下的区域也足以进行选择性搜索的窗口过滤。结果如图4所示。

图4 图3中的MSER区域经过过滤后的二值图像

通过选择性搜索产生的窗口与保留下的MSER区域进行商标区域估计筛选。最终结果如图5所示。其中白色矩形框是实验结果，黑色矩形框是手动标记的商标区域。

图5 商标的定位结果示意图

3.4 结果分析

一张图像最终输出的结果有如下几种情形：第一，只输出一个窗口，且该窗口包含完整商标区域；第二，输出多个窗口，且有一个或多个窗口包含完整商标区域；第三，输出的窗口中不包含商标区域或包含的商标区域不完整；第四，没有输出任何窗口。

第一种情形为检测成功。由于本方法的最终目的是检测出商标区域，所以第二种情形下，检测出的多个窗口中只要有一个包含了商标区域也判断为检测成功。第三及第四种情形都判断为检测失败。

根据上述判断思想，为了有效评估方法的正确性，将最终输出的每个检测区域rt与已标注的区域rs进行重合度对比。判断检测结果的数学表达如式(3)所示：

(3)

0(rt，rs)为两个区域的交集与并集的比值，如果一副图像有多个结果则取结果中的最大值作为最终比值。0(rt，rs)的结果如图6所示。

图6 检测区域与手动标记区域重合率

t为阈值，考虑到手动标记有可能存在少量误差，检测结果区域有时也会比实际商标区域略大导致重合率偏低，所以取曲线由陡峭变平滑的转折点为阈值。确定阈值后得到的结果统计如表1所示。

表1 结果统计

用于测试的1000张图像中有部分图像光照不正常或画面模糊，这类图像对测试结果有一定的影响。去除图像本身质量不佳的测试数据后，结果统计如表2所示。

表2 结果统计

数据显示，在光照及画面清晰的情况下，本方法的定位成功率可达到约86%。

3.5 与主流方法对比

为验证所提出方法的有效性，分别采用本实验用到的方法和选择性搜索[5]，对已标记的1000张图片进行商标区域估计并进行对比。

为了更好的评价可能商标位置的准确性，采用选择性搜索中提出的最佳覆盖率的评价标准：最佳覆盖率(Average Bset Overlap，ABO)及平均最佳覆盖率(Mean Average Best Overlap，MABO)。ABO的数学表达式如式(4)所示：

(4)

数据显示，本方法产生的MABO及窗口数目都优于最大稳定极值区域特征检测。本方法与选择性搜索相比，虽然MABO有所下降，但是待测窗口数目有大幅降低。每个窗口对于MABO的贡献率也提高了很多，这使得本方法获得的商标窗口可信度普遍高于选择性搜索产生的，为后期的商标识别节省了很多时间。

4 小结

本文在最大稳定极值区域算法及选择性搜索算法的基础上，提出了商标区域快速估计法。根据最大极值稳定区域算法可以提取出图像中的商标区域，选择性搜索算法可以获得待测商标窗口，两者恰好可以互相提供信息，实现对大规模自然场景下商标区域的快速估计。实验结果也表明，本方法在窗口效率和检测正确率上都达到了较高的水平。

[1]H Sahbi，L Ballan，Giuseppe Serra，et al.Context-dependent logo matching and recognition[J].IEEE Transactions on Image Processing，2013，22(3)：1018-1031.

[2]S Romberg，L G Pueyo，R Lienhart，et al.Scalable logo recognition in real-world images[C].In Proceedings of the 1st ACM International Conference on Multimedia Retrieval，ACM，2011：25.

[3]Y Kalantidis，L Garcia Pueyo，M Trevisiol，etal.Scalable triangulation-based logo recognition[J].In Proceedingsof the 1st ACM International Conference on Multimedia Retrieval，ACM，2011：20.

[4]Jiri Matas，Ondrej Chum，Martin Urban，et al.Robust widebaseline stereo from maximally stable extremal regions[J].Image and Vision Computing，2004，22(10)：761-767.

[5]JRR Uijlings，KEA van de Sande，T Gevers，et al.Selective search for object recognition[J].International Journal of Computer Vision，2013，104(2)：154-171.

(责任编辑：王谦)

Research on Logo Detection Technology

LIAO Lu-si，LIU Jie

(Information Engineering School，Communication University of China，Beijing 100024，China)

In view of the existing logo detection methods are dependent on a large number of training samples，it is not conducive to the extension of the application.This paper puts forward a rapid estimation method which is aimed at detecting large-scale logos in the natural environment.The rapid estimation method is based on maximally stable extremal region feature detection algorithm and selective search.By using the stable region to evaluate the selective search windows to detect the logo region.The two algorithms provide information to each other，so as to achieve a fast and accurate estimation of the logo area.

logo detection；stable region；selective search；best overlap

2016-03-15

廖露丝(1991-)，女(汉族)，广西桂林人，中国传媒大学理工学部信息工程学院研究生.E-mail：blose89@163.com

TP751

1673-4793(2016)05-0067-07