APP下载

基于组件树和霍夫森林的场景文字检测识别

2016-11-09苏江房涛王晓明仵媛媛高博

电子设计工程 2016年20期
关键词:霍夫分类器尺度

苏江,房涛,王晓明,仵媛媛,高博

(国网陕西省电力公司信息通信公司 陕西 西安710004)

基于组件树和霍夫森林的场景文字检测识别

苏江,房涛,王晓明,仵媛媛,高博

(国网陕西省电力公司信息通信公司 陕西 西安710004)

自然场景中的文字检测与识别是图像理解中的重要部分,在大部分的系统设计中,检测和识别被看成是孤立的两部分进行处理,本文提出使用多类霍夫森林建立一个统一的检测识别框架。同时为了解决霍夫森林在类别增多时识别率下降,以及在尺度多变的情况下定位偏移的问题,文中提出利用组件树提取出具有层级的连通域,同时针对文字本身的特征建立分类器。通过级联该分类器,提取出文本的候选位置并确定目标的尺度大小,为后级精细的定位和识别奠定基础。实验结果显示该方案在检测和识别方面均与目前最优的方案具有竞争性。

组件树;霍夫森林;图像理解;文字检测;文字识别

随着互联网的发展,网络带宽的不断提高,图像、视频由于易于理解,符合现代人快速的生活节奏,逐渐取代文本成为主要的信息传播载体。由于微博类网站对文本长度的限制,要发表较丰富的内容通常需要图文结合的方式,同时,图片分享类网站的蓬勃发展,给图像理解领域带来新的机遇和挑战。自然场景的文字检测和识别作为图像理解的重要一环,一直受到研究者的关注。一般来说,光学字符识别(OCR)系统只能处理背景简单且文本相对密集的图像,对于包含复杂背景的自然图像,必须先通过文字定位取出包含文本的图像块,才能实现准确的识别。对于文本背景较为复杂的图像,还必须经过文本背景分离才能得到理想的识别结果。

在目前大部分的解决方案中,文字检测和识别作为孤立的两部分的工作分别进行处理,本文提出使用多类霍夫森林,建立统一的文字检测和识别框架。同时针对霍夫森林在检测中尺度不准确以及定位漂移的问题,提出通过组件树级联分类器的方式提取文字候选区域。

1 相关工作

霍夫变换是用于检测具有解析表达式的几何形状的常用目标检测方法,如直线、圆检测等[1]。霍夫变换的核心思想是把原图像中的像素点或特征(如边缘)变换到霍夫空间(即参数空间)进行投票,而投票的峰值即为检测的目标。广义霍夫变换在霍夫变换的基础上进行扩展,可对一般形状的目标进行检测[2]。广义霍夫变换的基本思想是通过图像中每一个分块的边缘切向量估算目标的中心点位置,本质上利用边缘切向量,为不存在解析表达的形状建立参数空间,从而应用霍夫变换。

广义霍夫变换假设的前提是,图像中每个像素都是独立的,在投票过程中对每一个分块赋予相同的权重,使得该方法在复杂场景下容易失效。Gall等人基于霍夫变换的思想,在2009年提出建立霍夫森林进行目标检测[3]。霍夫森林对图像中每一个分块通过一组决策树进行分类(前景和背景),并估算目标的中心位置,使用决策树输出的概率作为投票权重。

文中提出把每一种字符作为单独一类,建立多类霍夫森林进行字符检测,同时完成检测和识别任务,避免检测和识别问题的孤立,计算效率更高。但针对具体的文字检测和识别问题,霍夫森林在应用中存在一定问题。

首先是对不同大小的文字进行检测,常用的方法有两种:第一种是沿用广义霍夫变换中的方案,在参数空间内加入尺度的维度,然后在该维度上进行搜索;第二种方法是使用图像金字塔,对输入图像的多个尺度进行检测,然后进行合成。两种方法原理上是相似的,但随着搜索的尺度范围增大,计算量也会成倍增加。同时由于不同尺度下独立进行检测,使用不适合的尺度将会出现定位漂移的问题,如图1所示。

图1 霍夫森林对字符“A”检测结果

此外,文字中存在有大量的部分相似现象,如B的上半部和R的上半部,甚至在同一个字符中也会出现自相似的情况,如B上半部和下半部。在无法确定尺度的情况下检测,很有可能出现一个字符被判定为多个目标的情况,如图2所示。

图2 霍夫森林对字符“B”检测结果(左:原图;右:检测结果)

除此以外,实验结果表明,霍夫森林虽然能够适应多类识别的问题,但随着类别的增多,准确率会有一定程度的下降[4]。而对于典型的文字识别问题,类别为27类(26个大写字母和背景类),仅仅依赖于霍夫森林进行检测显然是不够的。

2 基于组件树和霍夫森林的文字检测与识别

该方案主要分为两部分,分别是基于组件树的文字候选区域提取,以及使用霍夫森林进行的文字检测和识别。首先,通过建立组件树从图像中提取出具有层级的连通域,然后对每一个区域分别提取出一组表征文字的特征并输入至分类器,根据分类器的判决结果提取文字的候选区域。然后把每一个文字候选区域放缩至同一尺度,并作为独立的样本输入至霍夫森林,进行精细的检测及识别。

2.1 训练样本生成

对于自然场景的文本检测和识别问题,标记样本十分稀少,文中通过样本生成的方式建立训练集。考虑到日常中的文本大都是水平分布,在文中通过随机选取字体,根据二元语法(2-gram)模型随机生成多个字符,并在水平居中的前提下进行随机旋转和平移,作为基础的文本单元。同时从随机选取的背景图中采样相同大小的块,然后把文本叠加于背景之上。为使样本更具挑战性,在融合过程中,文本图像需乘以0.5~0.8的随机系数,以降低文本与背景的对比度。

2.2 基于组件树的文字候选区域提取

文字候选区域提取的目的有两个,一是尽量去除背景图像块,提高后级的计算效率;二是确定目标文字的尺度大小,以提高霍夫森林的检测的准确率。同时,文字候选区域提取还必须保证简单快速,避免降低整个系统的性能。

文字本身边缘特征丰富而纹理简单,使用连通域提取文字候选区域是一个快速而有效的方法[5]。但由于场景的复杂性,提取出的连通域数量会相当多,并且使用单一分割阈值提取的连通域往往不能提取出完整的文字。

最大稳定极值区域(MSER)[6]有效解决了以上两个问题,并被广泛应用于文字检测方案中[7-8]。首先,最大稳定极值区域针对不同的阈值提取连通域,其次,以相对面积随阈值变化较小作为条件,提取出稳定的连通域。组件树是提取最大稳定极值区域的常用线性时间算法[9]。

图3 MSER提取结果

图3所示是使用组件树提取最大稳定极值区域的结果。可以看出,在复杂的场景下,文字区域并不一定能满足“稳定”的要求。因此,文中在应用中去除该约束,通过对组件树中的每一个区域进行特征提取,确定文字的候选区域。

对每一个连通域提取以上特征,然后输入至分类器进行独立识别。分类器输出的所有正样本分别重采样至同一尺度大小,作为文字的候选区域。

文中使用的分类器是AdaBoost分类器[10],同时为了保证尽量多的文字被检测到,即较高的召回率,在此前提下牺牲检测的准确率,当后验概率大于0.4时即判定为正样本。准确率由后级的霍夫森林检测进一步提高。

2.3 基于霍夫森林的检测与识别

霍夫森林由一组独立的霍夫树组成,霍夫树是分类树和回归树的结合,每一个节点可能是分类节点或者回归节点。霍夫森林本质上是基于概率投票的广义霍夫变换,投票的权值以及目标位置的估计值由叶子节点保存的码本决定。

针对文字检测和识别问题,以每个字符作为独立的检测目标,应用多类霍夫森林,可在检测的同时完成识别,避免检测和识别问题的孤立,并保持降低的计算复杂度。而霍夫森林在在多类检测情况下虽然能保持较高的召回率,但准确率会有一定程度下降[4]。针对这一情况,文中除了通过前级文字候选区域提取去除大量背景外,还在决策树的节点分割函数对背景类进行独立计算,保证在分类过程中优先进行背景和文字的分离。除此之外,文中通过使用区域特征取代点特征提高算法的鲁棒性,降低算法对目标尺度的敏感性。最后,针对多类字符的目标搜索,文中提出使用贪婪迭代搜索的方式进行定位。

文中,使用的是文献[3]提出的二类霍夫森林框架,并在此之上针对文字检测识别应用进行了以下改进。

首先是把二类分类问题推广到多类。在二类分类的问题中霍夫树每一个节点的目标是最小化不确定性,包括类别的熵

以及中心位置的聚类

针对多类物体检测的问题,中心位置的不确定性可由每一个类别的确定性相加获得

其次,如图2所示,霍夫森林在对于不确定的尺度无法进行精确定位,必须通过对原图进行不同尺度的采样分别进行检测,时间复杂度较高。除了利用候选区域提取确定尺度大小外,文中还通过修改霍夫森林的分类特征,进一步提高霍夫森林对尺度变化的适应性。

霍夫森林使用的特征是二进制特征,典型的形式如下:

其中τ是阈值,Pl(x)是像素在特征空间的l取值。文中,将其推广为区域特征。

该形式可看作是点特征的超集。以区域的均值作为判决准则,可提高算法抗干扰能力,并减少对尺度的敏感性。

除此以外,对于单类目标检测的问题,通常在霍夫投票图像,即后验概率P(xi=l|fi),使用非极大值抑制(Non-Maximal Suppression)[12],搜索极大值作为目标,但该方法并不能推广到多类情况。文中,提出图4所示的贪婪迭代搜索算法确定目标位置。首先初始化所有候选目标均为背景,然后进入迭代。每一次迭代中,求出每个候选目标的最优所属类别,并选出优化效果最显著的候选目标赋予新的标签值,然后再更新该候选目标的邻域标签值。当无法通过改变标签值来提高后验概率时,退出迭代。

图4 霍夫空间贪婪搜索算法

3 实验结果

文中生成的训练样本大小为32×32,字符使用26个字母(区分大小写)和10个阿拉伯数字,共62类。背景图像从VOC2009数据集[13]中随机抽样获得,图5所示为部分合成的样本。每类字符样本各生成1 000张。

在组件树提取时,把彩色图像转换为灰度图以及HSV颜色空间,每个颜色通道独立进行提取后进行融合。考虑到日常生活中存在黑底白字和白底黑字两种情况,对每个通道的每像素的二进制反值也做同样的处理[14]。区域分类使用的AdaBoost分类器,以单层决策树作为弱分类器,弱分类器数量为100。

霍夫森林使用的特征空间是原始的灰度图,以及X方向和Y方向的Sobel边缘特征,提取的块大小为16×16,决策树的数量为10,树的最大深度为20,节点的最少样本数量为20。每个节点从参数空间采样1 000个样本,取最优值作为判决特征。

文中使用的测试集是ICDAR 2013[15],其中组件树的定位准确率是52.8%,召回率是87.1%。由于组件树只作为文字候选区域的提取,较低的准确率是可以接受的。

图5 部分训练样本

图5所示是部分检测成功的样本,图6是部分检测失败的样本。表1是文中检测结果与ICDAR 2013前3名的对比,其中召回率与ICDAR 2013的第1名接近,而准确率高于第一名的成绩,这得益于检测与识别的结合。

表2是文中识别结果与ICDAR 2013文字识别前3名的比较,使用的是大写字母子集。文中使用的是随机自动生成的训练样本,以检测和识别为目标,而其他算法使用的训练和测试样本均是人工切割好的字符区域,且仅以识别为目的,两者的测试样本并不相同,结果只作为参考对比。

图6 检测成功的样本

表1 ICDAR 2013文字检测结果

表2 ICDAR 2013文字识别结果

图7 检测失败的样本

在时间复杂度方面,文中提出的算法在时间上的消耗主要为两部分,分别是组件树提取和霍夫森林检测。由于不同颜色通道的组件树提取以及各个霍夫树的计算是相互独立的,本文使用并行计算来提高效率。在一台配置为Intel Core i5 1.8 GHz的电脑上,对一张大小为的图像提取组件树大约需时100毫秒,霍夫森林对整幅图像进行检测大约需时250毫秒。由于实际应用时霍夫森林仅对候选文字区域进行检测,因此真实需时会更少。

4 结束语

文中针对自然场景中的文本检测识别问题,提出使用组件树结合混合特征分类形成候选区域,再用霍夫森林进行检测识别的整体解决方案,与目前提出的最优方案具有竞争性。该方案利用霍夫森林统一了文字检测和识别两部分工作,并应用组件树提高了算法对不同尺度文字的适应性,同时以合成图像作为训练样本,提高了方案的适用性。虽然本文提出的方案与目前提出的最优方案效果接近,但从实验结果来看,自然场景中文字检测和识别问题仍未被完全解决,自然场景的复杂性和文字本身的多样性是该问题的最大难点。

[1]Duda R O,Hart P E.Use of the Hough transformation to detect lines and curves in pictures[J].Communications of the ACM,1972,15(1):11-15.

[2]Ballard D H.Generalizing the Hough transform to detect arbitrary shapes[J].Pattern recognition,1981,13(2):111-122.

[3]Gall J,Lempitsky V.Class-specific hough forests for object detection [M]//Computer Vision and Pattern Recognition(CVPR),2009:1022-1029.

[4]Gall J,Yao A,Razavi N,et al.Hough forests for object detection,tracking,and action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2188-2202.

[5]Koo H I,Kim D H.Scene text detection via connected component clustering and nontextfiltering[J].IEEE Transactions on Image Processing,2013,22(6):2296-2305.

[6]Matas J,Chum O,Urban M,et al.Robust wide-baseline stereo from maximally stable extremal regions[J].Image and vision computing,2004,22(10):761-767.

[7]Chen H,Tsai S S,Schrith G,et al.Robust text detection in natural images with edge-enhanced maximally stable extremal regions[C]//Image Processing (ICIP),2011:2609-2612.

[8]Neumann L,Matsa J.A method for text localization and recognition in real-world images[C]//Asian Conference of Computer Vision(ACCV),2010:770-783.

[9]Nistér D,Stewénius H.Linear time maximally stable ex-tremal regions[C]//Computer Vision-ECCV,2008:183-196.

[10]Freund Y,Schapire R E.A desicion-theoretic generalization of on-line learning and an application to boosting[C]//Computational learning theory,1995:23-37.

[11]Razavi N,Gall J,Van Gool L.Scalable multi-class object detection [C]//Computer Vision and Pattern Recognition(CVPR),2011:1505-1512.

[12]Blaschko M B.Branch and bound strategies for non-maximal suppression in object detection [C]//Energy Minimization Methods in Computer Vision and Pattern Recognition,2011: 385-398.

[13]Everingham M,Van Gool L,Williams C K I,et al.The pascal visual object classes(voc)challenge[J].International journal of computer vision,2010,88(2):303-338.

[14]Epshtein B,Ofek E,Wexler Y.Detecting text in natural sceneswith stroke width transform[C]//Computer Vision and Pattern Recognition(CVPR),2010:2963-2970.

[15]Karatzas D,Shafait F,UCHIDA S,et al.ICDAR 2013 robust reading competition[C]//Document Analysis and Recognition(ICDAR),2013:1484-1493.

Text detection and recognition in natural scenes based on component tree and Hough forest

SU Jiang,FANG Tao,WANG Xiao-ming,WU Yuan-yuan,GAO Bo
(Shaanxi Electric Power Company Information Communication Co.,Ltd.,Xi'an 710004,China)

Text detection and recognition in natural scenes play an important role in image understanding.Inmost of current system design,detection and recognition are isolated and processed separately.A unified framework for detection and recognition based onmulti-class Hough forest is proposed.In order to improve the performance when the quantity of classes increases,aswellas improve accuracy with uncertain scale,component tree is used for extracting connected componentwith hierarchy,while a set of features based on text characteristics is extracted and feed to a classifier.With the help of the classifier,the scale of the target is determined and all candidate texts are located,which build the foundation of subsequent stage for fine positioning and recognition.Experiments show that the scheme is competitive with current optimal solutions in both detection and recognition.

component tree;Hough forest;image understanding;text detection;text recognition

TN99

A

1674-6236(2016)20-0178-04

2015-10-28 稿件编号:201510202

苏 江(1984—),男,陕西蒲城人,硕士,工程师。研究方向:信息系统开发维护、模式识别。

猜你喜欢

霍夫分类器尺度
冰山与气候变化
世界之巅的花园——库肯霍夫
财产的五大尺度和五重应对
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
宇宙的尺度
基于霍夫变换的铭牌OCR图像旋转矫正方法
9
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别