自然场景图像中基于视觉显著性的文本区域检测*

2012-06-25闵华清郑华强罗荣华

华南理工大学学报（自然科学版） 2012年8期

闵华清郑华强罗荣华

(华南理工大学计算机科学与工程学院，广东广州510006)

自然场景图像中的文字包含了很多重要的语义信息，如路牌上的街道名字、商店招牌上的店名、广告牌上的文字、产品包装上的文字等，这些文本字符对场景视觉信息的表达具有重要价值，是描述和理解场景内容的关键线索.因此，将场景图像中的文字抽取出来，有利于场景图像的内容分析，可以广泛应用于机器人视觉和盲人导航等领域，而候选文本检测用于确定场景图像中的候选文本区域，是进行精确的文本抽取的前提，具有重大的理论意义和实用价值.

文本检测的主要方法有基于连通域的方法［1-2］、基于边缘特征的方法［3-4］和基于纹理的方法［5-6］.基于连通域的方法是在假设同一区域的字符具有相似的颜色和亮度，并且与背景区域的颜色存在较大差异的基础上，采用自底向上的方法从图像中提取连通区域，然后利用几何约束构造启发式规则进行连通域分析，将子区域合并得到最终的文本区域.Epshtein等［7］首先利用沿着边缘点梯度方向的射线对边缘图像进行笔画宽度变换，然后在笔画宽度变换图像中进行联通域分析，过滤不符合规则的非文本区域，获得最终的文本区域.基于边缘特征的方法是利用文本区域具有丰富的边缘信息这一特点进行文本区域检测，首先采用某种边缘检测算子从原图像中检测出边缘，然后通过形态学方法将边缘连接成文本块，最后利用一些启发式规则进行筛选，得到最终的文本区域.张引等［8］综合考虑各颜色分量，采用欧氏距离设计出一个新的彩色图像边缘检测算子，在背景复杂的图像中进行文本区域检测，取得了较好的效果.基于纹理的方法把文本区域看作是一种可与背景区分开的特殊的纹理，通常采用Gabor变换、小波变换和傅里叶变换等方法检测图像中文本区域的纹理特征.Kim等［5］利用多尺度小波特征，提出一种从粗到精的文本检测方法，并利用SVM从候选的文本区域中验证真实的文本区域，对于背景复杂的图像取得了较好的效果.黄剑华等［9］利用模糊逻辑的思想构造基于边缘信息和纹理信息的图像同质性，并利用它将图像映射到模糊同质性空间，再在模糊同质性空间通过纹理分析检测文本区域，对于复杂背景视频图像的文本取得了不错的检测效果.

虽然上述方法在某些应用中取得了一定的效果，但它们都是通过某些方式对图像中纹理丰富的地方进行了一定程度的增强，而未能对文本区域纹理和背景纹理进行很好的定义和区分，因而具有一定的局限性.同时由于自然场景图像中文字的字体、大小、方向、位置千变万化，背景纹理丰富，颜色复杂，还可能因为获取条件的限制使得文字比较模糊或者被其它物体遮挡，这些因素都给文本检测造成了极大的困难.

自然场景中文本区域与背景在颜色、纹理上存在着视觉上的差异，文本区域与背景相比更加显著，更能吸引人们的注意力，因而可以将视觉显著性的思想用于场景图像中的文本检测，通过计算像素点与其领域的对比度，进一步突显出文本区域，抑制背景区域，提高文本检测的性能.文中在几种经典的基于计算的视觉显著性方法［10-11］的基础上，提出一种多尺度包围盒视觉显著性模型，并基于该模型提出一种适用于自然场景图像中文本检测的方法;最后通过仿真实验对该方法的有效性进行验证.

1 多尺度包围盒视觉显著性模型

视觉显著性源自视觉独特性、不确定性、稀少性和突然性，是使物体、人或者像素点与其邻域相比更加突出，从而引起人们注意的一种视觉感知.现有的显著性评价方法大体可以分为3类:基于生物学的方法［10］，基于纯粹的数学计算的方法［11-13］，生物学方法和纯粹数学计算方法相结合的方法［14］.

Achanta等［12］利用最大对称包围矩形提出一种“中心-周围”对比的视觉显著性模型(Achanta视觉显著性模型).该模型在Lab颜色空间中首先利用5×5二项式内核的高斯滤波器进行高斯模糊，去除高频噪声和纹理，得到高斯模糊图像，然后利用最大对称包围矩形求原图像的均值图像，最后求高斯模糊图像和均值图像的欧氏距离，作为原图像的显著图.该模型用于彩色场景图像中的物体检测时，对位于图像中心且尺寸较大的物体效果很好，但对位于图像边缘且尺寸较小的物体则效果较差.

物体检测和文本检测思想类似，都是尽可能地突显出物体或文本，抑制背景，从而将物体或文本从背景中剥离出来，但文本具有其特殊性，如字体、大小、方向、位置千变万化，文本区域纹理丰富等，而Achanta视觉显著性模型在利用高斯模糊去除高频噪声和纹理的同时，也削弱了文本区域的显著度.因此，文中在充分考虑文本区域特点和分析Achanta视觉显著性模型不足的基础上，提出多尺度包围盒视觉显著性模型，如图1所示.

图1 多尺度包围盒视觉显著性模型Fig.1 Visual saliency model with multi-scale bounding boxes

模型的具体建立流程如下:

(1)特征向量的选择.颜色和亮度已经被证明在视觉感知中扮演着重要的角色，一些基于视觉系统的颜色空间，如Lab、HSI，均比传统的RGB颜色空间更符合人眼的生理特性，因此文中模型将图像从RGB空间转换到Lab或HSI颜色空间，构造基于亮度和颜色的特征向量.

(2)求优化图像IOpt.根据感兴趣对象的不同，利用不同的图像增强技术对原图像进行处理，提高感兴趣区域与背景的对比度，得到优化图像IOpt.

(3)确定像素点的邻域.利用“中心-周围”对比的思想求视觉显著性的一个重要的问题是确定给定像素点邻域的大小.Achanta视觉显著性模型提出一个最大对称包围矩形的概念，如图2(a)所示(MSSx，y为以(x，y)为中心的最大对称包围矩形).它使得给定的像素点处于邻域的中心，邻域的大小随着像素点与图像边缘的距离的增大而增大，这样确定的邻域使得像素点越靠近图像的中心，其显著度越高，而自然场景中文字出现的位置是不固定的，可能出现在图像的中心，也可能出现在图像的边缘，因此最大对称包围矩形对文本区域检测具有局限性.文中模型采用多尺度的思想，提出一种多尺度包围盒的邻域确定方法.首先求出每个像素点的最大对称包围矩形，然后等比例缩小，得到n个不同尺度的包围盒，如图2(b)所示，最后在这n个尺度包围盒中选择一个最优的作为该像素点的邻域.

图2 多尺度包围盒示意图Fig.2 Schematic diagram of multi-scale bounding boxes

最优矩形选择的思想是:首先计算优化图像的均值m，并计算优化图像中各个像素点与m的距离的均值作为阈值α，然后求出每个包围盒的均值与当前像素点的距离作为其显著度，最后通过最大对称包围矩形的显著度与阈值α的比较来确定最优邻域.如果最大对称包围矩形的显著度大于阈值，则选择显著度最大的包围盒作为最优邻域，否则选择显著度最小的包围盒作为最优邻域.

(4)求最优均值图像.Rbest为Lab空间上以像素点(x，y)为中心的最优邻域，A(·)为区域面积算子，I(i，j)为最优邻域中的像素点(i，j)的特征向量，Iμ(x，y)为邻域的均值向量，则

对于Lab空间上的每一个特征向量I(x，y)，用均值向量Iμ(x，y)替换，即可得到Lab空间上的最优均值图像Iμ.

(5)生成显著图.令s(x，y)为像素点(x，y)的显著性度量，它的值由Lab空间中(x，y)的邻域均值向量Iμ(x，y)与 Lab空间中优化图像的特征向量IOpt(x，y)的欧氏距离决定，如式(2)所示:

求出输入图像中所有像素点的显著性度量，即可得到与原图像相同大小和分辨率的单通道显著图.

2 基于显著性模型的文本区域检测

2.1 文本区域增强

同质性反映图像中区域的均匀程度，与图像的局部信息密切相关，在图像分割中扮演了重要的角色.由于图像中的文本区域可以看作内部基本均匀、具有相似性质(高频性和不连续性)的独立区域，因此可以在同质性空间中进行文本检测，以克服复杂背景中文本与背景纹理相似造成的检测错误.

文献［15］将同质性定义为标准方差和强度不连续性的组合.标准方差体现了一个局部区域内的变化程度，强度的不连续性则体现区域内灰度级突变的程度，根据模糊逻辑理论，可以将标准方差理解为纹理信息，将强度不连续性理解为边缘信息.

令 T(x，y)、E(x，y)分别为像素点(x，y)的纹理信息和边缘信息，定义点(x，y)的同质性H(x，y)如下:

H(x，y)=［I-(I-T(x，y))(I-E(x，y))］g(x，y).其中 T(x，y)和 E(x，y)的元素均属于区间［0，1］，g(x，y)为原图像中(x，y)位置的特征值，I为单位向量.纹理信息和边缘信息的计算方法采用文献［9］介绍的方法，通过求出原始图像中每一个像素点的同质性值H(x，y)，就可以把原始图像映射到同质性空间.

2.2 多通道信息融合文本区域检测

文中基于多尺度包围盒视觉显著性模型，提出一种适用于自然场景图像中文本检测的方法，流程如图3所示.对该方法流程的描述如下:

(1)颜色空间转换.将原图像从RGB颜色空间转换到Lab颜色空间，并将其分解为3个通道的子图:IL为L通道子图，表征亮度信息;Ia为a通道子图，表征红色至绿色范围的颜色信息;Ib为b通道子图，表征黄色至蓝色范围的颜色信息.

(2)同质性映射.分别将IL、Ia、Ib3个子图映射到同质性空间，得到同质性子图 HL、Ha、Hb.

(3)计算同质性均值图.令HL(x，y)为同质性子图HL上的任意一点，Rbest为以该点为中心的最优包围盒邻域，根据式(1)计算出该点的邻域均值HLμ(x，y)，遍历 HL中所有的点，即可得到 HL的同质性均值图HLμ.同理可求出Ha、Hb的同质性均值图Haμ、Hbμ.

(4)生成文本显著图.由于L、a、b三个子通道对像素点文本显著性的贡献是不一样的，文中采用加权的欧氏距离作为文本显著性的度量.令K1、K2、K3分别为 L、a、b三个子通道的加权系数，点(x，y)的文本显著性可由式(3)计算:

式中，

然后将 Stext(x，y)归一化到区间［0，255］，其中0≤x≤w，0≤y≤h，w、h 分别为图像宽度和高度，而且 K1+K2+K3=3，文中根据经验，取 K1=1.8，K2=0.6，K3=0.6.求出所有像素点的文本显著性，即可得到与原图像一样大小和分辨率的文本显著图Stext.

图3 自然场景图像中文本区域检测方法的流程图Fig.3 Flow chart of text region detection in natural scene images

3 实验结果与分析

为验证文中所提算法的有效性，在AMD Athlon 64 X2 4000+，2.11GHz计算机上进行测试，算法基于 OpenCV，开发工具为 Visual Studio 2005.从ICDAR 2003(International Conference on Document Analysis and Recognition)图像库中选取5张具有代表性的图像(包括衣服上的文字、有遮挡的警告牌、背景复杂的路牌、凹凸不平的墙壁上的门牌、建筑物上的店名)以及包含中文的场景图像作为测试图像，分别使用彩色边缘检测方法(Ⅰ)、同质性映射方法(Ⅱ)、Achanta视觉显著性模型方法(Ⅲ)和文中提出的方法(Ⅳ)进行候选文本检测，其中后3种方法的结果均利用了Ostu方法［16］进行二值化，实验结果如图4所示.

从图4可以看出:对于衣服上的文字图像，彩色边缘检测方法的效果不错，但是衣服的褶皱也会被检测出来;对于遮挡的栅栏、复杂的背景和建筑物上的文字，检测效果较差，检测出来的结果有大量的背景干扰，且文本边缘不完整;同质性映射方法虽然比彩色边缘检测方法更加突出候选的文本区域，但仍然存在着较多的背景噪声，而Achanta视觉显著性模型方法和文中所提出的方法能较好地抑制背景噪声的影响，检测出的候选文本区域也比较完整.文中所提出的方法利用了多尺度包围盒邻域，克服了Achanta视觉显著性模型中最大对称包围矩形邻域的不足，因此性能得到了进一步的提高，能够消除背景噪声.

为了进一步验证文中算法的有效性，提出一种基于查全率和查准率的性能评价算法.定义查全率r为算法处理结果中候选文本点总数与Ground-truth中文本边缘像素点总数的比值，查准率p为算法处理结果中正确的候选文本点数与算法处理结果中候选文本点总数的比值.查全率r与查准率p的具体计算描述如下.

令D为实验结果图像，G为理想情况下文本边缘图像，D∩G为两幅图像的交集图像，W(·)为计算图像中白点总数的算子，则有由于Ground-truth中文本边缘较细，先对Ground-truth进行一次膨胀操作，得到图像Gdilate，文中认为实验结果中出现在Gdilate中的候选文本点均是正确检测的候选文本点，则有为了综合考虑算法的查全率和查准率，定义综合评价结果f:

式中，β取0.5.f的值越大，算法检测性能越好.

图4 场景图像文本区域检测结果Fig.4 Results of text region detection in scene images

为了确定最优的多尺度包围盒个数n，文中选取ICDAR 2003图像库中的10张自然场景图像进行实验，计算在不同n值下f的均值，n对f的影响如图5所示.可以看出，当n≥35时，随着n的增加，性能变化不大，考虑到时间开销，文中取n=35.

图5 包围盒个数对评价指标的影响Fig.5 Effect of number of bounding box on evaluating indicator

为了确定最优的欧氏加权系数K1、K2、K3，文中取n=35，由于K2、K3都是描述颜色子通道的重要程度，为了简化计算，令K2、K3取相同的值，定义颜色分量与亮度分量的权重比为ε=K2/K1，利用10张自然场景图像进行实验，计算在不同的ε下其综合评价指标f的均值，ε对f的影响如图6所示.由实验结果可知，ε =6/18，即 K1=1.8、K2=0.6、K3=0.6时可获得最优的性能.

图6 颜色分量与亮度分量的权重比对评价指标的影响Fig.6 Effect of weight ratio of color to brightness component on evaluating indicator

用彩色边缘检测方法、同质性映射方法、Achanta视觉显著性模型方法和文中提出的方法分别对100张自然场景图像进行实验，求出它们的综合评价指标 f的均值依次为 0.5827，0.6132，0.6741，0.7013，由此可以看出，两种利用了视觉显著性模型的方法对候选文本的检测性能明显优于其它两种方法，而文中提出的方法比Achanta视觉显著性模型方法的性能更好.

4 结语

文中在分析现有自然场景图像中候选文本检测方法不足的基础上，根据自然场景文字的特点，将视觉显著性的思想引入到文本检测中，结合基于边缘信息和纹理信息的同质性以及多尺度包围盒视觉显著性模型，提出一种适用于复杂场景图像中检测候选文本区域的方法.该方法首先利用模糊逻辑原理，对原图像进行纹理和边缘的检测，构造同质性，并利用它将原图像映射到同质性空间，利用多尺度包围盒求出同质性均值图，最后将同质性图像和同质性均值图像的加权欧氏距离作为原图像的文本显著性度量，生成文本显著图，作为最终的候选文本检测结果.自然场景图像实验结果表明，文中提出的方法能够很好地抑制自然场景图像中复杂的背景，有利于文本区域与背景进一步的剥离，为精确的文本定位奠定基础.然而该方法只是用于检测候选的文本区域，检测结果还存在着虚假的文本.结合学习的方法对文本区域和非文本区域进行分类，进一步去除非文本区域，实现精确的文本定位是今后改进的方向.

［1］Mariano V Y，Kasturi R.Locating uniform-colored text in video frames［C］∥Proceedings of 15th International Conference on Pattern Recognition.Barcelona:IEEE，2000:539-542.

［2］蒋人杰，戚飞虎，徐立，等.基于连通分量特征的文本检测与分割［J］.中国图像图形学报，2006，11(11):1653-1656.Jiang Ren-jie，Qi Fei-hu，Xu li，et al.Using connectedcomponents’features to detect and segment text［J］.Journal of Image and Graphics，2006，11(11):1653-1656.

［3］Lienhart Rainer，Wernicke Axel.Localizing and segmentation text in images and videos［J］.IEEE Trans on Circuits and Systems for Video Technology，2002，12(4):256-268.

［4］Chen D，Odobez J M，Bourlard H.Text detection and recognition in images and video frames［J］.Pattern Recognition，2004，37(3):595-608.

［5］Kim K I，Jung K，Kim J H.Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2003，25(12):1631-1639.

［6］Zhong Y，Zhang H，Jain A K.Automatic caption localization in compressed video ［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2000，22(4):385-392.

［7］Epshtein B，Ofek E，Wexler Y.Detecting text in natural scenes with stroke width transform［C］∥Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.San Francisco:IEEE，2010:2963-2970.

［8］张引，潘云鹤.复杂背景下文本提取的彩色边缘检测算子设计［J］.软件学报，2001，12(8):1229-1235.Zhang Yin，Pan Yun-he.Design of a new coloredge detector for text extraction under complex background ［J］.Journal of Software，2001，12(8):1229-1235.

［9］黄剑华，承恒达，吴锐，等.基于模糊同质性映射的文本检测方法［J］.电子与信息学报，2008，30(6):1376-1380.Huang Jian-hua，Cheng Heng-da，Wu Rui，et al.A new approach for text detection using fuzzy homogeneity ［J］.Journal of Electronics ＆ Information Technology，2008，30(6):1376-1380.

［10］Itti L，Koch C，Niebur E.A model of saliency-based visual attention for rapid scene analysis［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，1998，20(11):1254-1259.

［11］Achanta R，Hemami S，Estrada F，et al.Frequency-tuned salient region detection［C］∥Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.Miami:IEEE，2009:1597-1604.

［12］Achanta R，Susstrunk S.Saliency detection using maximum symmetric surround［C］∥Proceedings of 2010 IEEE 17th International Conference on Image Processing.Hong Kong:IEEE，2010:2653-2656.

［13］Hou X，Zhang L.Saliency detection:a spectral residual approach［C］∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Rio de Janeiro:IEEE，2007:1-8.

［14］Harel J，Koch C，Perona P.Graph-based visual saliency［C］∥Advances in Neural Information Processing Systems.Vancouver:NIPS，2007:545-552.

［15］Cheng H D，Sun Y.A hierarchical approach to color image segmentation using homogeneity［J］.IEEE Trans on Image Processing，2000，9(12):2071-2082.

［16］Ostu N A.Threshold selection method from gray-level histograms［J］.IEEE Transactions on Systems，Man and Cybernetics，1979，9(1):62-66.