基于数学形态学的渐变色字符定位算法*

2016-11-07孙艳蕊

计算机与数字工程 2016年10期

关键词：渐变色字符形态学

崔　男　李　婧　孙艳蕊

(东北大学数学系　沈阳　110004)

基于数学形态学的渐变色字符定位算法*

崔男李婧孙艳蕊

(东北大学数学系沈阳110004)

为处理渐变色字符的字符定位,文章提出了一种基于数学形态学的字符定位算法。该算法很好地利用字符的特有属性,采用形态学中的边缘提取与膨胀操作,取得整体的字符骨架,再通过填充与腐蚀操作使得渐变色字符周围变得平滑,最后利用反色操作与top-hat滤波进行整体提亮,从而提取出字符。实验表明,该算法对渐变色字符有较强的定位能力,并能有效地去掉绝大部分噪声,字符提取率高达90%,与目前基于边缘分割,神经网络等算法相比有较大改进。

渐变色字符; 字符定位; 数学形态学; sobel算子; 孔洞填充

Class NumberP208

1　引言

如今,由于多媒体技术和互联网的蓬勃发展,全世界数字图像容量迅猛增长。这些图像中的字符承载着非常有用的信息,例如交通道路指示牌、街道名称、商店名字、广告牌、海报、书籍封面等。如若可以自动定位图像中的字符区域[1],那么对于图像高层语义的理解、索引和检索有重大意义,也为之后的字符提取识别工作打下良好的基础。

在图像处理中,渐变色自然字符具有字符区域与背景相近,与噪声区域无法分离的特性[2]。现阶段,主要的字符定位方法有基于去噪理论的低空滤波,基于字符特征的K均值聚类方法,基于支持向量机并结合 HOG 特征的识别分类方法等。但由于渐变色图像中字符周围存在的复杂噪声[3],现有方法无法准确地提取出真正的字符区域,这给之后的字符的提取和识别工作带来了极大的不便。除此之外,渐变色图像在日常生活中具有广泛的应用价值。因此,研究此类图像的字符区域定位是有很大的价值意义的。

2　数学形态学的基本运算

数学形态学的数学基础是集合论, 因此数学形态学有完备的数学基础,这为其用于图像分析和处理奠定了坚实的基础。它的基本思想是用具有一定形态的结构元素作为基本工具进行图像的基本探测与特征提取,也是一种常用的图像分割方法[4]。但由于其方法的多样性及效果的模糊性,其综合效果还具有很大的提升空间。

2.1膨胀与腐蚀

膨胀与腐蚀是形态学基本操作,本文从集合论的角度给出膨胀与腐蚀的基本定义如下：A,B是Z2中的集合,φ为空集。

膨胀：若A被B膨胀,则记做A⊕B,其中⊕为膨胀算子。膨胀的数学定义为

腐蚀：若A被B腐蚀,则记做AΘB,其中Θ为腐蚀算子。腐蚀的数学定义为

AΘB={x|(B)x⊆A}

Df,Db分别为f与b的定义域。

2.2填充操作

若P为填充区域内指定一点,则有：Xk=(Xk-1⊕B)∩Ac,其中Xk为待填充区域按照结构元素分割的区域块,X0=P,当算法迭代到Xk=Xk-1时终止,填充工作完毕。其中,集合Xk和A的并集包括填充的集合和边界元素的集合。

3　基于数学形态学的渐变色字符定位算法

渐变色字符中的待提取字符区域的干扰噪声较大,在自然背景下还会有字符区域边缘不明显,光照强度分布不均等干扰。如何在强干扰下去除这些噪声并且较为完整的提取出字符区域就是本文提出的算法所要解决的问题。

3.1字符区域粗提取过程

1) 由于渐变色字符边缘的毛刺噪声密度大而面积小。文章采用差分算子sobel进行初步的字符区域提取[5]。sobel算子是一种在像素上下、左右进行邻点灰度加权差,而后在边缘处达到极值的一类卷积算子。首先分别定义横向纵向的幅值GxGy,若记待处理的图像为K,则幅值的具体计算公式为

图1　不同线性结构元素的粗处理图

3.2字符区域细化过程

1) 由于渐变色字符与噪声区域差别极小,在边缘提取中易破坏字符边界,故在细化过程中首先对字符区域粗提取过程得到的候选区域进行孔洞填充[7]处理：首先将粗处理图A进行反色处理,即(ri,gi,bi)=(255,255,255)-(ri,gi,bi),随后搜索新像素点中的非零处,如果以该像素点为中心的3*3矩阵内元素都非0,则将其矩阵内的元素全部记为0,此时的图像为(rii,gii,bii),则最终经过填充处理的图像可表达为：(rjj,gjj,bjj)=(255,255,255)-(rii,gii,bii)。

图2　不同腐蚀元素的对比图

4) 根据图片像素点个数选择4*4或8*8邻域查找二值图边缘[8]:

Inow(x,y)为当前邻域处坐标(x,y)的灰度值,B(ix,jy)为当前邻域的平均灰度值,若m(x,y)最终大于图片的平均灰度,则认为当前邻域内的中心元素为所提取的二值图边缘。一般情况下选用3*3邻域,但在图片极大时选用9*9邻域即可。

5) 为了最终提取出边缘图,根据图片类型的不同,本文给出两种方法：(1)RGB元素：将字符边界处的R值赋值为255,并提取处最终的字符区域;(2)非RGB元素：利用Matlab中的top-hat滤波进行高帽变换[9]Hat(f)=f-(f∘b),增强图像区分度从而提取出字符区域。

4　算法仿真

在MatlabR2014a环境下,上述算法进行了编程实现,并采用多幅渐变色图片进行试验,原图如图3所示。

图3　渐变色图像原图

由图3可以看到渐变色字符周围噪声较大,字符与噪声间的色彩区分度较小,且字符的颜色也不尽相同,这也为字符的定位造成了一定的影响。首先进行字符区域的组提取过程,为了使色调统一,将图片首先化成二值图,而后进行粗提取,粗提取效果如图4所示。

图4　字符区域粗提取过程图

图4的字符区域粗提取过程可以看出“刀光剑影”四字已基本被提取出来,周围的噪声已经大大减少,但字符之间的连接性太过紧密,字符分辨不清,仍需下一步处理。进行字符区域精细化处理得到的最终定位效果图如图5所示。

图5　最终效果图

图6　效果图展示

图5为字符定位的最终效果图,对比图4,可以看出字符细节与字符主体都是相连通的,已达到基本的字符定位效果,可以用于接下来的字符提取与识别。对比原图3与效果图5可以看出,字符的主体和细节都被完整地提取了出来,不存在丢失的点,而一些与字符通过桥接连接在一起的噪声线条,也没有包含进来。图6即为字符定位原图与效果图的对比展示。

5　算法比较

5.1算法有效性比较

论文提出了一种基于数学形态学的渐变色字符定位算法,对于渐变色字符有良好的定位与去噪功能,和现阶段的边缘检测[10]、水平灰度变化[11]等算法相比,本文算法更有效地从字符本身结构出发,避免了对字符长宽,倾斜角度等特点的讨论;和神经网络[12～13]、彩色分割[14]等算法相比,对其无法解决的多重虚化现象有了较大的进步,最终的对比效果如图7所示。

图7　几种现有算法与本文算法效果对比图

5.2算法效率性能比较

论文在MatlabR2014a的实验环境下,文章定义字符提取的准确率为：r=A/T,其中A为算法所提取字符的有效像素点,T为实际字符所占像素点,r为图像的提取率。由于渐变色字符周围的干扰较多,采用现有的提取率[15]作为评价与实际的误差较大,因而该文章将图片的灰度值的极值个数作为渐变色字符图像的有效像素点个数。对不同算法在运行时间与提取率上的对比结果展示与分析如表1所示。

由表1可知,在低维数时,该算法所用时间约比现行算法的运行速度低0.15s～0.19s,但提取率提高约至90%;随着图片维数成指数增长的情况下,论文所提出的算法所用时间并无太大变化幅度,即该算法具有较好的运行速度优势。

表1　算法提取率、运行时间的比较

6　结语

渐变色字符在日常生活中如霓虹灯牌,日光折射等很常见,如何去除噪声并准确定位字符具有很大的实用与推广价值。该文章的创新点在于巧妙的利用了渐变色字符的形态学特征,建立了基于形态学理论的字符定位算法,避免了现有算法对于字符几何特征的详细输入要求,与目前算法相比,在字符提取率上取得了较大的进步,获得了较好的定位效果。

[1] 周开军,陈三宝,徐江陵.复杂背景下的车牌定位和字符分割研究[J].计算机工程,2007,33(4):198-200.

ZHOU Kaijun,CHEN Sanbao,XU Jiangling.Research of Vehicle License Plate Location and Character Segmentation Under Complex Scenes[J].Computer Engineering,2007,33(4):198-200.

[2] 王琪,王丽萍,陈凯迪.一种简单的图案填充算法[J].微计算机信息,2005,21(9-3):116-117.

WANG Qi,WANG Liping,CHEN Kaidi.A Simple Algorithm For Filling Pattern[J].Control & Automation,2005,21(9-3):116-117.

[3] 晋瑾.图像中的文本定位技术研究综述[J].计算机应用研究,2007,24(6):8-11.

JIN Jin.Survey of Text Localization Techniques in Images. Application Research of Computers[J].Computer Knowledge and Technology,2007,24(6):8-11.

[4] 廖佳,王红梅,牛晓东.图像与视频中的文本定位技术研究综述[J].电脑知识与技术,2010,6(9):7378-7382.

LIAO Jia, WANG Hongmei, NIU Xiaodong.Text Location in Images and Video:A Survey[J].Computer Knowledge and Technology,2010,6(9):7378-7382.

[5] 郑南宁.计算机视觉与模式识别[M].北京:国防工业出版社,1998.

ZHENG Nanning.Computer vision and pattern recognition[M]. Beijing: National Defence Industry Press,1998.[6] Azaria M, Vitsnudel I, Zeevi Y Y. The design of two-dimensional gradient estimators based on one-dimensional operators.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,1996,5(1):155-159.

[7] 叶斌,彭嘉雄.基于形态学Top—Hat算子的小目标检测方法[J].中国图象图形学报,2002,9(7):638-642.

YE Bin,PENG Jiaxiong. Small target detection method based on morphological Hat-Top operator[J]. Journal of Image and Graphics,2002,9(7):638-642.

[8] Chen X, Yuille A L. Detecting and reading text in natural scenes[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2004:366-373.

[9] 董春来,王坚,胡建华.利用MATLAB实现图像处理与分析[J].现代测绘,2003,26(5):9-11.

DONG Chunlai，WANG Jia,HU Jianhua.Achieving Disposal and Analysis of Image by MATLAB[J]. Modern Surveying and Mapping,2003,26(5):9-11.

[10] 马海清.基于边缘和纹理的文本定位算法的研究[D].哈尔滨:哈尔滨工业大学,2007.

MA Haiqing.Research of text localization algorithm based on edge and texture[D]. Harbin: Harbin Institute of Technology,2007.

[11] 何春华,张雪飞,胡迎春.基于改进Sobel算子的边缘检测算法的研究[J].光学技术,2012,38(3):323-327.

HE Chunhua, ZHANG Xuefei, HU Yingchun. A study on the improved algorithmfor Sobel on image edge detection[J]. Optical Technique,2012,38(3):323-327.

[12] Yi C, Tian Y. Text Detection in Natural Scene Images by Stroke Gabor Words.[C]// Proceedings of the International Conference on Document Analysis and Recognition,2011:177-181.

[13] Maruyama M, Yamaguchi T. Extraction of Characters on Signboards in Natural Scene Images by Stump Classifiers[C]// International Conference on Document Analysis & Recognition. IEEE Computer Society, 2009:1365-1369.

[14] 闵华清,郑华强,罗荣华.自然场景图像中基于视觉显著性的文本区域检测[J].华南理工大学学报:自然科学,2012,40(8):39-45.

MIN Huaqing,ZHENG Aiqiang,LUO Huarong. Text region detection based on visual saliency in natural scene images[J]. Journal of South China University of Technology: Natural Science Edition,2012,40(8):39-45.

[15] 权炜,郑南宁,贾新春.复杂背景下的车辆牌照字符提取方法研究[J].信息与控制,2002,31(1):25-29.

QUAN Wei,ZHENG Nanning,JIA Xinchun. Research on vehicle license plate character extraction method in complex background[J]. Information and Control,2002,31(1):25-29.

Character Location Algorithm for the Image of Gradient Color Character Based on Mathematical Morphology

CUI NanLI JingSUN Yanrui

(Department of Mathematic, Northeastern University, Shengyang110004)

In order to deal with the character location of gradient background image, a new method based on mathematical morphology is proposed. The method uses the inherent characteristics of characters efficiently. In this algorithm, the edge extraction and expansion operation are used to obtain the whole character skeleton. And then the gradient background character is smoothed by the filling and corrosion operation. The top-hat filter and the color-inverted operation are used to brighten and carry out the whole extraction. Character extraction rate can be raised to 90%. Experiments showed that the proposed algorithm had a strong ability to locate characters on gradient color images and could effectively reduce most of the noises, compared to the edge segmentation and neural network algorithm.

gradient color character, character location, mathematical morphology, sobel operator, holes filling

2016年4月7日,

2016年5月19日

大学生创新创业训练计划项目(编号：201510145024)资助。

崔男,女,研究方向:数字图像处理。李婧,女,研究方向:数字图像处理。孙艳蕊,女,博士,教授,研究领域:数字图像处理。

P208

10.3969/j.issn.1672-9722.2016.10.031