APP下载

一种基于双向投影的文本图像字符分割方法

2017-09-07王莉丽于印

数字技术与应用 2017年5期

王莉丽+于印

摘要:针对目前主流文本图像字符分割方法面临的问题,考虑投影法及改进方法容易实现之优点,提出了一种行与列投影的文本图像字符分割新方法,以通过双向扫描分割字符。首先对文本图像进行行投影,接着,实施列投影操作,最后,根据投影谱图统计字符内、外间距,分割单个字符。試验表明,提出的方法能快速准确分割文本图像字符。

关键词:文本图像处理;字符分割;投影法

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2017)05-0074-02

传统的数据主要以纸质文件为载体,但纸张文件存在不易保存、不易共享等缺点。随着信息化与数字化技术的飞速发展, 越来越多的文档以电子格式存储。电子文本具有空间占用小,易于保存等优点,受到了公众广泛的欢迎。为了充分利用以往的海量纸质版文档数据,对其数字化成为信息化建设领域亟待解决的主要问题之一。

文本图像字符分割是纸质文档数字化的关键问题之一。自上世纪 70 年代起,从图像中自动提取文字的技术研究逐渐开展,到了上世纪90 年代末,受益于多媒体技术日新月异发展,图像文字获取逐渐成为研究热点,许多学者在上述领域做了积极的研究与尝试,提出了诸多字符分割方法[1-6]。字符分割操作一般分为两个步骤,首先定位与检测图像主要信息区域,即文字区域,一般使用矩形框来标记,原图像被分离多个子图像。然后分别从子图像中提取像素(提取)。但这两个步骤没有严格的界限,某些算法在进行字符检测时同时字符提取的功能也得到实现,一些算法在不进行字符区域检测的情况下也能够直接实现提取。目前的字符分割算法有很多,大体来说,现有主要的字符分割方法可以被分为五类: 基于连通分析、基于灰度以及基于边缘的方法、基于纹理的方法、基于垂直投影的方法。目前字符分割方法面临的主要问题有:(1)分割效率较低;(2)对字符大小、语言特征要求高;(3)复杂背景适应性差。为此,本文提出了一种新的有效文字图像字符分割方法。

1 提出的分割方法

观察众多文本图像,发现文本图像一般内容规整,多数以行与列的形式存在。基于此观察,提出本文方法,其基本思想是:将文本图像进行行与列扫描投影,行投影分割出文本图像每行;而后进一步做列扫描与投影,得到对应的投影谱图,根据字符列间距完成字符分割。具体流程图与实施步骤见图1。

首先将输入待分割的图像,若为特殊图像,则需要将其转化为matlab所能识别的格式,如tif,bmp,jpg等;然后提取有效区域。对行与列上的像素值进行统计,继而求得行与列均值,进而统计像素值为0的行与列;再者,找到行/列的始末跳变点,以区分开字符区域及非字符区域,舍去上下及左右纯空白区域之后,获得出有效区域。

基于有效区域段落分割。采用行投影方法,标记出间隔区域;接着,分析行特征,将文本以行形式提取出来。基于文本均以段落的形式存在这一特征,根据段落内与外行间隔有差异特性,完成分段操作。

最后实施字符分割。首先对段内图像做行投影,分割出段内每行。接着,对行内字符进行列投影,标记出间隔区域。为解决字符内空隙、标点符号等对字符提取造成的偏差,需要后期处理步骤,具体为比较求得的列间距与平均列间距,将两者区分,实现单个字符分割。试验举例见图2。

2 结语

字符分割是文本图像信息化的关键问题之一。针对该问题,本文分析了文本图像以行列形式存在的特征,将该特性引入到传统的投影法中,提出了基于行与列双向扫描投影的文本图像字符分割新方法,通过实验验证了所提方法的有效性。实验结果表明,新方法字符分割效率高,运算速度快。

参考文献

[1]李文举,梁德群,王新年.质量退化的车牌字符分割方法.计算机辅助设计与图形学学报[J].2004,16(5):697-700.

[2]王俊杰,黄心汉.一种对图像进行快速二值化处理的方[J]电子技术应用,1998,24(10):16-17.

[3]M. Elad. Why simple shrinkage is till relevant for redundant representations. IEEE Transactions on Information Theory,2006,52(12): 5559-5569.

[4]胡小峰,周勇,叶庆泰.复杂背景彩色图像中的文字分割[J].光学技术,2006,32(1):141-147

[5]王勇,郑辉,胡德文.图像和视频中的文字获取技术[J].中国图象图报,2004,9(5):532-538.

[6]Lia C L,Hui K C.Feature recognition by template matching.Computers and Graphics,2000(24):569-582.endprint