基于投影轮廓分析的文本图像版面分割算法研究
2017-05-17王莉丽陈晔刘玲
王莉丽++陈晔++刘玲
摘要:本文提出了一种新的基于投影轮廓分析的版面有效分类;随后详细介绍了该方法的实现技术流程,给出了该方法进行版面分析所依据7个特征的含义及作用。实验结果表明:提出的新方法,能够对复杂版面文本图像进行有效的版面分割及区域类型分类,并能够准确的识别如页眉这样的特殊区域,版面分析结果准确。
关键词:文本图像处理;版面分割;投影法
中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2017)03-0164-02
目前,信息采集的多样化,已严重威胁到了信息存储的安全性。仅用一部手机,就可获取与泄露重要的信息。对文本数据信息安全性的担忧,促使了纸质文本图像信息隐藏与提取方法的提出。这类方法的核心在于将安全标识信息,以特有的方式嵌入到文本图像的文本区域中,这样,如果发生信息泄露或者要找寻到泄露源,就可以通过分析文本区域中包含的安全标识信息,反向追踪,查出泄漏源,或者通过安全标识信息,回收被泄露出去的信息。对于简单的、只包含文本信息的文本图像,目前的处理技术已比较成熟,能够比较准确的将版面信息进行有效的分析,但是对于包含文本、图形和图像区域的复杂版面文本图像,当前的处理技术尚不成熟,需要进一步提高。本文聚焦于复杂文本图像分割方法研究。
版面分割的方法,大体上可以分为两大类:层次式和非层次式的。层次式分割算法,主要有自顶向下和自底向上两种算法。非层次式算法则主要是利用复杂的图形图像处理技术,根据其图像特征,对文本图像进行版面分割[1-4]。层次式方法中,游程平滑RLS(Run-length Smoothing)算法和投影轮廓切分PPC(Projection Profile Cut)算法是两种有代表性且应用较广泛的算法。而基于纹理分析的版面分析算法,则是将版面分析和版面区域类型识别结合实现的一种算法。但上述方法时间消耗较大,为此本文提出了一種简单有效的分割方法。
1 提出的分类算法
首先,读入待分类文本图像,并对其格式转换,确保图像数据完整性,以防止丢失图像数据;然后进行有效区域提取,剔除四周的空白无效区域,得到有效信息区。在此基础上,对有效信息区进行二维坐标下的行投影,确定并统计、提取特征值,再根据统计得来的特征值,进行孤立行分析,并依据判定的孤立行,对文本图像进行区域的粗分割,得到版面分析的粗分割结果。在上述过程中,可根据投影结果以及统计的特征值,完成对纯文本区域、纯图像区域的分割工作。需要指出的是,本文着眼于复杂文本图像,为此还须对区域粗分割得到的各个子区域,进行二维坐标下的列投影,再根据投影结果,判定子区域中是否存在分栏版面。完成以上步骤后,原本复杂的文本图像版面就被分割为了多个简单版面的文本图像区,在此基础上,再进行行、列投影,根据所得特征值分析与分类,区分出文本区、图像区和图形图表区域,完成分割任务。具体流程见图1。
本文采用特征7个特征统计分析文本图像,各特征分别为:(1)行高,记录投影行高度的值。本文对行进行投影,依据投影结果,计算二值化投影平均值发生改变的临界点值,在临界点值作运算,获得行高值。 我们对各行高度值进行平均运算,在分别与各行高度作对比,进而初步确定异常区域;(2)行间距,行与行之间的间隔距离。此间距,由投影结果而得的下标值计算求得。在文本图像中,行间距发生明显变化的部分,往往为段落或者区域块之间的分割标识,此处计算行间距,作为段落区分和区域块区分的一个标识;(3)缩进率,文本与页面边界之间的距离。依据每一行的列投影结果,计算边界至文本的距离占左右边界之间距离的比率,求得缩进率。在文本图像中,标题不同于其它文本行,往往存在较大缩进,或左缩进,或右缩进,或左右都有,为此可结合行高,完成对标题的判定。此外,段落中往往有首行缩进,段尾也常因字符无法填满文本行而存在缩进,因此也可根据缩进率,判定段落区域;(4)行外接矩形填充率,在缩进的行区域块中,有效信息区域占整个区域块的比率。依据每一行的列投影结果值计算填充率。主要用来判断一些特殊的文本行,如页眉的判断;(5)最大跳变位置,对文本行进行列投影时,坐标轴所示下标发生最大变化的区域位置。根据该特征,如果连续多行在相同位置都发生最大跳变,且跳变区内像素点平均值为1,则可以判定在该位置处存在分栏,此外,还可以根据最大跳变,判定是否存在异常区域;(6)行内信号跳变周期(频率),对文本行进行列投影后,坐标轴上投影下标值发生周期性变化的周期或者频率。根据此特征,可用来判定是否存在异常区域;(7)对齐方式,该特征用来衡量文本图像中内容距离左右边界的距离,具体有居中,左对齐和右对齐三种方式,可用来辅助计算缩进率,进而分割区域块。分割结果举例见图2。
2 结语
文本图像版面分析是对文本图像处理的关键环节。针对上述问题,本文以文本图像二维坐标下行列投影结果为基础,提取并分析相关特征,提出了一种新的基于投影轮廓分析的版面有效分类方法。该方法通过对特征的综合运算与分析完成复杂版面文本图像的分析工作。验证了方法的有效性及准确性。
参考文献
[1]Kise K, Sato A, Iwata M. Segmentation of page images using the area Voronoi diagram[J]. Computer Vision Image Understanding,1998,70(3): 370-382.(8-4).
[2]杨洋,平西建.复杂版面的文本图像图文分割算法[J].微计算机信息,2006,22(5):66-225.
[3]刘仁金,高远飙,郝祥根.文本图像页面分割算法研究[J].中国科学技术大学学报,2010,40(5):500-504.
[4]Fletcher L A, Kasturi R A. A robust algorithm for text string separation from mixed text/graphic images[J]. IEEE Trans On Pattern Recognition and Machine Intelligence, 1998,10(6): 910~918.(9-5).