一种改进的退化文本图像二值化方法
2016-09-26刘晟桥牛连强冯庸
刘晟桥 牛连强 冯庸
摘要:文本图像二值化是文本图像识别的重要步骤,由于光照不均或文档水渍等原因导致文本图像退化,增加了文本图像识别的难度。本文对一种局部阈值算法进行了改进,首先对图像进行水平投影,根据直方图的极小点对版面进行简单划分,再利用全局阈值法估算出更为准确的各区域字符笔画宽度,从而自适应地得到适当的窗口尺寸,再利用对比图和局部阈值进行图像二值化,并结合OTSU图像消除原算法产生的伪轮廓。实验与分析表明,改进后的方法能够明显消除因笔画粗细不均、字符大小不同而产生的前景像素误识问题。
关键词:文本图像;二值化;局部阈值;退化图像
[中图分类号]TP391 [文献标志码]A [文章编号]
Abstract: Document image binarization is an important procedure for the document image recognition. Degraded document images with uneven illumination or stains often make document recognition hard. In this paper, a local thresholding binarization technique is improved: the image is firstly horizontally projected to segment the image primarily according to the minimum points of histogram. Then more precise text stroke width of different sections is estimated by using global thresholding method, and this makes proper window sizes to be gained adaptively. Finally, the false contour is eliminated by combining with the optimized OTSU image. Experiments and analyses show that the misclassification rate of the foreground pixels caused by uneven text stroke width and different-sized characters is able to be reduced significantly by our approach.
Key Words: document image; binarization; local threshold; degraded images
文本图像二值化是光学字符识别(OCR)等任务中的一个重要而基本的处理过程,目的是准确地分割出图像中的前景和背景。尽管此问题已经过了长期研究,也提出了许多实用算法,但由于文本图像的多样性,尤其是存在着笔画不均、光照不均、污染以及因采集自古籍而使对比度变差等多种原因,迄今尚未找到一种普适的算法。鉴于问题的重要性,自2007年始,国际上连续举办了多届专门的文本图像二值化竞赛,以推动高质量的二值化算法研究[1-2]。
根据阈值的选择不同,二值化方法主要分为全局阈值法和局部阈值法两类,甚至还存在个别混合方法。其中,全局阈值仅用一个阈值将图像的前景与背景分割开,典型代表是OTSU(大津)法[3]。通常,在低对比度和光照不均的条件下,全局阈值法的抗噪能力表现较差。而对于退化的、质量较低的图像,局部阈值法则更为适用,根本原因在于可以通过当前像素点的局部邻域窗口动态计算合适的局部阈值。时下,存在诸多颇具实用性的局部阈值法,如Bernsen法[4]、Niblack法和Sauvola法等[5],这些算法分别采用邻域像素的最大值和最小值、邻域局部均值和局部标准差来计算阈值,尤其是Sauvola法考虑了前景像素的灰度值接近0而背景像素的灰度值接近255的特点。在近期的几次国际竞赛中,更有研究者提出了一些卓具实效的处理退化图像的局部阈值二值化方法[6-14]。诸如,Bolan Su、Shijian Lu等提出了基于背景估计和笔划宽度估计的二值化方法[6-7],Howe 提出了一种通过优化两个关键参数来改进二值化方法的技术[8],而Mesquita 等人则有针对性地提出了对一些算法进行融合和自动调节上述参数的有效可行方法[9]。这些算法在国际竞赛上提供的测试图像集上取得了良好效果,呈现了显著突出优势。通常,局部阈值法较全局阈值法要消耗更多的时间。
本文主要工作是对Bolan Su方法的改进,包括3个方面。其一是利用OTSU法的二值化图像替代原文中利用原图结合笔画边界图估计最佳笔画宽度,以降低算法复杂性及非笔画边界像素的影响,使笔画宽度更准确。其次,对目标图像进行简单版面分割,对不同区域采取不同的宽度,以适应字符尺寸和笔画粗细的变换。最后,利用大津法重新校正二值化图像,以消除原方法中的伪轮廓。简言之,改进后的算法能够自适应地采取更为精当的笔画宽度,有效地消除在笔画粗细不均、文字尺寸变化较大时存在的笔画中心像素不能被正确识别为前景,以及窗口宽度不当引起的噪声等问题。
1 相关工作
与一般的局部阈值方法不同,Bolan Su算法[6]是一种基于对比图和笔画宽度估计的二值化算法。通常,退化图像中常存在噪声多、不均匀光线照射、透背等现象,致使图像中的笔画边缘模糊。为此,算法首先使用图像梯度来更加精确地确定边缘:
其中,Emean和Estd分别是在一个邻域窗口中笔画边缘像素点的灰度的平均值和标准差。
分析和实验发现,此算法对笔画宽度相当敏感,因为笔画宽度关系着邻域窗口的宽度,而邻域窗口是否能包含边缘像素则决定了算法的正确性。但是,算法对笔画宽度的估计本身的准确性不够,作者在文中建议要适当增加,更重要的是,即便笔画宽度的估计值是准确的,当笔画粗细不均、字符大小变化较多时,仍会存在邻域窗口不能覆盖边缘像素的情况,致使笔画中间的像素被误识为背景。
2 利用OTSU法估计笔画宽度
在Bolan Su算法中,为了保证能够装入笔画边缘像素点,邻域窗口至少就要比区域笔画宽度更大。所以邻域窗口的尺寸要基于退化文本图像的区域笔画宽度来确定设置,但却并不需要一个精确的笔画宽度。不过,如果窗口宽度过大,即会造成二值化后的图像噪声增多,为后续处理带来困难。
原文采用边缘图像计算笔画宽度,但这种图像是由像素梯度变换而来,在真实笔画内外均包含大量的离散点及噪声,致使算法复杂且计算准确性差。为此,本文首先对原图像使用OTSU法,获得相应的二值图像。其次,对二值图像进行中值滤波,消除噪声。最后,遍历图像,计算水平前景线段宽度并构造直方图,取最大值为笔画宽度。算法1描述了笔画宽度估计方法。
算法1 笔画宽度估计
实验说明,对于P02和P03这类字符尺寸相差较大的文本图像,改进后的算法能够自动适应笔画粗细的变化,基本不存在将前景点误识为背景点的现象,而原算法关于此点却有明显不足。由于这种误识的点一般都包含在笔画内,与真实的空洞难以区分,如图11。因此,原算法很难经过后处理来实现正确填充,而改进后的算法可以消除此过程。另外,由于此类图像退化不严重,相比于局部阈值法,全局阈值法如OTSU有着较好的实验效果。
对于H04和H05等退化较显著的文本图像,由于污渍面积较大、透背现象严重,导致图像许多部分的背景颜色与笔画颜色相近,对二值化工作带来较大影响。此时,单一阈值已无法将前景与背景合理分开,相比之下,原方法与改进方法几乎都可以将污渍去除,且噪声较少,可以增加一个后处理过程进行简单去除。
对于二值化算法表现的定量评估,一般采用的方法是将二值化处理结果图像与官方给出的GT图像进行比较,并按式(6)~(8)计算相应的FM(F-measure)指标:
其中,TP表示同时出现在结果图像与GT图像的像素点的数量,FP表示仅出现在结果图像没有出现在GT图像的像素点的数量,FN表示仅出现在GT图像没有出现在结果图像的像素点的数量。RC为召回率,PR是准确率。表1~表3给出了3种算法二值化P02、P03和H05图像的FM值。
相比原算法,在处理文字、笔画大小不均的图像时,改进后方法的FM值有较大幅度提升,这说明算法可以保留原图像前景文本的更多细节。而对文字大小和笔画较均匀的图像,基本上维持原算法的水平。
5结束语
基于笔画宽度决定邻域窗口进而实现局部阈值化是处理退化文本图像的一种重要手段,也因此产生了一些客观有效的关键算法。本文的改进研究保留了局部阈值方法的优势,且通过与OTSU算法结合、并对图像进行区域划分以得到不同区域、不同字符的笔画宽度,从而实现了更准确的自适应窗口尺寸估计。同时对于原方法中出现的伪轮廓现象进行了对比消除,提升了对退化文本图像的处理效果。
参考文献
[1] PRATIKAKIS I, GATOS B, NTIROGIANNIS K. ICDAR 2013 document image binarization contest (DIBCO 2013)[C]//Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. Washington, DC, USA:IEEE, 2013: 1471-1476.
[2] GATOS B, NTIROGIANNIS K, PRATIKAKIS I. ICDAR 2009 document image binarization contest (DIBCO 2009)[C]//2009 10th International conference on document analysis and recognition. Barcelona:IEEE, 2009: 1375-1382.
[3] OTSU N. A threshold selection method from gray-level histograms[J]. Automatica, 1975, 11(285-296): 23-27.
[4] BERNSEN J. Dynamic thresholding of grey-level images[C]//International conference on pattern recognition. Paris, France:dblp,1986: 1251-1255.
[5] SAUVOLA J, PIETIKINEN M. Adaptive document image binarization [J]. Pattern Recognition, 2000, 33(2): 225-236.
[6] SU B, LU S, TAN C L. Robust document image binarization technique for degraded document images[J]. Image Processing, IEEE Transactions on, 2013, 22(4): 1408-1417.
[7] LU S, TAN C L. Binarization of badly illuminated document images through shading estimation and compensation [J]. Internal Journal of Document Analyses Recognition, 2010, 13(4): 303-314.
[8] HOWE N. Document Binarization with Automatic Parameter Tuning [J]. Internal Journal of Document Analyses Recognition, 2013, 16(3): 247-258.
[9] MESQUITA R G, SILVA R M A, MELLO C A B, et al. Parameter tuning for document image binarization using a racing algorithm [J]. Expert System with Applications, 2015, 42(5): 2593-2603
[10] 童立靖, 张艳, 舒巍,等. 几种文本图像二值化方法的对比分析[J]. 北方工业大学学报, 2011, 23(1):25-33.
[11] 陈丹, 张峰, 贺贵明. 一种改进的文本图像二值化算法[J]. 计算机工程, 2003, 29(13):85-86.
[12] 潘梅森, 张奋. 一种新的图像二值化方法[J]. 湖南文理学院学报(自然科学版), 2007, 19(1):72-74,80.
[13] 张伟, 刘志刚. 一种针对较厚书籍扫描图像的二值化方法[J]. 计算机应用研究, 2011, 28(5):1998-2000.
[14] 冯炎. 基于背景估计和对比度补偿的退化古籍图像二值化算法[J]. 科学技术与工程, 2015, 15(34): 105-109.
[15] CANNY J. A computational approach to edge detection [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1986 (6): 679-698.