APP下载

低质量文档图像二值化算法研究

2016-08-05赵诗云徐晶晶

计算机应用与软件 2016年7期
关键词:低质量字符邻域

熊 炜 赵诗云 徐晶晶 赵 楠,2

1(湖北工业大学电气与电子工程学院 湖北 武汉 430068)2(湖北工业大学太阳能高效利用湖北省协同创新中心 湖北 武汉 430068)



低质量文档图像二值化算法研究

熊炜1,2*赵诗云1徐晶晶1赵楠1,2

1(湖北工业大学电气与电子工程学院湖北 武汉 430068)2(湖北工业大学太阳能高效利用湖北省协同创新中心湖北 武汉 430068)

摘要针对低质量文档图像中存在的墨迹浸润、页面污渍或背景纹理等退化因素,提出一种低质量文档图像二值化算法。算法首先基于文档图像的局部对比度实现字符笔画像素检测,然后采用Otsu算法对其进行全局最优阈值化处理,最后通过估计字符笔画宽度确定邻域窗尺寸,从而实现字符前景与页面背景的精细分割。实验结果表明,该算法在F-measure、PSNR、SSIM、NRM、DRD等性能指标方面较其它经典的文档二值化算法具有明显优势。该算法不仅能够较好地保留笔画细节外,还能够较好地抑制文档背景。

关键词低质量文档图像二值化局部图像对比度笔画宽度估计

0引言

文档分析与识别(DAR)技术广泛应用于印刷体字符及公式识别、手写文字识别、文档图像分割、视频字幕提取、文本信息检索等领域。主要包括图像采集、预处理、二值化、版面分析、OCR识别、建立索引等流程[1]。图像二值化是其中一个关键处理步骤,它直接影响DAR系统的性能。然而,由于图像对比度低、墨迹浸润、页面污渍或光照不均等诸多因素,使得针对此类低质量文档图像的二值化具有极大的挑战。

目前,学术界提出了许多文档图像二值化算法,可大致分为全局阈值法和局部阈值法[2,3]。全局阈值法采用单一的阈值将文档图像分为字符(前景)与背景两大类。如Otsu算法[4]利用图像的灰度直方图选择一个最优阈值,使得经阈值分割后的前景与背景像素的类间方差最大。Otsu算法对于前景和背景差别较大,即直方图具有显著双峰特征的图像具有较好的分割效果,但在处理低质量文档图像时,会丢失部分甚至全部前景细节。

局部阈值法(也称为自适应阈值法)通过滑动窗口与文档图像卷积,从而实现在图像不同部分设定不同阈值。如Niblack[5]、Sauvola[6]、Wolf[7]等算法利用像素邻域内的灰度均值和标准差来构建阈值分割曲面,其性能有赖于滑动窗口的尺寸及字符笔画的粗细。针对不同质量的文档图像需动态调整窗口尺寸,以获得最佳的阈值处理结果,当图像对比度较低时,会产生大量噪声点或将背景像素误判为前景像素。

国内外研究人员还提出了许多其他方法,如背景估计法[8,9]、局部对比度法[10-12]、笔画边缘检测法[13]、梯度归一化与显著图法[14]、纹理分析法[15]、拉普拉斯能量法[16]、误差扩散法[17]、谱聚类法[18]以及混合法[19]。然而这些方法都不能很好地解决低质量文档图像的二值化问题或者仅能适用于某些特定场景(如光照不均匀条件[20])。本文结合图像局部对比度和笔画宽度估计,提出一种新的文档图像二值化方案,该算法对墨迹浸润、页面污渍、背景纹理等多种退化因素具有较好的鲁棒性。

1算法介绍

1.1局部图像对比度

(1)

其中,Imax(x,y)、Imin(x,y)和Imean(x,y)分别表示图像在其坐标(x,y)处的3×3邻域内亮度的最大值、最小值和平均值。

1.2全局最优阈值化

局部对比度图像明显改善了原始文档图像的直方图特性,使其具有相对显著的双峰模态,因此可以采用经典的Otsu算法[4]对其进行全局最优阈值化处理,从而实现高对比度字符笔画像素检测。

(2)

1.3笔画宽度估计与局部二值化

经过全局最优阈值化方法检测出的像素点大多位于字符笔画边缘附近,且图像前景像素的灰度值应接近或略低于这些被检测出的像素平均灰度。因此,一旦这些“种子”像素点被正确检测出来,就能够精细地从原始文档图像中将字符前景与页面背景分割:

(3)

其中,I(x,y)为(x,y)处的像素灰度值,μs(x,y)和σs(x,y)分别表示以(x,y)为中心的w×w邻域内所有“种子”像素的灰度平均值和标准偏差,常数k的取值受Sauvola算法[6]及Wolf算法[7]的启示固定为0.5。

由前面的分析可知,基于邻域窗的算法性能依赖于邻域窗尺寸大小及字符笔画粗细等因素,并且这些因素之间也是相关的,即文档字符笔画粗(或细),对应的邻域窗尺寸则大(或小)。因此,确定邻域窗尺寸大小也就转化为笔画宽度估计(SWE)问题。目前,研究人员主要采用行程长度、法向量、轮廓比例、频谱等方法来估计笔画宽度[21]。本文采用对图像分辨率变化具有鲁棒性的轮廓比例法[22]进行笔画宽度估计。首先计算字符前景像素与对应的字符边界像素的比值λ:

(4)

通过大量实验得到:

(5)

一般而言,邻域窗的尺寸不能小于笔画宽度,同时考虑到实时计算量,本文将邻域窗的尺寸大小设为字符笔画宽度的两倍,即w=2×SWE。

2实验与分析

将本文提出的算法与其他10种经典算法进行对比实验,选取国际文档图像二值化竞赛(DIBCO)[23-25]提供的低质量文档图像集作为测试样例,包括21张印刷体和21张手写体(共42张)低质量文档图像及其对应的标定(GT)图像。参与评估的各算法分别对测试样例进行二值化处理,将输出的二值图像与对应的GT图像进行像素级比较,并采用F值(F-measure)、峰值信噪比(PSNR)、结构相似度(SSIM)、错误率度量(NRM)、距离倒数失真度量(DRD)、错误分类处罚指标(MPM)等性能指标进行算法评估。有关SSIM的具体原理请参见文献[26],其余5个性能指标的具体定义请参考文献[23-25]。其中,前3个性能指标值越大越好,其余3个性能指标值越小越好。表1为各算法的性能评估结果(平均值),可以看出,本文提出的算法在多个性能指标中具有明显优势。

表1 算法评估的数值结果(平均值)

对比各算法的输出结果(如图1所示),可以看出,Bernsen和Niblack算法输出图像会产生大量噪声点,即将背景像素误判为前景像素;BESE算法对于页面大部分文字能够实现正确分割,但对于中脊处文字细节全部丢失;BGT和Otsu算法对于目标和背景差别较大,即直方图具有显著双峰特征的文档图像具有较好的分割效果,但在中文低质量文档图像二值化实验时,页面中脊处以及弱笔画文字细节部分丢失;Feng算法检测出的字符笔画不连续或者仅能检测出笔画边缘(即形成空心字);LMM算法输出图像边缘处文字为空心字,内部文字分割较正确,但中脊处部分文字细节丢失;NICK算法检测出的部分笔画不连续,对于粗笔画文字会产生空洞现象;相比Sauvola算法,Wolf算法能够抑制更多的背景像素,但其前景文字也相对较淡,即同时抑制了部分前景像素;本文提出的算法不仅能够较好地保留笔画细节外,还能够较好地抑制文档背景。

图1 低质量文档图像与各算法对比实验结果

3结语

本文提出了一种基于局部对比度的低质量文档图像二值化方法。该算法能够较好地保留字符笔画细节,在有效分割字符前景的同时,还能够较好地抑制墨迹浸润、页面污渍、纹理背景不均匀等现象。通过与其他10种经典算法的比较,本文提出的算法在F-measure、PSNR、SSIM、NRM、DRD等性能指标方面具有明显优势。

参考文献

[1] Rabeux V,Journet N,Vialard A,et al.Quality evaluation of degraded document images for binarization result prediction[J].International Journal on Document Analysis and Recognition,2014,17(2):125-137.

[2] Sezgin M,Sankur B.Survey over image thresholding techniques and quantitative performance evaluation[J].Journal of Electronic Imaging,2004,13(1):146-168.

[3] Chang C I,Du Y,Wang J,et al.Survey and comparative analysis of entropy and relative entropy thresholding techniques[J].IEE Proceedings-Vision Image and Signal Processing,2006,153(6):837-850.

[4] Otsu N.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems,Man and Cybernetics,1979,9(1):62-66.

[5] Niblack W.An introduction to digital image processing[M].Englewood Cliffs,New Jersey:Prentice-Hall International Inc.,1986.

[6] Sauvola J,Pietik Inen M.Adaptive document image binarization[J].Pattern Recognition,2000,33(2):225-236.

[7] Wolf C,Jolion J M,Chassaing F.Text localization, enhancement and binarization in multimedia documents[C]//Proceedings of the 16th International Conference on Pattern Recognition (ICPR), Quebec City, Canada, Aug, 2002.

[8] Lu S,Su B,Tan C L.Document image binarization using background estimation and stroke edges[J].International Journal on Document Analysis and Recognition,2010,13(4):303-314.

[9] 许海洋,马龙龙,吴健.基于背景估计和边缘检测的文档图像二值化[J].计算机应用与软件,2014,31(8):196-200.

[10] Bernsen J.Dynamic thresholding of gray-level images[C]//Proceedings of the International Conference on Pattern Recognition (ICPR),1986.

[11] Su B,Lu S,Tan C L.Binarization of historical document images using the local maximum and minimum[C]//Proceedings of the 9th IAPR International Workshop on Document Analysis Systems,Boston,MA,USA,Jun,2010.

[12] Su B,Lu S,Tan C L.Robust document image binarization technique for degraded document images[J].IEEE Transactions on Image Processing,2013,22(4):1408-1417.

[13] Chen Q,Sun Q S,Ann Heng P,et al.A double-threshold image binarization method based on edge detector[J].Pattern Recognition,2008,41(4):1254-1267.

[14] 胡丽娜.低质量文档图像的二值化研究 [D].南京理工大学,2012.

[15] Sehad A,Chibani Y,Cheriet M,et al.Ancient degraded document image binarization based on texture features[C]//Proceedings of the 8th International Symposium on Image and Signal Processing and Analysis (ISPA), Trieste,Italy, Sept., 2013.

[16] Howe N R.A laplacian energy for document binarization[C]//Proceedings of the International Conference on Document Analysis and Recognition (ICDAR), Beijing, Sept., 2011.

[17] 焦雪,张树功.基于误差扩散的图像二值化 [J].吉林大学学报:理学版,2014,52(3):541-545.

[18] 吴锐,黄剑华,唐降龙,等.基于灰度直方图和谱聚类的文本图像二值化方法[J].电子与信息学报,2009,31(10):2460-2464.

[19] Ntirogiannis K,Gatos B,Pratikakis I.A combined approach for the binarization of handwritten document images[J].Pattern Recognition Letters,2014,35(1):3-15.

[20] 郭佳,刘晓玉,吴冰,等.一种光照不均匀图像的二值化方法[J].计算机应用与软件,2014,31(3):183-186,202.

[21] Ramirezortegon M A,Margner V,Rojas R,et al.An objective method to evaluate stroke-width measures for binarized documents[C]//Proceedings of the 12th International Conference on Document Analysis and Recognition (ICDAR), Washington, DC, Aug., 2013.

[22] Valizadeh M,Kabir E.An adaptive water flow model for binarization of degraded document images[J].International Journal on Document Analysis and Recognition (IJDAR),2013,16(2):165-176.

[23] Gatos B,Ntirogiannis K,Pratiakis I.ICDAR 2009 Document Image Binarization Contest (DIBCO 2009)[C]//Proceedings of the 10th International Conference on Document Analysis and Recognition (ICDAR), Barcelona, July, 2009.

[24] Pratikakis I,Gatos B,Ntirogiannis K.ICDAR 2011 Document Image Binarization Contest (DIBCO 2011)[C]//Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR),Beijing, Sept., 2011.

[25] Pratikakis I,Gstos B,Ntirogiannis K.ICDAR 2013 Document Image Binarization Contest (DIBCO 2013)[C]//Proceedings of the 12th International Conference on Document Analysis and Recognition (ICDAR), Washington, DC, Aug., 2013.

[26] Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment: From error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.

[27] Gonzalez R C,Woods R E,Eddins S L.Digital image processing using MATLAB[M].2nd ed.Gatesmark Publishing,2009.

[28] Feng M L,Tan Y P.Contrast adaptive binarization of low quality document images[J].IEICE Electronics Express,2004,1(16):501-506.

[29] Khurshid K,Siddiqi I,Faure C,et al.Comparison of Niblack inspired binarization methods for ancient documents[C]//Proc SPIE 7247,Document Recognition and Retrieval XVI,San Jose,CA,Jan.,2009.

收稿日期:2015-01-07。国家自然科学基金面上项目(61471162);太阳能高效利用湖北省协同创新中心开放基金重点项目(HBSKF ZD2014011);湖北工业大学科研启动基金项目(BSQD12022)。熊炜,讲师,主研领域:图像分析与理解,机器视觉,增强现实。赵诗云,硕士生。徐晶晶,硕士生。赵楠,讲师。

中图分类号TP751

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.07.047

RESEARCH ON DEGRADED DOCUMENT IMAGE BINARISATION

Xiong Wei1,2*Zhao Shiyun1Xu Jingjing1Zhao Nan1,2

1(SchoolofElectricalandElectronicEngineering,HubeiUniversityofTechnology,Wuhan430068,Hubei,China)2(HubeiCollaborativeInnovationCenterforHigh-efficiencyUtilizationofSolarEnergy,HubeiUniversityofTechnology,Wuhan430068,Hubei,China)

AbstractIn view of the existence of degradation factors such as ink infiltration, page stains or background texture in low-quality document images, this paper presents a binarisation algorithm for these images. First the algorithm detects the character strokes’ pixel based on local contrast of document image, then it performs global optimum thresholding on it via Otsu method, and finally it determines the neighbourhood window size through character stroke width estimation so as to achieve the precise segmentation of the character’s foreground and the background of pages. Experimental results show that the proposed algorithm significantly outperforms other classical document binarisation methods in terms of the performance indices including F-measure, PSNR, SSIM, NRM, and DRD metrics. This algorithm can effectively preserve the details of strokes, and can also well suppress the document background.

KeywordsDegraded document image binarisationLocal image contrastStroke width estimation

猜你喜欢

低质量字符邻域
低质量实用新型专利申请授权对经济秩序的影响
稀疏图平方图的染色数上界
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
HBM电子称与西门子S7-200系列PLC自由口通讯
基于邻域竞赛的多目标优化算法
低质量的婚姻不如高质量的单身,是真的吗?(一)
关于-型邻域空间
破解学前教育低质量现象