APP下载

基于区域对比度增强的二值化算法

2017-10-13柳长源张华玉

电子与信息学报 2017年1期
关键词:二值字符像素点

卢 迪 黄 鑫 柳长源 林 雪 张华玉 严 俊



基于区域对比度增强的二值化算法

卢 迪 黄 鑫*柳长源 林 雪 张华玉 严 俊

(哈尔滨理工大学电气与电子工程学院 哈尔滨 150080)

降质文档图像二值化问题是图像处理领域的一个难点。该文通过分析图像不同区域灰度对比度的差异,为降质文档图像提出了新的二值化算法。首先利用四叉树原理自适应划分区域,再对不同灰度对比度区域采用不同对比度增强法以调整局部区域内的灰度对比度,最后根据灰度值出现的频率确定局部阈值。该文测试了随机拍摄的降质图像及DIBCO(Document Image Binarization COntest)图像集中的50幅图像。与4种经典算法比较,所提算法处理的降质图像具有最高F-measure值和峰值信噪比(PSNR值)。

图像处理;二值化;区域对比度增强;局部阈值;四叉树法

1 引言

光学字符识别技术(Optical Character Recognition, OCR)是将纸质文字信息录入计算机的最高效方法,但其主要不足表现为无法从降质文档图像中提取清晰字符,即降质文档图像二值化过程存在问题。目前图像二值化方法主要为基于阈值的二值化方法,又可分为全局阈值法和局部阈值法。全局阈值法(如Otsu 法[1])对处理目标和背景灰度分布均匀且类偏差不大的图像有良好效果,但对降质文档图像,全局阈值法会出现大量的误分割[2]。局部阈值法是根据局部像素点信息确定阈值,更适用于二值化降质文档图像。1986年,文献[3]提出利用局部均值和标准差计算阈值的自适应二值化算法,该算法二值化的图像字符笔画较完整,但图像背景会产生连续大块非目标黑色区域。2000年,文献[4]在文献[3]算法基础上进行改进,引入标准方差动态范围参数R降低文献[3]算法中对修正参数K的依赖。该算法对大部分降质文档图像有较好的处理效果,但对背景特别亮或特别暗的图像,处理效果较差。2007年,文献[5]提出的改进FCM算法利用偏移场有效地降低了非均匀光照干扰, 但分割结果目标丢失严重。2010年,文献[6]提出基于图像区域的二值化算法,根据预先设定的分块数将图像分块,再采用Otsu法全局分割,由于其需事先指定分块数, 所以自适应性受到了很大程度限制[7]。2014年,文献[8]提出一种自适应二值化算法,分4步对图像进行处理,依次是:局部对比分析、对比度扩展、阈值选取和噪声移除。文献[8]算法对文档填充充实的降质图像分割效果好,但处理图像中只有少量字符的文档图像,会产生大量的噪点。

当前技术大多是针对某一特定降质原因的图像有较好的二值化效果[9],但降质原因多种多样,好的二值化算法应能处理多种原因形成的降质图像。降质文档图像的特点是部分区域目标和背景的灰度对比较明显,部分对比不明显或整体对比均不明显[10]。基于此,本文设计了一种基于区域对比度增强的二值化算法,可解决受多类原因影响的降质文档图像的二值化问题。

2 本文工作

2.1区域划分

区域划分的好坏直接影响着不同对比度增强法能否在相应区域发挥最大效用,灰度对比度可作为划分依据。设是一幅的灰度图像,定义像素点处灰度对比度为

(2)

(3)

2.1.1区域粗划分 本文利用四叉树原理,根据灰度对比度对图像进行区域划分如图1。第1次四分将待处理图像分为A, B, C, D 4个子区域,若子区域C内的最大灰度对比度小于倍整体区域的最大灰度对比度(如式(4)),说明该区域灰度变化不显著,认为该子区域不含字符均为背景,直接输出该子区域。

2.1.2区域细划分 粗划分后不满足式(4)的区域均被认为是含字符的目标区域,本文假设图1中A, B,

图1 区域划分原理示意图

D为目标区域。对降质文档图像,粗划分后的剩余区域间的灰度对比度也可能存在明显差异,因此需要对剩余区域再次细分。以区域D为例(A, B区域的细分同D区域),若第2次四分后子区域DD的最大灰度对比度小于倍四分前区域的最大灰度对比度(如式(5)),直接输出该区域。

(6)

2.2区域对比度增强

2.1节将图像划分成灰度变化不显著区域、非常显著区域及较显著区域。文档图像通常为黑色目标及白色背景,因此对灰度变化不显著区域,将区域内各像素点灰度值调整为

对于灰度变化非常显著区域,采用弱灰度对比度增强方式[11],将区域内各像素点灰度值调整为

(9)

对于灰度变化较显著区域,本文基于弱灰度对比度增强方式提出了强灰度对比度增强方式,其目的是更大程度地拉大区域内各像素点间的灰度对比度。此时区域内各像素点灰度值调整为

本文的灰度增强法可有效调整非均匀光照图像、透背图像及变化背景图像像素点的灰度值,进而解决这3类图像的二值化问题。对由字迹透背或受非均匀光照引起的降质文档图像,图像中字迹透背、光照太亮或太暗区域,其前景与背景间对比度相差不大,可归为对比度较显著区域,采用式(10)强对比度增强法可分离出清晰字符。对文档降质不严重的区域,其前景与背景间灰度对比度存在明显差异,此时采用式(9)弱对比度增强法可减少噪声。对存在变化背景的降质文档图像,其背景间的对比度变化远比不上前景与背景之间的对比度变化。因此,若区域中不存在字符只存在对比度变化相对较大的背景时,通过式(8)即可将它剔除;若区域中既存在字符又存在变化背景,则可以通过两类对比度增强法,拉大像素点间的对比度,进而从背景中分离出前景。图2为强、弱灰度对比度增强法的二值化效果对比图。通过图2可以看出,对灰度变化程度不同的区域,应用不同灰度对比度增强法可取得较好的分割效果。

2.3 区域阈值选取

经对比度增强法调整后的灰度图像直观上可明显地区分出目标和背景。分析文档图像特点可知,通常情况下,文档图像字符像素点数目小于背景像素点数目,极少数可能存在大于的情况。因此可通过累加灰度直方图中灰度值所对应的像素点数来确定代表前背景的灰度值。对于经灰度对比度增强法处理后的子区域图像(其大小为),寻找累加值最接近时所对应的灰度值,在中出现频率最高的灰度值即为前景点的灰度值,在中出现频率最高的灰度值即为背景点的灰度值。若在(或)中存在多个频率最高的灰度值,则选取最小(或最大)的灰度值来代表前景(或背景灰度值)。子区域的阈值为和的均值,即:。最终,可获得子区域的二值化图像为

3 实验结果分析

3.1实验环境和测试图像库

本文采用如下仿真实验环境:Intel(R) Core(TM)i3-3240 CPU, 4G 内存,Matlab(R2011a)编译环境。本文测试了随机拍摄的手写体图像和印刷体图像以及来自DIBCO图像集[12]的50幅图像。

3.2分割效果测试

分别应用Otsu算法,Niblack算法,Sauvola算法和Singh算法与本文算法进行对比实验。图3~图5为各算法处理后的二值图像。除Otsu算法外均存在参数选取问题,因此本文结合参考文献[2,3,6],对Niblack算法、Sauvola算法选取窗口大小为5 × 5, 15 × 15, 25 × 25, 35 × 35和 50 × 50做5组实验,对Singh算法选取子块大小为32 × 32, 64 × 64, 128 × 128, 256 × 256和512 × 512做5组实验,本文算法以0.1为步长,随机在,中选取5组,值测试,以上实验均选取具有最佳值的二值图像作为最终实验结果。

图3~图5分别为受光照不均匀、字迹透背及字迹模糊影响的降质文档图像。由图3~图5可以看出,无论是传统的Otsu算法、Niblack算法或Sauvola算法还是先进的Singh算法,经它们处理后降质文档图像的二值图像,或存在笔画断裂、模糊不清的现象,或存在大块黑色非目标区域的现象,或存在笔画浓度不一致的现象。针对降质文档图像,本文算法可智能地筛选目标区域及非目标背景区域,避免噪声干扰。经本文算法处理后的二值图像,保留了字符的完整性,分离出清晰的字符,大大地方便了后续计算机的识别。

图2 强、弱灰度对比度增强法的二值化效果对比图

图3 随机拍摄印刷体文字图像二值化结果

图4 随机拍摄手写体文字图像二值化结果

图5 H-DIBCO2012 H08二值化结果

3.3评估指标

(13)

由表1可以看出,在5种算法处理降质文档图像的测试结果中,应用本文算法处理的二值图像,具有最高的值(高于次高Otsu法4%)、最高的值(高于次高Sauvola法5%),说明本文算法可最好地还原目标像素点,同时说明应用本文算法输出的二值图像最接近实际未降质文档的二值图像。

表1不同算法对DIBCO图像集的测试结果

方法Otsu算法Niblack算法Sauvola算法Singh算法本文算法 77.8148.9772.9370.5080.94 (dB)15.078.0915.1413.7415.90

3.4基于OCR评估

测试各算法二值图像在OCR(识别正确率)上的识别效果可作为评价各算法二值效果好坏的重要依据。因此,本文利用图3,测试各算法处理的二值化图像在ABBYY Fine Reader 12上的识别正确率(具体数据见表2)。本文定义OCR识别正确率为

结合图3及表2可知,虽然原灰度图像受非均匀光照影响,但在ABBYY Fine Reader上仍有88.94%的识别正确率。经Otsu算法及Sauvola算法处理后的二值图像,由于图像右下角区域字符笔画断裂,因此在ABBYY Fine Reader上识别效率较低。经Niblack算法处理后的二值图像,虽然图像中存在黑色噪声块,但由于带字符的前景区域字符笔画连续,因此识别率可达到90%以上。经Singh算法处理后的二值图像,大部分字符保留较完整,因此识别率也可达到90%以上。经本文算法处理后的二值图像,字符清晰、完整、易于识别,在ABBYY Fine Reader上可达到98%以上的识别正确率,说明了本文二值化算法的有效性。

表2 图3中各图像在ABBYY FineReader上的识别正确率

4 总结

本文根据区域间灰度对比度的差异,为降质文档图像提出新的二值化算法。该算法自适应地划分灰度对比度显著与较显著区域,对灰度对比度显著区域,本文采用弱对比度增强法调整前景与背景间的灰度差异,有效地抑制了噪声的干扰。对灰度对比度较显著区域,本文提出强对比度增强法来调整灰度差异,进而分离出清晰字符。因此不论任何区域(包括变化背景、非均匀光照、透背等区域),总有适合的方法去处理。且本文算法对由严重非均匀光照及透背引起的降质文档图像尤为有效。实验结果表明,在5种算法处理DIBCO图像集得到的结果中,本文算法得到的二值图像,字符笔画清晰、完整,背景极少出现噪声,且具有最高的F-measure值及PSNR值。将各种算法得到的二值图像应用到ABBYY FineReader12,本文算法具有最高的识别正确率。

[1] OTSU N. A threshold selection method from gray level histograms[J]., 1979, 9(1): 62-66. doi: 10.1109/TSMC.1979. 4310076.

[2] 申铉京, 龙建武, 陈海鹏, 等. 三维直方图重建和降维的Otsu阈值分割算法[J]. 电子学报, 2011, 39(5): 1108-1114.

SHEN Xuanjing, LONG Jianwu, CHEN Haipeng,. Otsu thresholding algorithm based on rebuilding and dimension reduction of the 3-dimensional histogram[J]., 2011, 39(5): 1108-1114.

[3] NIBLACK W. An Introduction to Digital Image Processing [M]. Englewood Cliffs, NJ, US, Prentice-Hall, Inc., 1986: 115-116.

[4] SAUVOLA J and PIETIKAINEN M. Adaptive document image binarization[J]., 2000, 33(2): 225-236. doi: 10.1016/S0031-3203(99)00055-2.

[5] MA L and STAUNTON R C. A modified fuzzy C-means image segmentation algorithm for use with uneven illumination patterns[J]., 2007, 40(11): 3005-3011. doi: 10.1016/j.patcog.2007.02.005.

[6] CHOU C H, and LIN W H, and CHANG F. A binarization method with learning-build rules for document images produced by cameras[J]., 2010, 43(4): 1518-1530. doi: 10.1016/j.patcog.2009.10.016.

[7] 龙建武, 申铉京, 臧慧, 等. 高斯尺度空间下估计背景的自适应阈值分割算法[J]. 自动化学报, 2014, 40(8): 1773-1782. doi: 10.3724/SP.J.1004.2014.01773.

LONG Jianwu, SHEN Xuanjing, ZANG Hui,. An adaptive thresholding algorithm by background estimation in Gaussian scale space[J]., 2014, 40(8): 1773-1782. doi: 10.3724/SP.J.1004.2014.01773.

[8] SINGH B M, SHARMA R, GHOSH D,. Adaptive binarization of severely degraded and non-uniformly illuminated documents[J]., 2014, 17(4): 393-412. doi: 10.1007/ s10032-014-0219-6.

[9] MESQUITA R G, MELLO C A B, and ALMEIDA L H E V. A new thresholding algorithm for document images based on the perception of objects by distance[J].-, 2014, 21(2): 133-146. doi: 10.3233/ICA-130453.

[10] MILYAEV S, BARINOVA O, NOVIKOVA T,. Fast and accurate scene text understanding with image binarization and off-the-shelf OCR[J]., 2015, 18(2): 169-182. doi: 10.1007/ s10032-015-0240-4.

[11] ROSENFELD A and KAK A C. Digital Picture Processing [M]. 2nd ed. New York, Morgan Kaufmann: Academic Press, 1982: 92-95.

[12] PRATIKAKIS I, GATOS B, and NTIROGIANNIS K. DIBCO 2013-Document Image Binarization Contest [EB/ OL]. http://utopia.duth.gr/~ipratika/DIBCO2013/, 2013.

卢 迪: 女,1971年生,教授,研究方向为数据融合、故障检测、图像处理、智能交通系统.

黄 鑫: 女,1991年生,硕士生,研究方向为图像处理.

柳长源: 男,1971年生,副教授,研究方向为模式识别与智能信息处理技术、机器学习与人工智能、数字图像处理.

Binarization Method Based on Local Contrast Enhancement

LU Di HUANG Xin LIU Changyuan LIN Xue ZHANG Huayu YAN Jun

(,y,150080,)

Binarization for degraded document images is a difficult point in image processing. This paper presents a new binarization method for the degraded document images by analyzing the differences of image grayscale contrast in different areas. Firstly, theory of quadtree is used to divide areas adaptively. Secondly, various contrast enhancements are selected to adjust local grayscale contrast for different contrast areas. Lastly, the frequency of gray value is utilized to calculate threshold. The proposed algorithm is tested on random shooting degraded images and datasets of Document Image Binarization COntest (DIBCO). Compared with other four classical algorithms, the binaried images using the proposed algorithm gain the highest F-measure and PSNR (Peak Signal-to-Noise Ratio).

Image processing; Binarization;Local contrast enhancement; Local threshold; Quadtree

TN911.73

A

1009-5896(2017)01-0240-05

10.11999/JEIT160197

2016-03-03;改回日期:2016-07-12;

2016-09-30

黄鑫 scorpion_hx@163.com

哈尔滨市科技创新人才项目(2014RFQXJ163)

The Science and Technology Innovation Talents Project of Harbin (2014RFQXJ163)

猜你喜欢

二值字符像素点
混沌伪随机二值序列的性能分析方法研究综述
支持CNN与LSTM的二值权重神经网络芯片
基于局部相似性的特征匹配筛选算法
字符代表几
一种USB接口字符液晶控制器设计
HBM电子称与西门子S7-200系列PLC自由口通讯
基于二值形态学算子的轨道图像分割新算法
消失的殖民村庄和神秘字符
基于5×5邻域像素点相关性的划痕修复算法
基于canvas的前端数据加密