APP下载

文字图像二值化及降噪处理

2010-12-13王鑫南开大学天津300071

天津科技 2010年6期
关键词:阅读器邻域灰度

王鑫 (南开大学 天津300071)

文字图像二值化及降噪处理

王鑫 (南开大学 天津300071)

针对文字图像进行处理,在分析一些经典的图像二值化和去噪算法基础上,根据需处理的文本图像的特点,提出了各问题的简化算法。并且分解各处理步骤,将它们的子过程重新安排,进一步提高运行效率。实验证明,在资源有限的嵌入式系统环境下,能够快速完成图像预处理,使其文字内容在中小尺寸电子纸屏幕上能够清晰地显示,有效提高了电子阅读器对图像格式文档内容处理能力,增强了该设备的实用性。

文字图像处理 降噪 二值化 类纸阅读 电子阅读器

学术研究等过程中,互联网和各种电子数据库是快速获取文献的主要途径。许多年代较旧的出版物没有电子版本,且一些期刊书籍等由于版权等问题不提供电子版本,因此各大数据库提供的文献资料等主要是通过扫描完成数字化整理。

扫描获得的文本图像存在打印体噪声、文字呈灰色或彩色等问题。在计算机液晶显示器上,此类问题不会严重妨碍阅读文本内容。但对于一些屏幕较小的便携设备(如手机、MP4、电子阅读器等)来说,低质量文字图像是电子文献阅读的一大障碍。电子阅读器采用电子纸屏幕,长时间阅读可减轻用眼负担,与电脑相比具有体积小、方便携带等优势,是辅助研究学习的有力工具。

与液晶显示器相比,电子阅读器的屏幕尺寸和灰度级数都相对有限。由于排版原因,不含信息的页面边缘部分大量挤占有限的屏幕资源。为使文字清晰显示,需要频繁地放大图像、移动视窗,会给用户造成不便。文档在打印和重新数字化录入过程中产生的噪声会干扰阅读。一些文档由于前景文字颜色浅,与背景对比度小,在灰度屏幕上难以辨认。这些问题很大程度上限制了电子阅读器的应用,降低了产品的实用性。

为解决这些问题,需要对文本图像进行预处理。预处理需要在翻页同时完成,且为了减少翻页延时给用户造成的不适感,处理时间需要严格限制。现有的各种图像处理算法,大多数基于性能相对强大的工作平台,通用性强,一定程度上能够实现图像分割去噪,但通常需经过复杂的计算才能完成处理。在内存和处理器资源十分有限的便携设备上完成全部计算,需要消耗更多时间。

本文分析了图像二值化和去噪的一些经典算法及它们对嵌入式系统运行环境的适应性,根据文本图像的特性提出了简化的算法,并将各个过程有机地结合在一起,提高效率,缩短运行时间,快速有效地完成图像预处理,使用户在电子阅读器上能够清晰无障碍地阅读图像格式的电子文档。

1 问题分析

为了改善显示效果,需要选取阈值,将图像二值化,以提高前景背景对比度;切除页边空白部分,可使有限的屏幕资源充分用于显示文本内容;去除噪声,以防止其干扰阅读。为了兼顾处理效果和运行时间,合理安排这3个过程的顺序十分重要。二值化过程可以直接过滤掉一些颜色较浅的噪声。且该过程求出的阈值是进行后两个步骤的基础。另一方面,噪声会干扰程序对页面边缘的判定,应当在判定图像边界之前去掉。因此从处理效果角度考虑,合理执行顺序为方法1(见图1)。

而分析上述步骤的子过程,发现存在重复过程,多次执行存取灰度数据耗费时间,程序运行效率较低,根据统筹法改变执行顺序,合并重复过程,将降噪处理穿插在其他步骤中完成可以减少数据存取过程,节省时间,即采用方法2(见图2)。

图1 方法1

图2 方法2

上述过程在求边界值的过程中排除掉噪声点的干扰,在降噪步骤前完成边界划定,不考虑边界范围外的像素,减少了识别噪声过程的计算量。程序执行过程中只读取和存储全图灰度数据各一次,进一步缩短了运行时间。

2 二值化、降噪、边缘切除方法分析

2.1 图像二值化

二值化方法根据其运算的范围不同可分为全局阈值方法和局部阈值方法。[1]全局阈值法根据文本图像的直方图或灰度空间分布确定一个阈值。[2]典型的全局阈值方法包括Ostu方法、最大熵方法等。[3,4]局部阈值法通过定义考察点的邻域,并由邻域计算模板实现考察点灰度与邻域点的比较。

为了简化运算,节约时间,本文采用全局阈值方法。

Ostu算法设阈值将灰度分成了2组,一组对应背景部分,一组对应字符部分,则这2组灰度值的组内方差应当最小,2组间方差应当最大。具体做法如下:设给定图像具有L级灰度值,将1~L分成2组,计算组1的象素数ω1()k ,平均灰度M1(k ),方差(k );组2的象素数 ω2(k ),平均灰度M2(k),方差(k )则组内方差为组间方差为。

实际上,电子阅读器所处理的图像格式电子文献均为白色背景黑色前景,只需采样统计全页灰度分布,取前景色与背景色灰度的加权平均值为阈值进行二值化,即可获得文字内容清晰可辨的图像,足以满足用户阅读需求。权值以文字清晰并能去除水印为标准设定。

2.2 去除噪点

目前,图像降噪理论体系已经十分完善,去噪方法大体分为空间域法、变换域法两大类。空间域法,即在原图灰度基础上直接进行数据运算,对像素的灰度值进行处理。典型的空间域法包括邻域均值滤波[5×5邻域处理效果如图3(B)]、邻域中值滤波等方法。[4]邻域均值滤波即以P的邻域灰度均值代替P的原灰度值。此类方法能够去掉一定大小的噪声,但会造成文字模糊不清,给阅读造成困难。变换域法多基于傅里叶变换或小波理论,[3,6]虽然可以对图像起到一定的去噪作用,但算法时间复杂度很高[低通梯形滤波和维纳滤波的时间复杂度为O(Nlog2N),小波滤波为 O(N2)][7,8],不作考虑。

文字图像包含的噪声和一般图像所含的噪声不同,多为随机分布的深色斑点。传统去噪声算法多是针对高斯白噪声等模型设计,采用变换滤波方式去除噪声,不适用于文字图像。

图3 两种算法处理效果对比

本文根据前景像素灰度分布识别噪声点后直接去除,局部效果如图 3(C)。

计算时,可根据需要决定检测栅格数,或者改变检测窗口形状(十字窗等)。实验表明,针对整页占800×1 200像素,每个字体占20×20左右的文本图像,考虑5×5窗格降噪效果最佳,3×3无法去除掉多像素噪点,7×7会把英文字符中的点误认为噪声。这种检测方法从形态上过滤出噪声,直接有效且计算复杂度小,但也有其局限性,它无法完全去除较大噪声。

2.3 切除页边空白

本文采用简化的阈值分割方法切除页边空白部分。根据一般出版物或文档排版规律,由内向外读取像素灰度值,找到文字内容的边缘。取得4个边界值。以求上边界为例,程序如下:

使用相同方法求出其他三边界,根据原始图像在四边界范围内的灰度数据绘制出新位图。

3 实验结果分析

为了验证本文算法,选用QT4.5编写程序,编译器:Arm-linux-gnueabi-g++4.3.2。运行环境为:CPU:Samsung 2416 based Arm9 400 MHz;Operating System:Linux OS 2.6.29;内存SDRAM:128 MB。为提高效率,全部计算和处理都在内存中完成。

从大量处理对象中选出存在典型问题的位图A为实验对象。原图为图4(A),处理结果如图4(A1),在6 Inches 600x800像素16级灰度电子纸屏幕上显示,与(A)相比,(A1)字体大而清晰,去除掉了水印以及多余的边缘部分,且消除了噪声,改善了文本图像在电子阅读器上的显示效果。降噪处理局部放大效果见图3(C)。

图4 处理结果对比

方法1由于重复过程较多,耗时较长。方法2进行了优化,提高了处理速度。24位图像数据结构与彩色图像相似,此格式与8位图像相比较为少见,每个像素灰度数据用3个整数记录,需要通过计算3个整数获得,运行耗时长。对一般下载得到的图像格式文档(如pdf等)化为8位位图进行处理,本文程序均可在1 s之内完成处理,翻页时基本不会给用户带来不适感。目前,本文程序已在国内某型号电子阅读器商业产品上得到应用,有效改善了该产品对部分格式电子书的阅读效果。■

[1]潘梅森,荣秋生.基于SOFM神经网络的图像融合二值化方法[J].光学精密工程,2007.15(3):401-406.

[2]张爝,吴志斌,陈淑珍,等.一种新的自适应二值化方法[J].计算机工程,2002,28(5):184-185.

[3]乔万波,曹银杰.一种改进的灰度图像二值化方法[J].电子科技,2008,21(11):63-71.

[4]方敏,徐俊艳,王建平,等.一种新的文本图像二值化方法[J].合肥工业大学学报,2001,24(2):166-169.

[5]韩殿元.简单邻域平均图像去噪算法的改进研究[J].潍坊学院学报,2006,6(6):12-14.

[6]彭波,王一鸣.低照度图像去噪算法的研究与实现[J].计算机应用,2007,27(6):1455-1457.

[7]何斌,马天予,王运坚,等.Visual c++数字图像处理[M].北京:人民邮电出版社,2001.

[8]杨文杰.文字图像边界检测和去噪处理[J].北京印刷学院学报,2000,8(3):36-39.

[9]陈武凡.小波分析及其在图像处理中的应用[M].北京:科学出版社,2002.

2010-11-08

猜你喜欢

阅读器邻域灰度
基于反向权重的阅读器防碰撞算法
基于混合变邻域的自动化滴灌轮灌分组算法
采用改进导重法的拓扑结构灰度单元过滤技术
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
The Magna Carta
稀疏图平方图的染色数上界
Winner Takes All
基于邻域竞赛的多目标优化算法
基于最大加权投影求解的彩色图像灰度化对比度保留算法
基于灰度线性建模的亚像素图像抖动量计算