图像增强技术在古籍图书电子化中的应用
2015-10-14王婷婷董超俊
王婷婷,董超俊
图像增强技术在古籍图书电子化中的应用
王婷婷,董超俊
(五邑大学 信息工程学院,广东 江门 529020)
为提高古籍图书电子化的处理质量,文章以带插图的书页和具有背景干扰的书页为处理对象,使用二值化法、直方图均衡法和对比度拉伸法对书页进行图像增强处理,并使用Visual Studio 2010软件和OpenCV进行实验. 结果表明:带插图的古籍书页适合采用对比度拉伸法处理,带背景干扰的书页适合采用二值化法处理.
古籍电子化;二值化;直方图均衡;对比度拉伸
众所周知,古籍图书具有较高的经济价值和文化价值. 由于各种原因,古籍书页很多都已经受损,最明显的问题就是字迹和插图模糊,翻印之前必须把这些书页进行处理. 由于古籍书页很薄,不能直接复印,要先扫描或者拍照后再进行图像处理. 目前已开发的处理古籍图书的软件,不能针对不同类型的受损书页状况进行个性化处理[1-3]. 因此,文章针对带插图和带背景干扰两种类型的书页,采用不同的增强方法并通过实验对比分析,以期找到适合这些类型书页图像增强的方法.
1 图像增强技术简介
图像增强技术是指通过特定的技术手段对图片进行处理以提高图片清晰度或突出图片中重点关注区域图像的一种方法,可分为频域处理方法和空域处理方法[4,5]. 频域方法是指把图像转换到变换域进行处理,再反变换把结果返回到空间域. 而空域方法则是直接改变图像的像素点. 频域方法有低通滤波、同态滤波等;空域方法有二值化、直方图均衡化、对比度增强、模糊增强、小波变换等. 在实际应用中,处理速度是一个重要的考量指标,空域方法不需要进行域的变换,处理速度上具有明显优势,且古籍多为灰度图,因此本文采用空域方法对各类古籍进行图形增强,具体的方法分别是二值化法、直方图均衡化法和对比度拉伸法.
1.1 二值化法
;.
1.2 直方图均衡化法
灰度直方图是灰度级函数,表示图像中具有每种灰度级的像素的个数,反映图像中每种灰度出现的频率. 而直方图均衡化的原理是将原始图片的灰度直方图比较集中的某个灰度区域变成全部灰度范围内的均匀分布[7,8]. 一幅数字图像中灰度级出现的概率近似为:
离散变换函数为
1.3 对比度拉伸法
对比度拉伸属于分段线性变换,是通过扩展图像中重点关注区域的灰度范围,抑制非重点区域灰度的图像增强方法[9]. 设图像的灰度范围为,通过对比拉伸法得到的图像的灰度范围为.
拉伸的数学表达式如式(3)所示,坐标如图1所示:
2 3种方法处理结果分析
本文使用Visual Studio 2010软件进行图像增强实验,并调用OpenCV函数编程. 二值化采用OpenCV函数[10]void cvThreshold(const CvArr* src,CvArr* dst,double threshold,double max_value,int threshold_type),直方图均衡采用void cvEqualizeHist(const CvArr* src,CvArr* dst)函数,对比度拉伸则根据不同的图片采用不同的拉伸参数. 实验选取2组带插图样本和2组带背景干扰样本,分别采用上述3种方法进行图像增强处理,处理结果如图2-5所示.
a.原图 b.二值化 c.直方图均衡 d.对比度拉伸
a.原图 b.二值化 c.直方图均衡 d.对比度拉伸
a.原图 b.二值化 c.直方图均衡 d.对比度拉伸
a.原图 b.二值化 c.直方图均衡 d.对比度拉伸
从图2、3可以看出,带插图的书页采用二值化法会使文字颜色加深,但插图的部分背景像素丢失,不能真实反映源图像的信息,丢失背景的原因是插图像素值比阈值大(处理时直接赋值255(白色));直方图均衡法则使图像细节变模糊,其原因是直方图均衡的过程中灰度发生大量合并,使均衡后的图像灰度级减少,造成细节丢失;对比度拉伸法增大了图像的对比度,使书页文字和插图同时变清晰,效果较好.
从图4、5可以看出,带背景干扰的古籍书页使用二值化法得到的图像视觉效果最好,其原因是干扰背景的灰度值和前景目标的灰度值差距较大,大津阈值法可准确找到合适的阈值将前景保留,去除其他干扰;直方图均衡则仍然具有干扰,当图片具有较多像素值相同时,处理后这些像素被过分增强,造成视觉效果不自然,同时直方图均衡的过程中灰度的合并也使得图像模糊;对比度拉伸法使书页全部内容变清晰,但多余的背景文字也同时被保留了.
根据实验结果可以看到:带插图的古籍书页适合采用对比度拉伸法处理,能使插图和文字同时变清晰;具有背景干扰的书页适合采用二值化法,可保留有用信息去除干扰背景. 直方图均衡法则由于会带来更多的干扰而不适用于带插图的或者受其他页背景干扰的古籍书页,且原图更模糊,容易造成背景噪点增和降低图像中重点关注区域的对比度.
4 结论
传统的古籍书页电子化自动化程度低,如阈值的选取需要人工调试,操作复杂,效率较低. 古籍书页多种多样,本文选取的带插图和带背景干扰书页是目前古籍电子化处理中的难点,实验表明:采用空域方法能很好地达到实际应用需求. 同时,将书页进行分类并采用不同的方法处理,不仅可以得到较好的视觉效果,且速度较快,可实现古籍电子化的高效处理. 对其他类型如变形、残缺等书页的处理将是下一步研究的方向.
[1] MURAHIRA K, KAWAKAMI T, TAGUCHI A. A novel method for design of gray-level transformation functions for image contrast improvement based on the histogram equalization technique [J]. Electronics and Communications in Japan, 2013, 96 (7): 57-66.
[2] 蓝永. 论古籍整理的新方式—古籍数字化[D]. 济南:山东大学,2007.
[3] CELIK.Two-dimensional histogram equalization and contrast enhancement [J]. Pattern Recognition,2012,45 (10):3810-3824.
[4] 高娟,刘家真. 中国大陆地区古籍数字化问题及对策[J]. 中国图书馆学报,2013,39(206):110-119.
[5] GONZALEZ R C,WOODS R E. 数字图像处理[M]. 3版. 阮积琦,阮宇智,译. 北京:电子工业出版社,2011:64-85.
[6] 汪启伟.图像直方图特征及其应用研究[D]. 合肥:中国科技大学,2014.
[7] 许欣.图像增强若干理论方法与应用研究[D]. 南京:南京理工大学,2010.
[8] 盛道清. 图像增强算法的研究[D]. 武汉:武汉科技大学,2007.
[9] 梁爱民,陈荔京. 古籍数字化与共建共享[J]. 国家图书馆学刊,2012(5):108-112.
[10] BRADSKI G, KAEHLER A. 学习OpenCV[M]. 于仕琪,刘瑞祯,译. 北京:清华大学出版社,2008:164-230.
[责任编辑:韦 韬]
Application of Image Enhancement in the Electronization of Ancient Books
WANGTing-ting, DONGChao-jun
(School of Information Engineering, Wuyi University, Jiangmen 529020, China)
In order to improve the quality of electronization of ancient books, this study, taking pages with illustrations and pages with background interference as treatment objects, attempts to apply image enhancement to the treatment of pages by adopting methods of binarization, histogram equalization and contrast stretching and experiments using the Visual Studio 2010 software and OpenCV are conducted. The results show that the contrast stretching method is suitable for illustrated pages of ancient books and binarization is suitable for treating pages with background interference.
electronization ancient books; binarization; histogram equalization; contrast stretching
1006-7302(2015)01-0026-04
TP391
A
2014-11-10
王婷婷(1988—),女,湖北荆门人,在读硕士生,主要研究方向为图像处理及应用;董超俊,教授,博士,硕士生导师,通信作者,主要研究方向为图像处理及应用.