APP下载

基于图像模式识别的数字图书资料修复及应用

2018-08-11王帆

科学与财富 2018年17期
关键词:数字图书

王帆

摘 要:图书内容的电子化和网络化发展就是图书资料的数字化过程,图书资料实现了数字化之后,就会存储在专业的数据库服务系统中,读者只需要通过网络就可以在线阅读或者下载,文章阐述了图形模式识别技术在数字图书资料修复中的应用情况,即通过对图书资料进行扫描、二值化和图像的重建等方法对不清晰的图形进行自动修复,最终实现数字图书资料的数字化处理。

关键词:图像模式识别;数字图书;资料修复;

1图书数字化处理的基本要求

图书资料的数字化是图书内容的电子化和网络化,数字化的图书资料脱离了传统的媒介载体———纸质材料。图书经数字化处理后,存储于专业管理的数据库服务器中,读者通过网络进行在线阅读。在我国,当前以“清华同方”、“维普资讯”的学术文献数据库的建立与使用为代表;大量的传统图书已被制成以光盘为主要存贮形式的电子图书,如书生之家;“数字图书馆”(“虚拟图书馆”)的建设和发展等都离不开图书的数字化处理这一关键技术。虽然这两种媒介(网络媒介和纸质媒介)表达文献的方式不一样,但都是同样内容的呈现,图书数字化的基本要求是经处理后,电子图书能客观地再现纸质图书的原有真实内容。

2传统修复过程中存在的问题

对图书资料进行数字化处理,首先要进行数据收集,即将相关的数据输入计算机;而后,会显示出一个长方形方框;对这个长方形方框进行图像预处理之后,就要对区域内的图像进行模式识别。通过这种方法能将图书资料中的文字清晰而又准确地反映出来,为图书资料的修复提供参考意见。这一系列过程完成之后,就可以实现图书和档案的数字化。目前,二值化方法是图书数字化中使用最多的方法。因为在数字图书资料的修复过程中,需要对大量的数据进行处理,而使用二值化的方法就能满足这种需求。二值化方法具有工作效率高的特点,这也是其最大的优势。数字图书资料经过二值化的处理之后,所得到图像的对比度会高于原有图书资料中的图像,给识别和阅读提供方便的同时也会带来一些新的问题,例如:二值化处理会使原来图像中本来就不清晰的部分字符变得更加模糊,不能进行准确识别。这个问题不能解决,就会给图书资料的数字化工作带来巨大的负面影响。如果连数字化处理的基本要求都无法达到,就会迫使图书管理人员放弃对这一部分资料进行修复。此外,通过图像采集系统摄入的图像通常都会自动生成BMP格式并存放在计算机中,但计算机显示出来的却是灰度图像。在各种因素的影响下,图像会出现模糊,笔画断开、粗细不均衡等现象,而且图像中大量孤立噪声的存在,也会使提取字符的难度加大。针对数字图书资料修复中存在的这些问题,笔者在传统二值化处理的基础上,引用了局部二值化的处理方法,主要是为了对不清晰的数字图书资料进行修复,从而实现图书资料的数字化。

3模式识別技术的原理及方法分析

模式识别指的是对表征现象或事物的各种形式的信息进行分析和处理,以达到对现象或事物进行描述、辨认、分类及解释的一系列过程。

3.1局部二值化的原理

局部二值化就是将大块图像分割为若干个小块图像,分别对各个小图像进行二值化,进而形成完整的二值化图像。讲二值化的问题分解为“分割”、“块副二值化”及“合并”三个步骤来进行,以达到对图像进行二值化处理的目的。

3.2图像分块的确定

在图像分割时,将图像分割成正方形和矩形,首先将图像进行若干正方形的分割,其余的部分也就形成了若干的小矩形,阈值选取方法的普适性与时间开销是息息相关的。

4数字图书资料的修复方法

图书资料的数字化过程中,经扫描得到的图像要经过图像预处理、提取图像中的字符信息、图像局部的二值化处理等过程,图像局部的二值化是图书资料修复过程的关键。

4.1图像预处理

在图书或档案数字化过程中,由于扫描系统(如CCD摄像头)、光电转换装置、工作环境(光)等因素,常常导致图像不均匀、对比度不足等问题,使图像的清晰度差、还原度和可视性降低;另外由于光电敏感元件载荷粒子随机运动所产生的噪声、传输通道的干扰等原因,数码化后的灰度图像含有一定的噪声,因此,在图书、档案图像二值化前,要对图像进行预处理。当前主要采取的措施有:灰度变换和平滑滤波。灰度变换是对图像像素灰度值进行修正,实现图像处理后成像均匀,对比度饱和;平滑滤波是在图像处理中,在平滑图像中的加性噪声。

4.2图像中字符信息的提取

采集系统摄入的是24位的灰度图像,其有224(16777216)个灰度等级。图像上的点(x,y)的灰度值设为f(x,y)。对此灰度图像进行二值化就是将图像转换为只有两个等级(黑、白)的二值图像。依据图像区域的相似性和不连续性,取图像灰度平均值为阈值N,二值化处理可表示为:

小的点,其值设置为1。像素的集合为背景区域;小于或等于此阈值N的像素设置为黑,像素值为1,这样就得到了只有黑白两色的二值图像,将图书档案中的字符信息就凸显了出来。数字图书资料的背景色一般为浅色,字符为深色,多数情况下,纸质图书资料的背景为白色、字符为黑色,因此,采用纸质图书资料的24位位图,像素点的亮度作为灰度等级值。

通常采用图像的二值化方法是把整个图像亮度的平均值N作为阈值。当局部颜色较浅时,字符信息和背景的亮度都大于N,二值化后,这部分的值都为0,全部都将被视为背景上的点,这样很容易丢失图书资料中退色的部分信息。为了解决这个问题,文献提出了图像全局均值和局部方差方法、文献提出了小波分析法,在文献中,先采用开关中值滤波消除噪声干扰,然后利用迭代算法实现图像的二值化分割。这些方法都涉及复杂的计算,在此采用局部二值化方法,取阈值为各个块亮度的均值。

3.3二值化图像的再处理

图像局部二值化后,得到了各个小块图像的“值点”,这样避免了因某个小块由于颜色淡而整体无“值点”的情况,但是同时产生了一个新问题,这样的二值化图像中含有较多的噪音,在进行图像重建之前必须去除。平滑化处理可以去除噪音,在此采用了文献]的高斯滤波方法进行平滑化处理。图像重构。通过前面的处理,得到完整的原始数字图书资料的二值化图像,可以构造出增强字符信息的图像文件,还原出比原来数字图书资料效果好的图像,便于阅读和处理的数字图书资料,可以构造其BMP位图文件,也可以打印出比原来效果好的纸质图书资料,达到了修复有损数字图书资料的目的。模式识别。除了用重建数字图书资料的图像的方法之外,还可以根据实际问题的需要进行后继处理,如文献中,使用模式识别方法分割字符、归类识别字符、手工修正、重新输出原图书资料的内容,对表格字符的识别和图像重构可参见文献。

总结:模式识别技术在现代图书信息和档案处理中有着广泛的用途,文章阐述了图形模式识别技术在数字图书资料修复中的应用情况,即通过对图书资料进行扫描、二值化和图像的重建等方法对不清晰的图形进行自动修复,最终实现数字图书资料的数字化处理。

参考文献:

[1]吕俊哲.图像二值化算法研究及其实现[J].科技情报开发与经济,2004(12).

[2]贾昔玲.基于图像模式识别的数字图书资料修复及应用研究[J].数字技术与应用,2010(10).

[3]化明艳.高校数字图书馆信息服务能力评价模型研究[D].南京农业大学,2010.

猜你喜欢

数字图书
区块链在数字图书侵权中的司法救济作用分析
数字图书回顾与反思
新媒体时代下数字图书管理的实现路径思考
对国内儿童数字图书应用APP的问卷调查分析
做好图书管理之有效途径探讨
数字图书营销方法探究
一种基于Hadoop的数字图书存储系统设计方案
数字图书加密措施与密钥管理