档案数字化过程中的污渍检测算法
2019-11-11陈湘程路
陈湘 程路
摘 要:档案是珍贵的历史资料,具有很高的再利用价值。针对档案资料在长期的保存和使用过程中容易沾染污渍,使档案在数字化过程中不能准确和清晰的实现档案搜索、查询和利用等问题,本文提出一种自动检测档案中污渍的算法。算法首先将档案的正面彩色图像和正面红外图像作灰度化处理;其次,采用最大类间方差法对两种档案图像进行二值化处理,随后对两种图像进行按位与运算,检测出可能的污渍区域;再次,对图像进行腐蚀运算,消除背景中的噪声;最后,采用连通域标记算法精确检测出污渍区域。经过实际档案图像测试,相比于现有方法,本文采用的方法能够快速准确的检测出档案中的污渍部分,对于档案间的信息共享和信息交换具有重要的现实意义。
关键词:档案;数字化;污渍检测;图像处理
1 引言
档案是珍贵的历史资料,《中华人民共和国公共图书馆法》第四十一条规定:“政府设立的公共图书馆应当加强馆内古籍的保护,根据自身条件采用数字化、影印或者缩微技术等推进古籍的整理、出版和研究利用,并通过巡回展览、公益性讲座、善本再造、创意产品开发等方式,加强古籍宣传,传承发展中华优秀传统文化”[1]。档案数字化的主要目的是保护原件,让扫描件代替原件使用,避免原件在频繁的使用中遭受毁损[2],同时使档案可通过计算机进行检索、查询、分享和下载,提高档案的利用率。
但由于档案资料一般为纸质文物,大多存放时间长且材质脆弱,在长期的保存和使用过程中会发生各种病害,其中污渍就是纸质档案的一种病害,它一般是由灰尘、泥渍、墨渍、油渍等导致[3],使档案在数字化过程中出现影像的污点和污渍噪声,造成档案图像视觉质量下降,给后续图像处理工作,如档案中文字分割、文字定位、文字识别、文字利用和档案图像检索功能等工作带来很大困难,不能准确的传达档案信息,不能实现档案搜索、查询和利用的价值,所以需要通过计算机图像处理技术,增强影像的可读性,修复档案图像。去污处理是馆藏资源数字化建设中一个非常重要的过程[4],去污处理的第一步是污渍检测。目前,通过图像处理技术对扫描的档案图像进行污渍检测的方法很少,一般集中在对档案杂点的检测上。王海杰[5]采用基于分块快速去除杂点和基于邻域去除字里行间杂点的算法消除档案影像中的杂点;王琛[6]采用基于中值滤波的自适应算法消除档案影像中的噪音;尹翔[7]采用中值滤波和均值滤波方法去除与档案图像中无关的痕迹,并利用直方图增强方法提高档案图像质量;荆永菊[8]采用图像二值化和图像增强等方法消除图像中无关的信息。这些方法无法检测出面积稍大的污渍,且存在算法计算量大、效率低、破坏数字化后的档案图像质量等问题。本文提出一种自动检测档案中污渍的算法,算法首先将正面彩色图像和正面红外图像转为灰度图像;其次,采用最大类间方差法(OTSU)对两种档案图像进行二值化处理,随后对两种图像进行按位与运算,检测出可能的污渍区域;再次,对图像进行腐蚀运算,消除背景中的噪声;最后,采用连通域标记算法精确检测出污渍区域。
2 档案图像污渍检测算法
档案资料在长期的保存和使用过程中容易沾染污漬,直接数字化后的档案图像视觉质量下降,给后续的图像处理工作带来困难,计算机图像处理技术可增强图像的可读性,为自动化的去污处理提供依据。档案图像的污渍部分在正面彩色和正面红外图像中都显示为一团连续的部分,污渍检测算法中关键部分是图像的二值化处理和污渍区域的检测和定位。
本文采用最大类间方差法(OTSU)寻找灰度化正面彩色图像和正面红外图像的各自最优二值分割阈值。OTSU是一种自适应的阈值确定方法,它按图像的灰度特性将图像分成目标、背景,目标和背景间的类间方差越大,则构成图像两部分差别越大,当目标错分为背景或背景错分为目标时都会导致两部分差别变小,因此,使类间方差最大的分割意味着错分概率最小[9]。对于图像I(x,y),前景(即目标)和背景的分割阈值记作T,前景像素点数占图像的比记ω0,其平均灰度为μ0;背景像素点数占图像的比记ω1,其平均灰度为μ1,图像总平均灰度为μ,类间方差为g。假设图像背景较暗,大小为M×N,图像中像素灰度值小于T的像素个数为N0,像素灰度大于T的像素个数为N1,则有:
式(5)代入 (6),得到g=ω0×ω1×(μ0-μ1)2,采用遍历方法得到使类间方差最大的阈值T,即为所求。
连通域标记算法主要是用来检测和定位污渍区域,便于根据连通区域的特征,确定可能的污渍区域,为后续污渍的精确定位提供依据。其基本思想是:首先,得到连通区域的轮廓,其具体过程为:(1)逐行扫描,把一行中连续白色像素组成的一个序列称为一个团,并记下其起点、终点和所在行;(2)标记连通区域,对于除了第一行外的所有行里的团,如果它与前一行中的所有团没有重合区域,则给它一个新的标号;如果它仅与上一行中一个团有重合区域,则将上一行的那个团的标号赋给它;如果它与上一行的两个以上的团有重叠区域,则给当前团赋一个相连团的最小标号,并将上一行的这几个团的标记写入等价对,说明它们属于一类;(3)对等价标记进行合并,将等价对转换为等价序列,每一个序列需要给一相同的标号,因为它们都是等价的;从1开始,给每个等价序列一个标号;(4)遍历开始团的标记,查找等价序列,给予它们新的标记;(5)将每个团的标号填入标记图像中;(6)读等价标记进行重新标记,得到连通区域的4个顶点坐标和面积。其次,确定各连通区域的一个外接矩形,即找到外接矩形四个顶点坐标,并根据其左上角X轴坐标由小到大排序,得到的就是连通的区域,即可能的污渍区域。最后,保存所有残缺区域信息,返回连通区域数目。
档案数字化过程中的污渍检测算法过程如下:
第一步,将档案的正面彩色图像和正面红外图像作灰度化处理。
第二步,图像二值化处理。档案图像二值化处理目的是把原始灰度图像的灰度值置为0或255,使处理变得简单,便于对图像做进一步处理,而且数据量小,有利于压缩、存储和传输。本文采用最大类间方差法(OTSU)寻找灰度化的正面彩色图像和正面红外图像的各自最优二值分割阈值otsu1、otsu。并对阈值做一定限定,本文将二值化的分割阈值限定在[180,200]之间。接下来,遍历整个灰度化后的正面彩色图像,如果图像中灰度值在[T1 ,otsu1]间(T1取100),将像素点的值置为255(即白色),否则置为0(即黑色),得到图像A,此时就筛选出正面彩色图像中可能的污渍区域;遍历整个灰度化后的正面红外图像,如果图像中灰度值在[T2 ,otsu]间(T2取100),将像素点的值置为255,否则置为0,得到图像B,此时就筛选出正面红外图像中可能的污渍区域;随后,将图像A和图像B相与得到图像C,得到的图像C就是进一步确定的可能污渍区域,即如果正面彩色图像某处和正面红外图像某处同时为污渍,则可能是污渍区域,否则不是污渍。
第三步,对图像C进行两次腐蚀运算,得到图像D。由于图像C是由图像A和图像B相与得到,此时背景中会产生很多额外的细小噪声,需消除背景中的噪声,故对图像C进行腐蚀运算,消除背景中的噪声。
第四步,由于对图像C做了两次腐蚀运算,此时虽然消除了背景中的噪声,但前景中细微处可能产生新的间断,需根据污渍区域的面积大小,对污渍区域做更进一步的筛选。首先对图像D运用连通域标记算法得到各连通区域,即可能的污渍区域,再根据设定的阈值T(取100)去除小面积区域,得到图像E。遍历图像E中所有连通区域(可能的污渍区域),如果某连通区域的面积大于设定的最大值,同时该连通区域外接矩形的高度和宽度均大于某值,也就是占空比要满足一定的条件,要为一团(取40),则将该区域就是精确检测和定位到的污渍区域。
3 结语
本文对档案数字化过程中污渍的检测方法做了讨论,主要针对档案资料的正面彩色图像和正面红外图像的扫描图像进行图像处理,精确的检测和定位出档案中存在的污渍,给后续的图像处理工作,如档案中文字分割、文字定位、文字识别、文字利用和档案图像检索功能等提供便利,准确传达档案信息,实现档案搜索、查询和利用的价值。经过实际档案图像测试,相比于现有方法,该文采用的方法能够快速精确的检测出档案中的污渍,对于档案之间的信息共享和信息交换具有重要现实意义,并能促进档案数字化的进一步发展。
参考文献
[1]《中華人民共和国公共图书馆法》[J].图书馆,2019(01):112.
[2]王婉萍.档案数字化图像处理之我见[J].档案管理,2013(05):88.
[3]杨有,尚晋,杨华芬,余平.档案图像处理模型研究[J].重庆文理学院学报(自然科学版),2010,29(05):29-32.
[4]甘岚.纸质档案规范化保护修复研究[J].档案管理,2015(01):59-60.
[5]王海杰.文档影像图像处理中的纠偏与降噪研究[D].浙江大学,2008.
[6]王琛.扫描档案的图像处理技术[D].天津大学,2016.
[7]尹翔.现代档案管理如何发挥图像处理的最大功效[J].兰台世界,2012(29):21-22.
[8]荆永菊.图像预处理技术在数字图书馆中的应用[J].科技情报开发与经济,2012,22(20):56-57+65.
[9]LEMY F,HADJIGEORGIOU J.Discontinuity trace map construction using photographs of rock exposures[J].International Journal of Rock Mechanics and Mining Sciences,2003,40( 6):903-917.
作者简介
陈湘(1988-),女,汉,湖北大悟,硕士,助理馆员,研究方向:图像处理,科学数据管理,数据分析。
程路(1989-),男,汉,湖北荆州,硕士,助理馆员,研究方向:数据分析,图书馆建设。