APP下载

试论档案数字化过程中OCR技术的应用

2017-01-28郑艳昆中国现代文学馆

消费导刊 2017年17期
关键词:纸质分辨率校正

郑艳昆 中国现代文学馆

试论档案数字化过程中OCR技术的应用

郑艳昆 中国现代文学馆

引进信息化系统、推动数字化发展已经成为现阶段档案管理的主流趋势,档案数字化不仅减轻了管理人员的工作压力,提高了档案管理效率,而且也能够进一步挖掘档案资料的潜在价值,真正发挥档案资料的借鉴、参考价值。在档案数字化发展过程中,如何将纸质档案内容准录入到计算机中是需要重点关注的核心问题,OCR(光学字符识别)技术的应用,实现了文字、图像的快速识别和准确转换,逐渐成为数字档案管理中的核心技术之一。

档案管理 数字化 OCR技术 应用技巧

OCR技术是指利用电子设备(扫描仪、数码相机等),扫描纸质档案中的文字、图像,然后借助于字符识别将其转换为计算机可识别的二进制数据,并生成对应文字和图像的一种技术。我国自20世纪70年代开始着手汉字识别的相关研究,随着经验的积累和技术的成熟,目前国内OCR技术的应用较为成熟。文章首先对OCR技术的运作流程和档案录入优势进行了简单概述,随后结合工作经验,就OCR技术在档案数字化中的实际应用展开了分析。

一、OCR技术的工作流程

(一)影像输入

各类光学仪器是实现纸质档案文字识别的主要工具,目前常用的影像输入仪器主要有扫描仪、数码相机和传真器等。这些电子设备在扫描精度、速度等方面均有较大差异,需要在实际的档案数字化转化中筛选使用。在选择好扫描设备后,将需要进行文字转换的纸质档案进行整理划分,例如图片、表格、文字等要单独分类,这样一方面可以提高文字识别率,尽量降低扫描识别中出现乱码、错位等现象,另一方面也能够最大限度的还原纸质档案的信息,提高档案资料的利用价值。另外,考虑到档案扫描过程中会涉及到人工操作,操作时可能会导致待识别档案误动,因此还需要对采取倾斜校正措施,避免扫描识别字体出现倾斜问题。

(二)对比识别

汉字中有许多形体结构类似的文字,例如“日”和“曰”、“子”和“于”等,由于扫描设备只能通过识别文字区域黑/白点数的方式完成扫描录入,因此扫描这些文字时容易出现较高的错误率。对比识别能够进一步细化文字特征,包括文字的笔画端点、交叉点数量等,都可以在扫描过程中进行针对性的识别。这样一来,虽然并不能保证OCR技术100%的识别率,但是也能够大幅度降低误识率,从而使得识别结果更加稳定。目前OCR技术中应用较为成熟的对比识别算法有欧式空间对比法、动态程序对比法以及HMM对比法等。

(三)人工校正

人工校正是OCR技术在档案数字化应用中的最后一个技术环节,对于实现文字纠偏、减少错误率有很好的效果。在以往的档案数字化录入过程中,需要技术人员逐字逐句的检查档案是否存在错误,不仅浪费了大量的校正时间,而且容易因技术人员的疏忽大意,而影响校正效果。借助于OCR技术,人工校正只是一种辅助手段,多数情况下是由计算机筛选出可能存在错误的文字区域,然后再安排技术人员进行专门的检查。这样就缩小了人工校正的范围,从而提高了工作效率。

(四)结果输出

完成上述一系列操作,且经过系统性的人工校正后,可以将扫描结果输出形成电子档案。通过大量的对比可以发现,利用OCR技术得到的数字档案无论是在字形、排列等方面,均与原纸质档案有极高的吻合度。需要注意的是,生成电子档案后,要及时进行电子档案的复制备份,避免因设备故障或人为破坏导致数字档案受到损失。将原版档案进行加密保存,备份档案可以供人浏览、下载使用。

二、OCR技术在档案录入上的优势分析

(一)真正意义上实现了全文检索

在档案数字化工作中,所谓的全文检索主要可以分为两种:一种是针对全文目录的检索,必须在目录数据库中找到相关的条目才能将所需的文档打开;另一种则是真正意义上的全文检索,该检索方式可以对档案全文进行逐字逐句的检索,二者之间的工作效率与作用是十分明显的,逐渐深入开发并利用档案信息资源。

(二)档案录入速度和质量提升

OCR技术的使用,在著录标引方法上取得了一定的突破。在传统的档案目录创建中,其中的许多内容都是通过手工录入的方式,费时费力易出错。OCR技术为档案目录的创建与录入提供了一种全新的方式。在实际的工作中,工作人员可以直接从OCR中寻找著录相关项目,使用基本的复制、粘贴操作将其放入到目录数据库中的相应段落当中即可。然而,由于OCR技术自身方面还存在着一些问题,导致了该方法在实际使用的过程中缺乏可行性。在OCR技术未来发展的过程中,必须要从可行性的方面入手,逐渐完善OCR技术,确保OCR在技术方面的应用能够获得突破。

(三)拓宽了用户的档案利用面

在过去,用户在选择与利用档案信息文件的过程中,主要以其凭证价值作为其是否使用的判定标准。然而,部分档案在使用过程中,对档案的原真性具有较高的要求,例如结婚证、户口薄、学生证、房产证等,只有使用纸质档案才能真正地发挥出起作用。档案绝不仅仅拥有凭证价值,也具有一定的情报价值与参考价值。若要将其用于学术研究或决策参考,按照现行的工作方式,只能去档案馆使用印刷或手工摘录的方式来获取,不仅不便于实际工作中的使用,也会影响档案信息的传播速度,对其使用效果产生影响。使用OCR文字识别技术,使用数字化档案代替传统的纸质档案,使我国的档案信息技术取得了全面性的突破,使其可以为用户提供更加优质的服务。

三、档案数字化过程中OCR技术的应用技巧

虽然OCR技术已经逐渐趋于成熟和完善,并且经过大量的实践证明,利用OCR技术可以实现提高文字录入正确率的效果。但是仍然有一些档案管理部门反映OCR技术的应用效果不理想。究其原因,还是因为这些部门没有掌握该项技术的应用技巧。总结来说,档案数字化过程中OCR技术的应用应当注意做好以下几方面。

(一)合理设置分辨率

分辨率的高低直接决定了文字识别的准确率,这也是早期数字扫描过程中极其容易出现文字乱码的主要原因。近年来,随着扫描设备性能不断提升,这些设备的分辨率也越来越高,例如一些比较高端的光学扫描设备的分辨率可以达到800pi以上。需要注意的是,文字识别过程中的设备分辨率并不是越高越好,不同字号的文字对应着最佳分辨率,例如1-3号字体可以选择200pi,而6-8号字体可以选择600pi等。另外,分辨率的高低也会直接影响扫描成本,尤其是对于一些工作量较大、档案较多的单位,合理设置分辨率还能节省一部分费用。

(二)调整好亮度和对比度的值

上文中提到,OCR技术进行纸质档案扫描的原理是通过识别目标区域的黑/白点阵,选取黑色部分作为文字的字体结构,从而高度还原文字,实现文字的转换。在对纸质档案扫描时,如果档案文件黑白分明,则可以实现较好的文字识别效果;但是很多早期的档案资料或特殊纸质的档案资料,黑白对比度不高,因此给扫描仪的识别准确度造成了一定的影响。针对这种情况,可以人为调整扫描仪的亮度值:可以通过扫描实验来确定亮度值的大小,例如扫描结果中文字线条较粗,则说明亮度值偏大;反之,如果文字轮廓不清晰,则说明亮度值偏小。

(三)选择恰当的扫描软件

合理选择OCR软件也是关系到文字识别效率的重要因素。近年来,部分智能扫描仪自带OEM扫描软件,虽然能够为扫描工作提供一些方便,但是无论是在扫描效果还是实用功能等方面,均不如OCR软件。另外,这些高端扫描仪大多为国外品牌,部分甚至没有中文文字识别功能,因此其实际应用价值不高。好的扫描软件应当至少具备两方面要素:其一是能够进行中文汉字的高效、准确识别,其二是图像软件自带文字编辑和加工功能,便于后期人工校正。除此之外,向其他一些辅助功能也可以适当选取,对于档案文字的录入也有一定帮助。

(四)注意调整档案文字格式

原纸质档案中的部分特殊文字或特殊格式,在扫描时可能会出现无法识别的现象,需要相关人员进行手动调整。目前确定无法正确识别的格式有粗体、斜体、首行缩进等,另外向一些复杂的数学、物理、化学公式,以及模糊的黑白图像等,在识别时也容易出现乱码或格式丢失等现象。针对这种问题的解决办法主要有两种:一种是利用数码相机进行拍照识别,将目标图像或公式进行拍照选取,然后直接粘贴到数字档案中;另一种是后期人工校正,由于乱码会被系统自动标注,后期可以人工查看这些乱码,并对照原档案进行修正。

(五)尽量手动选取扫描区域

许多档案中同时包含图片和文字,甚至多数情况下采用图文混排的形式,这就给OCR的扫描识别增加了难度。为了提高扫描效率和识别成功率,可以人为进行档案资料的版面区分,将档案分成多个扫描区域,从而提高了识别效率。理论上来说,应当尽可能的保持同一扫描区域中的字号相同,且文字排列整齐,行间距一致。扫描时要分区域进行,每完成一个区域的扫描工作,在换档案开始下一区域扫描,这样不仅提高了OCR识别的专业性,也可以留出一定的时间进行人工校正,提高了文字处理速度。

四、结语

OCR技术的应用为提升档案录入速度和质量提供了必要的技术支持,重视OCR技术的应用也成为优化数字档案管理工作的核心内容。作为数字档案管理人员,一方面要不断提高个人的数字化设备操作能力,掌握OCR技术在档案转化和文字录入中的操作技术,另一方面又要总结以往工作经验,注意学习OCR技术的应用技巧,例如学会如何进行对比度调节、如何设置分辨率等,为提高OCR技术的应用成效提供人力支持。

[1]赵烨,王明磊,李新友.信息化时代背景下应用OCR技术的大数据量文档处理系统模型[J].计算机应用,2015(s1):329-331.

[2]彭健,潘保昌.基于OCR技术的金融和财务票据自动录入与管理系统[J].重庆工商大学学报(自然科学版),2017(03):150-154.

[3]张文国.OCR数字化加工系统研发成功为图书、档案、文献资料数字化提供先进技术手段[J].电子出版,2013(04):139-142.

[4]王玲丽.浅谈OCR技术在图书馆文献资源加工中的应用——以上海图书馆近代文献全文OCR数据制作项目为例[J].数字与缩微影像,2015(01):23-26.

郑艳昆,女,中国现代文学馆征集编目部助理馆员,研究方向:档案资源建设。

猜你喜欢

纸质分辨率校正
劉光第《南旋記》校正
EM算法的参数分辨率
原生VS最大那些混淆视听的“分辨率”概念
一类具有校正隔离率随机SIQS模型的绝灭性与分布
机内校正
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
纸质书与《北京是个好地方》
纸质读物的困境与出路
独立书店浪漫的纸质生活