档案数字化过程中OCR 技术的运用
2022-07-14王效鹏
王效鹏
(山东省菏泽市牡丹区人力资源和社会保障局,山东 菏泽 274000)
在信息时代背景下,档案数字化成为当前档案管理工作的一个重点内容,但是从当前发展实际情况来看,扫描所产生的电子档案是以图像形式存在的文件,而不是真正意义上的文本文件信息。也就是说,依托计算机系统仅仅鞥能够查看到档案信息的外在形体,没有在真正意义上识别出档案信息的内在文字信息,用户虽然使用计算机系统看到了档案信息原本的面貌,但是却没有根据实际情况合理利用这些信息,最终对电子档案利用工作造成了很大的不变。为了能够根据用户的需要为其提供有针对的档案管理服务,获得文本形态的电子档案,实现档案管理的数字化、科学化发展,相关人员提出了OCR 技术在档案数字化管理中的应用主张,旨在能够在该技术的支持下提升档案管理的科学性、有效性。
一、OCR 技术的应用内涵和发展历程
OCR 技术是光学字符识别技术,在具体实施操作的时候会通过光学输入的方式来将文字信息转变为一种图像信息,而后在文字识别技术的作用下会将相关图像信息转变为能够被计算机识别和应用的信息形式。从当前发展实际情况来看,OCR 技术成为档案管理领域的重要技术形式,在该技术的支持下能够实现全文字识别模式下的档案扫描管理,在这个过程中会促进我国档案数字化管理发展,实现我国档案管理工作的数字化发展,为相关人员查询和利用档案信息提供必要的技术支持。OCR 技术的应用流程如下:影像输入、影像前处理、文字特征抽取、比对识别、人工识别和人工校正。在经过一系列识别分析之后会将最终的识别结果显示出来,而后保存。
OCR 的概念是由德国科学家Tausheck 在1929年提出来,后来美国科学家Handel 也提出了利用计算机扫描等技术对文字进行识别的想法。在社会科技的发展支持下,OCR 技术已经从原来的字符识别率低于50%到现在针对印刷体字符识别正确率达到了99%以上,并可以识别宋体、黑体、楷体等多种字体的简、繁体;也能够对不同的字体排列方式识别;一些技术的识别速度很快,一分钟到两分钟能够完成1000 字符的识别。站在技术应用角度分析这项技术形式,其可以被完全应用到档案数字化管理中,在档案信息识别中显示出较高的识别率和较快的识别速度。
二、档案数字化过程中OCR 技术的使用流程
档案数字化过程中OCR 技术的使用主要遵循这样的操作流程:影像数据信息的输入管理、影像前处理、文字特征的提取、综合比对识别、人工校正、输出和保存。从实际应用角度来看,档案数字化过程中OCR技术的使用会缩短手工操作的时间,有一些图像信息的识别仅仅需要零点几秒即可,且在图像处理的过程中会优化前期处理和后期校对比较。且和传统意义上的文字识别相比,所获得的图像信息更为精准。档案数字化过程中OCR 技术的使用仅仅使用简单的人工操作即可,工作效率高,在处理档案的过程中会在最大限度上节省人力资源的消耗,能够帮助劳动者从繁琐的劳动中解脱和释放出来,在最大限度上实现资源的合理优化配置。
三、档案数字化过程中OCR 技术的运用优势分析
第一,提升档案数据信息的输入速度。档案数字化过程中OCR 技术的运用会在使用档案资料信息之前对档案资料信息的内容进行识别整理,由此会使得档案信息的录入方式实现质的突破。第二,提升档案数据信息的录入质量。在OCR 技术支持下的档案处理虽然仍然无法保障档案信息识别处理的精准度,但是在档案信息质量服务方面会有效提升档案信息的质量。第三,OCR 技术在使用的时候只需要单人操作即可,和一般情况下的档案管理相比,OCR 技术支持下的档案管理会简化档案操作,在保障档案信息有效使用的同时会减少人力资源在档案管理中的消耗。
四、OCR 技术在档案数字化发展中的具体应用
(一)创新著录标引方式
档案目录数据库打造的一个重要基础是档案数字化工作,当前,在技术的支持下我国社会范围内的很多档案馆都打造出了完善的目录库。但是有很多档案库采取的是手工操作方式,档案处理繁琐、效率低下。
OCR 技术在档案管理中的使用会为人们提供一种新的著录方式,在这种著录方式的支持下会实现计算机系统录入管理。档案管理工作人员会直接从OCR 之后的全文中寻找到著录项,包含题目名称、文号、责任者等,在查找到这些信息之后会将信息复制粘贴到目录库对应的字段中,从而实现对档案信息内容的自动化检索。OCR 技术的使用为档案目录的创建和录入管理提供了一种全新的方式,工作人员能够从OCR 中寻找著录项目,而后将基本的复制粘贴操作放入到目录库中对应的段落即可完成操作。但是从实际应用操作角度来看,受OCR 技术本身使用局限的影响,基于该技术的档案管理缺乏实践操作的可行性,在未来,需要相关人员因地制宜地采取恰当的措施来解决档案管理的实践操作可行性,逐渐完善OCR 技术形式。
(二)实现真正的全文检索
档案信息资料中的全文检索包含两个类型,一个是对档案目录库信息的检索,在找到关联条目后会打开对应的档案全文。这种检索方式是当前档案馆常用的档案检索方式。另外一种检索方式是全文检索,即对档案全文库逐字逐句的检索,帮助用户从庞杂的数据库中获取自己所需要的档案信息资源。第二种检索方式离不开OCR 技术的支持,在具体实施操作的时候通过扫描图像中的文字会将其转变为对应的文本格式。
(三)支持双层PDF 技术
双层PDF 技术形式是指每一个PDF 文件的每一页都会包含两层内容,上层是扫描所获得的原始图像,下层是OCR 技术支持下的文字识别结果。PDF双层技术形式被人们广泛应用在数字图书馆领域,如在CNKI 数据亏中检索到的PDF 格式的电子文献就使用了双层PDF 技术。从实际实施操作上来看,OCR 技术中的双层PDF 技术既能够保证档案的原真性,而且还能够根据用户的需求来选择、复制和搜搜文字信息。
(四)拓展档案用户的利用面
在以往的档案信息利用管理中,用户是一般依托档案凭证价值来获取和利用信息。比如政府部门行使自己的职能作用去查阅某份文件信息、居民使用身份证来查询房产信息、结婚证发放、学籍卡管理等。这些档案信息在使用的时候对档案本身的原真性有着较高的要求,在很多情况下档案信息的使用是需要得到纸质文档支持的。
在人们对档案资料的深度挖掘下,档案资料信息的作用也开始更加多元,档案除了具备凭证价值,还会和图书、情报等一样具备一定的情报价值、参考价值,如何充分利用和挖掘档案资料中潜在的价值信息成为相关人员需要思考和解决的问题。比如在利用档案资料信息开展学术研究的时候,用户要注重密切观察档案的知识属性、信息属性,如果档案是通过手动方式保存的,就会出现操作不变的问题。借助OCR 技术能够将纸质档案资料信息转变为一种数字化的形式,借助OCR 识别会实现对档案信息的全网络检索、网络传输,进而诶用户异地检索和引用数据信息提供重要支持,提高档案资源信息的综合利用率。
五、提升档案数字化过程中OCR 技术识别率的基本办法分析
识别率高低直接关系到档案数字化过程中OCR 技术的应用成效。从实际应用操作的角度来看,OCR 技术如果具备较高的识别率不仅能够精准的扫描信息,提升档案信息的录入速度,而且还会降低档案资料信息的后期处理工作量。如果OCR 技术的识别率较低,为了能够提升识别率,就需要在档案信息后期处理中消耗较多的人力、物力和财力来校对档案信息。在档案数字化发展中,通过提升OCR 技术的识别率会降低档案数字化建设中的成本消耗。
(一)科学设定扫描参数
第一,分辨率。分辨率是影响档案数字化过程中OCR 技术识别率的重要因素,图像识别依靠扫描实现,因此,只有获得足够的图像信息才能够提升档案数字化过程中OCR 技术识别率。但是需要注意的是,图像分辨率和档案数字化过程中OCR 技术识别率不一定是正比的关系,图像分辨率较高也会引发图像扫描失真现象,最终不仅无法提升档案数字化过程中OCR的识别率,而且还会因为图像文件占据较大空间而影文件的存储、传输。第二,合理选择色彩模式。黑色、白色图像扫描不管是在扫描速度,还是在扫描正确率上都会远远超过其他颜色下的图像扫描。为此,在没有特殊要求的情况下,会选择使用白色和黑色来完成图像扫描,如果没有黑色和白色的图像,也可以选择使用灰色的图像完成扫描。第三,亮度和对比度的选择。在数字化档案发展之前,我国档案存储形式为纸质存储。但是在实际存储管理中,由于一些档案资料信息的存储年份久远,纸质档案的底色会泛黄,字迹也会变得模糊。尽管是使用黑色、白色、灰色的扫描图像也无法满足实际对档案的要求。因此,为了能够提升档案数字化过程中OCR 技术的使用识别率,需要相关人员结合实际情况来调整扫描参数,调节图像的亮度对比度。在扫描完成之后,如果图像汉字字迹不清晰,操作人员也可以采取一些措施适当地降低其亮度,在降低亮度之后开展二次扫描;如果在扫描后发现字体比较小、笔划粗糙,可以采取措施提升其亮度;在调节亮度的时候如果文字出现了变淡的情况,还需要采取措施增加图像的对比度,在这个过程中加重原本图像文字的颜色,最终提升档案数字化过程中OCR技术识别率。
(二)优化图像处理工作
在数字化档案中会有很多文字是以美工体或者艺术体的形式出现,这种非常规表现形式上的文字形式会降低档案数字化过程中OCR 技术的识别率。另外,如果图像中的文字出现了污垢,也很容易使得OCR 技术软件在识别的过程中出现判断失误的问题。因此,为了能够规避以上问题的出现,在开展OCR 技术识别操作之前,相关人员需要采取积极的措施来纠正图像中的字体,去除图像上的污点,通过这样的方式能够有效提升OCR 技术支持下的图像分辨率。另外需要注意的是,图像去污也是档案扫描操作管理中的重要工作内容,在图像扫描过程中不能够忽视。
(三)做好人工校对管理工作
在档案数字化管理的过程中,计算机系统也容易出现一些固有的问题,且在同一个地方一个问题有时候会反复出现,最终导致档案管理工作无法按照既定的程序完成操作,档案操作管理缺乏灵活。为此,在档案数字化管理的过程中还需要适当的配合使用人工识别校对,通过人工识别校对来有效提升OCR 技术的识别率。
从实际应用操作角度上来看,在OCR 技术软件被识别之后,系统会将识别的结果通过不同的两行展现出来,一行是图像,另外一行是识别后的结果。OCR 技术软件对于自身潜在的识别问题会通过不同的颜色来表示出来,目的是为用户发现和解决错误提供支持。但是在具体操作中我们会发现有一些错误问题无法使用变色的方式处于展示和处理,而一些出现变色的图像、数字也不一定是错误的。由此要求工作人员在开展人工校对分析的时候要对以上问题进行深入的分析检查,不能够完全按照提示来开展检验。
结束语
综上所述,在现代信息技术和科学技术的深入发展下,档案在人类社会生活中的作用日益凸显。基于档案数量、类型的增多,人们对档案处理提出了更高的要求。传统的案卷级和文件级目录检索技术已经无法适应当前网络时代的搜索要求,档案全文数字化是档案管理的一种必然。比较当前的各类档案数字化技术,使用OCR 技术能够有效提升档案处理速率和效率,因而,在未来,需要相关人员进一步强化对OCR 处理技术的重视和应用,从而更好地推进我国档案数字化发展。