APP下载

档案数字化过程中OCR技术的应用分析

2017-05-05刘明英

中国高新技术企业 2017年5期
关键词:档案数字化档案信息识别率

刘明英

摘要:在实现档案数字化的过程中,OCR技术应该最大限度地发挥自身的优势,使档案信息能够更好地服务于广大用户。然而,由于技术能力所限,OCR技术在使用的过程中并不是完美的,尤其是在识别率方面,很有可能受到图像质量、软件质量、扫描参数等因素的影响而导致其识别率下降。文章对档案数字化过程中OCR技术的应用进行了分析。

关键词:OCR技术;档案数字化;档案管理;档案信息;识别率 文献标识码:A

中图分类号:G271 文章编号:1009-2374(2017)05-0055-02 DOI:10.13535/j.cnki.11-4406/n.2017.05.026

1 OCR技术的解析

OCR技术的中文全称为光学字符识别技术,是通过光学输入方式将文字信息转化为图像信息,然后再利用文字识别技术将相关图像信息转化为可供计算机输入的形式,便于档案信息的录入与使用。从目前的情况来看,OCR技术已经成为了档案技术领域不可或缺的重要技术水平之一,实现了全文字识别模式下的档案扫描工作,有效地促进了我国档案数字化的发展,并为其未来的发展与突破开启了全新的篇章。不仅如此,OCR技术在档案工作中的使用,既实现了档案的数字化建设,也为档案信息数据的查询工作提供了必要的技术支撑,是档案数字化进程中的核心技术之一,也是不可或缺的一环。

2 OCR技术在档案数字化工作中的实际应用

2.1 OCR技术的工作流程

OCR技术在实际的工作中,主要是按照以下流程进行操作的,如图1所示:

从流程图上来看,OCR技术在使用的过程中,涉及到的工作流程较多。然而,从实际工作的情况来看,使用OCR技术进行图像识别的时间通常只有零点几秒,但是却要重视其前期与后期的加工处理。尤其是影像输入与前期处理工作的效果,直接决定了OCR软件的最终识别率,前两环节的处理质量越好,OCR工作的效率就越高。而后期的人工校正环节,主要是对前面各个流程工作的校验与检查,确保OCR工作的质量不受影响。

2.2 OCR技术在录入方式上的优势

2.2.1 OCR工作中的文字识别技术输入档案信息数据的过程中,在速度方面要优于传统的手工录入方式。虽然使用OCR技术需要在识别前对信息数据进行一定的处理,但就总体所耗时间来看,依旧远好于传统的手工录入,使档案信息录入方式获得了质的突破。

2.2.2 OCR文字识别的质量要好于传统的手工录入。从OCR文字识别的准确率上来看,虽然无法达到100%的准确度,但与手工录入相比,准确率还是很高的。

2.2.3 OCR文字识别技术在使用的过程中,通常只需单人操作即可,并且工作效率、质量极高,极大程度上节省了人力资源的消耗,从而将这些剩余的人力资源分配到其他部门,实现资源的优化配置。

2.3 在档案数字化过程中使用OCR技术的特点与作用

档案数字化过程便是实现数字化的档案信息管理工作,OCR技术在档案数字化过程中,除了具备上述优势以外,还具备一些其他的优点,在实际的使用过程中,其优势便会逐渐体现出来。

2.3.1 OCR技术的使用,在著录标引方法上取得了一定的突破。在传统的档案目录创建中,其中的许多内容都是通过手工录入的方式,费时费力易出错。OCR技术为档案目录的创建与录入提供了一种全新的方式。在实际的工作中,工作人员可以直接从OCR中寻找著录相关项目,使用基本的复制、粘贴操作将其放入到目录数据库中的相应段落当中即可。然而,由于OCR技术自身方面还存在着一些问题,导致了该方法在实际使用的过程中缺乏可行性。在OCR技术未来发展的过程中,必须要从可行性的方面入手,逐渐完善OCR技术,确保OCR在技术方面的应用能够获得突破。

2.3.2 OCR技术真正实现了全文检索。在档案数字化工作中,所谓的全文检索主要可以分为两种:一种是针对全文目录的检索,必须在目录数据库中找到相关的条目才能将所需的文档打开;另一种则是真正意义上的全文检索,该检索方式可以对档案全文进行逐字逐句的检索,二者之间的工作效率与作用是十分明显的,逐渐深入开发并利用档案信息资源。

2.3.3 使双层PDF技术的使用获得支持。所谓双层PDF,就是指PDF文件中包含了两层文件。在实际的应用中,PDF的上层文件主要是通过扫描图像来获得,而下层则是OCR进行文字识别产生的结果。随着该技术在数据库检索中的广泛运用,逐渐增加了档案信息文件的原始性。满足用户对档案信息数据的操作需求,使档案数字化工作越来越受到广大客户的欢迎。然而若要实现双层PDF技术的使用,必先以OCR技术为支撑。

2.3.4 拓宽用户的档案利用面。在过去,用户在选择与利用档案信息文件的过程中,主要以其凭证价值作为其是否使用的判定标准。然而,部分档案在使用过程中,对档案的原真性具有较高的要求,例如结婚证、户口薄、学生证、房产证等,只有使用纸质档案才能真正地发挥出起作用。档案绝不仅仅拥有凭证价值,也具有一定的情报价值与参考价值。若要将其用于学术研究或决策参考,按照现行的工作方式,只能去档案馆使用印刷或手工摘录的方式来获取,不仅不便于实际工作中的使用,也会影响档案信息的传播速度,对其使用效果产生影响。使用OCR文字识别技术,使用数字化档案代替传统的纸质档案,使我国的档案信息技術取得了全面性的突破,使其可以为用户提供更加优质的服务。

3 提高档案数字化过程中OCR识别率的方法

识别率的高低直接影响到OCR技术存在的意义,高识别率代表OCR技术可以准确地对相关信息进行扫描,不仅提高了档案信息的录入速度,还减轻了后期处理的工作量。然而,如果OCR识别率低于相关规定标准,为了确保档案信息的准确性,就必须在后期处理过程中,加大人工校对的力度,如此一来,OCR在识别过程中制造出的优势便会就此抵消。在实现档案数字化的过程中,OCR识别率的提高可以减少OCR工作所需消耗的人力与物力,降低了档案数字化建设过程中消耗的成本。由此看来,提高档案数字化过程中OCR识别率势在必行。具体可以从以下方面入手,来制定提高档案数字化OCR识别率的方法。

3.1 设置合适的扫描参数

3.1.1 分辨率。分辨率是影响OCR识别率的重要因素之一,OCR在识别图像的过程中主要依靠扫描来进行,只有获得足够的图像信息才能确保识别率的有效提高。然而,这并不意味着图像的分辨率与OCR识别率是成正比的。图像的分辨率过高也会导致扫描过程中出现失真的状况,不仅无法提高OCR的识别率,还会导致图像文件所占空间变大,不利于文件的储存与传输。

3.1.2 色彩模式。在色彩模式的选择方面,使用黑白两种颜色扫描的图像无论是速度还是正确率方面都远远高于其他颜色模式的扫描图像。因此,在没有特殊要求的情况下,通常使用这两种颜色来完成图像扫描。除此之外,灰度模式在OCR识别扫描的过程中有着较为广泛的运用,例如纸张颜色发黄或者是对文字字迹要求较淡的档案。

3.1.3 亮度与对比度。在现代化档案管理系统出现以前,我国档案储存都是使用纸质储存的方式,由于一些档案的储存年份较差,纸张的底色会逐渐泛黄,字迹也会变得较为暗淡,采用灰度模式进行扫描已经无法满足实际的要求。因此,为了有效的提高OCR识别率,需对扫描的参数进行适当的改变,也就是对亮度以及图像对比度的调节。如果在扫描结束以后,图像中汉字的字迹较浅,可以适当地调低其亮度进行二次扫描;如果在扫描结束后,字体较小,笔划也比较粗,则可以适当地增加其亮度;如果在进行亮度调节的过程中,图像的文字出现了变淡的情况,则需对图像的对比度进行适当的调节,加重原图像文字的颜色,从而提高OCR识别率。

3.2 图像的处理工作

原图像中许多文字可能会以美工体或者是艺术体的形式出现,这种非常规字体的出现,大大降低了OCR识别率。除此之外,如果图像中文字存在污点或者是污垢,也很有可能导致OCR软件在识别过程中出现错误或失误。因此为了避免这种情况的发生,在OCR识别以前,必须要对图像中的字体进行纠正,并清除图像上的污点与污渍,以此方式来有效地提高OCR识别率。但是,需要注意的是,图像的纠偏与去污并不是因为OCR技术的使用才施行的,而是档案扫描流程中必不可少的工作环节之一,即使不使用OCR技术也不能漏过这一环节。

3.3 强调人工校对的重要性

在实际的工作中,电脑会因为固定化的错误,在同一个地方始终出现问题,工作完全按照程序设定的内容进行,缺乏灵活性。这也是人脑相较于电脑来说,最大的优势之一。从我国目前的情况来看,OCR识别率还无法达到100%,这也正是人工校对技术存在的原因。由此看来,人工校对是提高OCR识别率的最后一环。

从理论上来说,OCR软件识别后,会将识别结果以不同的两行呈现出来,其中一行是图像,而另一行便是识别后的结果。OCR软件对自身识别存在疑问的部分,通常会使用不同的颜色进行表明,便于用户发现错误。然而,在实际的使用当中,有些存在错误的部分,软件却并没有对其进行变色处理,而进行变色处理的文字或语句也不一定是错的。因此,工作人员在进行人工校验的过程中,务必要针对此问题进行仔细检查,不能按照提示改完便结束校验工作,以免存在“漏网之鱼”。

4 结语

综合上文所述,在档案数字化的过程中,使用OCR技术可以有效地提高档案录入与输出的速度与质量,减少档案管理工作所需的工作人员及其工作量,最大限度地降低了档案管理工作中的人力消耗。然而,只有解决了OCR识别率方面存在的问题,该技术才能真正地促进档案数字化的发展。

参考文献

[1] 吳军.扫描文档图像的处理方法的研究和应用[D].山东师范大学,2015.

[2] 冯雪.纸质档案数字化中需要注意的几点问题[J].办公室业务,2016,(8).

[3] 郑凤英.大数据环境下国土资源档案数字化质量管理初探[J].黑龙江史志,2015,(5).

[4] 任惠敏.国土资源档案管理中信息化与数字化技术的运用浅析[J].办公室业务,2016,(23).

(责任编辑:蒋建华)

猜你喜欢

档案数字化档案信息识别率
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
医院病历档案信息管理及应用探析
关于电力企业档案信息现代化管理及对策的探析
浅谈档案信息利用过程中的知识产权保护问题
档案信息资源开发利用及图书、情报、档案一体化探析
档案数字化管理建设中存在的问题及对策
高速公路机电日常维护中车牌识别率分析系统的应用