APP下载

档案数字化中应用OCR技术注意的问题及对策

2021-09-16王元媛

探索科学(学术版) 2021年8期
关键词:识别率文字利用

王元媛

鞍山市民政事务服务中心 辽宁 鞍山 114010

采用OCR技术能使档案信息资源进行全文的信息检索,能使利用者在任何地方实现文件的检索以及对其进行引用和复制等操作,方便利用者对所需档案内容的查询和利用,拓宽了利用档案的范围。

一、档案数字化与OCR技术的发展

档案数字化是档案现代化管理工作发展的第二次突破,第一次突破是利用计算进行档案目录检索,建立了档案信息目录数据库。第二次突破实现了档案信息数字化管理,将所需要的档案信息进行电子化扫描,根据扫描的成果建立起包括档案图文信息和全文信息的数据库,将传统档案信息管理中所利用的目录检索方法进行了改变,利用人工录入、计算机扫描和OCR技术等方法将纸质档案的信息通过数据库或图像的形式保存在计算机的储存系统里,从而实现对档案信息的全文查找、阅读和检索功能,提高了档案工作的利用效率。

OCR技术是光学字符识别的英文缩写,该技术的发展可分为三个阶段:第一阶段只能够识别指定的字体、印刷形式下的数字、英文和小部分的符号;第二阶段则可以进行手写体字符的识别;第三阶段主要针对的是解决技术方面问题的,例如对文字质量较差的文档进行识别。

我国在OCR技术上的研究尽管起步较晚,但发展速度快,应用范围广,文字识别的正确率不断提高,使全文检索成为可能,为用户解决了面对大篇幅的档案目录查找无从下手的情况。OCR技术应用的目的是减少大量的文字录入和打印从而提高工作效率,运用OCR技术是代替手动输入最适宜的方法之一。

二、OCR技术的工作原理及工艺过程

OCR技术的原理是将操作对象利用光学仪器所产生的影像进行储存,再利用计算机对其进行进一步的加工处理,将一些可能影响识别率的因素尽可能消除掉一些,然后对影像做出分割,将其转化为可以进行独立识别的模块,对这些影像模块中的形态特征进行提取并与标准数据库中的数据相对比,最后从对比结果中来判定影像模块所对应的识别结果。其工艺过程包括以下六个方面:

1.信息输入:利用各种类型的光学仪器如:扫描仪、传真机等将需要进行OCR处理的对象资料进行处理,形成影像材料并转入计算机中。

2.影像前处理:包括从一个黑白或者彩色的影像到将单个的文字影像模块独立出来的整个过程,还包括影像标准化、消除噪音、影像矫正等处理以及文字图片分析、文字间单个字或字行之间的分离等文件的前处理工作。

3.提取文字特征:在OCR技术的应用中如何抽取特征,一个是统计方面的特征另一个是结构方面的特征,抽取什么样的特征能够直接影响到识别效果程度的高低。

4.比较识别:利用统计特征和结构特征来进行文字特征的提取,要和数据库进行对比的后处理工作,并根据所识别出的文字在可能与它相近的备选文字集合中找到与其字义最相近的文字或词语进而达到对比识别结果。

5.人工校正:就是要求工作人员寻找和改正OCR技术可能出现和已经出现的错误,不仅需要拥有一个稳定的识别和处理技术,还需要具备一系列合理奏效的人工校正工作流程来保证软件的工作效率和精准性。

6.结果输出:就是将利用OCR技术所得到的文件结果依照用户的需求传递给用户的过程。

三、OCR技术在档案数字化中应用须注意的问题

(一)注重技术问题

信息识别领域的技术不再限于对识别对象单一特征进行操作,而是结合了OCR识别软件、图像处理、信息自动采集等相关技术,通过各类型的识别方法对多个识别对象进行处理工作,提高了识别的准确率,促使档案数字化等相关领域的工作质量的提高。一些需要通过扫描技术进行辅助工作的OCR识别软件很难对较繁琐的信息以及手写形式的信息进行识别,所以需要通过减少可识别部分的比例来达到减少出错率的目的,OCR软件系统中最基本的功能就是对文件进行大批量的自动识别。

(二)扫描和OCR操作应同步进行

有些单位将所需的档案进行扫描并储存下来,等积攒到一定程度再对其进行数字化加工。在OCR识别过程中对于一些相关对象标准的要求比较严格,扫描之后再进行OCR操作一方面是会引发部分工作上的重复,另一方面甚至还可能导致OCR操作不能顺利进行,所以各企事业单位在进行档案数字化的过程中一定要尽可能的保证扫描和OCR识别操作在同一时段进行,必须慎重处理以免为日后的进一步识别留下难题。

(三)数字化建设应循序渐进

档案数字化管理工作是一个长期的、缓慢的过程。在这个过程中的前期处理、文件分类、中期操作、后期检查、规范制定、OCR处理一直到成果的最终提供利用都是必不可少的环节,在整个工作流程进行的过程中操作难易程度逐渐加深,工作人员和领导人员的职能水平也在同步的逐渐深入。因此,进行档案数字化建设要循序渐进,不能操之过急。

(四)对手写文件应细致处理

档案数字化应用OCR技术对于手写字体的文件尤其是对留存时间比较久远的历史档案来说其识别的能力就会很低,严重时还有可能出现乱码的形式,影响阅读和进一步的利用工作。对于这种问题其解决方式一方面就是利用人工对扫描识别后的成果进行一一校对,以便达到准确检索全文的目的,另一方面就是放弃全文检索的功能转变为依靠目录检索的形式,在OCR识别效果极差的条件下,针对OCR技术操作中的一些弊端退而求其次,所以在档案数字化中应用OCR技术对于手写体档案的识别尤其是留存时间长、质量差的档案文件不适合识别。

四、完善档案数字化中OCR技术的措施

OCR技术核心问题是识别率,OCR技术在识别率方面有相应的具体国家标准,如果识别率低于国家标准,就务必要加大后期校对修改的工作量,所以要想尽量缩减工作中所需要的人力和物力资源,提升工作效率,减少工作所需的成本就需要使用拥有较高识别率的OCR技术,因此必须做好提高OCR技术识别率的一系列工作。

(一)选择较好的OCR软件

当前市面上应用比较广泛的OCR软件有:清华紫光、汉王、百度OCR等。在互联网上也可免费下载使用OCR软件,通常功能少而且识别性较低,只能对图像信息质量好的档案材料有比较好的识别效果。还有一类在扫描系统中存在的例如丹青、蒙恬等技术软件,这类软件也具有功能少识别率低的缺陷。因此提倡使用正规的专业性强的OCR软件系统,减少后期检查的工作时间。

(二)设置合适的扫描参数

在利用OCR技术扫描操作之前就需要对相关的参数进行设置,以达到提高OCR技术识别率的目的。

1.分辨率的设定

影响OCR技术识别率的重要因素就是分辨率。分辨率较低,所得到的图像信息就不够完善,扫描时识别率并不随着分辨率的提升而加大。如果分辨率过于高,应用在一些具有失真可能性的扫描设备上时就会因为文件原稿的字迹深浅不一而导致将本身是一体的文字拆裂开来,最终降低整体的识别度,还会使文件占据更多的内存影响到后续的储存和传递工作。扫描的分辨率建议选择大于或等于200dpi,但是在实际操作中发现200dpi数值相对较小,通过多次实践证明设置为300dpi是最适宜的数值。

2.色彩模式的选择

在OCR识别技术中对于色彩模式的选择一般选用黑白两种颜色的模式在识别快慢和准确程度效果好,因为在一般的文本文件中只需要利用黑、白两种颜色,使用的颜色过于繁杂反而会影响识别的结果。对于灰度模式来说针对像一些因为原件老旧而导致的纸张变黄或者字迹变淡的材料来说应用的比较广泛,在对这类文件进行扫描之后需要对图像的一些方面进行修改,在修改中就可以通过灰度模式的设置利用系统的功能将一定灰度值以下的部分识别为白色,而其他的部分识别为黑色,最终形成黑白分明的效果。对于一些载体是比较轻薄透明的纸张形式的文件来说,在进行OCR识别的过程中识别率会受到一定的影响,这时可以在进行扫描的过程中,在扫描对象的下面铺上一张白纸利用灰度模式进行扫描就可以在一定程度上提升扫描的质量。

3.亮度与对比度

在亮度调节方面要保证扫描后得到的图像中的文字笔划纤细但是不能断开。针对部分原文字迹比较浅而且笔划比较细的档案来说,可以通过适当降低亮度来进行调节;而对于字体比较小,笔划却比较粗的档案来说要提高亮度来保证识别度的数值。扫描与上述情况相反档案要利用灰度模式进行扫描,再利用各类修图软件通过提高亮度的方式尽量将底色转变成白色,在这个过程中还可以修复一些原来存在的污点瑕疵。在对亮度进行修改的过程中会导致文字的颜色也同时变淡,通过对比度方面的调节把较淡的文字变暗,使文字凸显的更加清晰,更加剧了文字与底色的明暗对比程度,从而达到提高OCR识别率的目的。

(三)对图像进行纠偏去污处理

影响OCR技术的识别率的因素还有文字不规范、文字偏斜或存在污渍。首先与一张较为倾斜的图像相比其经过纠正后的图像识别率要高出原图像至少10%,其次对于存在污渍的文字来说,在识别的过程中也会产生不好的影响导致识别率的下降。最可行的办法就是在进行识别操作之前就对将要识别的图像中的文字进行纠偏和去污处理,来保证最终识别率的满意程度。

(四)仔细进行人工校对

现阶段我国OCR技术仍然达不到100%的识别率,所以要通过人工校对来弥补这一不足。为方便校对,OCR在识别的过程中软件自身发现的无法识别或其他情况通常会用突出的颜色进行标识,但也要注意有不准确的现象发生。

总之,要确保OCR技术具有较高的识别率,就要选择合适的OCR软件,扫描参数中分辨率、色彩模式、亮度和对比度等各数值的准确设定,图像的纠偏和去污处理以及人工校对工作的严格把关,保证档案数字化质量。

猜你喜欢

识别率文字利用
利用min{a,b}的积分表示解决一类绝对值不等式
文字的前世今生
热爱与坚持
利用一半进行移多补少
当我在文字中投宿
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
利用数的分解来思考
Roommate is necessary when far away from home
档案数字化过程中OCR技术的应用分析
科技文档中数学表达式的结构分析与识别