基于数字扫描仪性能的文本型数字图像OCR识别准确度提高策略研究
2017-03-10◆郭军
◆郭 军
(铁道警察学院 河南 450000)
基于数字扫描仪性能的文本型数字图像OCR识别准确度提高策略研究
◆郭 军
(铁道警察学院 河南 450000)
本文认为,文本型数字图像OCR识别的数字图像生产阶段,OCR识别准确度的影响因素主要体现在数字扫描仪的选择和使用两个方面,进而提出了针对性的文本型数字图像OCR识别准确度提高策略。
OCR识别准确度;文本型数字图像;信息资源数字化
0 引言
OCR(Optical Character Recognition,光学字符识别)这一概念最早于1929年由德国科学家Tausheck提出[1]。信息资源数字化实践的广泛开展,为OCR识别提供了广泛的应用空间。从操作环节方面来看,信息资源数字化中的OCR识别工作流程可以划分为为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段[2]。针对文本型数字图像OCR识别的数字图像生产阶段,笔者认为应主要从数字扫描仪的选择和使用两个方面入手提高OCR识别准确度。
1 数字扫描仪的选择
为确保文本型数字图像的数字扫描质量,笔者认为应主要围绕图像传感器性能、扫描分辨率、对不同扫描对象的适应能力和操作便捷性等4个方面着手选择合适的数字扫描仪。
(1)图像传感器性能
图像传感器是数字扫描仪的核心部件,数字扫描仪的传感器主要有光电耦合器(Charged Coupled Device,CCD)、互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor, CMOS)、接触式图像传感器(Contact Image Sensor,CIS)及光电倍增管(Photo Multiplier Tube,PMT)等4种类型。仅从图像传感性能方面来看,PMT在敏锐度、信噪比、动态密度范围、环境温度适应能力等方面,相较于其他3种图像传感器处于明显优势地位。但是,PMT的价格昂贵,而且目前只适用于专业滚筒式扫描仪,在文本型数字图像OCR识别领域应用极少。20世纪90年代之前,CCD一直在数字成像装置光电转换元件市场上处于垄断地位。相较于其他3种图像传感器,CCD具有数据传输标准性高、综合技术发展成熟、对数字扫描设备适应能力强、应用领域广泛等优点。笔者认为,为确保文本型数字图像数字扫描质量,信息资源数字化操作应优先选择配有CCD的数字扫描仪。
(2)扫描分辨率大小
数字扫描仪的扫描效果,与扫描仪扫描分辨率中的光学分辨率大小密切相关。理论上讲,数字扫描仪的扫描分辨率越高,所生成的数字扫描图像清晰度越高,进而越有利于OCR精确辨识。但是,过高的数字扫描分辨率不仅无法增强数字扫描图像的清晰度,反而会增强数字图像中的噪点进而影响OCR识别准确度。信息资源数字化实践表明,针对文本型数字图像OCR识别,数字扫描仪的最低光学分辨率应在300 dpi以上,最高光学分辨率应能够达到600dpi。
(3)对不同扫描对象的适应能力
面对相同的原始文献资料,不同的数字扫描仪的扫描质量往往不同。为确保扫描质量,数字扫描仪应能够适应各种类型的原始文献资料。一方面,数字扫描仪应能够支持对不同类型、不同尺寸、不同厚度的原始文献资料的数字扫描。另一方面,数字扫描仪应确保在数字扫描过程中不对原始文献资料(尤其是部分珍本、善本、孤本资料)造成损坏。
文本型数字图像的原始文献资料,主要有印刷体文本和缩微胶片资料两种类型。信息资源数字化操作实践表明,平台式数字扫描仪适宜于对印刷体文献资料的扫描,便于散页扫描并便于原始文献资料的拆分和装订;缩微胶片数字扫描仪适宜于对缩微胶卷、缩微胶片、普通缩微平片、套装缩微平片及全帧缩微平片的数字扫描;滚筒式数字扫描仪适宜于对全帧缩微平片的数字扫描。
(4)操作便捷性
信息资源数字化工作工序繁杂,且部分环节存在大量的重复操作。在对原始文献资料进行数字扫描时,应尽量减少工作人员因使用数字扫描仪而产生的智力及体力负担。数字扫描仪的操作界面应简洁明了,功能按钮及按键设置应与实际操作紧密结合。对于能够通过功能预设实现批量处理的操作环节,应尽量减少工作人员的手工操作次数与频率。
2 数字扫描仪的正确使用
2.1 扫描参数的合理设置2.1.1以黑白扫描模式为主
黑白扫描模式、灰色扫描模式和彩色扫描模式是各种类型的数字扫描仪均支持的3种扫描模式。信息资源数字化实践中,常见的数字扫描对象主要包括印刷型文本、黑白线条图、手稿资料、半色调型文献资料、黑白照片、彩色照片、地图等。数字扫描过程中,不同类型的原始文献资料对数字扫描模式有着不同的要求。印刷型文本和黑白线条图适宜黑白扫描模式,其中印刷型文本的最小扫描分辨率应不低于600 dpi;黑白照片、半色调型文献资料和一般手稿资料适宜灰色扫描模式,其中半色调型文献资料和一般手稿资料的最小扫描分辨率应不低于300 dpi;彩色照片、地图、老旧手稿资料适宜彩色扫描模式,其中地图和老旧手稿资料的最小扫描分辨率应不低于600 dpi。
鉴于文本型数字图像的原始文献主要包括印刷型文本资料和缩微胶片资料,在对其进行数字扫描时应以黑白扫描模式为主。但是,对于页面严重污损、页面严重变色、页面中包含繁杂信息(图案、注释、批注等)、页面中的字符内容色彩超过1种的文本型数字图像,在对其进行数字扫描时应视情况采用灰色扫描模式或彩色扫描模式。
2.1.2 合理确定最佳扫描分辨率
在一定的数值范围内,数字扫描仪的扫描清晰度与所设置的扫描分辨率成正比。超过一定的数值之后,扫描分辨率的提高不仅无助于增强扫描清晰度,还会在下列3个方面影响信息资源数字化工作:
(1)降低数字扫描速度。数字扫描分辨率提高,数字扫描仪针对单个原始文献资源的扫描时间将会相应提高,进而影响整体数字扫描速度。
(2)增加数字图像存储负担。数字扫描分辨率提高,单个数字扫描图像所占存储空间势必增加,进而增加整个信息资源数字化工作的数字图像存储负担。
(3)降低OCR识别准确度。数字扫描分辨率提高,在增强数字扫描图像清晰度的同时也强化了数字图像中所存在的噪声的强度,势必会降低文本型数字图像的OCR识别准确度。
可见,为确保数字扫描质量和文本型数字图像的OCR识别准确度,客观上存在着一个最佳分辨率。面对同类型原始文献资源,同一数字扫描仪最佳扫描分辨率的确定基于多次的实验与对比。但是,信息资源数字化实践中,通过实验与对比的方法确定大量甚至海量原始文献资源的最佳扫描分辨率显然不现实。实际操作中,可采用美国康奈尔大学图书馆提出的基于扫描等级参数值和字符高度值的最佳扫描分辨率计算方法[3]。该方法将数字扫描质量划分为优、良、中、差4个等级,并为每个质量等级赋予相应的等级数值(QI值)。中文印刷型文本数字图像优、良、中、差的QI值[4],依次为18.0、11.0、7.0、7.0以下;西文印刷型文本数字图像优、良、中、差的QI值[5],依次为8.0、5.0、3.6、3.6以下。在此基础上,美国康奈尔大学图书馆提出了印刷型文献资料最佳数字扫描仪的计算公式。适宜于黑白扫描模式的印刷型文献资料,其最佳扫描分辨率计算公式[6]为:dpi=3QI/0.039h(QI取“优”等级值,h为字符高度,单位为毫米);适宜于灰色扫描模式或彩色扫描模式的印刷型文献资料,其最佳扫描分辨率计算公式[7]为:2QI/0.039h(QI取“优”等级值,h为字符高度,单位为毫米)。
需要说明的是,美国康奈尔大学图书馆的最佳扫描分辨率计算公式仅是对其信息资源数字化操作实践经验的提炼与归纳,其意义在于为最佳扫描分辨率的确定提供参考。最终最佳扫描分辨率的确定,还应结合具体的数字扫描对象,参考由该公式计算得出的扫描分辨率数值根据具体的实验与对比情况进行优化。
2.1.3 选择合适的黑白扫描阈值
对于适宜于黑白扫描模式的文本型数字图像,在对其进行数字扫描之前应设置一个合适的扫描阈值。确定黑白扫描阈值的目的在于,明确数字扫描结果中的哪些像素点被转换为黑色,剩余的像素点则被转换为白色。OCR软件在对字符图案进行辨识时,主要是依据字符图案边沿的特征信息。可见,黑白扫描阈值的确定直接影响着文本型数字图像的数字扫描效果,进而影响OCR识别准确度。信息资源数字化操作实践中,应根据被扫描对象的具体情况,在多次试验、调整的基础上确定合适的黑白扫描阈值。
2.1.4 调试合适的亮度、对比度
数字扫描仪亮度、对比度的设置,直接影响着最终的数字扫描质量。合适的亮度、对比度,应保证数字扫描仪能够清晰捕捉到原始文献资料中最细微的字符特征信息。不同的原始文献资料,其印刷质量不同、在流通使用过程中的污损及破坏程度不同,对数字扫描亮度、对比度的条件要求也不同。因此,信息资源数字化过程中不能简单地为批量原始文献资料设置唯一的扫描亮度和对比度。应结合不同原始文献资料的具体情况,在合理分类、多次试验调试的基础上,分别选择合适的扫描亮度及对比度。
2.1.5 选择合适的文件格式保存数字扫描图像
在对原始文献资料进行数字扫描之后,需将数字图像以一定的文件格式进行保存以便进入后续的数字图像处理及OCR文本识别环节。笔者认为,应从以下三个方面着手选择数字扫描图像的文件保存格式:
(1)能够确保不数字扫描图像的分辨率不受影响。为确保OCR识别准确度,在对数字扫描图像进行保存时,所选择的文件保存格式应确保数字扫描图像的扫描分辨率不受影响。
(2)能够支持无损压缩保存。在对数字扫描图像进行压缩保存时,部分文件格式的数字扫描图像可能会对数字图像中的细节特征信息造成破坏。为确保OCR识别准确度,所选择的数字扫描图像文件保存格式应能够支持无损压缩保存。
(3)能够适应主流图像编辑软件和OCR识别软件。为保证后续的数字图像处理和OCR文本识别环节顺利进行,所选择的数字扫描图像文件保存格式应能够支持全部或主流数字图像编辑软件和OCR文本识别软件。
根据国内外现有的信息资源数字化实践经验,笔者认为数字扫描图像保存应选用Tiff文件格式。
2.2 采用正确的使用方法
(1)避免镜头成像组件松动。数字扫描仪的镜头成像组件属于精密设备,在使用过程中应注意避免大幅度的颠簸与振动。信息资源数字化过程中,如确实需要在物理空间上搬运或挪动数字扫描仪,应确保数字扫描仪自身相应的固定及防震动功能开启,并注意采取必要的外部防震动、防撞击措施。
(2)确保被扫描对象位置摆放到位。信息资源数字化实践中,尤其是部分需要手动造作进行数字扫描的原始文献资料,时常出现因原始文献资料位置摆放不到位造成数字扫描图像歪斜或不完整的现象。可借助数字扫描仪的图像预览功能,必要情况下需要多次手工调整,确保原始文献资料位置摆放到位。
(3)保持清洁的周围环境。数字扫描仪性能的正常发挥,对周围环境的要求较高。信息资源数字化操作过程中,部分原始文献资料中存在较多的尘土及纸张碎屑,必须异地进行清理后再进行数字扫描操作,避免对数字扫描仪的扫描与成像质量造成干扰。平时使用过程中,应经常对数字扫描仪的数字玻板进行擦拭,但注意应使用柔软不掉屑的布料轻轻擦拭以避免划伤数字玻板。特别需要注意的是,禁止使用酒精类液体清洗数字玻板,否则会严重影响数字扫描仪的扫描质量。工作间隙,应使用整洁、不掉屑的蜡染布、丝绸等面料对数字扫描仪进行覆盖,避免灰尘和碎屑进入数字扫描仪。
(4)对机器进行充分预热。数字扫描仪在正式扫描之前需要进行预热,受制造工艺、机器配置及周围环境温度等因素影响,不同的数字扫描仪对预热的时间存在不同的要求。为确保数字扫描仪性能能够正常发挥,信息资源数字化实践中应根据具体扫描对象的实际情况多次试验,在确保数字扫描仪已经预热充分的前提下再进行数字扫描操作。
(5)充分利用去网纹功能。在对原始文献资料进行数字扫描过程中,容易在数字扫描图像中形成网纹,网纹对OCR精确识别有较大影响。去除数字图像中的网纹,一方面可在后续的数字图像处理阶段实现,一方面也可在数字扫描阶段借助数字扫描仪的去网纹功能实现。鉴于数字扫描环节在信息资源数字化流程上处于数字图像处理环节之前,笔者认为应根据原始文献资料的具体情况,充分利用数字扫描仪的去网纹功能去除数字扫描图像中的网纹。
3 结束语
信息资源数字化实践的广泛开展,为OCR识别提供了广泛的应用空间。针对文本型数字图像OCR识别的数字图像生产阶段,本文认为,OCR识别准确度的影响因素主要体现在数字扫描仪的选择和使用两个方面,并且通过实验分析,提出了正确使用数字扫描仪,提高文本型数字图像OCR识别准确度的策略。
[1]Schantz, Herbert F. The History of OCR, Optical Character Recognition[J]. Recognition Technologies,1982.
[2]臧国全.文本数字化图像OCR识别的准确度测度实验与提高[J].图书情报知识,2010.
[3]Cornell University Library.Benchmarking for digital capture.[2017-3-27].http://www.library.cornell.edu/preservation /tutorial/conversion/conversion-04.html.
[4]查奕.文献数字影像的制作与使用[J].数字与缩微影像,2006.
[5]Cornell University Library.Benchmarking for digital capture.[2017-3-27].http://www.library.cornell.edu/preservation /tutorial/conversion/conversion-04.html.
[6]Cornell University Library.Benchmarking Resolution Requirements For Printed Text.[2017-3-27].http://www.librar y.cornell.edu/preservation/tutorial/conversion/conversion-04.ht ml.
[7]Cornell University Library.BENCHMARKING RESOL UTION REQUIREMENTS FOR PRINTED TEXT.[2017-3-27 ].http://www.library.cornell.edu/preservation/tutorial/conversion /conversion-04.html.