APP下载

浅析纸质文书档案数字副本OCR识别方法

2018-11-30梁连高

科技与创新 2018年4期
关键词:副本扫描仪纸质

梁连高

(南宁市国土资源档案馆,广西 南宁 530021)

随着档案信息化建设的不断发展,非数字档案的数字化工作已成为当前档案工作的重中之重,特别是纸质档案的扫描工作,各机关、团体、企事业单位已普遍开展。数字化加工过程中产生的大量电子档案以JPEG等格式的图像文件存在,保持了档案的原貌,但不能对其中的内容进行引用、检索等操作,给电子档案的利用造成了很大的不便。为实现全文检索,达到引用文本的目的,需用OCR软件将数字档案图像识别转换为文字。

1 OCR基本概况

“OCR”是光学字符识别(Optical Character Recognition)的缩写,是指电子设备检查纸上显示的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。在最近几年中,OCR识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索出工作方法。

2 纸质文书档案扫描和图像处理方法、步骤

文档图像的质量直接影响到OCR软件正确识别的结果,在扫描时,设置分辨率及相关参数非常重要,扫描后进行图像处理,保证图像完整、清晰,无影响图片美观的黑边和污点,图像不偏斜等。严格按照《纸质档案数字化技术规范》(DA/T 31—2005)进行档案数字化加工。

笔者采用富士fi-6770高速扫描仪和plusteckA380平板扫描仪进行扫描,纸张过大的图纸采用工程图扫描仪扫描。下面介绍档案扫描、图像处理操作中的一些方法。

2.1 档案扫描方式

纸张较好的档案直接采用富士fi-6770高速扫描仪扫描;纸张过大的图纸采用工程图扫描仪扫描;纸张状况较差的及过薄、过软的档案,采用plusteckA380平板扫描仪扫描。

2.2 扫描色彩模式和图像存储格式

扫描色彩模式:彩色。页面中有红头、印章或有黑白照片、彩色照片、彩色插图的档案,建议采用彩色模式。

图像存储格式:JPEG。

2.3 扫描分辨率和压缩比率

扫描分辨率:300 dpi。分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。在实际工作中,200 dpi达不到最佳效果,经验表明,选择300 dpi适合大部分打印文档扫描。

压缩比率:6.扫描仪设置压缩比率为6,压缩比率即为80%以上。

2.4 亮度、对比度

扫描时适当地调整好亮度和对比度,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度的设定,以观察扫描后图像中汉字的笔画较细但又不断开为原则。

2.5 图像处理

利用Photoshop图像软件对图像进行适当处理加工,以使图像正确、完整、清晰呈现。

2.5.1 纠偏

对出现的偏斜图像进行纠偏处理,以达到视觉上基本不感觉偏斜为准,对方向不正确的图像进行旋转还原。

2.5.2 去污处理

对图像页面中出现的影响图像质量的杂质进行去污处理,在处理过程中遵循“在不影响图像可读度的前提下展现档案原貌”的原则。

2.5.3 去黑边

在不影响图像中字迹完整度的情况下,去除扫描过程中在页面周围出现的黑色边框。

2.5.4 去底色

在不影响图像中字迹可辩认度的情况下,去除扫描过程中页面中出现的偏黄或偏蓝底色。

2.5.5 调整顺序

发现档案图像排列顺序与档案原件不一致时,及时调整。

3 OCR识别流程

经过扫描、图像处理后,在形成纸质文书档案源版数字图像基础上,经OCR识别技术生成一套双层PDF格式的数字副本或者生成一套TXT格式的数字副本。笔者采用汉王易识软件进行识别,下面介绍识别方法和步骤。

3.1 识别前的准备

按照《归档文件整理规则》(DA/T 22—2015)的档号编制方法,使用ACDSee 5.0进行图像文件的命名,每一件文件扫描后的图像以档号来命名。建议:档号+件内流水号+扩展名,其中,件内流水号由4位阿拉伯数字标识,不足4位的,前面用“0”补足。

例如:全宗号为“Z109”的2016年文书档案,机构代码为“BGS”、保管期限为“永久”的第1件档案有3页,其数字图像命名为:

Z109-WS·2016-Y-BGS-0001-0001.jpg

Z109-WS·2016-Y-BGS-0001-0002.jpg

Z109-WS·2016-Y-BGS-0001-0003.jpg

3.2 汉王易识软件设置

3.2.1 启动汉王易识

插入加密狗双击“汉王易识”桌面快捷图标,启动汉王易识软件。

3.2.2 系统设置

在文件菜单中选择“系统配置...”进入“设置”对话框。

3.2.2.1 “无UI扫描参数设置”选项卡

选择分辨率“300 dpi”、图像类型“彩色”、“灰度和彩色扫描图像保存为JPG格式”;单击“应用”;单击“确定”。

3.2.2.2 “识别设置”选项卡

选择“自动倾斜校正”“取消识别结果提示”“批量识别后自动查看日志”“显示版面分析顺序”;单击“应用”,然后单击“确定”。

3.2.2.3 “导出设置”选项卡

选择“自动启动关联程序打开输出文件”“输出双层PDF文件”、创建Rtf文件“公式自动转换”、Word版本“自动检测”、“输出公式原图”、PDF图像压缩系数“30”;单击“应用”;单击“确定”。

3.2.2.4 设置分析、识别参数

工具栏选择“简体”“公文”。针对有红色公章或红头的办公文件,可识别红头和公章覆盖的内容。

3.3 识别操作步骤

识别操作步骤如下:①图像输入。单击“打开图像”;选定要识别的图像文件;单击“打开”,每一件图像文件分别打开到系统中。②版面分析。单击“版面分析”或者“分析全部”,系统自动对选中的图像文件进行版面分析,以提高识别正确率。③识别图像。单击“识别”或者“识别全部”选项,系统自动对选中的图像文件进行识别处理。④创建PDF。经分析、识别后,选中需要创建双层PDF单件文件的所有图像,单击“创建PDF”。双层PDF创建成功后会自动弹出文件的窗口。⑤文稿校对。汉王易识软件具有文稿校对功能,系统自动校对,但要经过人工校正后准确率才可达到100%.

3.4 OCR识别后图像的命名、关联目录数据等

源版数字图像转换生成的PDF、TXT等格式,我们将其称为“衍生数字副本”。使用ACDSee Pro 3对衍生数字副本命名,建议:档号+扩展名。

例如:全宗号为“Z109”的2016年文书档案,机构代码为“BGS”、保管期限为“永久”的第1件文书档案源版数字图像转换为衍生数字副本,其命名为:

Z109-WS·2016-Y-BGS-0001.pdf

建立目录数据与OCR识别图像关联,实现全文检索功能,便于查询利用。

双击打开正在使用的“档案管理系统”;选择“批量挂接OCR成果”;选择需要挂接相应文件夹中的PDF文件;单击“开始挂接”。笔者同时挂接了TXT文档及双层PDF文件,既可以实现全文检索,又可以保持档案原貌功能,实现复制、粘贴等操作。OCR识别图像挂接完成后,使用移动硬盘或刻录光盘进行离线备份OCR识别成果,保存双层PDF格式数字副本。

综上所述,对收集到的纸质文档进行扫描、图像处理后,进行OCR识别,识别准确率大于99%.识别结果形成单页的双层PDF文件,既较好地保持了档案的原貌,又可以实现档案全文检索,复制、粘贴等操作,提高了工作效率。在档案领域,OCR技术使档案扫描成果达到了全文可识别,将档案数字化发展提升到了一个新的阶段,使原本扫描出来的图片变得更容易检索,为档案数据查询提供了技术支持,是档案数字化发展中必不可少的一环。

[1]国家档案局档案科学技术研究所标准化研究室.DA/T 13—1994档号编制规则[S].北京:中国标准出版社,1994.

[2]国家档案局.DA/T 31—2005纸质档案数字化技术规范[S].北京:中国标准出版社,2005.

[3]国家档案局档案馆(室)业务指导司.DA/T 22—2015归档文件整理规则[S].北京:中国标准出版社,2015.

[4]迟春佳.OCR技术及其在高校图书馆信息资源数字化建设中的应用[J].中国科技信息,2007(7):95-96.

猜你喜欢

副本扫描仪纸质
便携式膀胱扫描仪结合间歇性导尿术在脑卒中合并神经源性膀胱患者中的应用
为什么要读纸质书
国家知识产权局公告:专利证书改版
电子疲劳
独立书店浪漫的纸质生活
用保鲜膜保护超声扫描仪提高猪场生物安全性
便携高速文件扫描仪
便携高速文件扫描仪
新副本“战歌之城”怨灵BOSS面面观
《口袋西游—蓝龙》新副本“幽冥界”五大萌点