浅析纸质文书档案数字副本OCR识别方法

2018-11-30梁连高

科技与创新 2018年4期

梁连高

（南宁市国土资源档案馆，广西南宁 530021）

随着档案信息化建设的不断发展，非数字档案的数字化工作已成为当前档案工作的重中之重，特别是纸质档案的扫描工作，各机关、团体、企事业单位已普遍开展。数字化加工过程中产生的大量电子档案以JPEG等格式的图像文件存在，保持了档案的原貌，但不能对其中的内容进行引用、检索等操作，给电子档案的利用造成了很大的不便。为实现全文检索，达到引用文本的目的，需用OCR软件将数字档案图像识别转换为文字。

1 OCR基本概况

“OCR”是光学字符识别（Optical Character Recognition）的缩写，是指电子设备检查纸上显示的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。在最近几年中，OCR识别技术随着扫描仪的普及得到了飞速的发展，扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果，得到高效率的文字录入，必须认真学习有关知识，结合实践经验，摸索出工作方法。

2 纸质文书档案扫描和图像处理方法、步骤

文档图像的质量直接影响到OCR软件正确识别的结果，在扫描时，设置分辨率及相关参数非常重要，扫描后进行图像处理，保证图像完整、清晰，无影响图片美观的黑边和污点，图像不偏斜等。严格按照《纸质档案数字化技术规范》（DA/T 31—2005）进行档案数字化加工。

笔者采用富士fi-6770高速扫描仪和plusteckA380平板扫描仪进行扫描，纸张过大的图纸采用工程图扫描仪扫描。下面介绍档案扫描、图像处理操作中的一些方法。

2.1 档案扫描方式

纸张较好的档案直接采用富士fi-6770高速扫描仪扫描；纸张过大的图纸采用工程图扫描仪扫描；纸张状况较差的及过薄、过软的档案，采用plusteckA380平板扫描仪扫描。

2.2 扫描色彩模式和图像存储格式

扫描色彩模式：彩色。页面中有红头、印章或有黑白照片、彩色照片、彩色插图的档案，建议采用彩色模式。

图像存储格式：JPEG。

2.3 扫描分辨率和压缩比率

扫描分辨率：300 dpi。分辨率的设置是文字识别的重要前提。一般来讲，扫描仪提供较多的图像信息，识别软件比较容易得出识别结果。在实际工作中，200 dpi达不到最佳效果，经验表明，选择300 dpi适合大部分打印文档扫描。

压缩比率：6.扫描仪设置压缩比率为6，压缩比率即为80%以上。

2.4 亮度、对比度

扫描时适当地调整好亮度和对比度，使扫描文件黑白分明。这对识别率的影响最为关键，扫描亮度和对比度的设定，以观察扫描后图像中汉字的笔画较细但又不断开为原则。

2.5 图像处理

利用Photoshop图像软件对图像进行适当处理加工，以使图像正确、完整、清晰呈现。

2.5.1 纠偏

对出现的偏斜图像进行纠偏处理，以达到视觉上基本不感觉偏斜为准，对方向不正确的图像进行旋转还原。

2.5.2 去污处理

对图像页面中出现的影响图像质量的杂质进行去污处理，在处理过程中遵循“在不影响图像可读度的前提下展现档案原貌”的原则。

2.5.3 去黑边

在不影响图像中字迹完整度的情况下，去除扫描过程中在页面周围出现的黑色边框。

2.5.4 去底色

在不影响图像中字迹可辩认度的情况下，去除扫描过程中页面中出现的偏黄或偏蓝底色。

2.5.5 调整顺序

发现档案图像排列顺序与档案原件不一致时，及时调整。

3 OCR识别流程

经过扫描、图像处理后，在形成纸质文书档案源版数字图像基础上，经OCR识别技术生成一套双层PDF格式的数字副本或者生成一套TXT格式的数字副本。笔者采用汉王易识软件进行识别，下面介绍识别方法和步骤。

3.1 识别前的准备

按照《归档文件整理规则》（DA/T 22—2015）的档号编制方法，使用ACDSee 5.0进行图像文件的命名，每一件文件扫描后的图像以档号来命名。建议：档号＋件内流水号＋扩展名，其中，件内流水号由4位阿拉伯数字标识，不足4位的，前面用“0”补足。

例如：全宗号为“Z109”的2016年文书档案，机构代码为“BGS”、保管期限为“永久”的第1件档案有3页，其数字图像命名为：

Z109-WS·2016-Y-BGS-0001-0001.jpg

Z109-WS·2016-Y-BGS-0001-0002.jpg

Z109-WS·2016-Y-BGS-0001-0003.jpg

3.2 汉王易识软件设置

3.2.1 启动汉王易识

插入加密狗双击“汉王易识”桌面快捷图标，启动汉王易识软件。

3.2.2 系统设置

在文件菜单中选择“系统配置...”进入“设置”对话框。

3.2.2.1 “无UI扫描参数设置”选项卡

选择分辨率“300 dpi”、图像类型“彩色”、“灰度和彩色扫描图像保存为JPG格式”；单击“应用”；单击“确定”。

3.2.2.2 “识别设置”选项卡

选择“自动倾斜校正”“取消识别结果提示”“批量识别后自动查看日志”“显示版面分析顺序”；单击“应用”，然后单击“确定”。

3.2.2.3 “导出设置”选项卡

选择“自动启动关联程序打开输出文件”“输出双层PDF文件”、创建Rtf文件“公式自动转换”、Word版本“自动检测”、“输出公式原图”、PDF图像压缩系数“30”；单击“应用”；单击“确定”。

3.2.2.4 设置分析、识别参数

工具栏选择“简体”“公文”。针对有红色公章或红头的办公文件，可识别红头和公章覆盖的内容。

3.3 识别操作步骤

识别操作步骤如下：①图像输入。单击“打开图像”；选定要识别的图像文件；单击“打开”，每一件图像文件分别打开到系统中。②版面分析。单击“版面分析”或者“分析全部”，系统自动对选中的图像文件进行版面分析，以提高识别正确率。③识别图像。单击“识别”或者“识别全部”选项，系统自动对选中的图像文件进行识别处理。④创建PDF。经分析、识别后，选中需要创建双层PDF单件文件的所有图像，单击“创建PDF”。双层PDF创建成功后会自动弹出文件的窗口。⑤文稿校对。汉王易识软件具有文稿校对功能，系统自动校对，但要经过人工校正后准确率才可达到100%.

3.4 OCR识别后图像的命名、关联目录数据等

源版数字图像转换生成的PDF、TXT等格式，我们将其称为“衍生数字副本”。使用ACDSee Pro 3对衍生数字副本命名，建议：档号＋扩展名。

例如：全宗号为“Z109”的2016年文书档案，机构代码为“BGS”、保管期限为“永久”的第1件文书档案源版数字图像转换为衍生数字副本，其命名为：

Z109-WS·2016-Y-BGS-0001.pdf

建立目录数据与OCR识别图像关联，实现全文检索功能，便于查询利用。

双击打开正在使用的“档案管理系统”；选择“批量挂接OCR成果”；选择需要挂接相应文件夹中的PDF文件；单击“开始挂接”。笔者同时挂接了TXT文档及双层PDF文件，既可以实现全文检索，又可以保持档案原貌功能，实现复制、粘贴等操作。OCR识别图像挂接完成后，使用移动硬盘或刻录光盘进行离线备份OCR识别成果，保存双层PDF格式数字副本。

综上所述，对收集到的纸质文档进行扫描、图像处理后，进行OCR识别，识别准确率大于99%.识别结果形成单页的双层PDF文件，既较好地保持了档案的原貌，又可以实现档案全文检索，复制、粘贴等操作，提高了工作效率。在档案领域，OCR技术使档案扫描成果达到了全文可识别，将档案数字化发展提升到了一个新的阶段，使原本扫描出来的图片变得更容易检索，为档案数据查询提供了技术支持，是档案数字化发展中必不可少的一环。

［1］国家档案局档案科学技术研究所标准化研究室.DA/T 13—1994档号编制规则［S］.北京：中国标准出版社，1994.

［2］国家档案局.DA/T 31—2005纸质档案数字化技术规范［S］.北京：中国标准出版社，2005.

［3］国家档案局档案馆（室）业务指导司.DA/T 22—2015归档文件整理规则［S］.北京：中国标准出版社，2015.

［4］迟春佳.OCR技术及其在高校图书馆信息资源数字化建设中的应用［J］.中国科技信息，2007（7）：95-96.