APP下载

海河水利委员会档案数字化与文字识别方案浅析

2015-09-23王凡秦茜梅涵

卷宗 2015年9期
关键词:图像处理数字化

王凡 秦茜 梅涵

摘 要:随着信息技术的发展,档案载体正面临更新换代的重要时刻,海量电子文件与档案的涌现对档案管理工作方式产生了巨大影响,档案保管、保护、利用的理念及对象、体制和工作方式等都将经历重大变革。本文针对海河水利委员会近年开展的档案数字化工作进行了细致研究,并对数字化加工和文字识别业务范畴内的各个流程细节及要求进行了分析。

关键词:数字化;图像处理;文字识别

2006年12月27日,经国家发展和改革委员会审核同意,《档案事业发展“十一五”规划》(以下简称“《规划》”)正式施行。《规划》明确提出了“十一五”期间,档案信息化建设是档案事业的八项主要任务之一。在此期间,海河水利委员会(以下简称“海委”)信息化进程的加快,使得信息资源成为了海委水利工作中愈发重要的战略资源,信息资源的开发利用工作也成为实现海委水利工作全面、协调、可持续发展的重要途径。档案作为基础性信息资源,是海委信息资源不可或缺的重要组成部分。随着计算机信息技术、扫描技术、OCR技术、数字摄影(录音、录像)技术、多媒体技术、数字存储技术的发展而产生的档案数字化工作就成为了适应这种变革的主要措施。

1 档案数字化

1.1 原则

在档案数字化加工过程中,要坚持和贯彻以下原则:实施规范、分类细致、利用便捷。

1.1.1实施规范

档案数字化加工由始至终必须严格遵循国家相关规程规范,参照的规程规范主要包括:《纸质档案数字化技术规范》(DA/T 31—2005)、《连续色调静态图像的数字压缩及编码》(GB/T 17235.1-1998)、《电子文件归档与管理规范》(GB/T 18894-2002)、《档案著录规则》(DA/T18-1999)等。

1.1.2分类细致

细致的分类是档案数字化加工的关键,要以完整的数据备份、存储方案、档案安全保管为前提,在切实保证档案和数据完整、准确、系统、安全的基础上,根据档案的类别、保管期限、密级、载体类型等因素,将正文、附件、审批单等分别采用不同的操作方式进行加工。

1.1.3利用便捷

档案数字化的目的是为了更高效、便捷地利用档案,这就需要在档案数据录入管理系统后建立健全的索引机制,实现千万量级数据资源的快速搜索,从而保证档案信息的系统搜索、查阅和利用,更好地为海河水利事业服务。

1.2 流程

档案数字化加工流程由以下主要步骤组成:从档案馆提取案卷,同时记录提卷内容,接着拆卷、去污、平整化;根据档案纸张大小和厚薄不同选择不同型号的扫描仪,较为规整的纸张选择快速扫描仪,较薄、较厚和不规整的纸张选择平板扫描仪;按照档案管理系统的著录项,将标题、责任者、归档时间、档号等各种档案信息录入管理系统中;对照原始档案进行自检,对录入数据进行两次以上的人工校对,对扫描图像进行横向和纵向校对;校对合格后在档案管理系统中进行质检,对图像与文字的匹配程度和图像在系统中的阅读效果进行再次检验,不合格的重新处理;按照档案整理规范对档案进行整理还原,对档案进行数量检验,对卷目内容与标题的对应进行检查,整理打印目录和案卷封面并装订;将通过检验后的成品电子档案数据存储于硬盘介质,并刻录2套DVD光盘,编制盘号及光盘内容等著录信息作为电子档案存档;最后将原始档案及时交还,如有档案损毁或丢失,应承担相应的法律责任。

1.3 管理

档案数字化的管理工作主要包括过程、安全和细节管理三方面。过程管理关键在于完善保密与监管机制,安全管理的关键是要以保障电子档案数据的安全为最终目的,细节管理则是要重视每个关键节点的技术要求。

1.3.1过程管理

档案数字化的过程管理要求建立健全各环节的安全保密机制,以确保档案原件和档案信息的安全。同时要对数字化的各个环节进行详细登记,并及时整理、汇总、装订成册,建立完整、规范的加工记录。

1.3.2安全管理

档案数字化的安全管理必须严格遵守国家有关保密法律、法规及制度,应采取措施加强实体档案和电子档案数据的绝对安全。要严格执行“分级管理”的原则,当档案的密级为“公开”时,进行全文扫描和信息条目录入;当档案的密级为“机密、秘密、绝密”时,原文不进行扫描,只进行信息条目录入。

1.3.3细节管理

档案数字化的细节管理应注重图像清晰度、档案整理装订、扫描处理、图像加工、存储及管理系统衔接等几方面的技术要点。

1.图像清晰度方面:要特别注意以下档案文件(或部分)必须清晰:各种档案中的红、蓝色印章信息;各种手写、复写信息;字体小且字迹较模糊的图纸;历史时期较长的档案;其它因纸张、字迹等因素不清晰的文件。

2.整理装订方面:扫描前通过分类、排序、编写页码、平整、去钉、裱补、盖章、标注等工序环节保证档案扫描时的质量,扫描完成后按规范装订立卷、装盒,保证档案无遗漏。整理装订标准为:根据要求确定扫描和挂接范围,区分档案中的扫描卷和不扫描卷、同一案卷中的扫描件和非扫描件;非扫描档案及同一案卷中非扫描部分应在非扫描档案登记总帐中填写清楚;扫描前需要对档案进行核实,查看有无缺页现象;案卷拆分应注意保护原件,破损严重、无法进行扫描的原件要先进行修复,折皱不平影响扫描质量的原件应先采取措施压平后再进行扫描;按要求装订档案,确保不漏页、掉页错页,不压字,装订牢固。

3.扫描处理方面:通过扫描将以纸介质为载体的档案文件转变为电子档案数据,扫描方式为:对于用黑白二值扫描无法正确反映其上彩色信息的档案,应使用彩色扫描;对于使用黑白二值扫描不能获得清晰图像的档案,可使用灰度扫描;对于上述情况外的大部分档案,应使用黑白二值扫描。要求扫描采用多页TIFF格式存储。扫描像素均应不低于300dpi,可根据实际情况调整分辨率及其他相关参数,做到图像清晰,存量适中。扫描好的电子原文应以“年度-保管期限-案卷号”方式命名。endprint

4.图像加工方面:为确保每一幅扫描图像的清晰、不失真,不允许采用批量图像处理方法,需采用手工的图像旋转、纠斜、剪边、线型弯曲校正、文字变形校正、中缝删除、影像对中等处理。图像处理后必须保证图像信息与原文内容完全一致,不得删除页面任何有用信息,包括正文内容、页眉、页脚、手写注释和印鉴等。

5.存储及管理系统衔接:经过数字化加工后形成的电子档案图像及其属性信息应分别提交1套硬盘存储和2套光盘存储。光盘应采用正版知名品牌的单片包装盒盘片;盘盒包装应标注目录、编号等信息,档案的同一卷文件,不得跨越两片光盘。成品电子档案数据,须完全符合档案系统的业务和技术要求,做到与系统的无缝衔接。

2 档案文字识别

2.1 鉴定要求

仅对正式文件(及收发公文、公函)进行文字识别,须严格比照电子档案原文进行鉴定。

2.2 识别要求

为确保文字识别后的电子文本显示结果与档案原件内容一致,特别应注意以下档案文件(或部分)必须准确无误:各种档案中的红、黑色标题;档案正文中的主要单位名称、行政条例、法令法规、人名;字体小且字迹较模糊的复印档案;历史时期较长的档案;因纸张、字迹等因素不清晰的其他文件。

2.3 过程性要求

1.电子档案检查:对经过鉴定、需进行文字识别的电子档案原件进行漏页、倾斜、清晰度检查,查看文件内容是否完整。对有问题的档案须核对纸质原件,做到准确无误。

2.文字识别工程的建立与自动识别:每个多页TIFF建立一个单独的工程文件,检查文件页码前后顺序。

3.手动校对:自动识别好的txt工程文件,须进行逐行逐字的二次校对,着重查看字形相近的、原始资料本身模糊的、平时少见的生僻字。

4.质量检查:质检人员要对手动校对完的文件进行再次全面检查。

5.保存方式:对质检合格的文件保存一份txt文本格式文件。

3 结束语

档案数字化加工是一项长期而艰巨的系统性工作,必须加快海委档案信息资源的数字化进程,积极开发档案信息资源,促进海委档案信息化建设,不断满足信息时代发展对档案利用提出的新需求,把海河档案馆建设成为能够便捷获取海河流域各类信息资源的综合型数字平台。endprint

猜你喜欢

图像处理数字化
数字化:让梦想成为未来
家纺业亟待数字化赋能
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
基于图像处理的机器人精确抓取的设计与实现
机器学习在图像处理中的应用
Bayesian-MCMC算法在计算机图像处理中的实践
改进压缩感知算法的图像处理仿真研究
数字化制胜