档案数字化加工中关键质量节点控制及其应对措施
2016-10-10郭金光
文/王 偲 郭金光
档案数字化加工中关键质量节点控制及其应对措施
文/王偲郭金光
在信息化、网络化高速发展的今天,档案数据外包成为档案数字化工作的主要手段。外包工作的关键则是档案数据质量。文章针对目前档案数字化外包过程中存在的一些问题提出自己的看法,对如何保障外包档案数据质量的几个关键点进行分析,并提出了具体解决措施
近年来,各级档案馆(室)和立档单位的档案数字化工作一般都采用外包给数字化公司的方式,档案馆(室)则只需要按照有关标准,对数据质量进行检查验收,合格后在数字档案馆应用系统进行挂接,数字档案即可进入利用环节。但由于种种原因,数字化档案的质量控制问题一直困扰着档案馆(室),如目录数据不完善甚至出错,目录数据和数字化原文不匹配等等,导致在利用过程中检索准确性差、效率低下等问题。解决这些问题,需要档案部门参照相关标准,从源头上控制,从而减少错误出现。
一、档案数字化加工过程中存在问题
档案数字化按照流程通常分为档案整理、目录建库、数据采集、数据处理、数据质检、数据挂接、数据验收等7个子环节,如下环节易出现差错。
1、档案整理不规范。档案页号编写重复或不连续,导致扫描图像名称与页号不符,文件编写页号与其图像总数不相符。此差错出现频率较高,且在质检中不易被发现。
2、图像处理不达标。扫描分辨率低,图像处理失真、变形、倾斜、不完整等问题,对于大幅面档案采用分幅扫描后需进行图像拼接的图片命名不规范。
3、目录建库不完善。目录数据著录项目不完整或错误,合成PDF文件后档号命名不规范,导致无法与对应的目录数据挂接。
二、产生问题的原因
1、建章立制不够完善。一是扫描质量要求不高。《纸质档案数字化技术规范》中规定:“需要进行OCR汉字识别的档案,扫描分辨率建议选择大于或等于200dp i”,笔者在实际操作中,对200dp i、300dpi、500dp i的图片进行了对比,结果显示dp i值越高,图片清晰度越高,OCR识别效果越好,存储空间越大。但是扫描、合成PDF、OCR识别等各个环节效率降低,成本增加。而当扫描分辨率为300dp i时,图像效果、储存空间和工作效率较为科学,不失为一种比较好的选择,这就需要在决策层面上与时俱进。二是制度规范不完善。应该制定和完善《现场管理制度》《保密制度》《设备使用制度》等制度规范,以制度管人管事。
2、管理不够科学。一是专业扫描公司为了节约成本,提高效率,往往忽视了各个环节的规范化操作要求,甚至对一些图片进行“批量”处理,忽略了各个图像的个性差异。二是没有严格按照操作流程操作。各工作环节协作缺失,没有对上一环节进行检查,比如一卷档案页号出现漏编或者重复,图像扫描时就会漏扫或对一页档案重复扫描,出现类似错误不可避免,所以在合成PDF时如果不对前面两环节进行核查,此后很难发现和纠正错误。
3、人员素质原因。档案数字化工作人员除了要具备计算机基础知识和档案业务知识外,还需要较强的耐心和责任心,而人员素质千差万别,尤其是在工作量和劳动强度较大的情况下,这一问题尤为突出。
三、严把档案数字化加工各环节
环节一:档案整理。档案整理是一项基础性工作,整理规范化、标准化有利于今后查阅利用。应在档案数字化加工之前,严格按照档案整理有关规则规范整理。对没有编页或编页不规范的档案使用2B铅笔重新进行编页,编页位置应在档案页面的底端中部编写页号,编页不应压盖档案内容,当页面底端中部已有页号时,应将原页号用铅笔划去以示区分,编页方法为阿拉伯数字从“1”开始依次编写页号,应保证每卷或每件页号编写的连续性。编页码时要从方便扫描的原则出发,如用胶水粘贴的档案在不破坏页面的前提下尽可能分成单页,合格证、发票、介绍信等不规则纸张均要编页码,使之扫描为一个完整页面,编页码环节也要逐卷登记,要素包括全宗号、目录号、保管期限、案卷号,原有页码,现有页码,有无卷内目录等,以便出错时检查有依据。
环节二:档案扫描。扫描仪分辨率设置为300dpi、24位真彩色格式,图像命名按三位数字,如001、002……的次序依次命名。一是扫描时尽量保持纸张端正、平整,减轻图形处理压力,按照所编页码,逐页扫描档案,对产生的图像依次命名,确保页面上编写的页码等同于扫描图片的名称。二是对于大幅面档案采用分幅扫描后需进行拼接的图像分幅扫描时,应使各分幅尺寸相近、技术参数一致,相邻图像之间必须有部分重叠,重叠面积应达到各分幅面积的5%以上,分副图像应分别命名为该页“页号+后缀字母或.数字”,确保不占用其他页号,如页号为006的页面扫描时产生三幅图像,为防止图像命名混淆和在拼接时便于识别,命名为006A,006B,006C或者006.1,006.2,006.3。三是扫描环节时检查档案整理,尤其是页码编写正确与否,杜绝返工的关键环节,若发现档案整理不达标,存在页码漏编、重编问题,要及时更正错误再进行扫描,达到档案实体和电子文件一一对应,为合成PDF扫清障碍。
环节三:图像处理。一是方向调整。应对方向不正确的图像进行旋转还原,具体方向按照阅读习惯、文字端正原则而定。二是纠偏,对偏斜的图像进行纠偏处理,以达到视觉上基本感觉不偏斜为准,偏斜不宜超过3度。三是去污。应对在扫描过程中产生的污线、污点、黑边等影响图像质量的杂质进行去污处理。去污过程中,不能删除档案内容信息。四是图像拼接,对大幅面的档案进行分幅扫描后形成的多幅图像,应进行拼接处理,合并为一个完整的图像,拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹,完成拼接的图片按照页号命名。
环节四:文件命名及目录建库。图像处理完成后,合成的PDF文件以档号命名保存。合成PDF时,要翻阅纸质档案认真核对目录数据中的每一项内容,对和纸质档案不一致的目录数据进行修改、添加或删除。在修改目录时,注意批复类档案应该和报告合并作为一条而无需补充著录。
环节五:OCR识别。OCR识别后的双层PDF因同时兼顾视觉效果和检索便捷性,极大地方便了电子文件的管理。现阶段主要通过 AdobeAcrobatXIPro软件进行识别,识别采取批量识别和单个识别结合的方法,即批量识别遇到障碍后,对此文件进行单个识别,再对之后的批量识别。通过观察缩略图,可以对图纸、手写(如会议记录)等识别效率低下的档案不识别,以提高工作效率。
环节六:数据质检。一是要特别注意档案数字化过程中全宗、目录、案卷等档案组成单位的完整性,不宜进行随意分割,不应因为一个全宗年代久远纸质较差不方便扫描而只抽取便于扫描的部分数字化,从而破坏档案的整体价值。二是图像质量检查,对扫描处理后的图像是否清晰、完整进行检查,遗漏的应进行补扫,不符合质量要求的图像,重新进行处理或重扫。三是应对目录数据库著录项目的完整性、著录内容的规范性进行检查,对质量不合格的目录数据进行修改或重新著录。对PDF文件的检查要注意几个等量关系,即PDF文件数量要等于目录条目数量,扫描页面数量等于编写页码数量并且等于档案目录中条目页数的累计值,如果上述等量关系不成立,则之前某一环节出错,需要倒查,修改,还可以通过观察缩略图纠错,因为一份档案首页和其他页有着明显的区别,可以大致作一判断。
档案数据资源是数字档案馆建设的核心内容,科学严谨的工作流程是档案数字化加工的基础,加强管理是解决数据质量问题的重要措施,工作人员的责任心和业务素质更是保证工作质量和效率的关键,对今后档案保存、查阅、利用尤为重要。作为一名兰台人,应该肩负起工作使命,不管是自行开展档案数字化加工还是外包给企业实施,都应本着对历史负责的态度,把好档案数字化制作的每一个关口,控制好关键质量节点,从结果控制向过程控制转变,确保数据信息无错误,真正做到为历史负责,为现实服务,替未来着想。
(作者单位:汉中市农业科学研究所汉中市档案局)