档案数字化过程中的环节控制
2015-06-10秦亚平
秦亚平
(靖江市党史方志档案办公室,江苏靖江,214500)
档案数字化是依托先进的数字技术,将各类传统载体档案信息转换成数字档案信息的处理过程。档案数字化工作是构建统一规范的数据库、实现档案信息资源社会共享、充分保护实体档案安全、提高档案利用效率、建设高质量的数字档案馆的一项基础工作,数字化工作的好坏,直接影响到档案馆社会服务功能的发挥。
目前江苏省内各级档案馆的馆藏档案数字化加工工作,绝大多数是通过招标采购,以外包的方式由专业公司进行的。因此,这更需要档案馆作为数字化工作的主体责任人进行项目的整体监督和把关,对数字化过程中出现的问题进行及时修正,以便更好地保护档案实体,使档案信息能更安全、真实、准确、有效地得以利用。笔者通过所在档案馆的纸质档案数字化工作实践,就档案馆数字化工作过程中各环节出现的一些突出问题进行剖析,提出对策建议,以期抛砖引玉,共同推进档案数字化工作。
一、档案提卷、还卷环节
目前,大多数档案馆的提卷工作都由数字化加工公司工作人员完成。数字化加工公司工作人员根据档案馆制定的扫描工作方案中所确定的扫描对象,到指定的档案库房进行提卷,加工结束后再入库还卷。因人手原因,档案馆工作人员对回库的档案案卷只进行数量清点后便填写出入库登记表,而未对档案出入库前后的齐全状况、破损状况进行检查及描述登记。这使得档案出库后处于失控状态,得不到有效监管,容易导致档案实体安全得不到保证,一些破损档案受到二次损坏。
应对做法:档案馆工作人员应对档案的出入库进行全程监管。首先,从档案的出架开始,就应该进行逐卷清点,对档案的数量及案卷状况进行登记,对有问题的案卷进行状况描述。破损案卷最好在数字化加工前进行装裱修复,以防止在扫描过程中受到二次损坏。其次,档案在扫描结束还卷时,档案馆工作人员应对照提卷登记进行认真细致的还卷登记。在登记过程中,要着重对档案数量及案卷状况进行检查,重点检查是否有缺卷、损坏,页码乱编、漏编,装订混乱等问题,如发现问题及时整改到位。
二、目录著录环节
目录数据库建设是全文数据库建设的重要基础和前提。由于历史原因,馆藏历史档案的整理存在很多不规范状况,如:档案页码错编、漏编、数件合并等。数字化加工人员往往只根据原有档案情况,仅对页码进行重新编制,而不对原有档案进行规范整理,出现“件”与“件”界定不清、多件档案作一件著录等情况。另外,由于一些数字化加工人员责任心不强,在著录过程中粗心大意,错录、漏录、乱录等现象时有发生。一些数字化加工单位为降低成本,通常采用单机进行著录,其一校正确率只能达到60%—70%,甚至更低。目录数据著录错误将会导致相关档案成为“死档”,因此目录著录正确率的重要性不言而喻。
应对做法:按照《档案数字化转换操作规程》(DB32/T 1894-2011)的要求,目录数字化要求著录字段基本反映档案信息,能满足利用者在查阅中进行检索。档案的数字化过程也是对馆藏档案进行重新整理的过程,对不规范的页码、条目进行重新编制页码、录入条目,条目的录入要尽可能地反映更多的档案信息,如文号、文件标题、责任者、成文时间、主题词等,通过这些字段可直接提高档案的查准率及查全率。特别是涉及人的档案,著录时必须著录齐全,对于诸如任免、名册等可以建立专题档案数据库,档案馆要对著录项目是否完整、著录内容是否规范、准确等进行严格的审查,对不合格的数据要严格按要求进行整改,以达到规定标准。另外,为解决档案著录错误问题,根据笔者实践,可以通过双机著录、软件比对的方法来提高著录的正确率,同时也能极大地提高劳动效率、降低劳动成本。详见表1。
表1
三、扫描环节
扫描环节是数字化加工的中心环节,档案扫描的质量直接影响到档案数字化成果的利用质量及利用效果。扫描环节中容易出现的问题具体表现为:图像的完整度清晰度不高、分辨率不够;档案错扫、漏扫;由于纸张凹凸不平,阴影严重,达不到规定的影像标准,影响OCR识别的准确率。
应对做法:当前按照相关规范标准,数字化扫描的参数一般选择24 位全彩色方式、300dpi 精度。这个参数对于绝大部分档案是适用的,但对于某些特殊类型的档案,如原件字迹模糊、字体过小,计划用来仿真的档案等,扫描精度需要适当提高。需要仿真的档案一般采用600dpi 以上的精度进行扫描,字迹模糊及字迹过小的档案选取的精度标准以100%大小观察电子图像能够清晰辨认文字为标准。精度的选择并不是越高越好,因为更高的扫描精度会带来更大的存储压力。
对于错扫、漏扫的情况,笔者认为要重点从两个方面着手控制。一是以案卷(件)为单位实施严格的校对工作,确保电子文件与实体档号100%正确对应,杜绝错扫现象。二是对于漏扫的问题,可以通过图像个数与页码校对的手段来快速发现。具体做法为通过软件工具将每个案卷(件)文件夹中的图像个数与相应的电子档案目录中的页数字段进行比对,比对不一致的结果无非是漏扫、录错两种情况,因此这也是对电子档案目录的一次核对,起到了一举两得的效果。
一些年代久远的档案纸张难免会有褶皱变形现象,这样的档案如果直接扫描文字会出现波纹、阴影等,这样的图像在进行OCR识别的时候会严重影响识别的正确率。对于此种类型的档案,在扫描前应先做熨平处理。具体做法,可将弯曲褶皱的档案放在两层特氟龙薄膜之间,用温度调至70摄氏度左右的干式电烫斗对其熨烫,熨平后的档案纸张再进行扫描,不仅图像质量能够大幅提高,而且对档案原件也相当于做了一次简单修整。
扫描环节中电子图像的存储格式也是一个容易出问题的地方。我们的经验是,加工过程中一律采用单页JPG 的存储格式,以案卷(件)为单位建立电子图像目录结构,以案卷(件)档号对文件夹命名,以页号(顺序号)对JPG 文件命名。按照这种标准,可以通过软件工具批量地转换成PDF、TIF 等其他多页文件格式。
四、图像处理环节
图像处理环节最容易出现的问题是图像倾斜度校准。目前行业内对图像倾斜的要求一般为正负1度。这个倾斜度一般肉眼很难觉察出来,并且如果没有一个标准参照物,由于每个人的主观感觉不同,根本就没办法去认定正负1 度的倾斜标准。
应对做法:可以在加工中使用带有网格标尺功能的显示器(如华硕PA238Q)进行图像处理,打开其网格标尺功能,并以此为参照物,对电子图像进行纠偏处理,确保图像倾斜度不超过正负1度。
档案数字化是一项繁重而复杂的工程,做好档案数字化,将是数字档案馆立足自我、服务社会,实现档案信息资源深入、长远、广泛利用的生命线,因此,我们要以“质量第一”为前提,稳步推进馆藏档案数字化,切不可盲目追求数量和进度,否则将不利于数字档案馆的健康持续发展。