纸质档案数字化的原则、路径与方法探讨
2020-12-29魏自鹏
魏自鹏
(安徽医学高等专科学校, 安徽 合肥 230000)
随着计算机和网络技术的普及应用,人们获取信息的方式和途径已经发生了根本性变化,为适应新的形势和环境,档案工作也应,一个明显变化就是对传统纸质档案进行数字化加工已成常态[1]。然而,为使纸质档案数字化加工工作更加科学高效,必须选择合适的加工途径,明确具体的操作流程、方法细节以及注意事项,为此,笔者结合工作实践试图加以梳理和探讨。
一、明确档案数字化的目标与原则
为保证档案数字化工作的顺利完成,必须明确档案数字化的总体目标,做好总体规划和分步计划。包括需要数字化加工的档案门类、数量、范围,完成的时间节点,质量要求。同时应遵循“先行试点、重点优先、分步实施、稳步推进、品质优良、安全保密”的原则。这里的先行试点是为了减少失误和损失,选取少量档案先行试验,以便于熟悉工作流程、积累工作经验;重点优先,是指利用率高的、珍贵的、重要的档案优先加工;分步实施、稳步推进则是指根据自身人财物的实际,分批、分步完成;品质优良、安全保密则要求档案数字化副本清晰度高、格式规范,尽量做到纸质档案只扫描一次,最大限度保护档案实体及档案内容信息安全。
二、做好档案数字化的前期准备与处理
纸质档案数字化的前期准备和处理,关系到档案数字化的成败和工作效率的提高,应重点做好以下几个方面。
1.档案管理软硬件配置
需要配置能够挂接纸质档案数字化副本的性能较为优良的档案管理软件,最好是基于B/S架构的网络版软件,能够实现全文检索和数据挂接等功能,也便于节省后期软件维护、升级和开发成本,以及档案的开发利用。硬件方面,需配置必要的服务器,并预留适当的存储空间,一般按每年新增数字化副本量的3~5倍预留即可。服务器可以单独购买配置;也可以由单位统一配置,划出一部分存储空间(虚拟动态的),采用云服务模式。而统一配置的云服务模式因具有规模效应、节省运维费用、减少档案馆(室)对计算机专业人员的依赖等优点,越来越成为一种趋势。
如果是单位自行加工档案,还需要配置必要的扫描仪,最好是高速双面进纸加平板的双平台扫描仪,进纸速度在40页/分以上,至于纸张较大的图纸,如财力有限,可租赁专用扫描仪。此外,还需购买(或自行开发)配套的文档扫描影像处理系统(如锐尔文档扫描影像处理系统)。主要功能包括:对电子文件(夹)名的批量替换、更改、添加前后缀,根据导出的档案数据库条目档号(导入EXCEL表)批量创建电子文件夹和文件名,对扫描图片的批量纠偏、旋转、去黑边、去污、自动合成PDF(包括双层PDF)文件等,以便对扫描图像进行高质量地处理和向档案数据库进行批量挂接。
2.人员准备
如果是单位自行数字化加工还需配备恰当的工作人员,可以通过内部培养、借调或外部招聘的方式来实现。基本要求是能够熟悉档案数字化加工的基本流程,会使用数字化加工软件、扫描设备等,能够完成扫描图像的去污、纠偏、图像转换等基本操作即可,并不需要多专业的计算机技术人员。现实中,从事档案工作的人员多是文科背景,一听说需要软件操作、图像处理等计算机方面的技能就会退缩,甚至望而却步,其实档案数字化工作一般工作人员通过学习培训完全可以胜任。
3.熟悉相关法律法规
应熟悉和理解国家制定的档案数字化方面的法律法规、行业标准,主要包括《档案法》、《纸制档案数字化规范》(DA/T31-2017)、《档案服务外包工作规范》(DA/T68-2017)、《电子文件归档与管理规范》(GB/T18894-2016)、《归档文件整理规则》(DA/T 22-2015)、《档案著录规则》(DA/T 18-1999)、《纸质归档文件装订规范》(DA/T 69-2018)等,重点知悉纸质档案数字化副本的技术规范、质量要求等。《纸制档案数字化规范》(DA/T31-2017)规定:“扫描分辨率应不小于200 dpi。如文字偏小、密集、清晰度较差时,建议扫描分辨率不小于300 dpi”;“纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式”;“从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为OFD(中国标准)、PDF(国际标准)等其他格式”。
从实际工作来看,建议尽量将档案材料扫描成彩色模式、扫描分辨率最好全部不小于300 dpi,如有特殊需求,分辨率另行选择,如“进行仿真复制的数字图像分辨率不应低于600 dpi”;图像保存为TIFF、JPEG(或JPEG2000)、PDF(或OFD)格式即可,需知“不同格式适用的场景不同。TIFF存储信息量大,适用于图像的长期存储;JPEG具有调节图像质量的功能”,可运用不同的压缩比找到图像质量和文件大小之间的平衡点;而PDF、OFD格式便于网络应用[2];对所载信息珍贵且使用频率较高的档案最好转换为双层PDF文件。这里的双层PDF文件实质是“PDF文件的一种衍生品,包含文本(Text)和图像(Image)的双层结构”,图像层保持原始档案效果,文本层支持选择、(全文)检索和复制等功能[3]。
4.档案材料处理
应对需要数字化加工的档案材料进行重新审查,重点检查档案纸张情况,包括纸张种类、质地、尺寸大小、损坏情况等,明确哪些纸张适合快速批量扫描,哪些纸张只能通过平板扫描,哪些需要专门设备进行扫描,发现破损的应进行修表处理。同时,确保档案数据库目录和档案材料一一对应、准确无误,案卷级档案中没有卷内文件目录的应重新著录。
三、档案数字化的方式选择
档案数字化的方式主要有两种:一种是外包给专门的档案数字化服务公司;另一种则是单位自行加工。当然,也存在两者相结合的方式以及其他衍生方式。至于要选择哪一种,需根据自身实际情况定夺。一般来说,对于存量纸质档案,如果数量较大,本单位设备、技术和人手有限,又想尽快实现档案数字化,可通过服务外包的形式;相反,则可以选择自行加工。但对于每年新增的纸质档案,出于档案安全和工作便利,建议还是单位自行加工为好。
四、档案数字化的具体方法
1.选择服务外包的方法
若要选择服务外包,一般是通过招标的形式来完成。这里,除做好前期准备和档案材料处理之外,有必要做下市场调研,了解实时市场行情、加工价格等,以便做好经费预算。之后就是招标书的编制与发布,在标书撰写时,可参考其他单位的成功经验,同时将国家规范、行业标准融入进去,写明需加工的档案内容、纸张材料、规格尺寸、加工数量、工作场地、工作流程、设备保障、工作时限、服务质量要求以及验收标准等具体细节,尤其要强调扫描图像的色彩模式、分辨率、存储格式、最终成果的形式,以及是否需要OCR识别、识别的精度等。
标书的发布,最好选择知晓范围大的平台,务必找到有资质的外包公司,不建议采取低价中标的方式选择一些没有资质的外包公司,以免加工质量不达标,白白浪费了人力、物力和时间。外包公司在作业期间,务必派专人对接和负责,重点做好案卷借还、工作监控、数据保密。 需要强调的是,案卷应当天借还,当天加工多少借还多少;工作监控绝不是一种形式,务必做实做细,且监控数据保存期限不应低于3个月;加工的数据成果也应通过必要的方式进行加密处理,以确保档案实体及数据信息安全。
2.自行加工的方法
应首先制定详细的档案数字化加工方案,确定工作流程,一般包括案卷拆分、扫描加工、案卷著录、数据挂接、质量检查等环节。
案卷拆分可以和案卷前期处理放在一起,拆除装订线、金属物(不能拆除的应专门处理),并根据纸张规格、质地、案卷类别等进行分类。
扫描加工时,应先建立项目文件夹,然后根据档案数据库中的档号建立子文件夹(案卷级还应建立案卷级文件夹),之后即可批量快速扫描,并建议将扫描图片以“档号+件内页数流水号+扩展名”的方式命名后放入相应的文件夹中,“件内页数流水号”可用4位阿拉伯数字标识,不足4位的,前面补“0”。如,名为“2020文书档案数字化JPG副本”的项目文件夹中,全宗号为“Z101”,机构代码为“BGS”、保管期限为“永久”的第3件档案有2页,其命名可为:子文件夹名“Z101-WS·2020-Y-BGS- 0003”,图片名“Z101-WS·2020-Y-BGS- 0003- 0001.jpg”和“Z101-WS·2020-Y-BGS- 0003- 0002.jpg”。转化为PDF的数字化副本命名方法类似,如上例可为“Z101-WS·2020-Y-BGS- 0003.PDF”。当然,扫描图片一般需经过纠偏、去污、去黑边等处理,以提高图片质量,有些还需经过OCR识别,转化为WORD、双层PDF等格式。OCR识别及双层PDF制作可通过汉王、泰比(ABBYY)、成者(CZUR)等软件实现。为提高加工速度,最好充分利用软件或程序,并提高软件操作熟练程度,能高速扫描的尽量高速扫描。档案数字化副本可根据档号自动向档案系统数据库挂接。
五、总结
新时代,随着档案信息化、数据化、智慧化建设的不断深入,纸质档案数字化已经成为一种常态化和基础性工作,为传统纸质档案的数据挖掘、知识管理等深层次开发利用带来便利。档案数字化要提高效率、确保质量、少走弯路,就应明确目标,做好规划,遵循一定的原则;配备相应的工作人员,配置必要的软硬件;熟悉相应的法律法规和技术规范,做好档案材料的前期处理;并根据自身实际选择合适的方式和路径,积极稳妥地向前推进。同时,档案工作者应积极利用计算机程序、人工智能等时代先进工具为工作赋能,尽快掌握档案数字化加工技能,熟练操作流程,力争自行数字化档案,尤其是新增档案,以适应档案工作时代发展需要。