纸质档案数字化扫描的实践
2019-02-18姜卫杰
姜卫杰
摘 要:档案数字化是指利用数据库技术、高速扫描技术等,将纸质档案进行扫描处理,系统地组织档案信息库的过程。本文结合档案数字化扫描的实践,从前期纸质档案数字化扫描准备、纸质档案数字化扫描的过程、纸质档案数字化后的存储方面论述了如何对纸质档案进行数字化扫描。
关键词:扫描;档案;数字化;纸质;实践
1 前期纸质档案数字化扫描准备
1)纸质档案的准备。在扫描前,必须取出活页夹,检查文档中是否有任何干扰(如订书钉、碎纸),以免卡纸和损坏扫描仪。有必要保持文档的清洁并将其放入扫描仪。不能扫描的损坏部分应先修复粘贴。扫描前应将原件的扫描质量平整;纸张太薄且透明(如信纸、便签纸)、纸张太厚、照片等采用高速扫描仪平扫;当有附小页、纸张时,页面的大小将为在平板上分别扫描。
2)拆卸捆绑。在删除文档中的绑定时,应注意在删除绑定时保护文件不受损坏;在不删除绑定的情况下,应保护影响扫描工作的文件。
3)区分扫描件和非扫描件。根据需要在同一文件中将扫描仪与非扫描仪分开。通用文件的区分原则是删除无关的重文件,不能扫描有正版或原版文件的文件。
4)页面裁剪。对于严重损坏不能直接扫描的文件,应先进行技术维修和粘贴。对皱纹影响扫描质量的原始零件,应在扫描前进行处理(平整或均匀烫伤)。
5)扫描设备和软件的选择。考虑到本单位档案的数字扫描大部分是A3和A4,我们配备了A3和A4扫描仪。当我们需要扫描一些大型文档时,例如基础设施图纸,我们使用块扫描方法,然后使用图像处理软件进行图像拼接。为了保证拼接后的信息完整性,需要注意几个问题:第一,在扫描大面积块时,要保证每个块有一定的距离,没有重叠部分;第二,要将这些数据块单独存放在文件夹中,统一存放。第三,扫描的图像属性要统一。
2 纸质档案数字化扫描的过程
2.1 扫描范围的确定
在实施纸质档案数字化之前,首先要确定档案数字化的优先范围。合理确定扫描范围:先扫描利用率高的档案;先保存利用率低、价值高但不适合扫描的档案。根据《档案查阅登记表》、《使用效果登记表》、《咨询人意见书》、《档案出入境登记表》中的相关项目,确定了整个档案扫描的优先顺序、年度优先顺序、内容优先顺序等,并对档案进行了整理。有计划、有秩序的扫描。如:黄热病疫苗使用率高但无计算机管理的原始记录和外国留学生的外语形式被纳入优先扫描范围。
2.2 扫描参数的选择
首先是分辨率,原则上,分辨率的参数是由笔迹和纸张的质量来决定的,但由于速度的原因,统一的技术条件和标准不能完全实现。一般来说,文件的分辨率为300dpi,但对于笔迹不清楚的特殊文件,应采用较高的分辨率。例如,当扫描带有印章的文档时,尤其是带有外国印章的文档时,我们应该将分辨率设置为600 dpi。档案的书写材料和字体不同,扫描参数的选择也有很大的差异。但原则上,我们只需掌握清晰易读的图像,就可以满足浏览和搜索的需要。其次是颜色模型,颜色模式分为黑白、RGB颜色、灰度、CMYK颜色、LAB、Web/Internet颜色、256色等,一般文本文件选择黑白,图片选择RGB颜色或256色。最后是图像模式,根据扫描文件的特点和清晰度要求,可采用编辑文本模式,也可采用彩色图片模式,如黑白图片、彩色图片等类型。
2.3 纸质档案数字化扫描方式
1)文件数字化。(1)建立数字图像存储文件夹。在项目单元中建立用于存储扫描数据的文件夹,并根据文件的流水线编号建立子文件夹。(2)图像格式及数字图像命名。数字图像为jpeg格式。图像的压缩比设置为85。根据三位流水线编号:aal jpg”002.jpg,003.jpg”,”003.jpg”,”和”图像名称的流水线编号必须与对应页面的页码一致。(3)数字图像的扫描彩色模式。通常采用颜色模式,颜色位数设置为24位。对于笔迹清晰、无灰底、无印章、无插图的黑白文件,可以采用黑白二值模式扫描。(4)数字图像扫描分辨率。对于页面上手写或插图清晰的文件,分辨率设置为200 dpi。对于小、密集、清晰度差的文件,分辨率提高到300。(5)数字图像扫描方式的选择。利用高速扫描仪的自动送纸功能,可以扫描出质地较新或较好的A3、A4格式的纸张文件。质地差、易碎、薄、软、厚的文件应采用平板扫描。大于A3的文件应使用大型工程扫描仪进行扫描。(6)扫描页码检查。在扫描档案前,必须检查纸质档案的页数和页数是否与目录和参考表中记录的页数一致。使用自动纠偏软件。如果用软件对彩色图像进行自动校正,校正角度较大时可能会自动填充白色边缘。这些白色边缘应手动切割和去除。在图像裁剪中,应注意保留原始图像的内容,以保证图像的完整性。
2)图像数字化扫描。以24位彩色模式扫描的文档的分辨率为100dpi;(上述模式的分辨率设置在A4纸上,其他规格根据需要进行调整)扫描行数、阈值、亮度、灰度和对比度可根据扫描文档材料的清晰度进行调整;(1)创建以项目为单位存储图形数字数据的文件夹,然后根据文件的流水线编号建立子文件夹(同一文档的数字化)。(2)数字图像采用jpeg格式,图像压缩比设置为85。图像文件按照三位数流水线编号进行处理:ool;jpg,002 jpg,003.jpg””。图像名称的管道编号必须与对应页面的页码一致。(3)图纸数字化应采用颜色模式,颜色位数应设置为24位。(4)将绘图扫描分辨率设置为200dpi。(5)所有图纸均采用大型扫描仪(工程图纸)进行扫描。(6)数字化图纸的页码检查和质量初审要求与数字化文件相同。
以24位彩色模式扫描的文档的分辨率为100 dpi;(上述模式的分辨率设置在A4纸上,其他规格根据需要进行调整)。扫描行数、阈值、亮度、灰度和对比度可根据扫描文档材料的清晰度进行调整;必要时,可根据原稿的清晰度适当调整扫描分辨率。如果原稿质量差,尺寸小,可以适当提高分辨率;反之,可以相应降低分辨率。增加或减少取决于扫描图像根据原始尺寸显示后是否清晰。
3 纸质档案数字化后的存储
1)存储格式。文本文件存储包括DOC、RTF、HTML、DOT(MS文档模板)和TXT。其中,前两种是最常見的存储格式,后三种不适合文本文件的访问和标准化处理,因此一般不使用。图像存储的常见格式是TIFF和JPEG。前者不丢失图像,但占用较大的磁盘空间;后者是可压缩的,占用较小的磁盘空间,但在数据传输中会有不同程度的损失。因此,在扫描过程中,要坚持正确的工作方法和标准,及时进行数据质量检查,确保扫描文件的质量和效率。
2)储存方法。首先是对纸质档案数字化文件保存和分类,在硬盘中设置多个文件夹并分别命名,分别存储扫描的文件,并根据年份在每个文件夹中创建子文件夹。扫描后形成的文件按年度分类,便于管理和编目,也便于年复一年地检索。其次要对纸质档案数字化文件排列和编号。扫描的图像文件按时间顺序排列,按顺序编号,并形成文档的流水线编号。命名规则为:类别-年份-存储期间-文档编号。例如,”HR 200910001”,其中第一至第二位表示类别,第三至第六位表示年份,第七位表示保质期,第八至第十一位表示文件编号。最后扫描完每个文档后,根据原文仔细检查扫描是否清晰、完整;使用扫描仪并按要求清洁,每次使用后清洁扫描仪,检查电源是否关闭。
4 结束语
通过纸质档案数字化扫描的实践,实现对档案内容的“拷贝”,使其内容传播,不再受限于纸质载体。通过网络化设施,实现档案数字化副本的实时查阅与异地利用,使档案资源利用不再受限于某一时空。
参考文献
[1]李红梅,张栋.纸质档案数字化前处理工作探析[J].档案学研究,2015(04):111-112.
[2]毛海帆.数字化过程中促进纸质档案数字副本凭证效力研究[J].档案学研究,2011(06):66-67.
[3]梁沙,史江.纸质档案数字化工作中存在的问题及对策探讨[J].兰台世界,2011(30):168-170.
[4]张文波.综合档案馆纸质档案数字化思考[J].山西档案,2018(02):99-100.