海洋科研档案数字化关键问题实践
2012-04-11岳晓峰李慧颖孙浩
岳晓峰,李慧颖,孙浩
(国家海洋信息中心天津 300171)
海洋科研档案数字化关键问题实践
岳晓峰,李慧颖,孙浩
(国家海洋信息中心天津 300171)
档案数字化是推进档案信息化建设的重要工作之一,科研档案的复杂性使其档案数字化进程中遇到更多的问题和难题。以海洋科研档案为例,研究科研档案在档案扫描、数字化文件存储、安全防护等数字化建设过程中遇到的关键问题以及经过实践和分析得出的实际解决方法。
科研档案;数字化;实践
纸质档案数字化是档案数字化的重要组成部分,是将传统的纸质档案上记载的文字、图形等内容转化成以二进制数字代码形式记录的,能为计算机网络所识别和表达的数字信息的过程。由于科研档案产生于调查、勘查、试验、研究、统计等多种科研活动中,背景比较复杂,档案形式多种多样,纸质类型“包罗万象”,因此科研档案数字化难度相比其他类型档案的难度大,数字化过程中面临的需要解决的问题较多。
1 纸质档案扫描的标准化处理
档案扫描是档案数字化中至关重要的一个环节,扫描质量的好坏,直接影响数字化工程的成败和数字化成果的良莠。海洋科研档案本体情况比较复杂,制定扫描标准应该慎重,并细化到每个操作步骤。档案扫描包括选择扫描模式和设置扫描参数两个重要环节,海洋科研档案扫描标准主要遵循忠于档案本体内容,保证所有数字化文件信息与其实体信息的清晰度、完整度保持一致,至少达到重要内容与原件内容一致等原则,根据每一件档案实体纸张状况、页面文字清晰度等情况,并借鉴国家或其他行业相关标准制定。在具体实施过程中依据标准执行的同时,结合数字化档案本体具体情况具体分析。
1.1 扫描模式的选择
扫描模式有彩色、灰度、黑白3种。彩色扫描模式捕获的色彩信息最多,扫描效果最佳,但扫描用时是3种扫描模式中最多的,扫描图像占用空间也是最大的;灰度扫描模式可较准确地显示不同颜色内容的色彩差别,扫描图像的清晰度介于彩色扫描和黑白扫描之间;黑白扫描模式可以捕获到没有丝毫色调浓淡变化的纯黑与纯白双色图像,其形成的图像与文档的照相复制品相似,原件的亮度、黑度与色彩是无法通过黑白扫描反映出来的,但黑白扫描速度最快,扫描图像文件最小。
选择的模式不同,图像的显示效果、扫描时间和图像存储所占用空间大小也有所不同。由于海洋科研档案纸质除常见的复印纸、稿纸外,还有铜版纸、图纸、机打纸、相纸等,记载方法有打印字,签字笔、油笔、铅笔等手写字,油墨印刷字、手绘图、照片等,无论采用哪种单一的模式扫描,都不可能满足其需求。在实践中,扫描时则根据不同扫描模式优势、扫描原则和需求,结合纸质特点、档案信息内容情况选择不同的扫描模式。在选择扫描模式时,首先考虑档案有效内容显示清楚。一般复印纸、稿纸等普通材质且质量较好、内容比较清晰的黑白文字和图件等原件采用黑白模式扫描,同样纸质和清晰度的彩色文字、图件原件、重要手写稿、黑白或彩色照片采用彩色模式扫描,内容较不清晰或不清晰的,铜版纸等特殊材质、带色或泛黄的,字迹较不清晰或不清晰的纸质档案均采用彩色模式扫描。其次考虑扫描速度最快化,为提高整个数字化加工工作效率,在上述考虑因素的基础上,海洋科研档案首选黑白模式扫描,其次是灰度模式扫描,只有在必须选择彩色模式的情况下采用彩色模式扫描;再则,考虑数字化环境和条件,在构建海洋科研档案数字化硬件环境时,基于提高扫描速度、加快整体数字化进程的考虑,配备的扫描仪、台式机等数字化设备及移动硬盘、光盘、磁盘阵列等存储设备的综合性能比较高,因此海洋科研档案数字化时扫描模式的选择可以忽略图像存储占用空间、图像扫描时间等因素。
经过实践和分析,海洋科研档案不适宜采用灰度模式扫描。第一,灰度扫描图像显示效果欠佳,不是可读性不够高,就是页面不够清晰。海洋科研档案中需要采用灰度模式扫描的档案不多,但在扫描过程中,灰度模式与其他模式转换又需要花费时间,降低了整体扫描过程的效率。第二,从图像占用空间考虑,虽然灰度模式优于彩色模式,但经过对30页A4幅面不同内容档案采用200 dpi分辨率进行灰度和彩色扫描,扫描后的图像占用空间的比对测试,结果显示平均每页档案灰度扫描比彩色扫描后的图像占用空间少70 KB,100万页档案的空间差量是70 GB。现在存储介质的容量越来越大,70 GB对于TB级存储介质而言已是“轻量级”问题,可以不作为主要考虑因素。第三,扫描速度的快慢和图像存储空间的大小与扫描模式、数字化硬件环境、存储设备等有关。理论上,灰度扫描速度比彩色扫描速度快,但是现代的高速扫描仪大大提高了扫描速度,并缩减了灰度扫描和彩色扫描的时间差。经过测试,A4幅面档案采用200 dpi分辨率分别进行灰度和彩色扫描,平均的时间差在0.5 s,因此灰度和彩色模式的选择可以忽略扫描速度因素。综合考虑这3个因素,海洋科研档案可以不考虑灰度扫描模式。
1.2 扫描参数的设置
海洋科研档案扫描参数的设置与管理和利用需求、扫描模式相结合。以文字为主的数字化文件需要进行OCR识别提供全文检索服务,参数值太低,影响清晰度和识别率,参数值太高,文件太大,影响文件调用和传输速度。经过多次实践测试,海洋科研档案数字化文件中,黑白模式扫描的图像参数设为300 dpi,彩色模式扫描的文件参数设为200 dpi。海洋科研档案中的照片、图纸档案色彩丰富、线条交错复杂,必须加大分辨率增加图像的显示度,因此参数设为600 dpi。
在海洋科研档案数字化过程中遇到一些特殊情况时,再适当调节扫描软件的对比度、亮度等参数,以及采取特殊方法增强清晰度。如双面均有铅印字内容的档案,为了避免背面字透射至正面,扫描时纸张和扫描仪盖板中间加一张白纸,可减轻透字情况;又如某些档案纸质为蜡纸,其特点为透明度较高,直观纸张反面可清晰看见正面的印字,有时反面透字的清晰度较正面印字更清楚,可采取先扫描反面,对扫描后的图像进行镜像,可增强正面字迹的清晰度等。
2 数字化文件的存储
形成的数字化文件命名后按照一定的格式存储,才可进行管理和利用。数字化命名有多种方式,如以流水号命名、按案卷号命名等。海洋科研档案数字化实践中,充分考虑“档号”作为档案实体案卷标识的唯一性,引入“档号”作为名称的一部分,命名为“同案卷档号”+“文件序号”。这种命名方法既体现了数字化文件的唯一性,又实现了数字化文件与同案卷文件目录的一一对应,为数字化文件管理和检索利用提供了方便。
目前国际主流的文件格式有XML、TIFF、JPEG、PDF等,每种格式都有各自的特点和优缺点。其中TIFF格式为非失真的压缩格式,存储的图像质量最好,但是占用空间较大;JPEG格式为压缩格式,支持多种压缩级别,占用空间较少,但它属于有损压缩,易造成图像数据的损伤;PDF格式可以很好地保持图像原貌,且网络传输速度快,可以边下载边阅读图像,为国际电子文档分发的公开的实际标准,但有时存储的图像占用空间比较大;XML格式为可扩展格式,可以在不同系统之间进行信息传输,并能进行全文检索,较适合于网络管理,不太适合档案管理。海洋科研档案数字化文件存储格式本着“占用空间小,图像色彩丢失少”的原则,结合海洋科研档案利用的需求,分别存储为PDF格式、JPG格式、TIFF格式。其中以文字为主的数字化文件存储为多页双层PDF格式文件,以方便文件下载、浏览、传输和OCR识别后的全文检索;色彩丰富的图幅、照片等数字化文件存储为单页的JPG格式文件,作为备份文件或提供图像编辑等高级利用;所有数字化文件单独存储为多页TIFF
格式作为备份文件之用。
3 档案实体和数字化文件的安全保护
在整个数字化加工过程中,档案实体会经过多个环节、多人之手操作,形成的数字化文件经过计算机处理后,会保存在服务器硬盘、光盘、移动硬盘等介质中,一旦发生实体损毁、档案信息外泄或丢失,会造成无法挽回的损失。因此,在数字化过程中,保证档案实体的完整和数字化文件的安全非同小可。海洋科研档案数字化的安全保障主要从管理和技术两个方面着手。
首先,建立健全安全管理制度和强化人员安全保密意识。在海洋科研档案数字化过程中,通过制定海洋科研档案的数字化安全管理办法、数字化操作手册等规章制度,规范数字化加工各环节和流转程序。同时定期对工作人员进行安全保密教育,促使自觉地保护档案实体和数字化文件的安全。
其次,采用技术手段保障安全。主要有:安装杀毒软件和防火墙;设置人员操作权限;设计日志系统记录操作行为;对形成的数字化文件定期异地备份。
纸质档案数字化建设是一项庞大的工程,无论是海洋科研档案,还是其他专业科研档案数字化,遇到的问题绝不仅仅是这些,本文中提到的几个问题和想法仅起到抛砖引玉的作用,借此以期引起业界专家对数字化建设问题的关注。
2012-09-16