电子档案文件保存技术初探
2020-04-14孙进
摘 要:电子档案文件保存技术在“互联网+”时代面临一系列问题与挑战,为解决这个难题,本文试图在电子档案长期保存的技术中提出从技术路线、文件格式、存储载体、元数据管理和软件功能等方面的需求。
关键词:电子档案文件 长期保存 技术
中图分类号:G27文献标识码:A文章编号:1003-9082(2020)03-00-01
随着互联网时代的到来,新科技新技术的飞速发展,政府无纸化办公逐步推进,纸质版档案文件慢慢将被电子档案文件替代,以几何级的速度迅速增加。
电子文件(档案)是指国家机构、社会组织或者个人在履行其法定职责或处理事务过程中,通过计算机等电子设备形成、办理、传输和存储的数字格式的各种信息记录。
如何长期保存电子档案,这一课题迅速摆在每一个档案文件管理者的面前。电子文件(档案)长期保存,是指用一种可靠的,科学合理的方式,长期维护电子文件(档案)真实完整有效的行为。重要的信息资源是电子文件(档案)。它们是从事政治、军事、经济、科技、文化、等活动的国家机关、社会团体和个人形成的对国家和社会具有重要价值的各种文字、图表、音像等形式的直接历史记载。它们也是社会数字资产不可或缺的一部分。实现电子文件(档案)的长期保存,既是文件与档案部门的重要问题,也是全人类的共同使命。
电子文件(档案)长期保存的解决问题,一定要确定长期保存电子文件(档案)的要求,制度、管理、技术、安全等方面包括其中。必须明确电子文件长期保存的要求,包含制度、管理、技术、安全等方面。本文是重点是从技术层面进行探讨,包括技术路线、文件格式、存储载体、软件功能和元数据管理等。
2012年,全国电子文件管理工作联席会议发布了《电子文件真实性保障和长期保存等关键技术研究》课题。本文对电子文件长期保存的关键技术进行了研究,并提出了初步的解决方案。电子文件(档案)长期保存的研究成果,在国内外相关部门都没有提出完整、权威的技术要求。目前这方面的难题远远超出取得的成绩,这与电子文档管理面临的五大技术挑战相关。
一是数据规模大,在这个信息资源持续快速增长的大数据時代,管理部门面临电子文件(档案)日益增多的形势,管理部门面临着电子文件(档案)不断膨胀、承载范围超出管理部门能力的局面。
二是格式多样化,它主要体现在多样性的电子文件的数字格式,这意味着管理部门需要处理电子文件各种不断变化的格式。
三是类型复杂性,电子文件不仅格式多样,而且数据类型也越来越繁杂。除了传统类型的文本、图形、图像、音频和视频文件外,各种新的媒体文件和数据文件也是层出叠现,让人目不暇接。
四是生命周期短,在信息技术飞速成长的前提下,具有生命周期相对较短的特点是硬件、软件、文件格式、存储载体等。倘若不是按照文件生命周期的特点来定制解决方案,问题就无法解决,将会使问题更加复杂。
五是技术变化快,信息技术一直处于不断成长蜕变的过程中,如何使用相对稳定前瞻的技术发现、传递和处理过去的电子文件,保证改进后的新技术含量的方法与以往保存技术的相容性和连续性是管理部门面临的挑战。
面对以上这些问题和挑战,我们文件和档案部门和从事这项工作的工作人员应该如何解决呢?在对国内外相关研究项目进行分析、总结的基础上,充分考虑电子文件(档案)的特点,从技术路线、文件格式、存储载体、存储方式等方面提出了电子文件(档案)长期保存的技术要求,元数据管理和软件功能。各部分技术要求的主要内容如下:
1.技术路线:技术路线需求主要包括更新、迁移、仿真、封装、再生五个方面内容。
信息更新是指原始的技术环境下,适时重写信息数据,将数据流从旧存储介质转移到新存储介质上,防止由于存储介质物理性能变化而引起信息丢失的方法。例如:将过去的磁盘、光盘上的信息转存到硬盘中存储,因为过去的磁盘、光盘容易损坏,信息易丢失。迁移是持续的将电子信息从一种技术环境转移到另一种技术环境,这意味着基于字符的信息可以从一种存储介质传输到另一种存储介质,以便长期保存电子信息。仿真是用一个计算机系统克隆另一个计算机系统,使两者的操作系统功能完全的相同,也就是说,前者接收的数据与后者相同,并且后者相同的程序可以执行。封装技术是指通过规范电子档案文件的封装过程,为电子档案文件提供统一的封装格式,保证电子档案文件及其元数据的完整合一性。封装技术是指电子档案的封装过程,为电子档案提供统一的封装格式,确保电子档案(文件)及其元数据的完整性。再生性保护技术是一种保护措施,如建筑物数据、图纸等,能将过去一些有价值的电子信息及时转换成微型或纸质媒体。
2.文件格式:文件格式需求主要包括格式开放、文件自包含、格式字描述、可转换、支持技术认证机制等方面内容,结合各种格式电子档案的特点,对其进行了扩展。
格式开放主要包括公开发布的相应标准和技术规范,确保简洁明了的格式标准和技术规范,不受专利、许可等限制。文件自包含主要是指文件中呈现的所有信息必须完全包括所有字体的字形描述信息或嵌入式字体程序信息、光栅图像、矢量图形、颜色信息、音视频编码信息等。格式自描述主要指设置标准元数据集可以与国际国内相关标准建立映射),以文本方式(通常是XML)嵌入到文件中,并且易于提取和检索等。支持电子档案其他格式和长期保存格式的相互转换,还支持电子档案过时的长期保存格式向新的长期保存格式的转换。支持数字签名的技术认证机制,各种操作系统和硬件平台支持使用数字签名,并且数字签名的所有信息都是完全独立的。
3.存储载体:一般来说,电子档案的存储周期比存储载体的寿命长,这使得电子档案的长期保存受到存储载体技术发展的制约,就电子文件(档案)的存储载体类型而言,磁性载体目前比较成熟和普遍,光学载体和电(半导体)载体三类,每种载体都有自己的应用领域。一般有以下几种存储方式:
在线存储,电子档案一般直接存储在信息系统中,通过应用软件可以实时存取,在目前的技术条件下,硬盘和基于硬盘的各种存储系统(磁盘阵列、NAS存储、SAN存储、集群存储等)仍然是主流的存储方式;对于具有高安全性要求的数据,可以考虑使用特殊的WORM磁盘(一次写入和几次读取硬盘)。
在线备份与在线存储结合使用,定期将数据备份到本地备份设备,弥补了在线存储中数据丢失等安全风险。目前,磁带机(库)设备(以磁带为载体)或虚拟磁带库设备(以硬盘为载体)是主流。
本地備份、异地保存:一种是将在线备份数据直接发送到磁带或光盘到另一个地方存储;另一种是在本地再做一次备份,送到另一个地方保管,他们大多使用光盘作为备份介质,为了避免数据损坏或修改,要求采用一次性写入只读光盘。近线存储可用于实时性要求较低的数据。
在以往的解决方案中,以光盘为存储载体的光盘库等设备主要用于近线存储,随着硬盘成本的降低和安全性的提高,近线存储也逐渐采用各种基于硬盘的存储系统。
异地(容灾)存储,通常,数据通过网络直接传输到远程存储设备,例如,当今广泛使用的网络云硬盘也是以硬盘为基础,以硬盘为主要载体的各种存储系统。主要防止地震、水灾、火灾等不可抗力对信息资源的破坏。
异质备份,对于特别重要的电子文件,为了电子文件的长期存储和安全存储,如将电子文件从数字信号转换为模拟信号并存储在缩微胶卷上的多格式备份。
4.元数据管理:元数据保证并证明了电子档案的真实性和凭证价值,它对电子档案的保护和长期保存、电子档案的有效管理、电子档案的方便查询和利用具有重要作用。
5.软件功能:软件功能需求包括存储策略管理、存储环境管理、备份载体管理、文件仓库、文件检测、格式转换、文件迁移、文件提取和系统管理。软件功能需求是电子档案长期保存需求的固化,把理论研究成果转化为实际应用是关键。
以上归纳总结的电子档案文件长期保存需求,特别是软件功能需求还需在电子档案文件接受和长期保存系统建设工程项目中得到实践验证。但是随着信息技术不断高速的发展,各种新技术新媒体文件、数据文件层出不穷,电子档案文件的管理人员和研发人员还需要结合实际应用过程中反馈的问题进行进一步的梳理总结,提炼电子档案文件长期保存的新技术,使其更为完备。
参考文献
[1]王贺芹.电子文件及电子档案管理初探[J].现代图书情报技术,2002:66-68+77.
[2]邱晓威.电子文件与电子档案的管理问题与对策[J].中国档案,1999,(03):32-34.
[3]刘伟晏.电子文件归档后的保存、维护与利用[J].中国档案,1999,(05):31-33.
[4]冯惠玲.电子文件与纸质文件管理的共存与互动[J].中国档案,2003,(12):40-42.
[5]魏招秀.谈电子档案的长期保存[J].兰台世界,2010(24):14-15.
作者简介:孙进,男,(1971-)安徽巢湖人,安徽省档案学会会员,主要从事信息技术和档案管理研究。