档案数据化背景下的电子文件管理体系探讨
2021-11-22戴秀文
戴秀文
(内江师范学院 档案馆,四川 内江 641100)
0 引言
随着档案资源总量的增加,近年来,各个档案馆借助信息技术开展了一系列档案信息化工作。其中,电子文件管理是档案信息化进程中的核心工作。目前,档案信息化建设正逐渐由档案数字化迈向档案数据化。档案数据化强调对档案全文资源进行存储、管理、利用,与档案数字化仅改变档案存储载体有着很大的不同。在这样的背景下,如何建设电子文件管理体系是一个亟待探讨的问题。
1 电子文件管理体系的现状
随着档案数字化建设的开展,电子文件应运而生:将传统档案文件录入计算机储存,即形成了电子文件。然而这样的操作方式仅仅是将信息从传统存储载体转移到了计算机,虽然具有易于保管等优点,但并没有改变文件管理方式,更不可能利用更先进的信息技术,例如数据挖掘技术等,对文件信息进行深入的分析利用。近年来的档案数字化建设的主要工作之一就是将传统档案录入至计算机储存,经过多年建设,目前已较为成熟。随着大数据时代档案数据量的增大,以及对档案服务利用需求的增加,各个档案馆开始向档案数据化转型。档案数据化是将数字档案资源转换为可供分析和处理的档案数据资源的过程。因此,为了适应档案数据化建设,电子文件管理体系也应当与数据化工作对接。
档案数字化工作一般同时归档纸质和电子两套档案。随着档案数据化建设中对电子文件的深度开发利用,各档案部门开始尝试实施电子文件单轨制管理。单轨制管理方式仅以电子方式对文件进行归档、管理与利用,电子文件与纸质文件拥有同等的法律效力。目前,一些部门已经实施了档案单轨制管理机制,例如上海自贸区就推行了相关政策,国家自然科学基金委员会开展无纸化试点,推进核心业务单轨制。档案单轨制管理机制对电子文件的管理、利用提出了更高的要求,仅仅采用数字化储存的方式不足以支撑单轨制中对文件分析、利用的需求。
档案数据化的重点之一是对档案内容资源的深度挖掘与利用,因此电子文件知识服务也是目前工作的重点之一。相比于传统档案的开发利用,电子文件知识服务的重点是除了要为用户提供文件等一般特征信息之外,能够使用户直接检索内容,还要使用户能够从多维度了解案卷之间、全宗之间的关系。目前,电子文件的组织方式基本还处于数字化阶段的实现方式:通过关键词和目录的索引对文件进行检索和匹配,查询的结果是包含这些字段一整份电子文件,并不能深入到电子文件的全文内容,更不能提供众多电子文件之间的关系,尚需用户自己去组织推理从而形成知识。
2 现有电子文件管理体系存在的问题
2.1 电子文件数据化程度不足
目前的电子文件管理工作主要存在两点问题,一是管理效率需要提升,二是需要对文件内容进行深度开发以更好地为用户提供服务。这两点问题的解决依赖于电子文件数据化。本质上这两点问题是由电子文件数据化程度不足导致的。具体而言,现有的电子文件基本是基于档案数字化构建的,对各类文件的保管方式进行了电子化处理,文件的载体就会发生改变。而数据化的电子文件是将数字化形态的文件进一步转换为可识别的文本与可分析的数据,从而开展全文检索、文本挖掘、数据分析等工作。对全文的检索相比关键词检索从根本上提高了检索速度,从而提高管理效率。而文本挖掘、数据分析等工作使文件可以转化为知识,从而为用户提供更好的服务。数字化的文件是数据化的基础,但是数据化在对文件全文信息的识别和处理上的能力是数字化不能胜任的。综上所述,虽然现有电子文件为开展后续工作,诸如知识服务等奠定了基础,但其数据化程度不足,故亟待加强数据化建设以实现更高效的管理和更好的服务。
2.2 电子文件的信息安全防护存在不足
保证文件的安全,文件的准确性、完整性是开展一切工作的前提。电子文件将文件从物理空间的模拟态转变为由0、1 表示的数字格式,因此电子文件的安全问题从物理空间内的实体安全扩展到了网络空间的信息安全。长期以来,各档案部门制定了一系列严格的规章制度以保证实体文件的安全性。在档案数字化建设过程中,各档案部门一般都建立了基本的信息安全防护体系,例如加密、部署防火墙等。然而,对于数据化背景下的电子文件信息安全防护体系而言,还需要根据数据化的特点加强信息安全措施,例如数据安全、云安全、远程访问控制等,这部分安全措施的建设目前还比较薄弱。由于目前各档案部门仍在探索和建设档案数据化、电子文件等信息化管理体系,因此各部门的重点基本上放在档案数据化和电子文件本身的建设上是无可厚非的。但在建设档案数据化过程中,应当同时建设信息安全防护体系。事实上,信息安全防护建设是基础性的长期工作,通过构建不断更新的、全面的安全防护体系,才能保证档案信息系统的安全稳定运行。
2.3 相关制度建设尚不完善
建设档案数据化背景下的电子文件管理体系采用了很多新的信息技术,因此需要制定相关制度和规范。具体而言,应根据数据化建设的工作流程逐一分析并制定相应制度,例如,制定纸质档案文件录入计算机的规范;制定文件全文数据库建设规范等。目前,这些相关制度建设还很不完善,例如,现行关于数据转换的标准中,仅有国家档案局颁布的《档案关系型数据库转换为XML 文件的技术规范》。
3 档案数据化背景下的电子文件管理体系建设
建设电子文件管理体系是一项系统的、规模较大的工作。在档案数据化的背景下,主要侧重于数据化,具体的电子文件管理体系建设措施如下。
3.1 加强电子文件元数据管理
元数据是指从信息中提取的用于说明其特征、内容的结构化数据。例如,对于一篇论文,“题目”是其元数据项目,“档案数据化背景下的电子文件管理体系探讨”是其对应的元数据内容。元数据为文件资源提供了检索点,标准化的元数据对数据之间的关系进行了结构化的详尽描述,可用于数据传输、分析。因此,元数据对于档案数据化背景下的电子文件相当重要,加强元数据的管理是建设档案数据化的一种方式。对于元数据项目,需要根据需求提前进行设计,在设计时要尽可能全面地包含电子文件整个管理过程中的各类信息,并体现各个项目之间的关联性。文件录入后,这些元数据项目不可更改,以保证电子文件的真实性。对于元数据内容,保留一定的开放性。例如,将元数据内容与数据分析系统对接,并设置为只读,从而在保证数据完整性的情况下,为文件深度分析利用提供基础数据。
3.2 保障电子文件信息安全
常规的信息安全措施,例如防火墙、入侵检测系统等能够一定程度上保证内网的安全性。但在大数据背景下,随着数据化工作的开展,各档案馆数据量的增大,电子文件往往不再只保存于档案馆内部,而是在多部门之间传输、共享,甚至存储于云端。数据在档案馆内网和外网之间反复流通,存在信息安全隐患,而常规的信息安全措施对此防护效果不好。因此,电子文件的信息安全重点主要是数据安全,以及云安全和远程访问控制。数据安全主要针对储存电子文件的数据库,需及时扫描发现数据库中存在的漏洞,记录数据库的各项操作日志以及对部分数据进行加密等。对于云安全,重点是选取具有良好资质的云服务商,并在云中配置相应的安全防护措施。对于远程访问控制,重点是管理档案馆以外的部门或用户的访问权限,要求每个用户配置强度较高的密码,记录每个用户的操作日志并及时审核。
3.3 改进文件分类方式
分类是文件管理过程中最重要的环节之一,是库房管理、检索利用等工作开展的前提。在数据化背景下,电子文件的数量和类型都越来越多,如何安全有序管理成为分类面临的一大挑战。目前的分类制度是人为主观设置主题,容易出现同一部门在不同领域中形成的档案被割裂在不同门类。此外,从整个部门层面看,缺少对文件资源管理的整体视角,包括文件数量、内容、关联关系等,文件分散在各种互有壁垒无法共享的系统之中。一种改进思路是采取智能的文件分类方式,即关注“文件为何记录、怎样记录”,而不是按照部门职能对文件进行分类,从而打破壁垒达到共享目的。具体而言,在整体层面梳理各部门职能,以职能划分形成文件分类的大类条目。之后再自上而下进行梳理,进而形成分级树状分类规范。在改进文件分类方式过程中,首先设计一套顶层的文件分类属性,以3.1 节中阐述的元数据方式对这些属性进行结构化管理。这些属性应当覆盖文件管理的全流程。例如,保管期限、利用范围等都是常见的属性。此外,要将各环节细化为单个基本管理单元,对每个管理单元制定相关的管理制度,从而做到精细化管理。