档案元数据核心集系统的设计研究
2016-05-14杨文刚崔杰田伟
杨文刚 崔杰 田伟
摘要:档案元数据核心集是依据魂系历史主义思想,从档案历史联系的三个维度(来源、事由、时间)提出的,它既是对档案元数据标准的一种精简,又承载着记录社会实践活动的历史使命。为了更好地记录和管理档案元数据核心集,构建档案元数据核心集系统势在必行。本文以档案元数据核心集系统的设计要求为基础,提出系统的整体设计框架,依据档案元数据核心集系统的设计原则,归纳档案元数据标准,最后介绍元数据的著录流程,并强调对著录后元数据进行动态维护的重要意义。
关键词:档案元数据核心集档案资源整合档案管理系统
Abstracts:Archive metadata core set is come from three dimensions of the archival historical rela? tion,which is based on the thought of historical spir? it, it is not only one compact form of archive meta? data standard, but also bearing the history mission of recording the social practice activity. In order to better record and manage the archive metadata core set , it is imperative for building the system of archive metadata core set. This article is based on the design requirement of archive metadata core set system, put forward the overall design of the system framework, according to design principle of archive metadata core set, summarized the archive metadata criterion, lastly explain the record work? flow of archive metadata, and emphasize the signif? icance that it is important to dynamically maintain the existing metadata.
Keywords: Archive metadata core set; Archive resource integration; Archive management system
在档案管理中,元数据是描述档案资源的内容、结构、背景环境及其管理过程的数据。它既是保障电子档案原始性、真实性、完整性、一致性、关联性、可读性和长期保存性的基础,又是档案资源整合和信息集成共享体系中必不可少的工具。[1]
目前,虽然许多元数据标准被广泛应用于图书、情报、档案等信息领域,但是相似的元数据标准被应用到不同的文献领域却显得较为泛化。从本质上看,档案与图书、情报有所不同,它的研究对象、覆盖范围、管理方法以及服务模式与图情管理存在较大差异,使得将已在图情领域成功应用的元数据标准直接移植到档案管理中显得不切实际。在这种情况下,档案界亟需建立属于本领域的元数据标准,而这就需要结合历史主义精神,[2]从档案的本质属性中挖掘出档案所特有的元数据标准,即档案元数据核心集。
在此基础上,笔者提出档案元数据核心集系统的概念,简单来说,它是一种面向档案元数据核心集管理的应用系统。即通过构建档案元数据核心集系统,赋予档案元数据核心集以生命空间,发挥档案元数据核心集的作用,客观、真实、完整地记录档案历史联系,揭示档案内在的联系,实现档案记录历史的功能。可以说,建立档案元数据核心集系统,一方面,可以使用户通过系统提供的人性化界面对元数据进行操作,实现用户与元数据的直线通话,降低元数据的操作门槛;另一方面,系统通过科学合理的设计,能够最大限度地发挥档案元数据核心集的记录功能,承载档案的历史使命。它既是对档案元数据核心集理论的一种应用和实践,又是对档案元数据核心集理论的一种验证。所以,设计并实施档案元数据核心集管理系统,不仅具有实践的应用意义,而且对档案界元数据的理论研究具有促进作用。
一、档案元数据核心集系统的设计要求
档案元数据核心集系统,是以对档案元数据的捕获和著录为基础,以文件的整个生命周期为有效期,以信息挖掘与资源整合为技术手段,以输出全面、准确、关联的档案信息为目标,以纸质档案与电子档案为管理对象而实施的全过程管理系统。
经过深入分析,档案元数据核心集系统需要满足以下要求:一是系统需要针对不同类型的用户设计不同的元数据项目,并在这些用户完成各自元数据著录之后,将所有的元数据组合起来,形成最终的档案元数据核心集。因为档案管理本身就是一项复杂的系统性工作,形成档案的文书部门或档案室是无法单独完成档案元数据的全部著录任务的,这就要求文书部门、档案室、档案馆协同合作来实现元数据的著录。二是系统在元数据著录方式中应采用人工手动著录和系统自动著录相结合的方式,部分描述型档案元数据可由人工进行著录,而部分管理型元数据(如文件的生成时间、归档时间、借阅情况等),可以由系统根据对档案的跟踪实现自动著录。三是系统元数据应具有较强的扩展性,由于元数据标准不是一成不变的,这就需要系统动态地添加新的元数据,并将新的元数据注册到系统中,使系统在管理元数据方面更加灵活。四是系统需要为元数据提供存储空间,来实现元数据的导入导出功能和电子档案的封装功能。这样既可以实现对元数据及电子档案的永久保存或异地备份,又可以为今后系统之间进行数据交换或资源共享提供数据接口。五是系统需要设计一些管理型元数据,用来监控系统中电子档案在其生命周期内的所有动态,从而保障电子档案的真实性和完整性。例如可以利用电子档案的操作记录和数字签名等管理型元数据来检测电子档案是否被恶意篡改。
二、档案元数据核心集系统的总体设计框架
基于对档案元数据核心集系统的需求导向,系统的总体框架(如图1所示)可以分为数据层、用户层、业务层、应用层和存储层。其中,数据层是整个系统的基础,并贯穿电子档案管理的整个生命周期,原因在于用户层、业务层、应用层、存储层各自的功能都是基于对元数据的获取、解析和应用来实现的。
(一)数据层
数据层主要用来建立档案元数据的模型。所涉档案元数据包括核心元数据和扩展元数据,核心元数据是系统中不可缺少的档案元数据,而扩展元数据则是根据额外需求补充添加的元数据。在系统的具体设计中,必须对元数据进行明确的分类和定义,包括元数据描述、元数据结构、元数据功能和元数据关联。
(二)用户层
用户层主要是指系统的使用者。它是档案元数据著录的主要参与者,也是该系统的服务对象,所以系统应主要围绕用户层的需求对数据层、业务层、应用层和存储层进行功能设计。在用户层中,按照角色的不同,可以分为文书部门、档案室、档案馆和档案利用者。这些不同角色的用户可以根据自身权限,通过业务层或应用层来实现工作职责,同时享有对档案元数据的获取和利用。
(三)业务层
业务层涵盖了档案管理的各项功能。从文件的创建开始,业务层就开始将档案的元数据著录到系统中,此后经过对文件的修改、移交、接收、鉴定、归档等过程而形成了档案,再由档案管理部门对档案进行整理、保管、监控、统计和开放利用,之后由档案利用者对档案进行利用和反馈,最后由档案管理部门对档案进行鉴定和销毁。在这一完整的过程中,业务层始终需要动态地将元数据著录到系统中。
(四)应用层
应用层侧重对系统底层操作的实现,它是业务层得以实现的一种功能封装和技术支持,同时也是对业务层的一种功能扩展。一般来说,它包括元数据的注册、元数据的解析、元数据的封装、数字签名与签名校验的实现、文件关联的建立方式、数据交换的应用接口等。
(五)存储层
存储层是为元数据及电子文件的永久保存而设计的。它提供关系型数据库、XML文件和封装后的电子文件三种存储方式。其中,关系型数据库用于存储系统中著录的元数据,在数据检索时能够体现较快的响应速度。缺点是数据的存储与读取依赖数据库平台,脱离数据库平台后,数据将无法被识别。XML文件,用于存储系统导出的元数据,它属于国际通用的标准,具有较强的数据描述能力,同时不依赖任何平台。缺点是检索速度慢,只能存储文字,不能存储电子文件的附件,一般应用于元数据信息交换的中间组件。封装后的电子文件,将电子文件附件和元数据打包进行存储。优点是将电子文件的全文和元数据完整地存储下来,缺点是不易被其他系统识别。一般应用于电子文件及元数据的永久保存和异地备份。
三、档案元数据核心集系统的数据标准
(一)档案元数据核心集系统的元数据设计原则
通过对档案元数据核心集系统的整体分析,可以看到元数据模型的建立是系统正常运行的前提,而对元数据模型的描述和功能定位也直接牵动着档案资源建设、档案信息整合和档案利用服务的命脉。因此在创建档案元数据时,需要遵循以下原则:
1.尊重档案的历史原则。历史原则是历史主义精神[2]的一种表现形式,即尊重历史、尊重客观、尊重整体联系或有机联系。也就是说在元数据的设计中,既要客观真实地记录历史事件,又要通过对元数据的设计来实现档案文件内部的关联,并将隐藏在文件内部的联系通过可视化的描述或可被理解的形式展现出来。
2.注重文件前端控制和全程管理的原则。元数据的著录工作不是一蹴而就的,而是在文件生命周期内的不同阶段分步著录的。注重文件的前端控制要求文件在产生时就开始对元数据进行著录,而不是当文件归档后成为档案时才对元数据进行著录。文件的全过程管理则要求档案在未被鉴定销毁之前,系统应该一直利用元数据来监控档案文件的运行状态。
3.坚持元数据标准化、扩展性和互操作性。元数据标准化是指档案元数据的建立并不是凭空而来的,而是建立在参考国内外档案元数据标准的基础上提出符合档案元数据管理的标准。扩展性则是指元数据的设计需要具有动态扩展的功能。互操作性是指在设计元数据时,要考虑到不同系统的数据交换问题,通过建立不同元数据的映射关系,来实现系统之间的数据交换和信息共享。[3]
(二)档案元数据核心集系统的元数据标准
档案元数据核心集系统的元数据包括核心元数据和扩展元数据,如图2所示。其中,核心元数据应遵循档案的历史原则,从档案的本质出发,依据档案历史联系的三个要素(来源、事由、年代),将核心元数据集通过三个维度(来源维度、事由维度、年代维度)展现出来。可归纳为27项元数据:来源标识、来源名称、来源类型、全宗号、全宗名称、来源关联标识、来源关联关系、来源关联程度、事件标识、事件参与者、事件动作、事件开始时间、事件结束时间、事件环境、事件起因、事件经过、事件结果、事件关联标识、事件关联关系、事件关联程度、年代标识、年代开始时间、年代结束时间、重要时间点、年代关联标识、年代关联关系、年代关联程度。另外,扩展元数据则侧重对电子档案的管理功能进行描述,分为描述型和管理型元数据,应遵循文件的全程管理与元数据的扩展性等原则,便于系统实现对档案的全程监控及对元数据的互操作等功能。可归纳为12项元数据:文件题名、保管期限、密级、档号、关键词、责任者、分类号、文件权限、存储地址、电子文件、文件属性、数字签名。
四、档案元数据核心集系统的著录及维护
(一)档案元数据核心集系统的著录
元数据的著录工作不能完全依靠档案形成部门实施,依据文件运动周期理论,元数据的著录应是伴随文件的生命周期呈现出一种实时的、动态的著录过程,这就需要文书部门、档案室、档案馆协同参与,并依据档案的文件级、案卷级、全宗级、全宗群四个形态进行分层级著录。其著录流程是:首先,由文书部门将各种事件、活动记录下来形成文件,按照事由原则将属于同一事件的文件组成案卷。同时完成事件相关元数据的著录,并将案卷移交至档案室。其次,档案室根据来源原则,将不同立卷部门形成的案卷分别归置到不同的全宗下,同时完成全宗相关的元数据著录,并将不同全宗的档案归入档案馆。最后,由档案馆综合参照事由原则、来源原则和年代原则,建立不同的事由全宗、来源全宗和年代全宗,最终形成全宗群。并通过对关联元数据的定义和著录,实现文件与文件、案卷与案卷、全宗与全宗之间的内在关联,使档案馆资源成为一个内在相互关联的全宗群。如图3所示。
(二)档案元数据核心集系统的维护
档案元数据著录的最终目标是通过元数据建立文件之间的内部关联,使档案资源得到有效整合,为档案利用提供优质信息。利用元数据实现文件内部关联是通过档案管理者对元数据著录来实现的,其著录项一般包括关联文件的标识、文件之间的关联关系及关联程度,这些元数据的著录大多是档案管理者根据自身工作经验判断而生成的,具有一定的主观性,在某种程度上影响了文件关联的准确性,所以文件之间的关联性是否客观真实还要放到档案利用中去检验。档案管理者应该根据用户对档案利用的反馈信息,结合对文件本身的内在关联进行综合考虑,不断调整或更新文件之间关联的元数据,客观地揭示档案文件内部的关联。
档案资源整合与档案利用是相互推动、相互促进的,良好的资源整合可以为档案利用提供优质的信息,而通过对档案利用的准确评价,又可以更好地揭示档案文件内部的关联性,从而进一步优化档案资源整合。所以我们在档案管理中,除了要重视文件的前端控制以外,更要意识到档案利用的信息跟踪及后端反馈对档案元数据揭示的重大意义。
*本文为2015年度教育部人文社会科学研究项目“‘魂系历史主义的档案元数据核心集的构建研究”(项目编号:15YJC870007)的阶段性研究成果之一。
注释及参考文献:
[1]金更达,何嘉荪.档案信息资源集成管理中的元数据问题及对策研究[J].中国图书馆学报,2006(4):56-59.
[2]黄霄羽.魂系历史主义——西方档案学支柱理论发展研究[J].档案学通讯,2004(1):57-60.
[3]王健,姜伟,赵瑞红.电子文件元数据自动采集的原则与实施路径研究[J].北京档案,2015(9):29-32.