APP下载

基于本体的电子文件元数据:智慧档案馆建设的关键与核心⋆

2019-11-13张正强

山西档案 2019年5期
关键词:本体档案馆概念

张正强

(国防大学政治学院 上海 200433)

1 电子文件元数据的地位与功能

1.1 电子文件元数据的地位与作用

国际标准化组织于2016年最新发布了文件档案领域中的核心国际标准《ISO 15489-1:redline:2016信息与文献-文件管理-第1部分:概念与原则》(简称“ISO 15489-1红标版”,下同)。该国际标准是在国际文件档案领域中影响最为广泛的标准,在国际上其采标率达到百分之九十以上,所以,该国际标准是国际文件档案工作者在文件档案领域共同的智慧结晶。

该国际标准在文件档案管理的基本原则中首次从元数据视角明确了文件和档案的构成,指出文件和档案是由“内容和元数据”两部分构成。所谓元数据,就是“关于数据的数据”,所以,文件和档案的“内容”实际上就是“数据”,而文件和档案的“元数据”就是关于文件和档案“内容”这一数据的背景、结构和管理等方面的数据。

在当今时代,电子文件是文件和档案的主要组成部分,显然,电子文件的构成,也必然由“内容和元数据”两部分构成,所以,没有电子文件元数据,就没有电子文件,也就没有电子档案,由此,也就决定了“电子文件元数据是电子文件管理的命脉”的这一地位与作用。

1.2 电子文件元数据的功能

对于电子文件元数据的作用与功能,在文件档案领域做过许多研究与探讨,但对其做出权威系统阐述的最早的是2006年国际标准化组织正式发布的国际标准ISO/TS 23081-1:2006《信息与文件-文件管理过程-文件元数据-第1部分:原则》,在该标准中,基于电子文件管理流程,提出了10个方面的功能:

(1)自始至终地保护作为凭证的文件,确保其可利用性和可提供使用性;

(2)便于对文件的理解;

(3)支持和确保文件的凭证价值;

(4)保证文件的真实性、可靠性和完整性;

(5)对文件的利用、文件的内容及文件利用的产权提供支持和管理;

(6)支持高效率的检索;

(7)在创建和管理电子文件的不同的技术和业务环境中,支持文件的捕获,从而支持互操作策略的实施,以及文件的长期可利用性;

(8)以结构化的、可靠的和有意义的方式提供文件与其创建、管理背景信息的逻辑关联;

(9)为识别数字文件的形成(或捕获)环境提供支持,同时对维护文件的技术环境管理提供支持,以便可以复制文件;

(10)为高效、成功地从一种环境(或计算机平台)向另一种环境(或计算机平台)迁移提供支持,或者为其它的保管战略提供支持。

2007年国际标准化组织又正式颁布了国际标准ISO 23081-2:2007《信息与文件-文件管理过程-文件元数据第2部分:概念与实施》,该标准又进一步从八个方面再次对电子文件元数据的功能进行强调:

(1)在业务系统中捕获与管理文件;

(2)保证系统的互操作;

(3)支持文件的风险管理;

(4)保证文件的跨机构利用与检索;

(5)防止非授权利用文件;

(6)确保机构业务工作可持续地展开;

(7)确保电子文件的长期保存;

(8)确保档案系统中的元数据捕获。

2010年11月10日,联合国教科文组织向全世界发布的《世界档案宣言》中明确指出:在国际文件与档案领域要保证文件和档案的真实性、可靠性、完整性和可用性。所以,电子文件,不管其形式与结构如何,都必须具有真实性、可靠性、完整性和可用性,只有这样,才能进一步实现电子文件具有权威性的证据价值和凭证价值。由此,从这个意义上而言,概括地讲,电子文件元数据的功能:就是保证电子文件的真实性、可靠性、完整性和可用性,进而保证电子文件所应具有的权威性的证据价值和凭证价值。

2 电子文件元数据的概念本体——电子文件元数据的逻辑结构体系

电子文件元数据的概念本体是指在概念层次上由电子文件元数据元素及其关系所构成的结构体系。这个体系在直读(人读)层面上,就表现为电子文件元数据的逻辑结构体系。电子文件元数据的逻辑结构体系是一个带有分面的结构体系。对于这一结构体系在最新发布的国际标准ISO 15489-1红标版中又明确的规定为两部分:一部分是实体分面,另一部分是属性分面。

实体分面主要包括四个亚面:文件亚面、责任者亚面、职能业务亚面和法规亚面。然后在每一个实体亚面下再细分出子类,各亚面细分如下:

(1)对于文件亚面,分出了件、案卷、全宗和全宗群等子类;

(2)对于责任人员亚面,分出了人员、单位、部门和机构等子类;

(3)对于职能业务亚面,分出了处置、活动、机构职能和社会职能等子类;

(4)对于法规亚面,分出了业务规章、政策和法规等子类。

由此,经过以上各亚面的细分就形成了完整的电子文件元数据的实体分面,如下图1所示:

电子文件元数据的属性分面主要由六个亚面构成,即:描述亚面、使用亚面、计划事件亚面、事件历史亚面和关系亚面构成,然后,再在每一个属性亚面下再细分出子类,各亚面细分如下:

(1)对于描述亚面,分出了题名、分类、提要、存贮位置、所有权、外部标识符等子类;

(2)对于使用亚面,分出了技术环境、权限、利用、文件使用对象、语种、完整性、文件类别等子类;

(3)对于计划事件亚面,分出了事件时间、事件类型、事件描述、事件关系、触发事件等子类;

(4)对于事件历史亚面,分出了事件时间、事件类型、事件描述、事件关系、事件编号等子类;

(5)关系亚面,分出了关系标识符、相关实体的标识符、关系类型、关系时间等子类。

由此,经过以上各亚面的细分就形成了完整的电子文件元数据的属性分面,如下图2所示

然后将电子文件元数据的实体分面与属性分面进行组配,就可以基于概念逻辑地形成一个个具体的元数据,如下图3所示。

从以上电子文件元数据的实体与属性两个分面可以看出:实体分面采用的是一种划分标准,属性分面采用的是另一种划分标准,这种多维划分的分面体系与传统的一维划分的线型体系相比,其结构显得十分简洁、十分灵活,结构体系的性能就能大大提高。电子文件元数据的这种分面结构体系就构成了电子文件元数据的概念本体,具有强大的优势,其可以:

(1)对文件进行标识并对文件进行检索;

(2)将文件与所变更的规章制度、政策和法规关联起来;

(3)将文件与责任者以及将授权与权限与相关文件关联起来;

(4)将文件与其相关的业务活动关联起来;

(5)对文件进行留痕,如对利用规定的变更过程进行留痕或对文件迁移至新的系统的过程进行留痕。

由于电子文件元数据的概念本体具有如此强大的优势,从而使其为进一步实现电子文件的功能与作用从概念体系上奠定了逻辑基础。

3 电子文件元数据的语言本体——电子文件元数据的形式化语言结构体系

电子文件元数据的概念本体,虽然具有很强的优势,但毕竟是供直读(人读)的结构,对于这种结构,计算机还无法读取。所以,还必须将其映射并描述为计算机可读的语言本体,只有这样,才能真正地实现与发挥电子文件元数据在管理电子文件中的功能与作用。

电子文件元数据的语言本体是指采用本体语言来完整地映射与描述电子文件元数据的概念本体所构成的形式化语言结构体系。本体语言主要是指RDFS[3](资源描述框架)、OWL[5](Web 本体语言)或SKOS[4](简约知识体系)等,电子文件元数据的语言本体之所以可以对电子文件元数据的概念本体完整地进行映射与描述,这是由于其形式化语言结构体系的本质特性所决定的。

凡是语言都是由语词、句子和语法这三个基本要素构成的,因此,电子文件元数据语言本体的形式化语言结构体系,也同样是由语词、句子和语法这三个基本要素构成的。

首先,电子文件元数据语言本体的语词是基于控制的语词,故在语词构成体系上:

(1)电子文件元数据语言本体可通过其所具有的表达实体概念的类别词,来映射与描述电子文件元数据概念本体的实体分面中的一个个具体的表达类别概念的元数据元素;

(2)电子文件元数据语言本体可通过其所具有的表达属性概念的属性词,来映射与描述电子文件元数据概念本体的属性分面中的一个个具体的表达属性概念的元数据元素;

(3)电子文件元数据语言本体可通过其所具有的表达具体实例概念的实例词,来映射与描述电子文件元数据概念本体中的一个个具体的表达实例概念的元数据元素;

由此,可以看出电子文件元数据语言本体的语词在映射与表达概念本体中的元数据概念时具有精确的一一对应性,从而排除了一般自然语言中语词的“一词多义”与“多义一词”的现象,因而具有“一词一义”与“一义一词”的“概念词”的本质特性。

其次,电子文件元数据语言本体的句子是基于组配的句子,故在句子构成体系上:

(1)电子文件元数据语言本体利用资源、属性和属性值这三元组形式来进行组配形成句子,其中,表示资源的一元在句子的层面就是主语,表示属性的一元在句子的层面就是谓语,而表示属性值的一元在句子的层面就是宾语。所以可以十分有效实现电子文件概念本体的实体分面和属性分面中各个元数据元素的组配。

(2)电子文件元数据语言本体利用资源、属性和属性值这三元组形式来进行组配形成句子,由于在该句子中的主语、谓语和宾语都是基于控制的概念词,因而可以十分准确地映射与描述电子文件元数据分面结构的逻辑体系。

(3)电子文件元数据语言本体利用资源、属性和属性值这三元组形式来进行组配形成句子,从而规定并规范了句子结构,使其映射与描述的电子文件元数据概念本体的分面结构所形成的逻辑体系具有跨平台的互操作性,达到了高度的标准化。

由此,可以看出电子文件元数据语言本体的句子具有灵活的组配性、严密的逻辑性和高度的规范性的本质特性。

再次,电子文件元数据语言本体的语法是基于描述逻辑的语法,所谓描述逻辑亦称为概念语言逻辑,就是建立在概念和属性之上的形式规范,具有推理机制,故在语法构成体系上:

(1)电子文件元数据语言本体的类公理是基于描述逻辑的语法表达的公理,其反映的是不同概念类之间所对应的实际电子文件对象间的真实关系,且这真实关系是公认的事实并构成了类的推理规则,通过类公理可以构建起电子文件元数据类等级结构的类系及类横向关系的类列与同位类,因此,可以对电子文件元数据进行类推理。

(2)电子文件元数据语言本体的属性公理亦是基于描述逻辑的语法表达的公理,属性可以是电子文件元数据类与类中的元数据元素之间的关系,也可以是指定特定的值,通过属性公理,其可以推理出电子文件属性与类之间的关系,因此,可以对电子文件元数据进行关系推理。

(3)由于电子文件元数据语言本体的公理是基于描述逻辑语法所表达的公理,可以将具体的电子文件元数据与电子文件元数据概念本体进行核对检查,即判断某一个体是否为某个类的实例,因此,可以进行电子文件元数据的一致性检测和实例检测。

由此,可以看出电子文件元数据语言本体的语法具有类推理的特性,属性推理的特性和一致性检测和实例检测特性,因而在建立电子文件元数据本体时运用其语言本体的语法可以从概念或属性推导出隐含的概念或属性,这就是电子文件元数据本体比传统的电子文件元数据数字化、信息化更为智能化的方面。

4 建立基于本体的电子文件元数据是建设智慧档案馆的关键与核心

当今,在人类由信息时代迈向知识时代的进程中,又迎来了人工智能这一历史性发展阶段。2017年在我国全国两会上,“人工智能“第一次被写入政府工作报告,2017年7月,我国首部国家级人工智能规划——新一代人工智能发展规划——正式出台,将人工智能提高到了国家发展的战略高度。由此我国的智慧城市、智慧工业、智慧农业、智慧交通等等的“智慧+”建设在各个领域蓬勃兴起。各个领域的电子文件全面地记录了各个领域的实践活动,而电子文件又是当今档案馆管理的重中之重,由此,又迎来了我国档案馆由传统档案馆建设、数字档案馆建设向当今智慧档案馆建设这一新的时代高度迈进的历史机遇。

在建设智慧档案馆的全生命过程中,要使电子文件的捕获、登记、分类、标引、鉴定、保管、存储、跟踪、监视、审计和检索、利用的全过程都得到有效的控制与智能化管理,就必须建立基于本体的电子文件元数据。因为没有电子文件“元数据”,就没有电子文件,而没有基于“本体”的电子文件元数据,就没有“智慧”档案馆,之所以如此,这是因为智慧档案馆的概念本体是智慧档案馆之所以有“智慧”的内在根据,而智慧档案馆的语言本体则是智慧档案馆之所以有“智慧”的运行方式和显现形式,由此,建立基于本体的电子文件元数据就成为建设智慧档案馆的关键与核心。

目前,在我国要建立基于本体的电子文件元数据,其概念本体可以依据与遵循的标准是国际标准23081,这是一个系列标准,共有三个部分,第一部分已被我国采标,并于2013年已正式发布,其标准名为GB/T 26163.1-2010《信息与文献—文件管理流程—文件元数据—第1部分:原则》,但该国际标准的第二部分ISO 23081-2:2009《信息与文献—文件元数据管理—第2部分:概念和实施(Information and documentation—Managing metadata for records—Part 2:Conceptual and implementation issues)》和第三部分ISO 23081-3:2011《信息与文献—文件元数据管理—第3部分:自评方法(Information and documentation—Managing metadata for records—Part 3:Self-assessment method)》这两个部分目前还未被我国采标,所以,在依据与遵循我国国家标准GB/T 26163.1-2010的同时还要依据与遵循国际标准23081的第二与第三部分。

对于电子文件元数据概念本体,还有一项可供参考的标准就是国际标准化组织与2014年10月15日正式发布的国际标准ISO21127《信息与文献—文化遗产信息交换用参考本体(Information and documentation—Areference ontology for the interchangeof cultural heritage information)》,这也是一个涉及档案领域元数据概念本体的国际标准。

关于电子文件元数据语言本体的标准,目前在我国还未有国家标准与档案领域的行业标准,2011年发布的档案行业标准DB32/T1893-2011《电子档案基础元数据数据库结构和封装格式》还不是一个元数据的本体语言标准。

但是,在国际上,国际标准化组织与国际电工委员会联合于2013年专门发布了一项标准,即ISO/IECTR20943-6《信息技术—保证元数据注册内容一致性程序—第六部分:本体建构框架》可供参考。

综上所述,我们可以很清楚地看出:智慧档案馆是新时代的新生事物,其建设与发展面临着巨大的挑战:如在我国档案学的教学方面,相关教学内容还未跟上;在我国智慧档案馆科学研究方面关于电子文件元数据本体研究的科研人才还偏少,科研项目有质量的成果还不多;在我国档案领域的标准规范方面相关标准还亟待制定,等等。然而,唯物辩证法的基本观点又告诉我们:事物都是一分为二的。正是建设与发展智慧档案馆所面临的这些巨大的挑战才构成了其建设与发展的巨大动力,推动着我国档案馆由传统档案馆建设、数字档案馆建设向智慧档案馆建设的高度不断前进。

猜你喜欢

本体档案馆概念
Birdie Cup Coffee丰盛里概念店
太原市档案馆牵手百年胡氏荣茶共寻文化脉络
基于MFI4OR标准的本体融合模型研究
云南省档案馆馆藏《东巴经》
眼睛是“本体”
幾樣概念店
学习集合概念『四步走』
深入概念,活学活用
when与while档案馆
专题