国际文件/档案著录标准化前沿与趋势展望
2018-01-13段荣婷马寅源李真
段荣婷+马寅源+李真
摘 要:文件/档案著录是对文件/档案的一种智能化控制,其标准化对提供高效的知识检索利用服务,乃至智慧档案馆的构建意义重大。论文基于国际档案理事会最新标准《背景中的文件》的研究,对国际文件/档案著录标准化的前沿与趋势进行了展望,并对我国文件/档案著录标准化提出了建议。
关键词:文件著录;档案著录;标准化;背景中的文件
Abstract: Record/Archival description is intellectual control of records/archives. So its standardization is very meaningful to knowledge service, and even construction of smart archives. Based on the study on the ICAs newest RiC, this paper puts forward the frontier and tendency of the international record/archival description standardization, and several suggestions for Chinas record/archival description standardization.
Keywords: record description; archival description; standardization; RiC
在國际档案界,早期著录的概念通常用“档案著录(Archival Description)”这个术语。但随着档案信息化及其电子文件的飞速发展,前端控制、全程管理等理念进一步深入档案实践。广义的“文件(Records)”,包括了“档案(Archives)”,相应地,“文件著录(Record Description)”也包括了“档案著录(Archival Description)”。应该说,文件著录更体现了对文件全生命周期的管理,因此国际档案界开始更多地使用“文件著录(Record Description)”这一提法,并且本质依然是对文件的一种智能化控制,其重要作用,包括:(1)文件管理;(2)文件保存;(3)文件的可持续性利用与重用。也因此文件著录标准化备受国际关注,其最新发展是国际档案理事会(ICA)制定了《背景中的文件》(Records in Context,简称RiC)这一最新标准,其亦应引起我国档案界的密切跟踪与研究。
1 国际档案理事会(ICA)文件著录系列标准《背景中的文件》(RiC)概述
国际档案理事会(ICA)文件著录系列标准《背景中的文件》(RiC)是由ICA档案著录专家组(EGAD)基于文件著录理论与实践制定的,目前最新版为2016年的草稿版,计划将于2017年定稿。该标准将成为文件著录集成与共享的工具。
此外,ICA至今已制定的档案著录标准还包括:《国际档案著录规则(总则)(ISAD(G))》(最新第2版,1999)、《国际档案规范记录(机构团体、个人与家族)著录规则(ISAAR(CPF))》(最新第2版,2004)、《国际档案职能著录规则(ISDF)》(2007)及《国际档案馆藏机构著录规则(ISDIAH)》(2008),这些标准都已成为国际档案著录的最佳实践,共同推进了数字环境下档案著录信息的交换与共享。
但是,在迈向知识社会、智能化时代的进程中,信息技术加速发展,如在资源描述方面,以可扩展置标语言(XML)技术标准为基础,更具有语义表达性的资源描述框架(RDF)(图(Graph)技术)、语义网(关联数据)技术等也应运而生。在此背景下,档案界如何能发挥更大的价值?这需要档案界自身将其融入更广的文化遗产领域,而档案著录也必须顺应文化遗产领域在资源描述/著录方面的发展趋势,如,更高效地创建资源检索工具、细分资源描述/著录对象要素,同时,再基于资源描述/著录对象要素的整合,而开发与利用新工具、新方法路径,等等。以上这些都成为ICA制定新标准《背景中的文件》(RiC)的动因。
在遵循档案专业来源原则的前提下,顺应国际资源描述/著录发展趋势,ICA RiC标准制定的技术路线主要包括概念模型的构建及其本体化,据此该系列标准就由概念模型(RiC-CM)与本体(RiC-O)两部分构成。其中,概念模型(RiC-CM)部分,主要在综合现有ISAD、ISAAR、ISDF、ISDIAH等标准的基础上,提取文件著录的共性实体对象,分析其特征属性,及其相互关联,而建构文件概念体系,增强其可理解性;本体(RiC-O)部分,则使RiC-CM形式化,即利用网络本体语言(OWL)/RDF对文件实体及其关系进行语义描述,使文件知识结构化,从而更利于计算机可读与处理,进一步增强其可理解性与智能化利用,确保文件/档案凭证与情报价值的发挥。
2 标准RiC-CM内容解析
标准RiC-CM规定了文件著录的概念模型。概念模型(conceptual model),亦称概念数据模型(conceptual data model),是对真实世界的抽象表达(ISO/TS 23081-2:2007(E))。标准RiC-CM为文件著录界定了关键的高层级概念:实体(Entities)、实体的属性(Properties),及其相互关系(Relations),由此,标准RiC-CM所定义的文件著录概念模型是一种实体-关系模型,也因此该标准的主体内容就包括了实体、属性及关系等几大部分。endprint
2.1标准RiC-CM文件著录概念模型之宏观多维特征分析。标准RiC-CM文件著录概念模型从宏观上来看,其最显著的特征是多维性及其科学性。
2.1.1多维来源的权威规范性。标准RiC-CM所架构的文件著录概念模型,既源于ISAD、ISAAR(CPF)、ISDF、ISDIAH等国际现行文件/档案著录标准所规定的最佳实践,也源于融入更广文化遗产领域,同图书情报博物信息行业交流协作的紧迫需求。因此,RiC-CM概念模型建构的标准基础如图1所示。
2.1.2多维内容的体系完备性。ICA档案著录专家组(EGAD)通过对如图1所示的多维权威来源的标准模型进行调研与比较,采用综合分析归纳法,建构了标准RiC-CM文件著录实体-关系模型(概念模型),如图2所示。
该概念模型中所反映出的文件/档案著录最大的变化与特征,集中体现于著录内容的多维度化(包括多级著录)。以往的多级著录仅涉及了档案这一单一实体的纵向等级,而新的文件著录则更是多维度化与更灵活的,即不仅包括了文件实体及其多级著录,更包括了责任者、职能业务、时间、地点、概念/对象等诸多实体,及其属性、关系等。
2.1.3多维应用的高效灵活性。标准RiC-CM文件著录概念模型具有基于理论的最佳实践指导性,可转化为如后图11与图12所示的本体实例,且具有灵活实用性等优点,可以作为文件著录元数据、本体、关联数据的概念模型,亦具有扩展性,能够囊括用户贡献的著录等。
2.2标准RiC-CM文件著录概念模型之微观-实体分析。在概念模型中,实体是指任何现在存在、过去存在或将来可能存在的具体或抽象的事物(例如:人、对象、事件、观念或过程),及其关联。
标准RiC-CM文件著录概念模型,最基础的部分便是其实体(共14个),可大致地划分为档案专用关键实体与其他领域资源通用实体两大类型(如图3所示):
·档案专用关键实体(key entities):文件(Record)、责任者(Agent)、职能(Function,或业务)等;
·同其他行业共享共用的相关背景实体(contextual entities):概念(Concept,含主题)、地点(Place)等。
图3中,文件类实体最为关键,它们反映了文件著录对象的来源主体,也是对多级著录的继承。文件类实体主要包括:文件(Record)、文件组件(Record Component),及文件集(Record Set),三者之间的逻辑关联,且文件集与文件之间逻辑关系的具体化,如图4所示:
图4体现出著录对象向文件与文件集转变的特征。这里的文件集不仅对应于多级著录中的全宗、类别、案卷,且能够囊括用户馆藏,更增强了灵活实用性。此外,文件类实体及其关系恰恰也体现出数字时代文件著录知识智能控制(intellectual control)的新特征,即对应于文件集(Record Set)的整体集合控制(aggregate control)同對应于文件(Record)与文件组件(Record Component)的具体件级控制(item-level control)的有机结合。其中集合控制侧重结构与背景控制,件级控制则是具体的内容控制(content control)。这样进行文件类实体设计利于满足文件著录的双重需求,即通过侧重结构与背景信息描述的集合控制,确保文件/档案的凭证价值,便于用户实现全宗体系浏览检索及其研究;而通过件级内容控制,确保文件/档案情报价值,便于用户实现细粒度的发现与检索。由此也从一个方面证明了RiC-CM概念模型的多维度化特征。
2.3标准RiC-CM文件著录概念模型之微观-属性分析。在概念模型中,实体的属性(property)是指对象类(object class)所有成员共同的特性。
标准RiC-CM文件著录概念模型中实体的属性(共67个),对应于OWL中的数据属性(owl:dataProperty),主要有两大类(如图5所示):所有实体的共用属性与各实体的专用属性。
其中,所有实体的共用属性包括标识符、名称、一般注解等4个属性(RiC-P1~RiC-P4);而各实体的专用属性则合计有63个(RiC-P5~RiC-P67),以责任者(Agent)实体为例,其属性及其UML类图如图6所示:
2.4标准RiC-CM文件著录概念模型之微观-关系分析。在概念模型中,关系(relation)是指概念(concepts)所可能通过构成的角色而关联的义项。
标准RiC-CM的关系(Relations)有以下特点:
(1)以上所列14类实体的关系中,每一实体都同所有(含自身)实体互为关联,目前共有792种关系(含图7及图2与图4等的示例),从而构成了RiC-CM关系的丰富语义性,这将为文件著录本体及其关联数据化应用奠定基础,确保文件著录数据的高价值;
(2)所有实体间均具有共性关系:“现在同……相关(is associated with)”与“过去同……相关(was associated with)”;
(3)所有关系均具有共用属性:日期(RiC-P68 Date)与地点(RiC-P69 Place),由此可以推断出关系本身也是一种特殊的实体类,这同ISO/TS 23081-2:2007(E)《信息与文献—文件管理过程—文件元数据 第2部分:概念与实现问题》中的实体模型是一致的。
3 标准RiC-O内容解析endprint
3.1标准RiC-O文件著录本体的建构意义。概念模型反映的是人对体系的理解(ISO/TS 23081-2:2007(E))。而本体(ontology)是指规定知识域中具体或抽象事物及其关系的规范。本体是共享概念模型的形式化与明确的规范。因此,为了使此概念模型(RiC-CM)所反映的文件著录具有实践可操作性,还需要将其转化为计算机可读取与处理的形式,也就是将此概念模型本体化。
总的来说,RiC本体是其概念模型(RiC-CM)的机读版,它是文件著录更广集成与共享的工具。为实现概念模型的机读,RiC采用了国际万维网联盟(W3C)所制定的基于《资源描述框架(RDF)》的《网络本体语言(OWL)》标准,来定义RiC实体及其关系,从而能够提供连接分散实体及其关系的语义框架,如RiC本体就可以将现行文件/档案著录实践(EAD)纳入一个更广的概念框架中,这为EAD 3及其新版修订都提供了新思路。此外,RiC本体还可通过对owl:sameAs等OWL/RDF原语的使用,建立RiC文件著录本体同外部本体之间的映射关联(如图8所示),从而实现文件著录数据的集成与共享,也就是说,通过RiC文件著录本体同各外部本体之间的关联,实际上使文件著录(本体实例)数据开放化,即一方面,外部数据集能够发现文件著录数据集,提高文件/档案利用率;另一方面,文件著录数据集自身能够发现其他领域的相关数据集,从而进一步丰富了语义关系,有助于加深数据的可理解性与可用性乃至可信性。由此,RiC-CM的本体化实际上能够使文件著录更适应于语义网的发展趋势,构建RDF档案数据集,使文件及其著录信息(元数据)发布于语义网,而成为关联开放数据,提升文件/档案利用率及同其他文化遗产资源的交换共享,乃至对文化遗产的集成检索利用。
3.2标准RiC-O文件著录本体的建构原则。标准RiC-O文件著录本体的建构原则重点包括:
(1)完整性(COMPLETE)
领域本体应涵盖真实档案世界的所有概念/实体,包括某些高层级的抽象概念,及职能需求等。
(2)精准性(CLARITY/ACCURACY)
·类及其属性、属性的域与值域的准确定义;
·特别关注档案概念与特征:定义职能与业务实体、文件集实体等,描述实体的历史、来源(provenance),及某些管理事件等;
——多语种;
——实例(Examples)。
(3)灵活性(FLEXIBILITY)
——允许使用本体的全部或部分;
——关系(relations)表达可简可繁;
——可扩展性(EXTENSIBILITY):动态发展;
——开放性(OPENESS):提供同其他行业的关联。
(4)同其他本体的协同性(MAPPINGS)
可通过本体映射(即不同本体中的概念(类或属性)匹配),而实现数据的集成。映射本体具体包括三大类(如图8所示)。
3.3标准RiC-O文件著录本体的建构思路及方法与流程。基于以上标准RiC-O文件著录本体的建构原则,该著录本体构建的实施,宏观上决定于其总体思路(即方法论与路线图);微观上决定于其具体方法与流程。
3.3.1标准RiC-O文件著录本体宏观建构思路。标准RiC-O文件著录本体的建构是个系统工程,因此必须遵循系统论的方法论,关注系统的输入、输出、控制及反馈等。
·就系统的输入与输出而言,标准RiC-O文件著录本体的建构应完整定义其形式化要素(详见3.4本体构建的实现部分):类(classes);对象属性(object properties);数据属性(data properties);某些类或某些属性间的层级(hierarchy(ies));管控与使用类和属性的规则(rules)。
·就系统的控制而言,标准RiC-O文件著录本体的建构采用了模块化的同步与迭代推进的做法:
——调研技术标准规范、形式化本体的主要概念、本体构建的工具与方法、设计模式、良好实践等;
——析现存本体或模型;
——使用Protégé开源软件及本地Git库(GitHub中)迭代创建本体文档及测试。
·就系统的反馈而言,一方面,标准RiC-O文件著录本体的构建与测试同其概念模型的构建与优化是个良性互动的过程;另一方面,标准RiC-O文件著录本体的建构还应建立讨论与协作的反馈机制。
据此,标准RiC-O文件著录本体构建的技术路线图包括:
·首先,开发本体的核心部分(即主要实体与属性)。
·其次,充实完善该本体:
——为准确描述各实体,而添加更多的类与属性及n元关系;
——同其他本体的类与属性进行映射;
——添加某些词表(如某些特征的SKOS描述);
——准备外用的说明文档(documentation);
——持续检查同RiC-CM的一致性。
3.3.2标准RiC-O文件著录本体微观构建方法与流程。目前,使用较多的领域本体构建方法有TOVE法、Methontology法、骨架法、KACTUS工程法、SENSUS法、IDEF5法及七步法。
在標准RiC-O文件著录本体构建宏观思路的指引下,结合文件及其著录领域特点,以及以上七种领域本体构建方法的综合比较,标准RiC-O文件著录本体采用七步法进行构建,具体步骤如图9所示。
其中,前3步侧重概念建模,即在RiC-CM标准的基础上进一步优化与完善;后4步则侧重RiC-CM的形式化及其实例化。endprint
3.4标准RiC-O文件著录本体构建的实现。如前所述,本体就是概念模型及其形式化,也即概念模型的OWL语义表达。据图9可知,标准RiC-O文件著录本体构建实现的关键在于将概念模型(即RiC-CM)中定义的实体(Entities)、属性(Properties)及关系(Relations)的形式化。而RiC-O文件著录本体的形式化定义,需要结合OWL的描述结构进行(如图10所示),具体包括以下要素:
——类(classes),同概念模型中的实体相一致,例如“人员(Person)”“文件(Record)”“文件集(RecordSet)”“活动(Activity)”等;
——对象属性(object properties),同概念模型的实体间的关系相一致,例如“曾创建(created)”“具有成员(hasMember)”“执行(performs)”“曾导致(resultedIn)”等;
——数据属性(data properties),类实例的特性取值用字符表达时使用,例如“具有本地标识符(hasLocalIdentifier)”等;
——某些类或某些属性间的层级(hierarchy(ies)),如上位类及其下位类、上位属性及其下位属性等;
——管控与使用类和属性的规则(rules),如据概念模型定义属性必备性和可重复性的状态等。
简言之,RiC本体的定义既需要语义词表(vocabulary,即概念模型),也需要形式化表达该词表的语法(OWL),以使用该词表,从而确保RiC-O构建RDF档案数据集任务的完成。
综上所述,经历了概念建模,及其形式化与实例化,同时基于Protégé,可将生成的RiC-O文件著录本体可视化并用OWL或RDF语言进行描述,如图11与图12所示。
如图11所示的RiC本体片段可视化实例,可以看出通过本体不仅可以构建各实体类的等级体系,如“文件集(Record_Set)”类有子类“全宗(Fond)”“类别(Series)”“案卷(File)”;同时各实体类之间的关系除上所述的“有子类(has subclass)”外,还包括“创建(created)”“有成员(has_member)”等等,如“责任者(Agent)”类创建“文件(Record)”与“文件集(Record_Set)”类,“全宗”有成员“类别”或“案卷”,“类别”有成员“案卷”,“案卷”有成员“文件”等等。其中部分关系对应的OWL语义描述(对象属性声明)如图12所示。
4 国际文件/档案著录标准化趋势特点及其对我国的启示
如前所述,国际最新著录标准ICA RiC的制定展现了国际文件/档案著录标准化的宏观趋势与微观特点,这些也将对我国文件/档案著录标准化的发展提供借鉴。
4.1国际文件/档案著录标准的集成化与专门化辩证发展。国际最新著录标准ICA RiC的制定是基于国际现有档案著录系列标准,构架了统一的概念模型,并将其本体化,但这并不意味着ICA RiC能够取代其他著录标准,ICA RiC这一集成化标准与其他专门化标准辩证发展,共同构成了国际文件/档案著录标准体系。事实上,ICA RiC可以看作是标准体系中最基础的体系架构性标准,其功用主要侧重于同文化遗产领域其他类型知识资源的交换与共享;而标准体系中的其他标准,如侧重描述档案资源的ISAD(G)及其《档案编码著录(EAD)》、侧重描述档案责任者的ISAAR(CPF)及其《团体、个人与家族档案背景编码(EAC-CPF)》、侧重描述档案职能的ISDF及其编码标准EAC-F,及侧重描述档案馆藏机构的ISDIAH及其编码标准EAG仍在不断地制修订与优化中。
国际文件/档案著录标准的集成化与专门化辩证发展的趋势与特点对我国的启示则在于:我国应积极推进国际文件/档案著录标准体系的本土化,加紧我国文件/档案著录标准体系构建,一方面据我国著录实践进一步优化ICA RiC的制定,另一方面也应对应地做好专门化标准的制修订工作,如:修订《档案著录规则》(DA/T18-1999)、制定《电子文件著录规则》《档案责任者著录规则》《档案职能著录规则》《档案馆藏机构著录规则》并实现其标准化计算机编码等。
4.2 国际文件/档案著录向语义知识组织标准化发展。较以往的国际文件/档案著录标准而言,ICA RiC的最大变化在于它构架了文件/档案著录的统一概念模型,并将其形式化,即最终构建了文件/档案著录领域本体。此外,还出现了档案关联数据EAC-CPF著录本体,等等。而本体是语义知识组织的核心,因为一方面,本体是语义网(关联数据)高层级的技术构成要素,文件/档案著录本体成为文件/档案关联开放数据化的基础,这更能满足大数据时代数字化、网络化环境下知识粒度化挖掘与利用的需求;而另一方面,本体又是一种结构化与语义性都最强的知识组织系统,本体能够实现智能推理,加强对文件/档案著录的智能化控制,进而更好地實现面向用户需求的高效的知识服务,及智慧档案馆的构建。
国际文件/档案著录语义知识组织标准化趋势与特点对我国的启示则在于:我国应加紧将语义网技术集成融入文件/档案著录标准,实现文件/档案著录的关联数据化,并进而推动我国文化遗产整体的语义知识组织的标准化。
4.3国际文件/档案著录标准化需要科学的建模需求与建模原则。
4.3.1标准化的建模需要面向领域的功能需求分析。通过调研分析比较可得知:同一领域的建模及其本体化,可以有不同的视角,这均源于建模背景的不同,即从不同的需求出发,建模的结果及其本体将不同,也就是说“领域本体”中的“领域”既是一个体系性概念,又是一个相对性概念,这就要求建模前首先要进行功能需求分析,从而能够明晰所需要建构本体的“领域”范畴。因此档案领域本体体系,从最高层级的面向整个档案学科知识概念共享的档案学知识领域本体可具体依次细分为面向档案检索利用的档案著录(子)领域本体、面向档案资源组织的档案资源(子)领域本体等等,针对每一“领域”的建模需求分析,都应依据相应范畴的权威法规标准等。例如,对于档案学知识领域本体,应遵循综合性档案法规标准(如ISO 30300系列、ISO 16175等);对于档案著录(子)领域本体,则应遵循档案著录的相关法规标准(如ISAD(G)、ISAAR(CPF)、ISDF、ISDIAH、ISO 23081、METS等);而对于档案资源(子)领域本体,则应遵循档案资源组织的相关法规标准(如ISAD(G)等),据此对档案资源实体及其属性(内容与形式特征)进行语义描述(如图13所示)。endprint
4.3.2标准化的建模需要确保智能化控制得以实现的体系性原则。在具体建模过程中,应遵循科学的原则,对于档案行业而言,建议还应采用最新国际标准《信息与文献—文化遗产信息交换参考本体》(ISO 21127:2014(E))中所规定的系列建模原则:
(1)单调(推理)性(Monotonicity);
(2)(本体)最小化(Minimality);
(3)(屬性)简便性(Shortcuts);
(4)(类)不相交性(Disjointness);
(5)类型关联化(Types);
(6)动态扩展性(Extensibility);
(7)内容范围的完整性(Coverage of intended scope)。
唯有遵循了以上国际标准化的建模原则体系,才能确保对文件/档案著录实体的语义描述,从而实现文件/档案信息的智能化控制推理及检索利用。
国际文件/档案著录概念模型构建的标准化需要科学的建模需求与建模原则,这对我国的启示则在于:我国在架构文件/档案著录概念模型过程中应科学分析我国文件/档案著录领域功能需求,并遵循国际标准化的建模原则体系。
4.4国际文件/档案著录本体建构的标准化需要完备的结构与精准的语义描述。根据最新国际标准《信息与文献—文化遗产信息交换参考本体》(ISO 21127:2014(E)),本体的结构要素主要包括实体类与属性,因此本体构建的主要内容包括实体类声明(Class declarations)与属性声明(Property declarations)及其结构化语义定义,如图14所示。
img src="http://img1.qikan.com.cn/qkimages/dagl/dagl201801/dagl20180109-8-l.jpg" alt="" />
基于以上实体类语义定义模型与实体属性语义定义模型的本体,其结构完整包含了本体形式化定义的所有要素(如图10所示),并且还依据一定的命名规则(Naming conventions),另具有属性数量词(Property qualifiers),等等,这些均有利于本体构建的具体实现。
国际文件/档案著录本体建构的标准化,需要完备的结构与精准的语义描述,这对我国的启示则在于:我国在构建文件/档案著录本体过程中应致力于增强本体最佳实践应用的可操作性,制定实体类与属性的命名规则,结构化地定义本体的语义要素,形成本体的语义词典,从而增强本体的语义精准性。
*本文为国家社科基金重大项目“云计算环境下电子文件管理元数据智能化研究”(项目号:13ATQ008)的研究成果之一。
参考文献:
[1] ICA. RECORDS IN CONTEXTS: A CONCEPTUAL MODEL FOR ARCHIVAL DESCRIPTION [S]. Consultation Draft v0.1, September 2016.
[2] ICA EGAD. Records in Contexts (RiC): An Archival Description Draft Standard, 2016.
[3] ISO. Information and documentation – Records management processes – Metadata for records – Part 2: Conceptual and implementation issues: ISO/TS 23081-2:2007(E) [S].
[4] ISO. Information technology -- Metadata registries (MDR) -- Part 1: Framework: ISO 11179-1:2015 [S].endprint