数字图书馆的元数据方案及互操作研究*
2011-03-10吴育芳
吴育芳
(湛江师范学院图书馆,广东 湛江 524048)
1 引言
数字图书馆是采用现代高新技术的数字信息资源系统,它将从根本上改变目前信息分散、不便于使用的现状[1]。随着Internet的飞速发展,特别是Web应用的不断普及,数字图书馆及其信息急剧增加。为了适应这种快速发展,人们建立了许多适用于不同资源、面向特定领域的元数据方案,如MARC、DC、VRA等。元数据为数字图书馆提供了精确描述数据内容、语义和服务的机制,可以方便标识、发现、评估和管理信息资源。
元数据开发和应用的经验表明,尽管元数据的应用日益标准化、规范化,DC等少数元数据方案将占主导地位,但是许多专业或专门领域仍然会有大量的元数据方案,很难有一个统一的元数据格式来满足所有领域的数据描述需要。从应用的角度讲,国际上公认的元数据标准在短时间内很难形成和统一。为缓解元数据资源描述的特殊性和一般性矛盾,解决元数据间多元化、非标准化的协调发展问题,迫切需要在元数据间建立某些机制,从而有效地实现元数据间的互操作。
互操作原则[2]体现在对异构系统间互操作能力的支持上,不仅可以为自己的应用系统所操作,而且可以为其他组织或机构的应用系统所操作;不仅可以在不同系统实现同一元数据标准间的数据传输、交换或转换,而且可以在不同元数据标准间实现数据的传输、交换或转换。在元数据的具体应用上,互操作性表现为易转换性,即在所携带信息损失最小的前提下,方便地将元数据转换为其他系统常用的元数据标准。
2 数字图书馆的元数据
在元数据研究的初期,常从单一信息系统的角度,按照描述、组织和检索信息内容对象的要求来考虑元数据,从信息资源中抽取说明其特征、内容的数据,如题名、版本、出版数据、相关说明等。元数据的含义与传统文献领域中的著录款目的性质相同,信息资源的元数据用作信息资源的代替物组织检索系统。
随着分布式环境下数字图书馆互操作的发展,元数据不再仅是描述信息内容的工具,而是一种基本的信息资源组织方法,为数字图书馆系统的各个层次内容提供规范化的定义、描述、交换和解析机制,为分布的数字图书馆系统提供互操作和整合的纽带,为计算机智能识别、处理、集成各种信息内容提供工具。
元数据可以描述各种粒度(granularity)水平的信息资源和信息体,这主要取决于数字图书馆所需达到的层次、信息资源的情况和用户的需求等。一般来说,数字图书馆根据特定馆藏的性质、馆藏量的多少及馆藏使用者的需求等具体情况,可以进行馆藏水平、数据库、单一文献等几种水平的描述。
元数据可以划分为3种比较宽泛的类型:描述性元数据、结构性元数据、管理性元数据[4]。描述性元数据指描述和识别信息体的特征、分析信息体知识内容的数据。结构性元数据有时也被称为技术型元数据、显示型元数据或使用型元数据,是用于确保数字化信息体正常发挥功能的技术性信息。它是指相关文件的结构或“标记”,如何组成在一起,如何在各种系统中显示和发布等。管理型元数据提供有关数字对象的存储条件和转换过程相关的信息。它的目的是满足管理、决策、保管记录的需要,有助于检测、复制和备份数字资源。但是到目前为止,大多数有关元数据的讨论仍只是针对描述性元数据。
元数据是结构化的编码数据,用于描述信息实体的特征,以便标识、发现、评估和管理这些信息实体。它为数字图书馆的信息提供完全综合的向导,对数字图书馆的各个方面都很重要,不仅是实现资源发现的关键,也是利用馆藏资源和实现互操作的基础。具体用途如下:
①描述数字图书馆的数据和内容;
②在描述数据中提供检索点,使数字图书馆的数据和信息便于查询和利用;
③允许用户决定数据和信息是否是他们需要的;
④指出数据和信息的存储地址,使用户得到或使用数据;
⑤说明数据的格式、编码方式、解密方法等,指导用户“读懂”数据;
⑥在提供多种格式的数据时,根据元数据提供的信息,参照相应评估标准,结合使用环境和实际需要,帮助用户决定利用的数据实例;
⑦给出影响数据使用的信息,如法律条件、使用范围、使用时间限制等;
⑧给出数据的最初来源、演变历程等;
⑨给出数据的联系信息,如数据拥有者的联系方式等;
⑩给出数据前后版本的链接、使用本数据所需的其他数据和程序等;
3 元数据方案
为了使计算机能够理解并操作,元数据必须存在于一个元数据体系之中。元数据体系的基本组成部分包括方案(schema)和元素[4]。元数据的元素是指封装描述信息体的一条一条信息的类目或字段。元数据方案是为了满足特定组织的需求而设计的元素集,如MARC元数据用于描述书目数据;EAD元数据用于描述档案文献和手稿资源;CDWA、VRA Core、CIMI元数据用于描述艺术作品类目;GEM元数据描述教育资源等。由于不同组织的需求各不相同,元数据方案在数据元素的数量、强制性和复用性元素的使用、编码、受控词表的使用等方面有很多不同。
一个元数据方案要规定元数据3个方面的特征:语义(semantics)、句法(syntax)、结构(structure)。
语义是指元数据元素本身的意义。一个元数据体系通常要对每一条元数据的元素给予命名和解释。元数据体系还要指出每个元素是否必选、可选或有条件选择,以及是否可重复,这些都是元数据的语义范围[5]。
句法是指元数据的编码,是对元素赋值方法的规定。即指描述元素时所采用的标准、最佳实践(bestpractices)或自定义的描述要求。
结构是指用于封装元数据的数据模型(或体系结构)和元数据声明的表述方式。它规定了元素怎样以机器可读的方式给予编码。结构除了规定数据怎样在计算机系统中存储外,更重要的是,可以提供一种不同系统间元数据交换、重用的通用格式。因此,元数据方案的结构也可以称为交换格式、通信格式或传输语法。
我们也可以把这3个方面称为元数据方案的3个组成要素,从逻辑上说,具备以上3个要素才能构成一个完整的元数据方案。
4 数字图书馆元数据的互操作
互操作是指不同系统之间不管使用哪种硬件或软件都可以实现互联,它最大限度地减少了因技术差异而造成的信息损失。由于不同的领域存在着多种元数据格式,当用不同元数据格式进行资源描述、检索和利用时,就需要解决多种元数据格式间的释读、转换问题,以确保系统对用户的一致性服务,即实现元数据的互操作[6]。数字图书馆元数据的互操作性[7]是指在不同的组织和数字图书馆制定与管理元数据的环境下,元数据的技术规范不尽相同时,向用户提供一个统一透明的检索界面,确保系统对用户的一致性服务。也就是说,数字图书馆元数据的互操作问题是与不同元数据格式间的信息共享、转换、跨系统检索等相关问题。
对应于元数据方案的3个组成要素,我们将元数据的互操作性分为语义互操作、句法互操作、结构互操作,也就是说元数据的互操作要解决元数据方案所包含的3个方面的异构问题。语义互操作是指不同的元数据方案中实际相同的语义是否采用相同的表达方式,主要克服资源描述过程中语义方面的差别。句法互操作是指元数据记录如何被表达出来,要克服元素表现形式方面的障碍。结构互操作是指系统元数据和与其他系统交换元数据的能力,即一个系统的元数据声明能否被其他系统所理解。语义互操作的实现需要通用语言和编码格式的帮助。
4.1 语义互操作——元数据转换
元数据转换(metadata crosswalks、metadata mapping)[8]也称元数据映射,其实质是为一种元数据格式的元素和修饰词在另一种元数据格式里找到相同功能或含义的元素和修饰词。元数据转换是人们在寻求互操作途径方面迈出的第一步,也是目前实现元数据互操作的主要方法。映射可以解决几种格式间的统一检索。映射有多种方式:
4.1.1 一对一转换
一对一映射将一种元数据标准中的元素映射为另一种元数据标准中的相应元素。元数据体系A→元数据体系B(来源A到目标B,一个映射过程);元数据体系A↔元数据体系B(两者互为来源和目标,两个映射过程)。
单向转换相对容易而双向转换则较难[9]。这尤其体现在一个简单元数据格式与一个复杂元数据格式之间的转换上。如DC与MARC的转换,由于MARC的描述能力大大丰富于DC,所以数据由DC格式向MARC格式的转换较为成功,但若是由MARC格式向DC格式转换则将产生信息的缺失。这种技术可以解决几种格式间的统一检索[8]。也就是说,一个适合第一种数据格式的检索式,通过两种格式间的映射关系,可以自动转换为适合第二种格式的检索式,在第二种数据库里检索。
利用特定转换程序对不同元数据格式进行转换,目前已有大量的转换程序存在,供若干流行元数据格式之间的转化,例如DC与USMARC、DC与EAD、DC与Gils、Gils与USMARC等。
但是,要达到元数据互操作的目的,必须在元数据方案之间建立两两映射,在元数据格式数量较多时,转换模板的数量也呈指数增长,因此这种技术一般适用于使用面较窄的范围。此外,因受各种各样复杂的实际情况影响,建立语义匹配基础上的元数据映射的应用效率并不十分令人满意,很少有元数据转换工具可以提供数据无损的往返转换。在转换过程中,或在还原过程中,或同时在这两个过程中,总是不可避免地造成一定程度的数据损失。
4.1.2 中介元数据格式转换
当参与互操作的元数据格式很多、映射过程较为复杂时,可选择一种广泛而普遍使用的元数据标准作为中心转换格式,其他各种格式都向这一中心格式转换,从而实现以中心元数据格式为中介的元数据格式转换[6],如图1所示。
图1 中介元数据格式转换
被采用的标准格式应该在元素组成、元素语义定义和应用领域等方面具有普遍适应性,本身有较广泛的应用,能被多数系统识别。理想的中介格式能够为各个异构元数据提供对照,语义转换比较容易的公共核心集[10]。
当前,以DC元数据格式作为转换的标准,此种方式转换脉络清晰,便于元数据的扩展及管理。典型实例是OAI-PMH机制。在OAI-PMH元数据采集协议中,允许不同格式的元数据结构并存,但指定DC作为数据提供方提供的元数据格式。也就是说,数据提供方提供的元数据不是DC格式的,要先转化成DC元数据后再提供给数据需求方使用。OAI-PMH不要求所有成员遵守同一个协议实现统一和互操作,而是要求所有元数据的发布方都支持以XML语言表示的简单DC元数据结构,从而实现跨领域的资源发现和共享数据,使不同格式、不同标准的元数据在语义层面上实现互操作。
将元数据映射为一种兼容性比较强的、比较全面的元数据,可以降低复杂性,当参与映射的格式越多时,这种技术的好处就越明显。
4.2 句法互操作——XML语言
元数据的编码语言是针对元数据元素和结构进行定义、描述的具体语法和语义规则[8]。目前使用的元数据编码语言有SGML(标准通用标记语言)、HTML(超文本标记语言)、XML(可扩展标记语言)。SGML存储格式很好,但复杂难懂,不便于网络传输;HTML结构性不强,扩展能力差,描述内容的能力也较弱;XML本身就是一种定义语言,使用者可以定义标记来描述文件中的任何数据元素。它突破了HTML固定标记集合的约束,使文件的内容更丰富、复杂,并组成一个完整的信息体系。XML具有良好的数据存储格式、可扩展性、高度结构化、便于网络传输等优势,决定了其卓越的性能表现。XML由于自身的特点,使得它成为了元数据互操作的基础,为各种互操作模式提供语法支持。因此,在数字图书馆元数据方案中,选择XML作为编码语言,能够为信息交换提供独具特色的解决方案,以实现元数据的共享、互换。
XML有标准的DTD(documenttype definition,文档类型定义)定义方式。DTD包含有定义元素的元素声明和属性列表声明,这些元素组成了词汇表,属性列表声明说明了这些元素的属性。DTD在简单的文档结构定义方面很出色,每种格式的元数据都可以通过XML-DTD定义。XSLT是基于W3C标准的用于描述XML文档之间进行转换的语言,它利用XML语言,定义一个转换格式表(transformation style sheet,又称转换样式、转换模板),可将某种XML-DTD定义的元数据转为用另一种XML-DTD定义的元数据[6]。
但是,DTD支持的数据类型只有字符型,不支持命名域(namespace),缺乏良好的扩展性,也不具备开放性,扩充困难,难以进行自动化处理。因此,W3C推出XML Schema弥补上述缺点。
XML Schema是DTD的发展,它不仅包括了DTD能实现的所有功能,而且本身就是规范的XML文档,规范了文档中的标签和文本可能的组合形式。XML Schema是一种描述信息结构的模型,它是借用数据库中一种描述相关表格内容的机制,为一类文件建立一个模式。它利用XML的基本语法规则来定义XML文档结构,实现了由内到外的统一,不仅易于编辑,也可使用XML工具来解析,这是Schema较DTD的一个本质变化。它还具有良好的扩展性,有丰富的内建简单数据类型,允许用户自己扩展;它支持属性分组,属性的应用范围是多种多样的,可以针对不同元素;具有扩展性,定义的内容模式是开放的,原形可以更新;它还支持名字空间,能在同一文档中加载多个Schema定义。此外,它还具有互换性、规范性,利于高层次的数据转换,约束XML文档中置标的使用。
XML实现不同元数据的简单转换如图2所示。
图2 基于XML语言的元数据转换
首先要用XML-DTD或XML Schema对元数据记录进行编码,再利用XSTL扩展样式转换语言实现元数据之间的转换。在转换过程中涉及到结构、语义、应用等方面的映射关系,可以由建立基于概念集的语义词典来解决[11]。
4.3 结构互操作——RDF资源描述框架
解决结构层元数据互操作性的思路是建立一个标准的资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的元数据格式。资源描述框架RDF(resourcedescription framework)就是这样一个例子。RDF是在W3C的主持下开发的,它是对结构的元数据进行编码、交换及再利用的一个基础框架体系,能够实现各种元数据互操作。
RDF采用XML作为交换和处理元数据的通用语法体系结构,通过定义一些描述元素,把不同的元数据描述体系结合起来,将多种元数据封装在一个统一的描述框架中,从而使这些不同的元数据体系可以交换元数据,实现多种元数据间的互操作。这样,只需一个能够解析这个标准描述框架的系统,就能解读相应的元数据格式。另外RDF通过使用XML中的命名域,允许RDF有效地引用特殊的RDF词表或模式体系,这不仅减少了创建新元数据模式的工作量,而且保证了高度互操作性,同时又不牺牲各相关系统的特点[7]。目前,RDF已成为Web上实现元数据互操作的标准[10]。
RDF由3部分组成:RDF Data Model,RDF Schema和RDF Syntax[6]。RDF Data Model提供了一个简单且功能强大的模型,它定义了一个由资源(resource)、属性(properties)和声明(statement)3种对象(object)组成的基本模型,其中资源和属性的关系类似于实体—关系模型,而声明是对资源与属性的关系进行具体描述。通过资源、属性及其声明来描述特定资源,RDF通过这个抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述资源的属性。RDFSchema则对RDF的语义进一步扩展,提供描述相关资源以及这些资源之间关系的机制, 规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其他资源间关系的方法。并提供RDF核心类(coreclass)、核心属性(coreattribute)和核心限制(coreconstraint)等机制来定义资源的类。RDF Syntax则构造了一个完整的语法体系以利于计算机的自动处理,它以XML为其宿主语言,通过XML语法实现对各种元数据的集成。在具体实现中,基于RDF的元数据转换是通过RDF架构,把所有的元数据集中到一起,实现多种元数据在异构系统之间的共享。
5 结束语
元数据是揭示信息资源的基础,它为数字图书馆提供了一种精确描述数据内容、语义和服务的机制。关于元数据互操作的讨论,是元数据研究领域的核心问题,也是有效利用网络信息资源的基本要求。笔者从元数据方案的3个层面理解元数据互操作的3个层次,可以有助于揭示元数据互操作的本质。相信随着技术的进步和人们认识的深入,元数据的互操作性问题将会得到彻底解决。
[1]任继愈.建设中国数字图书馆工程[N].人民日报,2000-04-04.
[2]金更达,何嘉荪.电子文件元数据标准设计框架研究[J].档案与建设,2005(9):4-7.
[3]马费成.信息资源开发与管理[M].北京:电子工业出版社,2004.
[4](美)Arene G.Taylor著.信息组织[M].张素芳等译.北京:机械工业出版社,2006.
[5]张东.论元数据互操作的层次[J].情报理论与实践,2005(6):648-650.
[6]毕强,朱亚玲.元数据的标准及其互操作研究[J].情报理论与实践,2007(5):666-670.
[7]陈虹涛,李志俊.元数据的标准规范及其互操作性[J].情报杂志,2005(7):93-95.
[8]孔庆杰,宋丹辉.元数据互操作问题解决方案研究[J].情报科学,2007(5):754-758.
[9]罗昊.互操作——数字图书馆元数据方案的关键[J].情报杂志,2003(12):32-33,36.
[10]郑志蕴,宋瀚涛,牛振东.数字图书馆元数据互操作机制的研究[J].计算机应用,2005(3):699-702.
[11]韩夏,李秉严.元数据的互操作研究[J].情报科学,2004(7):812-814,877.
[12]朱超.关于元数据互操作的探讨[J].情报理论与实践,2005(6):644-647,655.