元数据在数字图书馆中的应用
2011-07-09那旭东
那旭东
(长春工业大学图书馆,吉林长春 130012)
1 数字图书馆中元数据的产生
随着计算机技术、因特网的迅猛发展,人类知识信息资源的海量增加,数字化信息正以前所未有的速度不断增加,人们获取知识信息的方式也随之发生了巨大变化,数字图书馆也就应运而生,并逐步由传统图书馆向数字图书馆过渡转变。
图书馆原来那种一成不变的管理方式已经适应不了以动态和开放为特征的新型方式,因此,整个图书馆的管理模式、工作环境、作业流程及服务手段都会随之改变,图书馆通过搭建数字应用系统平台,对数字信息资源进行采集、加工整理并提供服务,图书馆与读者之间的供需关系变得更加密切,一切与知识资源相关的要素都将被有机地整合起来,形成一种面向需求、适应变化的图书馆知识管理机制。在这种不断变化的新环境下,元数据作为一种有效的资源描述方法便会越来越显示出它的重要性和实用性。
2 元数据的概念
元数据是描述数据的数据[1],专门用来描述数据的内容、特征和属性,并对数据进行管理,结构化的数据是数字图书馆信息组织的根本。具体概括起来,元数据对资源对象的作用主要有描述和管理两个方面。
2.1 与元数据有关的相关概念
2.1.1 描述元数据
描述元数据用于描述或标识信息资源对象的内容、属性和外观特征,并对这个对象进行定位、管理,且有助于发现与获取数据。由于描述元数据属于应用范围最广、应用频率最高的元数据类型,通常也可以把描述元数据直接称为元数据。针对每一个具体的数字资源的元数据,也称为元数据记录。描述元数据是整个元数据体系中最主要的元数据,应用广泛,可以根据不同的学科、主题、资源类型、用途等编制不同的描述元数据标准。
2.1.2 元数据元素项
一个元数据由许多完成不同功能的具体数据描述项构成,这些具体的数据描述项又称元数据元素项或元素。如题名、责任者、日期、唯一标识符等都是元数据中的元素。
2.1.3 修饰词
修饰词是组成元素的最小术语单位。包括:
语义修饰词:简称修饰词,对元素的语义进行修饰,提高元素的专指性和精确性。
编码体系修饰词:用来帮助某个术语值的上下文信息或解析规则。其形式包括受控词表、规范表或者解析规则。
2.1.4 描述元数据规范
描述元数据规范也可以称元数据规范、元数据标准,是描述某类资源的具体对象时所有规则的集合。一般包括完整描述一个具体对象时所需要的数据项集合,以及数据项的语义定义、著录规则和计算机应用时的语法规则。
2.1.5 元数据规范设计指南
元数据规范设计指南是设计制定某类特定资源所用的元数据规范需要遵照的规则和方法。元数据规范设计指南是抽象化的元数据,它从更高层次上规定了元数据的功能、结构、格式、设计方法、扩展规则、语义语法规则、元数据规范的结构格式等多方面的内容,以保证各种元数据规范的一致性和整体性,在更大范围内实现数字图书馆之间的互操作和数据共享。
2.2 元数据的结构
元数据的结构主要指内容结构、语法结构和语义结构。
内容结构是指元数据的元素、修饰词及其属性、定义,其中可包含用于描述的通用的核心元素,用于描述某一类型资源的资源类型核心元素,用于描述某个具体对象的个别元素,以及揭示对象标识、版权等内容的管理性元素。
语法结构是指元数据的格式结构及其描述方式。例如用于文本编码的内容元数据TEI就包含了4个部分:头标、正文前内容、正文、正文后附录。目前,主要是采用XML语言和RDF框架用于标识和描述元数据的这种格式结构。
语义结构主要是指元数据的元素及其修饰词的定义方法。在这方面可以借鉴采用ISO/IEC11179标准,按以下10个方面定义:
名称(Name):元素名称;
标识(Identifier):元素唯一标识;
版本(Version):产生该元素的元数据版本;
注册机构(Registration Authority):注册元素的授权机构;
语言(Language):元素说明语言;
定义(Definition):对元素概念与内涵的说明;
选项(Obligation):说明元素是限定必须使用的还是可选择的(必备性);
数据类型(Data type):元素值中所表现的数据类型;
最大使用频率(Maximum Occurrence):元素的最大使用频次(可重复性);
注释(Comment):元素应用注释,用于说明子元素情况[2]。
3 元数据在数字图书馆的应用
数字图书馆是将图像、文字、声音等信息数字化,并通过网络传输,从而使信息资源能够全球共享[3]。简单地说,数字图书馆就是以数字形式存储和处理信息的图书馆[4]。对数字资源的组织和管理是数字图书馆建设的重点,元数据作为提供信息资源或数据的一种结构化的编码数据,是其进行的基础[5]。
数字图书馆无论在哪个环境和层面上,都与元数据密不可分,或者说元数据在数字图书馆中时刻都存在和发挥着作用。
3.1 元数据在数字资源建设中的作用
在数字资源产生、制作、管理、发布、保存的过程中,元数据在各个环节上发挥着作用。
3.1.1 元数据对数字对象的描述
即对具体对象的内容和外观特征进行格式化揭示和描述。例如一本数字化图书的篇名、作者、出版者、大小等,以便于用户的发现和寻找。
3.1.2 元数据对数字对象的管理
即对数字对象进行管理的相关信息的格式化揭示和描述,包括在检索、存取与显示一个数字对象时所需的管理信息,如对象的标识符;数字的权限管理如版权信息;文件的格式、大小、压缩算法等特征;文件的上下文相关信息;在资源数字化或显示、利用时的软硬件环境信息等。
3.1.3 元数据对数字对象之间结构的描述
一般来讲,数字对象很少是一个实体的,通常来说是个复合对象。例如一篇数字格式的学位论文,有Word格式、PDF格式,PDF格式又分为供免费使用的文件以及必须经过许可才能使用的全文文件,这样一篇学位论文就对应了3个实体对象,因此,需要对这些对象之间的关系和结构进行格式化揭示、描述和组织。
3.1.4 元数据对数字对象保存的描述
当资源需要存储和长期保存时,就要对其制作信息、保护条件、转换方式、迁移方法、仿真环境、封装方法、保存责任以及其它相关技术细节进行描述和揭示。
3.2 元数据在数字图书馆服务中的作用
在用户使用数字图书馆的过程中,元数据的主要作用是在门户网站和应用系统中支持对信息的检索和发现。在这个过程中,元数据可以发挥如下的作用。
3.2.1 提供准确和快速的检索
由于有了元数据,可以通过字段检索快速准确地得到检索结果,而不是“全文检索”后又要在大量的检索结果中大海捞针一般寻找自己所需的信息。所谓字段检索,即指定检索词出现的字段,是指在元数据中被标引过的,例如作者、文摘、主题词、篇名、刊名、书名、出版者、出版年、图像格式等。
3.2.2 提供知识导航功能
在数字图书馆门户网站上为用户建立基于某一知识体系的资源导航服务,即由系统从元数据的某一特定字段中抽取相关内容,并提供一个树状结构的概念等级体系,用户可以沿着这棵“树”进入不同的分支,到达叶子节点,并在节点看到资源结果列表。
3.2.3 提供资源索引功能
资源索引功能是指将元数据中某一字段中的概念按字母顺序线性排列起来,不分等级。用户通过检索可以定位在索引中的任意某个位置,并浏览在这个位置附近的所有词语,进而查询所需词语对应的结果列表。
3.2.4 在报道和揭示服务中的作用
元数据也可以对服务过程、服务项目等进行揭示和报道。例如,一个大学数字图书馆门户网站的服务内容元数据就包括:统一认证、书目检索、统一检索、学科导航、资源类型导航、全文获取服务、咨询服务、用户培训、在线帮助、个性化定制、动态消息、网站介绍、网站索引、站内检索、相关链接等。这个门户元数据既是设计数字图书馆门户时使用的元数据,也向用户全面科学地揭示了数字图书馆的相关服务。
下面是用都柏林(Dublin Core)元数据对一篇网页进行描述的实例。
3.2.5 在数字资源开放存取的作用
所谓“开放存取”是针对传统的基于订阅的出版模式而言的,即是指由作者直接在线出版论文,在互联网公共领域里可以被免费获取,允许用户阅读、下载、拷贝、传递、打印、检索、超级链接,并为此建立索引或者用于其它任何合法用途[6]。它是基于互联网的一种新型学术交流方式和出版模式[7],也是一种行之有效的学术出版模式,这其中包括正式发表论文的后印本,正式出版的著作、教材、会议论文集与研究报告等学术成果,非正式出版的论文的预印本、学位论文、工作论文、各种原始数据和元数据、教学参考资料、照片、图表、地图以及数据库、政府出版物、网站等。
3.3 元数据在数字图书馆互操作性和可持续发展的作用
元数据揭示的是数字对象的内容、特征和属性,那么在元数据加工制作的过程中,就必须遵循相关的规则和格式,这些规则和格式的集合就是元数据规则。
随着各种元数据标准的出现,元数据的互操作性问题也就逐渐显现出来。元数据的互操作性的好坏直接影响了各种不同信息资源的检索、共享和互相兼容性。元数据的互操作主要是通过语义互操作和结构与语法的互操作来实现的[8]。例如,以Dublin Core的15个核心元素为基础,使不同元数据中相似相近的元数据元素相互映射,从而实现了语义上的互操作。又比如资源描述框架RDF的制定为元数据在互联网的应用提供了一个基础结构,使不同元数据间可以互相操作,可扩展标记语言XML,又为元数据在语法上提供了互通性,用RDF/XML创建元数据格式时,借用其它元数据集的一些元素,增加了元数据间语义的互通性,很容易就实现了互操作。
由于元数据规范的应用,保持了元数据结构的一致性,为信息的有效组织、元数据之间的互操作、元数据的广泛应用和共享奠定了基础,使数字图书馆的可持续发展成为可能。
数字图书馆作为信息时代的产物正处在篷勃发展的阶段,而元数据是数字图书馆许多关键技术的基础,有了这个基础,数字图书馆的信息管理才能更趋合理化和科学化,资源的利用率也会大大提高。
[1] 王英芬.元数据模式组织网络信息资源研究[J].农业图书情报学刊,2009(11):50-52.
[2] 肖珑,赵亮.中文元数据概念与实例[M].北京:北京图书馆出版社,2007.
[3] 龚永红.DC元数据及其在数字图书馆建设中的应用[J].科技情报开发与经济,2010,20(31):78-80.
[4] 夏立新,黄晓斌.数字图书馆导论[M].北京:科学出版社,2009.
[5] 卢笑明,唐琳,李学鸣.元数据与图书馆数字资源组织管理[J].农业网络信息,2010(12):70-71.
[6] 陈红星,张淑芳.网络原生数字资源:概念特征与类型[J].图书馆学刊,2010(5):1-4.
[7] 关萍,吴立东.开放获取运动在高校图书馆的发展策略[J].黑龙江科技信息,2010(35):188-189.
[8] 吴开华,邢春晓,罗德胤.数字图书馆元数据研究[J].中国图书馆学报,2002(3):43-46.