网络信息资源MODS编目探讨
2012-08-21蔡惠霞
蔡惠霞
(广东医学院图书馆,广东 湛江 524023)
网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源,都可称为网络信息资源。为满足读者检索网络信息资源的需要,图书馆界积极探索网络信息资源的组织和整序问题。在这种背景下,MARC、DC元数据、MODS、TEI、EAD等用来描述网络信息资源的基本特征和相互关系的元数据,被应用到图书馆的信息资源编目工作中。笔者以题名“MARC”并含“网络信息”为检索词,检索CNKI的《中国学术期刊网络出版总库》,共检索到18条记录;以题名“DC元数据”并含“编目”为检索词,检索到9条记录;以题名“MODS”并含“编目”为检索词,只检索到3条记录。由此可见,学者比较重视研究MARC在网络信息资源组织中的应用,而对DC元数据、MODS等在网络信息资源编目中的应用研究较少涉及。本文着重就MODS在网络信息资源编目中的应用进行探讨,以期能起到抛砖引玉的作用。
1 MARC和DC元数据在信息组织方面的局限性
1.1 MARC及其局限性
MARC作为一种详细描述的元数据格式,是图书馆文献资源组织的重要工具。其定义的每个字段都非常详尽,而且对著录的内容有严格限制,能够提供多种检索途径。因网络信息资源缺乏类似实体信息资源那样的主要信息源,其主要著录信息一般散见于多个页面的不同位置上,而且反映网络信息资源位置的URL具有较大的变动性,即不同的URL可能代表同一个资源,同一个URL可能在不同的时间代表不同的资源,不具备实体信息资源中的ISBN等那样的可靠性和稳定性。因此,对于网络信息资源而言,MARC只有通过设置135字段、230字段、336字段、337字段、856字段来提高其描述网络信息的能力。随着MARC应用的不断深入,其局限性越来越明显,主要表现在:(1)MARC 按照 ISO2709标准编码,ISO2709所规定的语法结构常常使非专业人员感到MARC记录的混乱。MARC字段标识符没有语义表达功能,字段、子字段代号不直观,致使数据的交换性与互操作性差,MARC著录结果无法直接在Web上浏览;(2)MARC系统的大部分应用局限在对书目信息的描述,著录效率无法适应海量的网络资源著录需求;(3 MARC格式是经过严格限定和检验的数据流格式,目前只有专用的符合MARC格式的应用前端才能对MARC数据加以利用,这就导致大量网上资源无法通过通用的搜索引擎向因特网用户提供链接。
1.2 DC元数据及其局限性
为了提供一种更容易被人们掌握和使用的网络资源著录格式,方便网络资源的描述,提高网络资源的利用率,图书馆界、计算机及其相关领域的专家积极探索新的网络资源描述方法,DC(Dublin Core)元数据应运而生。DC元数据有简单和复杂之分。简单DC元数据有15个核心元素,即:题名项(Title)、主题词(Subject)、描述项(Description)、语种(Language)、来源项(Source)、关联项(Relation)、覆盖范围项(Coverage)、出版者项(Publisher)、作者项(Creator)、其他责任者(Contributor)、权限项(Rights)、日期项(Date)、类型(Type)、标识符(I-dentifier)、格式项(Format)。 在对资源编目时,著录者可以根据需要选择若干元素进行资源描述,这样可以简化著录项目。复杂DC是在简单DC基础上引入修饰词的概念,主要有体系修饰词(Scheme)、语种修饰词(Language)和进一步修饰元素属性的子元素修饰词(Subelement)。其中体系修饰词借鉴了MARC的优点并把分类法、主题词表等控制语言吸收进去。
虽然DC元数据可采用多种编码语言描述,简单易用,方便灵活,具有良好的可修饰性,但其也存在一定的局限性:一是字段定义的模糊性。DC元数据字段定义相对简单,因对字段定义的不同理解和操作上的不一致,数据规范性较差,降低信息的检索率;二是限定词使DC变得复杂化。为了能更为明确和精确地检索,DC在语法上先是增加修饰词,后又允许自定义修饰词,进而允许自定义新元素,这就增加了著录者的负担。如果限定词和著录规范越来越多,那么著录者也要进行相关的培训或依靠著录说明才能著录,DC元数据变得越来越复杂。
2 MODS在网络信息资源编目中的应用
2.1 MODS及其特点
MODS(Metadata Object Description Schema),中文译名为元数据对象描述模式,是由美国国会图书馆下属的网络发展部和MARC标准办公室共同研制出的一种新的元数据。MODS是在MARC的基础上发展起来的,其复杂程度介于MARC与DC元数据之间,弥补了两者的缺陷性,并与两者都有着良好的兼容性。MODS由元素、子元素、属性三部分构成。如表1所示,MODS共有20个主元素。每个主元素下设有若干子元素,元素具有属性。所有元素都可以重复使用,但属性不可重复使用。每个MODS记录至少要有1个元素,即主元素“题名信息”和子元素“题名”是必不可少的,其他元素均是可选的。MODS是以MARC21的元素和语义学为基础,用XML语言描述的元数据。MODS在书目描述中适用于网络环境下多种信息资源的描述。
表1 MODS主元素表
与MARC和DC元数据相比较,MODS有以下几个特点:(1)元数据集比DC更丰富,比MARC更简洁。MODS元数据字段参考MARC字段,取自MARC的子集,同时又提供了比DC更为丰富的字段,故MODS是复杂程度介于两者之间的元数据标准;(2)MODS允许开发者自定义标签。MODS采用的语言标签,允许资源创建人员自定义标签,标签的名称和含义可由创建者根据需要作出选择。资源创建者不需要具备专业的编目能力,因此,MODS简单实用,满足各类信息交换的需要,具有良好的适应性;(3)MODS是集成MARC及DC的桥梁。由于MODS的结构复杂程度介于MARC和DC之间,而且MODS与DC在一定程度上借鉴了MARC的标准,是从MARC发展而来,故三者具有一定的互通性。可将MODS作为MARC和DC之间转换的桥梁。
2.2 应用MODS编目实例
MODS采用XML作为编码语言,灵活性强,不仅能胜任纸质文献处理,而且可以胜任对网络信息资源的处理。MODS采用语言标签,增加了可读性,简单实用,可以由资源创造者而不是专业编目人员创建描述记录,能够简单、快速地制作记录。MODS中所有元素的次序都是不固定的,其记录显示次序由Style Sheet控制,属性间次序也不固定。
本文应用MODS对广东医学院图书馆网站中的“本馆介绍”网页进行编目,格式如下:
本站是广东医学院图书馆网站的其中一个特色网页,主要介绍广东医学院图书馆概况
3 结束语
不同的网络信息资源描述方法各有优点,图书馆要结合各种信息资源描述标准的特点,根据自身的需要,选择适合的信息资源描述方法,开展网络信息资源编目工作。国外图书馆有较多以MODS为标准元数据集成各类资源描述格式的项目,如美国国会图书馆将American Memory和Global Gateway中大约200 000条MARC记录转为MODS格式。在图书馆处于纸质资源和数字资源并存的复合图书馆发展阶段,图书馆工作者要积极开展MODS在网络信息资源组织的应用研究,利用MODS整合馆藏资源和网络资源,使读者既可以找到纸质文献也可以找到数字资源。
[1]倪娟.MODS元数据的新发展与应用[J].农业图书情报学刊,2007(6):165-167.
[2]罗昊,刘宇.文献编目的第三条道路:MODS的简介与分析[J].四川图书馆学报,2003(3):31-34.
[3]罗红燕,李章平,陈绍兰.MARC、DC、MODS、FRBR 等文献编目元数据比较[J].图书馆学刊,2009(12):25-27.
[4]李世玲,李素喜.MODS与MARC、DC之比较研究[J].现代情报,2006(6):138-143.
[5]刘孝文.从MARC到MODS:编目元数据MODS分析与研究[J].图书馆杂志,2007(7):14-17,30.
[6]魏文晖.DC元数据在特种地方文献著录中的应用[J].图书馆论坛,2004(2):126-128.
[7]李卫峰.基于MODS的数字图书馆元数据集成[J].大学图书情报学刊,2010(6):58-59.
[8]徐险峰,网络信息资源的Dublin Core元数据编目[J].农业图书情报学刊,2009(2):52-54,58.