MARC未来及质量控制
2009-07-15罗军
罗 军
〔摘 要〕本文首先介绍了MARC格式的背景和基本功能,指出现行的著录和MARC格式首先要遵循“巴黎原则”,应该着眼于著录和著录格式的未来发展,搭建成一个更为可靠、面向用户的平台。最后探讨了未来MARC格式质量控制指标和未来著录实践和书目记录可能采用的大致轮廓。
〔关键词〕MARC;图书馆;联机编目
〔中图分类号〕G259.20 〔文献标识码〕B 〔文章编号〕1008-0821(2009)03-0216-03
MARC数据最早产生于美国。开发MARC格式的目的是为了书目注册数据的交流。初期MARC格式通常用来制作目录卡片。作为一种计算机技术发展的早期形成的数据格式,MARC在定义时比较充分地照顾到图书馆书目数据在文献形式描述、内容描述、检索等方面的需要,表现为字段数量多、著录详尽、可检索字段多、灵活实用的定长与不定长字段相结合、保留主要款目及传统编目的特点、扩充修改功能强、并能在实践中不断发展完善。
MARC格式作为书目注册的标准,出台后执行了若干年才出现联机目录和电子出版物书目记录。ISO2709(ISO,1996)是以国际标准方式发的MARC框架,即MARC格式使用的“三字符字段码、标识码和子字段码”。这类数据库结构适合处理记录在磁带上的连续数据流。ISO2709和MARC格式不仅可以用于书目数据还适用于其它类型的数据。虽然MARC格式是专门为图书馆环境研发的,但却不乏非图书馆环境的文本使用MARC格式的例子。
1 MARC存在的问题
MARC是基于文本的数据输入。字段与子字段的划分主要考虑对数据的相对精确的划分。实际上,MARC格式只是严格地用于书目数据。对于处理原始状态的评论、索引和音像文件则是它弱势。对于那些现在和将来目录中需要进一步强化著录的附加信息,至今没有一个公认的便于交流的标准形式,所以数据缺失是常见的现象。
从其本质上讲,MARC格式是一个严谨的格式,因为它设计的初衷就是为了生产印刷型目录卡片,所以并没有去考虑不同图书馆系统之间的交互问题。MARC格式在灵活性方面的缺失,带来的是图书馆各种系统之间的交流障碍。
大套书的MARC格式著录行文,显得相当笨拙。尽管问题首先在于数据库系统本身,但是MARC在结构设计上原本就不支持连续文本。
由于MARC是以印刷目录为基础,那么执行MARC格式就意味着在卡片上或屏幕上对单个文档进行描述和揭示。换句话说,如何将不同字段的数据关联起来是非常困难的。
MARC在图书馆系统中推行并成为图书馆专用格式,但不适合与图书馆外部环境的直接交流。需要加强的一是封装技术问题,二是字段构建问题。
尽管MARC格式存在着许多问题,但我们要记住,MARC格式为图书馆提供了非常优秀的揭示文献书目信息的工具,到目前为止还没出现能取代它的格式。
种种迹象表明,1998年IFLA颁布的《书目记录的功能需求》(Functional Requirements for Bibliographical Records—FRBR)和《扩展标记语言》(Extensible Markup Language—XML)将是后MARC时代的走向。
2 书目记录的功能
2.1 巴黎原则
在巴黎原则中目录的功能被描述为:目录应该是一种有效的工具,用它来确定图书馆是否收藏某种图书(包括其它馆藏资料),目录应有如下内容:图书的作者和书名;或如没有作者,仅用书名;或如作者和书名不对应或无法确认,选一合适的书名替代品;和某作者的哪些著作有收藏;和所藏著作的版次。
首先,目录应具备辨识功能。编目规则规定要标出书名、创作者等。其二,目录应具备配置功能,即展示作者著作集合的职能。在作者名字可控形式下将创作者的产品集合在一起。通过参见方式把同一作者的不同名字关联起来,形成可控态。用同样的方法,把一种著作的不同版本用统一的书名关联起来。
2.2 书目记录的功能需求
从“巴黎原则”到1998年IFLA推出《书目记录功能需求》,对目录或书目记录一直没有严格的标准。FRBR的出台是非常重要的。FRBR推荐了一个书目记录基本标准,即书目记录应该帮助读者(1)找到所有的文献某机构的著作;(2)找到某一特定文献:(3)辨识某著作;(4)辨识某著作的表达手法;(5)辨识某文献;(6)选择某著作;(7)选择某著作的表达手法;(8)选择某文献;(9)获得某文献的存取路径。
2009年3月第29卷第3期现?代?情?报Journal of Modern InformationMar.2009Vol.29 No.32009年3月第29卷第3期MARC未来及质量控制Mar.2009Vol.29 No.32.3 FRBR和MARC
FRBR与巴黎原则最重要的区别在于,FRBR要求一个文档至少包括一部著作的一个描述。FRBR认为仅提供检索题名和原创者数据的文献形态是不够的,仅通过名字的可控形式罗列出作者的多种著作是不够的,仅罗列一个作品的各种表达是不够的。它有必要使每个层次上的书目记录都充分而明确地反映辨识数据,以及在全部四个层次上反映特征数据和个性数据。只有这样才能有利于通过一个搜索组合就能辨别并挑选出需要的书目记录。
MARC格式在题名和文献的定位上支持巴黎原则,而FRBR的着力点放在著作之间以及基于主题存取之间的关系处理上。到目前为止,FRBR既没成为一种格式也没成为著录规则,它只是一个概念。对一些疑点的研究仍在继续,从概念到具体应用到图书馆系统中仍有很多工作要做。
2.4 XML
扩展标记语言(Extensible Markup Language-XML)来源于SGML(ISO 8879),是一种简洁、灵活的文本格式。最初XML是为应对大规模电子出版带来的挑战而设计的。今天,它对Web以及其它方面的海量、多样化数据的交流也发挥着越来越重要的作用。XML是由万维网联盟(The World Wide Web Consortium-W3C)开发的,它为互联网充分发挥潜能找到可以共同使用的技术(规范、方针、软件和工具)。
XML提供了一个更为通用的描述传递数据的标准。这在开发MARC和ISO2709等工具之前和之后是没有的。出现这种情况的条件是存贮设备有足够大的空间和大容量传输线路。一个XML格式的记录要比一个MARC记录占用多得多的空间,今天对存贮空间的使用不再像以前那么苛刻。就XML本身来讲,它既可以标准化的,也可是专用化的。
2.5 MARC和XML
使用XML处理MARC记录具有积极的意义。这里我们着重区分二者的内容格式和传输格式。内容格式就是对事实描述和指令进行定义了的格式。传输格式就是一个容器,其中可以存放多种类型的内容格式。MARC21、UNIMARC和CNMARC均为内容格式。
用XML编写的著名内容格式是《元数据目标描述方案》(Metadata Object Description Schema-MODS),它是MARC21格式的简化形式,使用语言化描述而非字段码。MODS不是一个通用的MARC记录的XML解决方案,更接近MARC21的解决方案。然而,它对于目前MARC21存在的大部分问题都没有给出解决方法。使用XML封装的MARC有多个版本。例如,国会图书馆2003年开发的MARC21版,2002年OAI研发的《元数据收集开放档案初级协议》(Open Archives Initiative Protocol for Metadata Harvesting-OAI睵MH)。
ISO2709或许会由一个XML项目替代。这个问题在ISO信息与文件协同委员会的一次会议上进行过讨论。2003年5月着手开发国会图书馆MARC21XML封装成一个ISO标准,使用一个更为通用的基于XML传输格式,合并所有的MARC格式。除了编辑注释,这个传输格式只需要出现在记录中的格式信息。这种对ISO2709的补充很明显是使用了XML,但只是利用了XML的优势。当然,XML是一种主流技术,但它嵌入的字段、子字段和指示器仍然是MARC格式。
3 与外部和功能的相互影响
MARC是专为图书馆设计的,在实践中除了图书馆内部环境以外,无法与外部环境交流。以前这还不是个问题,但随着不同部门之间数据交流的提高,MARC格式与外部交流就成为突出的问题。每个图书馆不再是一个孤岛,图书馆与图书馆、图书馆与外界的交流与相互作用已成为基本的要求。一个大学图书馆必须能够与学校的行政系统相连接,但一个学校各部门的系统有着非常大的差别。
档案馆、博物馆、图书馆等机构之间开展合作有着非常重要的意义,大家使用相同的数据表示方法以便于相互交流。都柏林核是首选的描述语言,因为这种格式的整个结构更容易实现表达方式的同一性。再一个原因就是都柏林核不适合部门内部使用,因为它过于通用,不能应对专门化需要。选用都柏林核也存在一定的问题,因为它主要是处理web资源,所以格式相当简单。我们必须时刻牢记都柏林核的基本原则:为检索而描述Internet上的资源。DC作为描述Internet资源通用格式的思想在某种程度上是成功的。但是直接用DC重塑MARC就会出现问题。
通过比较,我们可以看到DC与MARC的相似之处在于:它们的目的相同,即都是对信息资源数据本身的特征和属性进行描述,是对信息资源结构化的描述。通过对信息资源特征的描述与揭示,帮助读者在茫茫书海中尽快地找到所需文献,以及帮助用户对网络信息实现有效、快捷、准确地查找。但由于两者产生的信息环境、描述对象等的不同,分属于不同的概念模型,所以又有诸多差异,各有各自的特点。
4 MARC标准的质量控制
对一个先进的元数据基础结构的质量要求有多种多样。在某些情况下,标准是相互对立的,如简洁性和多功能性。所以我们面对的挑战是在对立的平衡点上建立一套先进的标准、协议和工具。这个平衡点的选取,应侧重于用户的需求和我们满足用户需求的能力,而不应该偏重于基础结构的易执行性或易维护性。它具体的质量控制标准如下:
(1)多功能性。一个先进的元数据结构应具有对多种对象描述的多种元数据资源的吸纳、融合、引导、强化和展示给用户的能力。
(2)可扩展性。我们需要基础结构既能扩展,又不会破坏它的整体结构。
(3)开放性和透明性。为了便于基础结构的操作和扩展,其标准、协议和软件应尽可能的开放和透明。
(4)通用性(多样性)。一个元数据基础结构应尽可能多地适用于各种机构组织和各行业各层次人员的需求。也就是说,这个系统既支持低端系统也支持高端系统。普通用户使用起来无复杂感,高级用户使用起来得心应手。
(5)通管性。一个新的书目基础结构的基本组件来自于各种部门,特别是在新的元数据标准创建时和后续管理中要有可操作性的合作管理程序。
(6)模块性。实现元数据基础结构的容纳性、融合性、引导性和输出性必须坚持模块化方针。在保持整体结构的前提下,允许组件自由替换,使用不同的组件发挥专用的功能。
(7)分级结构。一个先进的书目元数据基础结构必须能够处理层次信息。如一本书的内容目次就是它固有的层次,目前MARC记录中没有放置层次信息的合适位置。
(8)粒度。粒度是元数据的一个关键质量指标。所谓粒度是表现一个物体或活动特征的相对大小、比例、细节等级或穿透深度。如在描述人的姓名时,如果元数据结构不做姓与名的区分时,软件很难加工出前后一致、正确的数据来。
5 结 论
较之以往,Internet的发展使不同部门的数据易见性、可获取性更高,部门之间的障碍正在被打破。图书馆有必要对外界开放,与外界分享标准与数据。书目记录应该更容易被其他机构、其他图书馆再利用。然而,问题是:如何在短短几行中进行描述,使它既适用于各种文本,同时在最小化的前提下保持数据原貌?一个可用的模式应该包括核心数据和多个补充数据。一个MARC格式的转换常常不是一件容易的事,接纳性强的新格式必然缺失特性。再者,一个格式的转换是相当昂贵的。在过去几年中,人们常将XML挂在嘴边,但将MARC嵌入XML却进展缓慢。用MARCXML格式替代ISO2709或许非常有用的,但不适用与外部交流。
取得最佳点的平衡是非常重要的。我们需要国际社会的共同努力,因为核心数据的确定必须得到国际图书馆界的广泛认同,这也包括XML的选择。在实际应用中,不同的元数据集用于不同的行业,不可能把所有的都连接起来,然而它作为实现一个目标的出发点是非常有益的。
参考文献
[1]潘太明,朱岩,宋斐华.中国机读目录格式使用手册(修订版)[M].北京:科学技术文献出版社,2001.
[2]国家图书馆.新版中国机读目录格式使用手册[M].北京:北京图书馆出版社,2004.
[3]国家图书馆MARC21格式使用手册课题组.MARC21书目数据格式使用手册[M].北京:北京图书馆出版社,2005.
[4]国家图书馆MARC21格式使用手册课题组.MARC21规范数据格式使用手册[M].北京:北京图书馆出版社,2005.
[5]国家图书馆《中国文献编目规则》修订组.中国文献编目规则(第2版)[M].北京:北京图书馆出版社,2005.