APP下载

ONIX for Books与MARC的比较研究

2013-09-25

图书情报研究 2013年4期
关键词:字段书目著录

袁 润 马 征

(江苏大学科技信息研究所 镇江 212013)

·信息组织·

ONIX for Books与MARC的比较研究

袁 润 马 征

(江苏大学科技信息研究所 镇江 212013)

为找寻更好的可用于信息交换和文献著录的元数据标准,就当前应用最为广泛的MARC标准与ONIX for Books标准进行详细介绍和深入比较,结果表明ONIX for Books在众多方面都具有优势,可能成为未来被广泛采用的标准,最后探讨从ONIX for Books到MARC 的映射转换。

元数据 机读目录 ONIX 信息交换

随着网络技术的迅猛发展,Internet的普及程度越来越高,用户数量急剧增长。网络用户需求度的提高使得对数字信息组织的要求也越来越高,原有的元数据标准在未来环境下的不足已初步显现,严重制约了用户对所需信息的获取程度。虽然搜索引擎技术飞速发展,但不能从源头上解决问题,只有从信息流动的源头:信息的组织、著录和标引做起,才有可能彻底解决此问题,而选择适当的元数据描述和揭示标准并付诸应用是其核心环节,甚至决定了信息最终能否被最大限度地利用。此外,馆藏编目和数字出版领域信息描述元数据标准繁杂,标准的不统一,给图书馆和出版社之间信息交换造成较大障碍,这从很大程度上阻碍了数字出版和图书馆相关业务的深入开展,也严重制约了整个书业产业链的发展。鉴于新推出的ONIX for Books标准具有的优势,通过其与MARC的比较,对上述问题的解决提供一定的解决之道。

1 MARC和ONIX for Books的历史沿革

1.1 MARC的历史沿革

MARC(Machine-Readable Catalogue,机器可读目录),是利用计算机识读和处理的目录,是用于在计算机条件下描述、存储、交换、控制和检索著录数据的标准,已成为描述文献著录项目的国际标准格式[1]75。

MARC源于1963年美国G. W. 金等人发布的关于美国国会图书馆(LC)书目系统自动化的报告。1966年,LC出版了《标准机器可读目录款式的建议》,正式发布了MARC-1格式。1967年推出了MARC-2,并于1969年3月向全国发行MARC-2格式的英文图书机读目录磁带,称为USMARC。随后,MARC在国际上得到了广泛关注,1977年,为了便于国与国之间的交流协调,国际图书馆联合会在USMARC基础上制定了统一的“国际机读目录通信格式”,即UNIMARC[2]。我国于20世纪70年代开始对其进行关注和研究,1992年推出《中国机读目录通讯格式》,即CNMARC。由于各国MARC标准存在较大差异,1994年12月,美国国会图书馆、加拿大国家图书馆、大英图书馆发起了整合USMARC、CANMARC、UKMARC的项目,并与1999年成功推出了MARC21,目前MARC21已得到国际上众多国家的认可和采用。

1.2 ONIX for Books的历史沿革

ONIX(Online Information eXchange, 在线信息交換),是由国际组织EDItEUR(Electronic Data Interchange to Europe)、美国出版商协会AAP(Association of American Publishers)、美国的BISG(Book Industry Study Group)、英国的BIC(Book Industry Communication)等联合开发的一种以电子形式获取、传输出版物产品信息的国际标准,是一种描述、传递和交换丰富出版物元数据、用于图书、连续出版物以及各种媒体电子出版物信息的基础标准和贸易标准[3]。

1999年7月,美国出版者协会与60多家出版社及线上书商共同讨论如何在互联网销售图书,会中决议成立一项计划,探讨出版社提供产品资讯给互联网书店的资料需求,并于2000年1月,推出了ONIX产品信息标准第一版,即ONIX 1.0。在英国,图书行业交流委员会于1998年出版了BICBasic标准,旨在满足所有零售书商的需求。在欧洲,电子数据交换组织EDItEUR开发了EPICS数据字典,主要用于保存图书贸易产品方面的信息。ONIX就是在美国的ONIX、英国的BICBasic以及EDItERU的EPICS等标准的基础上发展起来的[4],主要包括ONIX for Books、ONIX for Serials等具体领域标准,本文主要讨论的是ONIX for Books标准。

作为一种描述、传递和交换出版物元数据的国际性标准, ONIX for Books由出版商、发行商、零售商、图书馆以及在这条供应链上其它环节的经营者团体共同制定,由设在英国的BICBasic以及EDItERU维护。随后,ONIX for Books标准在理论研究和实践应用的推动下深入发展,随后发布了1.2、2.0、2.1等版本,目前的最新版本为2009年4月推出的3.0,并于2012年4月发布新的代码表,在这一版本中增加了数字产品处理和商业贸易等字段。

2 MRAC与ONIX for Books的创建目标和应用实践

2.1 创建目标

早期MARC格式主要用于描述印本文献、图像、缩微、视听、软件、数据库等。为了解决与书目文献有关的网络资源和电子资源的连接机制等问题,1995年美国国会图书馆网络与MARC标准办公室颁布了USMARC一体化格式更新版,并增补了307、357、856等27个子字段。MARC的应用主要面向图书馆及其相关机构,具体应用于馆藏编目和资源商与图书馆之间交换书目信息,可有效实现数据共享、联合编目和联合目录应用,为大规模网络化编目和目录数据共享提供坚实基础。[1]76-77

ONIX for Books主要应用于数字产品的出版、销售、流通、信息交换等方面,主要是为了解决:(1)对丰富在线图书信息的需要;(2)普遍需要改变大的图书批发商和零售商使用的数据接收和交换格式等两个问题。主要面向书业组织、书商、出版商和数据内容服务商等四个领域的机构。其目标是:

(1)覆盖电子图书领域并逐步覆盖其他类型的媒体(所有知识产品);

(2)满足电子商务领域的现实的信息需求,特别是(但不仅仅是)出版商和联机销售商的信息需求;

(3)提供结构化的数据以反映商品的国内和国际知识产权、销售情况、价格及可获得性;

(4)与各国已经定制的国家项目如英国的BIC Basic和美国的APP的ONIX在核心内容上取得一致;

(5)尽可能利用EDItEUR的EPICS和欧盟投资的INDECS(Interoperability of Data in E-Commerce Systems)计划的成果,构建一个能用于未来电子环境的元数据模型。[1]81-82

2.2 应用实践

2.2.1 MARC的应用 在国外,20世纪70年代,建立了众多以MARC标准为范本的大型文献数据库,欧美国家陆续在大中型计算机上开发了一些专用的文献信息数据库管理系统。20世纪80年代,OCLC建立了自己的大型书目中心,并开发了专用的大型中央书目数据库系统,提供联机书目数据服务。近几年来,LC对MARC进行了多次修订,增补了“307文献检索或获取时间”、“856电子信息位置及提取方式”、“516计算机文档或数据类型解释”、“538系统细节附注”等字段。尤其是“856”字段的增加,使MARC具备描述电子资源的特征、连接方式和提取要求的能力,可以对网络资源进行编目著录。

在国内,1991年国家图书馆正式发行中国机读书目;1997年10月,中国图书馆联合编目中心在北京成立,成为第一个全国性跨行业、跨系统、跨地区的联机编目中心;《中国机读目录格式》得到了广泛的应用,为我国书目数据的规范处理奠定了坚实的基础。1998年开始建设的CALIS(China Academic Library & Information System)中国高等教育文献保障体系项目中,对于联合目录西文数据的加工,通过对所提供数据图书馆的机读目录的数据格式进行标准化和规范化的处理,保证了准确识读和实现统一著录;在专题特色数据库建设中元数据模板中元数据集的选择则采用复用MARC的元数据集和复用DC的元数据集两种格式为主[5]。

2.2.2 ONIX for Books的应用 到目前为止,ONIX for Books成员遍布于20个国家和地区的93个机构和国际组织,主要有书业组织、书商、出版商和数据内容服务商四大类,按具体的用户类型统计分析的ONIX for Books用户如表 1 所示。

表1 ONIX for Books用户类型分析[6]

其中使用2.1版本的用户为64个,占72.7%,使用3.0版本的用户为24个,占27.3%,以数字出版公司和应用开发/咨询居多。从用户成员分布的国别来看,美国有18个机构,英国则多达22个,成员分布遍布于五大洲。从出版、销售和消费整个产业链上来看,其应用俱已遍及。在澳大利亚出版者联盟的领导和组织下,澳大利亚国内60%的图书销售商、80%的分销商以及75%的出版社积极运用ONIX for Books标准来推动本国书业的发展以及国际化进程;LC和OCLC等对ONIX for Books在图情领域对其进行了深入研究,并取得了一定的成果;Spinger Science等教育出版机构也积极参与和探索ONIX for Books在其业务领域内的应用。

3 MRAC与ONIX for Books的区别

MARC与ONIX for Books从本质上都是用来描述和揭示信息资源的主题、内容特征,并通过所著录的信息来提供检索的依据。两者的区别主要表现在以下一些方面:

3.1 记录结构不同

MARC记录遵循ISO2709标准,由头标区、目次区、数据区、分隔符等四部分组成。记录结构如表2所示。

表2 MARC记录结构

(1)头标区。主要是为了满足记录处理的需要,间接标识书目实体本身。根据ISO2709规定,每条记录以24位字符长的记录头标区开始,每一个位数代表一定的记录信息,并有对应的可选值项目,详细信息可参照MARC头标区数据元素表。

(2)目次区。是记录数据字段区记录情况的有关数据,有若干个目次项和末尾一个字段分隔符组成,总长为12N+1(N为目次项的个数)。

(3)数据区。有一些可变长的数据来实际记载著录数据,数据字段可包含指示符和若干子字段,有的数据字段允许可选或重复,详细可参考MARC数据区功能块表。

(4)记录分隔符。在CNMARC中由“%”代替ISO646中的分隔符IS2,以表示书目记录中的记录分隔符[7]。

而格式规范的ONIX for Books数据信息表的技术架构,从不同规模的数据单元划分为:

(1)单元组层面:分为消息头单元和产品记录单元。

(2)信息块层面:分为消息头块、产品记录和数据块。

(3)数据组层面:分为记录描述和产品描述。

(4)数据元层面:分为复合元素、元素和复用元素。

从最小的数据元单元层面来看,一份完整的ONIX for Books数据主要包含概述、关键说明、消息头和6个关键数据细节描述块共9个部分,用XML代码以功能模块化方式生成数据表,涵盖的信息全面而详细,不论是对出版商、销售商、团体和个体消费者均能提供足够丰富的产品信息。如表3中所示9个部分[8]。

表3 ONIX for Books数据元目录结构

XML结构代码示例

3.2 两者的特点不同

MARC是用于描述、存储、交换、控制和检索著录数据的一套书目数据标准,具有如下特点:严格的语义规则和完整的信息描述手段,是目前系统最完善、结构最复杂、标准最严谨的元数据格式[8];采用纯文本格式,数据的存储不依赖于特定的软硬件,便于计算机识读和天然的长期保存;书目信息的交换随着技术的进步越来越便捷,网络的发展致使许多图书馆可从网上获取到国内外最新的MARC标识的书目。

ONIX for Books具有以下特点:

(1)以国际标准技术为基础,信息丰富全面。采用国际标准ISO/ IEC11179 定义数据元素。截止到3.0版本,定义了807个元素,包括出版物形态特征信息、内容特征信息、出版物在出版发行过程中所发生的信息。还对相关数据元素配有代码表,对这些元素特征进行了细化,描述不同品种出版物差异化信息特征,具体实现采用最适合描述信息资源的易扩展和传递处理的XML语言来实现。

(2)能反映出版物的动态流动性,对知识信息活动各环节的无缝衔接起到了巨大作用。采用这一标准,对各环节的信息记录全面,能准确反映出知识信息流动变化规律。此外,格式的统一,避免了各环节标准不统一带来的各种转化成本和交易障碍[9]。

(3)维护开发的国际化和开放性。由EDItEUR 、英国 BIC 和美国 BISG 联合开发,共同维护。到目前已有包括中国在内的10余个国家建立了 ONIX (包括各种标准)工作组,这些国家大多是 WTO 成员国,承诺对外开放出版业。

3.3 编码与显示方式的不同

MARC采用ES022709 作为编码标准,结构严谨,也因此本身很不容易理解,必须首先用相关的软件进行翻译,输出著录结果,再将著录结果使用HTML 语言加以标识,与其它元数据进行转换时,还要克服编码相异的问题,往往要借助于软件进行转换,比较复杂,LC提供了一套在MARC21记录与XML格式间转换的工具,此后丹麦图书馆致力于开发MARCXchange,以XML格式来适用于各种MARC。ONIX for Books则遵循ISO/ IEC11179标准,著录结果采用XML文档的格式,ONIX for Books在信息活动的全过程均用XML实现,无需转换,就能用最常用的浏览器或者常见的设备可读取的方式呈现给用户,无需借助专门的软件即可识读,编码方式也在很大程度上影响检索效果。

3.4 著录的主体不同

MARC的实现需要特定的计算机软件,一般由经过专门培训的研究人员或图情专业人员,根据一定的著录标准,如使用USMARC格式时要遵循MARC21,要按照《英美编目条例》的规定,才能加工出合格数据,费时费力。ONIX for Books虽然元素字段众多,但都浅显易懂,稍加培训即可上手,参照相关的实例很快就能编辑出书目,相对简便易操作,对人员的要求较低,此外OCLC开发的ONIXEDIT可以供用户以图形用户界面来完成ONIX for Books信息表的操作,既有对应于业界数字出版巨头如亚马逊等六家的专有格式,又提供通用的标准格式。

3.5 资源描述详尽程度不同

MARC的编目规则追求详尽、细致的著录,定义了不到200个字段,并预留出700多个字段,不同的著录单位可根据情况进行扩展,每个字段又细分出多个子字段,使其含义更为明晰,使著录人员和使用者都能清楚地知道每一部分信息的具体含义。ONIX for Books到目前为止有807个元素,主体部分分为六个数据块,每个数据块下又有众多可用的字段对描述、营销、内容、出版、相关资料、供应等细节进行详尽的描述,元素和代码表均可按需要增加,真正做到了提供最为丰富和详细的信息,并随着应用的深入不断改进。

3.6 字段或元素间关系揭示不同

MARC不具备等级分类结构体系,而且最大容量不能超过10万字符,仅能支持目录级次信息的处理而不能支持大规模全文的处理。ONIX for Books则可借助于字段本身的定义来明确字段间的关系,另外XML语言代码本身的可层级显示性为揭示元素间层级关系提供了极大的便利。

4 ONIX for Books与MARC之间的映射转换

尽管ONIX for Books具有诸多优势,比如能提供来自于出版社丰富的元数据信息和提升在线图书书目内容的可读性,对消费者获取书目信息和决定购买何种图书提供支持,并引起了众多图书馆组织的兴趣,但其应用广度和规模远不能和MARC相比,过往几十年的书目信息大多用MARC格式传递和揭示的,大部分的图情工作者和专业标目人员已经习惯于用MARC来完成编目和交换书目信息的任务,MARC仍具有顽强的生命力,ONIX for Books最终能否取代MARC,亦或是二者融合在一起,目前尚无明晰迹象。

为了使ONIX for Books能与MARC衔接起来,几个组织已经开发了从ONIX for Books到目前图书馆间最为广泛的数据交换格式——MARC21的映射。这方面开展工作较为全面的有OCLC和LC两个机构。OCLC的研究员Carol Jean Godby已经在EDItEUR网站上发布了两个描述如何实现从ONIX for Books到MARC映射转换,用Excel表格详细列出了对应的映射表[9]。LC则以在线网页的形式提供了从ONIX2.1到MARC21元素对应字段的映射表。

OCLC最新版的从ONIX3.0到MARC21的映射转换标准包含了ONIX、产品表单、产品内容形态、产品表单细节、版本类型、主题等16张表,详细列举了从ONIX for Books到MARC映射的项目,并给出了七个转换示例XML代码,并用不同颜色区分转换的类型[10]。例如在描述(Description)表中,列出了多达34种文本类型处理方式,对部分可对应的MARC字段进行了映射,示例如表4所示:

通过上述提供的映射可以把ONIX for Books数据信息转换相应的MARC字段,不同的信息主体通过MARC与MARC数据在Z39.50协议的统一下实现数据信息的交换传递,再转换为ONIX for Books数据信息形式,这样既考虑了当前众多信息著录编目人员对MARC依赖性的习惯,又运用ONIX for Books标准达到了最优的效益,从另外的层面上来说也实现了新旧标准之间的互操作。

表4 ONIX for Books部分Description与MARC字段的映射对照

LC的映射标准包括简介、映射、MARC21的生成和ONIX for Books到MARCXML样式表示例四个部分。转换表的左边为ONIX for Books元素,右边部分则对应转换后的MARC标识,此映射仅展示建议使用的,并不是所有的ONIX for Books元素,例如ONIX for Books的供应和销售数据元素在MARC21中就没有对应的字段[11]。下面以网络资源映射转换为例展示这一映射过程,见表5。

表5 从ONIX for Books到MARC网络资源描述的映射

“856”字段是MARC为增强对网络资源描述而增加的字段,ONIX for Books数据元素中有丰富的用于描述网络资源的数据元素,通过以上的映射转换,在一定意义上实现了不同标准之间的互操作和资源描述的一致性。

5 趋势展望

MARC目前应用广泛,在未来相当长的时间内将继续被用于信息交换和馆藏编目。ONIX for Books的推出仅有十多年的时间,对其理论和实践的探索还处于起步阶段,很多方面有待改进,但其可灵活运用于整个知识信息产业链的全过程的优势,已经明显显现出来。在语义网络呼声日益高涨的当下,ONIX for Books无论是在信息描述的深度和丰富性、操作简便性、易读性、操作成本以及经济社会效益等方面都有巨大优势,极有可能成为未来信息交换和馆藏编目的广泛被认可的标准。

[1] 张晓林. 元数据研究与应用[M]. 北京:北京图书馆出版社, 2002.

[2] 王立清. 信息检索教程[M]. 第二版. 北京:中国人民大学出版社, 2008:82-83.

[3] ONIX for Books. Maintenance and support[EB/OL]. [2012-11-07].http://www.editeur.org/16/Maintenance-and-support/.

[4] 喻乒乒. ONIX元数据标准2.1版与2.0版对比研究[J]. 现代情报, 2006(1):88-91.

[5] 王会丽. CALIS专题特色数据库建设中的元数据研究[J]. 情报杂志, 2009(2):73-74.

[6] ONIX for Books . Users and services director[EB/OL].[2012-11-07].http://www.editeur.org/111/Users-and-services-directory/.

[7] 王兰成. 数字图书馆技术[M]. 北京:国防工业出版社, 2007:27,33-35.

[8] ONIX for Books. Release3.0 Downloads. ONIX for Books 3.0.1 Specification + Codelists Issue 19.zip[EB/OL]. [2012-11-07]. http://www.editeur.org/93/Release-3.0-Downloads/.

[9] 马 蕾, 张晓林. 数字文献元数据标准比较分析[J]. 信息系统, 2003, 26(1):72-74.

[10] ONIX for Books .ONIX and MARC21.Mapping ONIX3.0 to MARC[EB/OL]. [2012-04-07].http://www.oclc.org/resources/research/publications/library/2012/2012-04.pdf.

[11] ONIX to MARC 21 Mapping[EB/OL]. [2005-05-03]. http://www.loc.gov/marc/onix2marc.html.

(责任编校 田丽丽)

AComparisonbetweenONIXforBooksandMARC

Yuan Run, Ma Zheng

Institute of Science and Technology Information, Jiangsu University, Zhenjiang 212013, China

To look for a better metadata standard which can be used for information exchange and bibliographic work,this article gives a detailed introduction to most widely used MARC and ONIX for Books, and carries on a thorough comparison of these two standards. The results show that ONIX for Books has advantages in many respects and it may be used widely in the future. Finally, the authors discuss how to realize the mapping conversion from ONIX for Books to MARC.

metadata; MARC; ONIX; information exchange

G254.36

袁 润,男,1965 年生,教授,江苏大学图书馆副馆长,硕士生导师,研究方向为情报技术、数字图书馆,发表论文40 余篇,出版教材2 部;马 征,男,1986 年生,2011级情报学硕士研究生,研究方向为数字图书馆。

猜你喜欢

字段书目著录
常用参考文献著录要求
常用参考文献著录要求
推荐书目《初春之城》
常用参考文献著录要求
浅谈台湾原版中文图书的编目经验
本刊参考文献著录要求
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
本刊邮购书目