APP下载

西文编目中的CNMARC到USMARC转换系统的设计与实现

2014-03-13艾金勇陈小莹

电脑与电信 2014年8期
关键词:西文字段编目

艾金勇 陈小莹

(1.西藏民族学院图书馆,陕西 咸阳 712082;2.西藏民族学院信息工程学院,陕西 咸阳 712082)

西文编目中的CNMARC到USMARC转换系统的设计与实现

艾金勇1陈小莹2

(1.西藏民族学院图书馆,陕西 咸阳 712082;2.西藏民族学院信息工程学院,陕西 咸阳 712082)

在分析编目数据从CNMARC格式到USMARC格式自动转换可行性的基础上,研究了两种MARC的字段和字符内容对应关系,找出其中的对应规律,编制出转换关系对应表,设计了西文编目中的CNMARC到USMARC的转换软件,实现了两种MARC格式的平滑转换。

CNMARC;USMARC;西文编目;自动转换

1.引言

MARC作为书目数据的基本存储格式,是图书馆界对数据描述的重要手段,已经得到各国图书馆界的普遍认可和采纳。但是由于语言以及应用环境的差异,不同国家使用了不同的MARC格式,它们之间的标准也不相同。在我国的西文编目中,目前主要有CNMARC和USMARC两种。其中CNMARC是我国的机读目录格式,它是在UNIMARC的基础上,结合我国编目工作经验于1990年正式发布的[l]。而USMARC是加拿大国家图书馆与美国国会图书馆通过对两国MARC格式的修改共同颁布的MARC格式版本[2]。我国大多数图书馆的西文文献最开始都是采用AACR2编目,后来考虑到数据共享和交换,开始向国际标准接轨,由于USMARC主要依据《英美编目条例第2版》制订的,同我国的西文原始数据基本类似,所以西文编目时能直接套录USMARC的机读记录,因而USMARC在西文文献编目中很快得到了普及推广。而我馆使用的集成系统由于对于西文图书编目未做出明确规定,加之西文书目数据不多且编目人员比较紧张,因此西文图书著录一直套用中文图书著录规则。但是随着越来越多的西文图书的购置,并且国内大部分图书馆联盟可以用来共享的西文图书编目数据均为USMARC格式,这就需要我们考虑如何更好地实现西文图书编目数据的交换和共享,提高西文图书编目工作的效率和规范化进程。正是基于这种目的,本文将针对西文图书编目数据CNMARC格式到USMARC格式转换系统的实现过程展开研究。

2.系统实现的可行性

CNMARC与USMARC都遵循ISO2709格式,它们的主体结构原理相同,都是由记录头标区、地址目次区、数据字段区组成[3]。在对MARC构成的几个部分进一步分析发现两种格式在具体的字段设计上也是类似的。谢蓉[4]曾对CNMARC与USMARC的常用项目进行分析,发现二者在字段和子字段的设置与使用方面的差异也有一定的对应性,归纳起来,主要有如下几种近似关系[5-7]:

(1)一对一的情况,即一个源字段和一个目标字段对应。例如USMARC分别在245和250字段上表示题名和版本项,CNMARC中对应的内容分别设置在200和205字段上。

(2)一对多的情况,即一个源字段对应多个目标字段。例如在相关题名项的设置上,USMARC中只设置了一个246字段,通过其指示符2的不同取值来表示不同的相关题名类型,而CNMARC格式却用了6个字段来说明各种相关题名。

(3)多对一的情况,即多个源字段对应一个目标字段。例如责任者项的表示上,USMARC中则设有表示团体名称责任者和会议名称责任者的主要款目字段,分别在字段110和111上,而CNMARC中对应的内容仅用710字段来表述上面两个字段的内容。

(4)多对多的情况,即多个源字段和多个目标字段对应。例如在责任者的责任方式描述方面,CNMARC设有表示主要责任者、次要责任者的字段701、702和711、712,另外,还在200字段中分别用$f、$g来表示第一责任说明和其它责任说明。USMARC对应的内容分别用245和701的子字段进行了描述。

由于两种MARC格式在结构上的相似性以及字段和子字段的可映射性,因此两种MARC格式之间的自动转换存在可能性。

3.转换系统的设计和实现

3.1 转换系统的流程分析

由于MARC数据格式比较复杂且差异较大,想正确转换每条记录,必须根据记录每个字段的特点,依不同的转换表对应映射进行转换。转换过程中,按照如下几个步骤进行:MARC数据的校验、MARC数据的分解描述、MARC格式转换、人工修正编辑。具体流程如图1所示。

图1 CNMARC格式到USMARC自动转换系统流程图

3.2 必备字段的选择

首先要进行的第一步工作是对照西文普通图书著录规则选取采用USMARC格式的必备字段及子字段。因为CNMARC和USMARC中所设字段都是针对能著录多种文献类型及多文种文献而制定的,数据格式结构复杂繁多,同一本图书可能会从多角度进行描述,采取的是详尽著录的方式,且字段重叠,重复性高。况且两者之间的对应关系也不是绝对的,因此在转换时没有必要也不可能转换所有字段,只需要按照图书著录标准选择适用的机读目录格式字段进行转换即可。

3.3 转换对应关系表的设计

3.3.1 字段对应关系表的设计

在编制转换关系表时要认真分析CNMARC和USMARC各个字段的对应关系,一个CNMARC与USMARC字段对应关系的转换表是转换系统设计与开发的首要任务。转换表中要详细注明字段与字段的对应关系,对应的转换方式及以可以其它需要描述的内容,字段转换时要特别注意各方面的对应:字段标识符的对应,字段指示符的对应,子字段标识符的对应。如USMARC中的008字段的数据代码内容对应于CNMARC中的多个字段,转换规则中需要排列出其所有的对应关系。

在实际记录中,由于一些字段的可重复性造成该字段重复出现,要考虑其字段对应的USMARC格式字段的可重复性,不能只取其一或让后者覆盖前者。对于CNMARC格式中一些无对应的USMARC数据字段或利用价值不大的字段不建立对应关系,转换时可以不予考虑。由于CNMARC与USMARC的对应关系复杂,首次建立的对应表及转换规则不可能完全合适用于所有的编目数据,因此还需要建立转换表的动态添加功能。

3.3.2 字符内容转换表的设计

两种MARC格式中还可能出现同样的内容著录的字段名、位置相同,但是指示符代表的内容却不一样的情况;还可能存在字段名和位置不同,使用的代码符号各异的情况。因此在具体转换时,在考虑正确对应字段及位置的同时,也要正确替代使用的符号,例如:描述文学体裁为小说时,USMARC著录于008字段的第33位,著录内容为f,而对应的在CNMARC中,使用a代表小说,却在105@a字段的第11位用a表示。根据这些可能存在的情况,系统也设定了对于此类内容描述不同的字符的对应关系。

3.4CNMARC数据的校对与规范

数据的规范性是正确转换的前提条件。在一般的应用中,CNMARC中的代码内容如果出现错误,编目员通过对其它相关字段的分析比较,大多数内容可以正确修改和认识。但是,在系统转换过程中,所有代码内容都要以位为单位逐个转换,系统无法通过相关字段进行全面对比分析。所以在转换之前,需要人工对所有的CNMARC数据进行判别检验。CNMARC的检验应当全面,包括定长字段的各个元素代码的合法性。必备字段、子字段的齐全性,字段的重复性及所有字段使用指示符的合法性,甚至也要校验个别字段必备的字符串信息以及字段间的对应关系。

3.5 转换程序设计与实现

具体的转换程序主要有数据分析、数据转换、修正编辑和记录生成四个主要模块。

(1)数据分析模块:数据分析模块主要实现MARC数据的分解和切分。对MARC文件中按照结构信息进行切分,对切分出来的内容分块存放,分解标记不同内容,然后传送到数据转换模块。

(2)数据转换模块:数据转换模块主要实现两种MARC格式差异的变换。分别对应于转换规则数据库中的字段对应关系表和字符内容转换表。转换过程即为数据映射的关系,首先针对匹查询到待转换的内容,按照不同的转换规则,逐条转换。

(3)修正模块:数据修正编辑模块主要是对于两种MARC格式中可能存在的一些需要手工添加的部分进行处理,还负责对转换后的MARC格式可能出现的错误进行校对。例如在CNMARC中中文数据显示的标识符号完全依赖子字段代码来完成,USMARC的标识符号则需要人工输入,而且这些符号只限于子字段之间,结尾处的符号则因USMARC对不同的字段有不尽相同的规定,很难整体考虑。因此需要根据字段的特殊要求人工实现。

(4)生成模块:生成模块是对转换以后的结果按USMARC字段的要求逐条字段生成,并对字段排序形成数据区,再形成目次区,生成完整的USMARC数据。

4.结束语

本文在认真分析CNMARC与USMARC规则的基础上,归纳整理了国内西文编目中CNMARC与USMARC著录数据的特点,设计实现了CNMARC到USMARC的自动转换系统,该系统已在实际工作中得到较好的应用。系统的实现为下一步批量实现西文编目数据从CNMARC向USMARC的转换提供了较好的思路。但由于两种编目格式在细节上的设计差异以及中英文表达方式的不确定性等原因的存在,仍需要在实际的转换工作中,不断地更新和完善映射规则,以便最终实现数据的直接交换和共享使用。

参考文献:

[1]北京图书馆《中国机读目录格式使用手册》编委会.中国机读目录格式使用手册[M].北京:华艺出版社,1995.

[2]陈颖.从MARC21和CNMARC对丛书项著录的差异看编目工作国际化[J].重庆图情研究,2012,02:56-58.

[3]张赞,梁肇英,杨维利.浅谈CNMARC与MARC21[J].图书馆工作与研究,2011,09:83-85.

[4]谢蓉.USMARC与CNMARC的比较研究[J].现代情报,2005, 04:124-127.

[5]宓永迪.《USMARC和CNMARC双向转换系统》的分析和实现[J].现代图书情报技术,2002,03:32-34.

[6]孙华,陈世海.USMARC与CNMARC自动转换系统[J].大学图书馆学报,2000,01:56-58.

[7]余敏.从CNMARC到MARC21数据转换研究[J].图书馆论坛,2011,03:105-108.

Analysis and Implement of Transition System between CNMARC and USMARC in the Cataloguing of Foreign Books

Ai Jinyong1Chen Xiaoying2
(1.The Library of Xizang University of Nationalities,Xianyang 712082,Shaanxi; 2.College of Information Engineering,Xizang University of Nationalities,Xianyang 712082,Shaanxi)

tract】 Based on analyzing the feasibility of cataloguing data automatic conversion from CNMARC format to USMARC format,this paper compiles the character map about two MARC formats;and then finds the law between the two formats.At last we design the conversion software that realizes the smooth conversion from CNMARC to USMARC.

words】 USMARC;CNMARC;cataloguing of foreign books;automatic conversion

艾金勇,男,湖北襄阳人,馆员,研究方向:藏文信息处理。

西藏民族学院科研项目(13myQ12)的阶段性成果。

猜你喜欢

西文字段编目
高校图书馆西文古籍开发整理实践及对策探讨
——以河北大学图书馆为例
乐籍西译:五种《乐记》西文译本、译者及其传播
图书馆中文图书编目外包数据质量控制分析
国家图书馆藏四种古籍编目志疑
粤剧编目整理之回顾与展望
西文图书编目中RDA书目记录使用分析
高等教育英语专业建设回顾
CALIS联机合作编目中的授权影印书规范著录
图书馆集成管理系统在藏文图书编目中的比较研究——以ILASII和GDLIS为例
CNMARC304字段和314字段责任附注方式解析