MODS在图书馆元数据整合中的应用★
2015-03-27谢明亮
谢明亮
(江苏第二师范学院图书馆 江苏 南京 210000)
元数据是用来描述图书馆资源内容、语义和服务的。随着图书馆资源类型日趋多样化,不可避免的产生元数据的多元化的现象(国内外比较有影响的元数据已有40余种),当对采用不同元数据格式的资源进行检索利用时,就面临着元数据整合问题。图书馆大多使用MARC对传统资源进行描述,使用DC对网络数字资源进行描述,但是MARC存在格式过于复杂、字段重复、记录是程序性的而非描述性的等弊端。DC又过于简单,对较为复杂的具有多等级层次关系的资源的描述显得力不从心,这两种元数据都无法很好地担当起复合型图书馆元数据整合的重任。
1 MODS元数据的特点
MODS(元数据对象描述模式)是美国国会图书馆于2002年6月开发的,是以MARC为基础的文献编目元数据。MODS的元素来自MARC21的字段,采用XML作为编码语言,是MARC21的XML简略版[1]。MODS简单易用,将 MARC字段重组成21个元素,开发者可以自行定义元素,自行选择标记的名称和含义。其字段标识是语言而不是文字,可以面向用户。MODS是MARC的子集,绝大多数的元素、子元素和属性都能在MARC中找到对应的字段,因而可与传统图书馆的MARC进行映射。MODS利用的是XML的句法和规则来表达主元素、子元素和属性,可以统一制定名称和主题表,也可以自由选择,具有较强的灵活性。MODS采用的多重结构描述,能很好地体现子元素之间、多个属性之间的关系。所以,MODS既能描述结构复杂的传统文献信息,又能描述灵活多变的网络数字信息,具有良好的扩展性[2]。
2 元数据整合方式
元数据整合的目标是实现同一图书馆异构资源之间,不同图书馆之间的资源交换和共享。目前元数据整合主要分为:联邦式、收割式和仓储式。联邦式是参建图书馆遵循统一的标准,采用同种元数据,这种方式对参建单位的要求比较高,而且各图书馆已存在各种元数据,无法实现完全的统一;收割式是参建图书馆只要提供遵循OAI-PMH的元数据信息到访问接口,其他图书馆可直接获取元数据[3],这种方法可较好地实现元数据的互操作;仓储式是将分散的、不统一的元数据通过映射转换成集成的、统一的格式。
要实现收割式和仓储式整合,需要寻找一种合适的元数据来充当OAI-PMH协议规范的元数据,并能很好地与其他元数据进行转换和互操作。选择这个元数据需要充分考虑传统图书馆MARC数据的复杂性特点,以及数字资源多样性、个性化等特点。MODS做为MARC的子集,能与MARC字段形成良好的对应,这是其他元数据所无法比拟的。MODS又具有简单易用、灵活、可扩展性等优点,适合做为其他元数据转换的中介。如美国国会图书馆主办的美国记忆项目,将American Memory和Global Gateway中大约20万条MARC记录转变为MODS格式,并支持OAI-PMH。英国曼彻斯特大学发起COPAC学术目录项目,COPAC的书目格式为CURLMARC21,该项目计划将其全部转换为 MODS格式[4]。
3 MODS在元数据整合中的应用
MODS除了用来直接描述图书馆资源外,还可以用来整合元数据,为图书馆资源和数据的初步整合以及向更先进的资源互操作和共享方式过渡提供一种简单的技术。笔者认为利用MODS整合图书馆元数据分为三种途径:(1)在收割元数据时,将MODS作为标准元数据,与 MARC整合。(2)用MODS作为文件包的描述性数据,与MARC整合。(3)将图书馆已有 MARC和其他元数据转换成MODS,或者充当各种元数据转换的中介。简言之,就是分为在源头处初步整合、在传输中初步整合和在图书馆存储仓库中一次性整合。
3.1 辅助OAI-PMH收割元数据
当今世界上已知的元数据已达几十种,但由于采用的格式、内容及存储的环境不同,给相互之间的收集、交换、共享带来了很大的麻烦。OAIPMH提供了一个基于元数据获取的和应用的互操作框架,是一个元数据收割机制。数据提供者可以有自己的元数据标准,但它应能够通过元数据映射,发布符合OAI协议规范的元数据。美国国会图书馆为OAI-PHM所建议的格式有3种:MODS、MARCXML和DC[5]。笔者认为对于图书馆来说,MODS最适合作为OAI-PMH的标准元数据,理由如下:
(1)虽然目前OAI-PMH把DC作为互操作的标准元数据,但是由于DC的15个元素集不能很好满足不同类型部门的需求,现在采用OAI协议的多数组织都是通过对DC增加额外字段或者修饰词限定来实现自身的特殊要求,但在实际操作中表示多重结构的关联标记却不能被识别,而且通过增加额外字段会使DC逐渐丧失简单易用的特点。而MODS可进行多重结构的描述,能很好地满足各种数字资源描述的需要,目前国外用MODS来描述资源的项目很多,如对数字幻灯片、音乐数字对象、电子学位论文,甚至是对建筑物的描述。
(2)目前图书馆目录的共享主要采用Z39.50协议,操作的对象是MARC记录,Z39.50服务器只支持Z39.50协议,不支持OAI-PMH,所以需要将OAI-PMH收割的元数据映射为MARC。DC的元素因没有被有效地限定,所以在MARC与DC的转换中会丢失大量的数据。MODS设计基础是MARC21,其元素与 MARC21的字段和子字段有良好的对应,与 MARC之间相互转换很容易,语义信息损失小,与图书馆已有的MARC馆藏文献数据和检索系统进行整合更加简便易行。MODS与国际通用的DC元数据的15个元素也能形成良好的对应关系,又具有相似的基本结构,所以两者之间的转换也很容易实现。美国国会图书馆已经制定了MODS与MARC、DC元数据之间相互转换的各种方案。如果OAI-PMH收割提供的是MODS元数据,将比其他格式元数据更有助于图书馆元数据的整合。
(3)OAI-PMH除了支持DC外,也支持其他任何可以编码成XML格式的元数据标准。MODS是利用XML的句法和规则的元数据,而MARCXML是为了在XML环境下操作MARC数据而专门开发的一个框架,实现与MARC的无损转化,可以作为MODS向MARC装换的中间层。众所周知,MARC结构比较复杂,灵活性差,无法对数字资源进行较好地描述,用MARCXML来作为OAI-PMH的标准元数据,在与其他元数据映射时,很多元素找不到对应,造成大量数据内容的丢失。而MODS具有较强的可扩展性,可以和很多元数据形成良好的对应转换。
国际上已经有很多项目利用MODS作为OAI-PMH的元数据,如2003-2004年澳大利亚国家图书馆的“澳大利亚音乐(Music Australia)”就是基于OAI-PMH架构,对音乐资料进行转换,将DC格式转换为 MODS再转成 MARC;还有2003-2006年“澳大利亚国家书目数据库元数据项目”,将国家图书馆原记录格式DC转换为MODS,再转换成MARC,支持OAI-PMH。2006年西部储备大学的“经典幻灯片项目(Classics Slide Collection)”,将MODS作为每一张图片的描述元数据,支持OAI-PMH 协议[6]。
3.2 辅助EMTS打包元数据
METS(元数据编码和传输标准)是一种XML文件,可将有关数字化资源的元数据进行打包,包括所有描述性的、管理性的、结构化、权限及其他可用于数字化资源检索、保存和服务的元数据。如果一个数字化资源用METS描述,它就可以在很多系统中方便地使用。现METS已建立的描述性元数据包括:为电子资源特别设计的MODS;仅需最少数的DC;完全的 MARC记录信息的 MARCXML[7]。用MODS作为描述性元数据,可以表达款目间的多重关系,并用METS来包装数字化对象,可以尽量减少数据的丢失。MODS丰富的、具有层级性的描述结构可以与METS的StructuralMap进行很好配合,MODS的描述功能与METS的封装特性使元数据与对象数据能够紧密地结合起来,进而方便地进行传输与交换。
国外已经有很多项目利用MODS作为METS中的描述性元数据。如“西藏口述历史档案项目”,西储大学人类学西藏研究中心计划将美国国会图书馆亚洲部保存的西藏口述历史档案文件译成英文文本的TEI格式,并使用MODS作为描述性元数据,最终声音文件、TEI文件以及MODS格式将以METS模式封装在一起。
3.3 辅助元数据转换
目前描述各种资源的元数据不统一,如CDF(频道定义格式)、CDWA(艺术作品描述目录)、DC(都柏林核心元数据)、EAD(编码档案描述)、EELS(工程电子化图书馆)、EEVL(爱丁堡工程虚拟图书馆)、FGDC/CSDGM(数字化地理元数据内容规范)、GILS(政府信息查找服务核心元数据标准)、TEI、Header等,不同标准的元数据间以及与图书馆描述传统资源的MARC的兼容和互操作是图书馆亟需解决的问题。MODS是MARC的子集,多数元素在MARC中可以找到对应字段,因而可以同大量现存的图书馆MARC数据兼容,如负责维护MODS的美国国会图书馆网络发展与MARC标准机构已经制定和发布了MODS与MARC之间相互转换的各种方案,规定了转换各个元素、子元素、属性和字段的对应关系。而且MODS具有简单易用、灵活性好、交换能力强等优点,可以担当起图书馆元数据整合的重任。
那么是将MODS做为根级标准将图书馆已有MARC和其他元数据转换成MODS,还是让MODS充当各种元数据转换的中介呢?究竟哪种方式可以保证数据内容丢失降低到最低程度?笔者认为采用所有其他元数据转换成MODS是最佳方案,因为:
(1)在各种元数据互相转换的过程中,必然会造成部分数据内容的丢失,而且转换经过的中介越多,丢失的数据越多,比如说将DC转换成MODS丢失一部分数据,然后MODS再转换成MARC又会丢失一部分数据,所以元数据转换尽量避免中间环节。
(2)将MODS作为根级标准,形成一个树形的层次结构。最上层为根级元数据准则,各种数据库及其专业子库都必须遵循此准则;根级元数据准则下为枝级元数据准则,是各专业学科所应遵循的标准;枝级元数据准则以下为一些同类数据库或应用领域的元数据准则[8]。这样可以更好地规范元数据格式,便于图书馆的资源共享和互操作。
4 结语
在目前复合型图书馆、图书馆联盟、资源共享的大趋势下,元数据整合是图书馆资源和数据初步整合以及向更先进的资源互操作和共享方式过渡的第一步。MODS是继MARC之后的第二种以MARC为基础的文献编目元数据,正是这个得天独厚的优势,以及具有转换能力强、灵活易用、可扩展性强等MARC和DC无可比拟的优点,使得在图书馆元数据整合中充当重要角色。国外关于MODS的研究已经很多,而国内尚处于初步阶段,2006年完成了《元数据对象描述模型(MODS)调研报告》。上海图书馆制定多个元数据方案,参考了MODS的标准。总体来说,国内尝试应用MODS的项目还比较少,所以要加强研究,尽快完成MODS的汉化,使MODS在资源描述和图书馆元数据整合中发挥更大作用。
[1]The Library of Congress.Metadata Object Description Schema[EB/OL].(2008-04-17)[2015-01-11].http://www.loc.gov/standards/mods/mods-overview.html.
[2]王小平.浅析 MODS元数据[J].图书馆论坛,2008,28(5):65-67,70.
[3]常春.数字图书馆元数据获取协议OAI[J].现代情报,2007,27(4):108-110.
[4]倪娟.MODS元数据的新发展与应用[J].农业图书情报学刊,2007,19(6):165-167.
[5]齐华伟,王军.元数据收割协议 OAI-PMH[J].情报科学,2005,23(3):414-419,425.
[6]张娟.描述性元数据MODS特性及应用[J].现代情报,2011,31(8):69-72.
[7]张铮,李蓓.元数据家族中的新成员-MODS和 METS[J].医学信息,2005,18(7):743-745.
[8]DC元数据的发展前景分析[J].广东技术师范学院学报,2006,(4):9-12.