APP下载

编目标准RDA和BIBFRAME的发展演进及其思考

2022-04-07王景侠

山东图书馆学刊 2022年5期
关键词:编目书目关联

王景侠

(国防大学政治学院,上海 200433)

自国际图书馆协会和机构联合会(简称国际图联,IFLA)于1998年发布《书目记录的功能需求》最终报告(简称FRBR)以来,特别是人类进入本世纪后的近20多年来,信息技术突飞猛进、数字信息呈指数级增长,导致国际编目所处的信息环境已发生了巨大变化,尤其是随着计算机网络技术和数字化数据化技术的发展和普及,图书馆等机构除了拥有越来越丰富的实体资源外,也收藏了越来越多的各种类型的数字资源(含网络资源),这意味着图书馆已经进入了数字时代。随着FRBR研究的深入,国际编目领域从理念、概念模型到技术标准,均发生了巨大变化,具体表现在美国国会图书馆(简称LC)牵头制订的国际性资源编目标准如《资源描述与检索》(Resource Description and Access,RDA)已经取代《英美编目条例(第二版)》(AACR2),而随后推出的基于关联数据模型的新一代书目格式书目框架(BIBFRAME)经过多轮试点和修改已开始进入初步实施阶段,将逐步取代已经统治了半个多世纪的机读目录(MARC)格式。从国际范围看,以RDA和BIBFRAME为代表的新一代编目标准将逐步取代传统的文献编目标准,这标志着图书馆编目开始向关联数据编目方向发展,并将开启资源组织和数据管理的新阶段。关联数据自2008年开始在图书馆领域应用至今已有十多年的历史,从早期的尝试转换现有书目数据以关联据形式发布,发展到目前采用基于关联数据模型的BIBFRAME直接生产关联数据[1]。图书馆等机构将馆藏书目信息发布为关联数据将帮助其更好地融入开放互联的语义网,将有效促进用户的信息查询与资源发现,并提升用户体验,还能够提升图书馆机构在网络时代的可见度,进而提升图书馆在数字时代的地位和价值。

1 《资源描述与检索》(RDA)及其新版

随着数字技术和语义网技术的不断发展和数字资源类型的日益丰富,为了适应新的编目环境的需要,同时为了克服AACR2在数字资源描述能力的不足,尤其要克服它在结构上的缺陷,以更好地适应新出现的数据库技术,并充分利用这些技术在数据获取、组织、存储、检索和显示等方面的高效和灵活性,AACR2从2004年起进行了全面修订,并于2005年更名为RDA,历经一波三折直到2010年RDA的Toolkit(工具包)的正式推出,才宣告新一代编目规则RDA的诞生。

1.1 原版RDA

从内容上看,RDA(记作原版RDA,可视为1.0版)是用来描述与组织所有类型资源的可扩展框架,其目标是支持数字环境下的图书馆和其他社区所收藏资源的发现与识别。此外,新一代编目标准RDA遵循《国际编目原则声明(ICP)》和基于IFLA开发的FRBR和FRAD(《规范数据的功能需求》)概念模型而构建,能够全方位支持对不同内容和媒体资源的描述,具有满足新型资源特点的灵活性和可扩展性,以及在关联数据环境下书目数据生产所需要的适应性等。2010年6月RDA以Toolkit在线电子资源的网络版形式推出,而印刷版的出版仅作为其辅助形式,这在编目发展史上也是一大改革与创新。与传统的编目规则AACR2印刷版不同,RDA工具包基于网络浏览器,是一个一体化集成的在线编目工具,它为负责创建元数据的编目员提供一个与RDA资源描述规则和其他相关编目资源的交互平台[2]。

RDA是一部专为数字环境所设计的、并能适用于图书馆和其他信息机构进行资源描述与检索的内容标准。RDA成为所有类型资源的内容和媒介进行编目的工具,其生成的记录可以通过互联网、Web OPAC等在数字环境中使用,同时也可以在语义网的关联数据中发挥作用,应用RDA元素元数据集创建的记录也可以适应今后出现的数据结构。

RDA是目前国际上第一个完全采用基于FRBR的实体—关系(E-R)书目概念模型的编目标准。它的内容共包括10个部分,其中第1至第4部分是对作品(Work)、内容表达(Expression)、载体表现(Manifestation)、单件(Item)、个人(Person)、团体(Corporate Body)等FRBR及FRAD实体的描述,第5至第10部分则是这些实体之间关系的描述。由此可见,在今后的资源描述中,关系的描述与揭示已经构成资源描述与组织的重要内容,这与语义网环境下的关联数据达成高度一致。需要说明的是,与AACR2的结构相比,RDA不再按ISBD的著录项目进行细分,也不按文献的类型排列,而是将特定数据元素的说明集中在一起,识别并记录用于编目的数据元素[3]。简言之,RDA(原版)基于AACR2,遵循ICP,以FRBR和FRAD概念模型为理论基础,目标是走出英语地区发展成为数字时代的全球性资源描述与检索的编目标准。

1.2 新版RDA

作为RDA底层框架的书目概念模型的巨大变化必然导致RSC对RDA的修订与更新。IFLA 2017年8月正式推出FR家族模型(是FRBR、FRAD和FRSAD的统称)的统一版《国际图联图书馆参考模型》(简记为LRM),直接影响到基于该模型的具体应用RDA的再修订。另外,RDA 工具包已经推出很多年,它对网络浏览器的支持方面也存在一些问题,已不能适应编目用户的新需求。RDA指导委员会(RSC)为了能够跟踪和管理更大范围的与RDA条款相关联的元数据,于2017年4月正式启动了RDA工具包重构和再设计(RDA Toolkit Restructure and Redesign,即3R)项目。2018年6月,RSC如期推出RDA工具包测试版站点,并在2019年4月底发布了新版RDA英文稳定文本,标志着3R项目已经进入稳定阶段。RSC随后于 2019年10月发布了3R项目阶段性完成声明[4]。RDA工具包的新版官方版本已于2020年12月上线。新版RDA(可视为RDA2.0版)不仅优化了工具包的用户界面,使用户体验得到一定提升,而且整合了更多的与之相关的资源,其开放性和包容性也得到进一步扩展。此外,需要指出的是,新版RDA的稳定文本将作为其他语种翻译本和各机构制定政策声明的基础文本,为RDA的国际化应用打下坚实基础[5]。

作为书目概念模型的LRM的推出是新版RDA的修订之源。由于LRM在实体、属性和关系方面有了不少明显的变化,还增加了对资源合集和连续出版物的建模,所以这些变化直接体现在新版RDA的内容修订中,从而使得RDA与LRM保持高度一致。新版RDA总共定义了13个实体,即RDA实体、作品、内容表达、载体表现、单件、行为者、集体行为者、个人、团体、家族、命名、地点、时间段。在新版RDA中,与这13个实体相联系的属性和关系均被称为“元素”。属性元素是RDA实体内在或外部赋予的特征元素。而在原版RDA中,关系揭示主要依靠关系说明语。关系说明语就像取值词表一样作为附录集中呈现。新版RDA完全打破了这种方式,将关系说明语变为元素的一个类别(即关系元素),与属性元素一起用于描述实体。

新版RDA对实体关系的呈现方法在采用LRM处理方法的基础上作了进一步细化。新版RDA以定义域和值域的形式呈现关系,定义域是元素所描述的RDA实体,值域则是作为关系元素值的RDA实体,且关系具有互逆性。而在呈现形式上,新版RDA也与LRM保持一致,在每个关系元素的规则中,通过“元素参考”版块指明关系元素的定义域和值域,以及表达关系的标签。

此外,新版RDA在结构上也有所创新。这些创新主要体现在体例编排、编号规则以及规则弹性等方面。如在体例编排方面,与原版RDA采用等级列举式、按编号逐级展开不同,新版RDA采用下拉菜单的方式呈现内容。新版RDA按实体、指南、政策与资源四大选项卡进行编排,其中政策和资源两大选项作为配套资源使用。在编号规则方面,新版RDA取消了条款编号,但是这一新做法给部分用户带来不便,为了方便用户使用新版RDA,RSC新推出了引文编号功能,已经在实体及元素版块以及指南版块实现[6]。而在规则弹性方面,新版RDA采用“一切可选”的原则,关于记录什么元素、怎么记录元素、记录多少元素,均是可选的,除非RDA规定了“最低描述”的内容。新版RDA甚至都没有设定核心元素,元素的必备性和重复性将由各国施行该标准的政策声明或应用配置文件(Application profiles)等本土化文件予以规定。由于新版RDA在内容结构及体例发生了较大变化,所以RSC将RDA新版本称为是“3R项目的里程碑”,由此可见这个新版本对于RDA的未来发展具有非常重要而深远的意义。

为了与LRM保持一致,新版RDA放弃了核心元素这一概念,即在新版RDA规则中所有元素都是平等的,都是可选的,这一原则与国际最具影响力的描述性元数据标准DC更加一致。在新版RDA中,它只注重每一个数据资源,甚至对数据的描述形式也不作统一的强制要求,设置可以采用不同方式表达,它规定了具有普适性的4种元素记录方法,被称为“4路径记录”法(即非结构化描述、结构化描述、标识符和IRI(国际资源标识符))。至于如何选择记录数据的方法、如何把数据打包形成一条“记录”,则由数据制作机构通过应用配置文件来决定。这是“数据化” 在RDA中的首次体现。从计算机处理的视角看,数据化是指能够把信息转变为机器可读、可处理、可量化的数据的过程[7]。

RSC现任主席Kathy Glennan指出:作为LRM的首次实施,新版RDA工具包在适用范围上变得更加国际化。由于提供了广泛的数据元素、选项和记录方法,编目社区现在可以更灵活地应用该标准。RDA指导委员会引入了一些新变化,以支持从卡片目录到关联数据环境等实施方案之间的平稳过渡[8]。

需要指出的是,新版RDA的推出对其在我国的本地化应用和国际化提出了新挑战。目前,RDA工具包站点已发布了包括英语、汉语等8个原版RDA语言版本,其中,汉语版本对应的是中国国家图书馆于2014年出版的《资源描述与检索》(RDA)中译本,由于该译本是以2012年的RDA(原版)印刷版为蓝本,并没有对在线RDA工具包进行翻译,因此内容已经与新版RDA的内容有了很大差别。未来我国编目界应主动筹划新版RDA(以稳定版为蓝本)中译本的翻译工作,以促进我国编目数据与国际书目数据的交换与共享,从而加速我国编目工作的国际化进程。

总之,新版RDA与LRM保持一致,是其区别于原版的最大特点,为书目世界更好地融入开放共享的关联数据环境搭建了桥梁,所以它的推出对数字时代的资源编目、数据管理和资源发现都具有十分重要的意义,同时也必将推动RDA应用的国际化进程。

2 书目框架格式(BIBFRAME)及其实施进展

由于受到语义网和关联数据技术快速发展的直接影响,特别是随着RDA的测试试用与应用推广,已经使用了50多年的MARC格式已经显得有些力不从心,尤其是经过RDA首轮测试后,LC发布报告指出MARC格式的结构模型阻碍了新标准RDA优势的发挥,建议采用新型书目格式取代MARC(MARC21),这就是新一代书目格式BIBFRAME诞生的大致背景。

2.1 BIBFRAME 概述

LC于2011年5月率先推出“书目框架先导计划”,该计划主要是确定MARC21格式向更多基于网络的关联数据标准转换路径。LC与Zepheira公司联合开发关联数据模型、词汇及应用工具等支撑这一计划。2012年底,LC发布书目框架(Bibliographic Framework,BIBFRAME)的关联数据模型草案,正式推出BIBFRAME词表(1.0),同时发布功能需求和用例,展示了BIBFRAME为网络而生的初衷和改造图书馆数据使之适应语义网和关联数据环境的巨大潜力。

在BIBFRAME模型1.0草案推出后,LC联合多家机构对BIBFRAME及其词表进行测试和修改,并于2016年4月正式推出BIBFRAME 2.0本体,包括模型和词汇2.0,这两部分是该格式最为重要的核心部分。BIBFRAME 2.0中继续采用基于FRBR实体—关系模型分析方法,对实体、属性及其关系进行分析标识,将描述对象简化为创作性作品、实例(Instance)和单件三个核心类,与1.0相比,BIBFRAME 2.0的核心类取消了“规范”和“注释”两个核心类,新增“单件”核心类。其中,创作性作品对应FRBR/RDA的作品和内容表达(作品内容层次),实例对应FRBR/RDA的载体表现(载体层次),单件对应FRBR/RDA的单件(单件层次),将编目层次由原来的两个调整为三个,这种调整和优化有利于编目员理解和掌握,也更适应已经采用RDA多年的编目实践,有利于编目员基于RDA和BIBFRAME格式开展在线联合编目[9]。

2.2 BIBFRAME的实施进展

自BIBFRAME推出后,LC联合多家图书馆及相关机构积极探索BIBFRAME的实践应用。LC首先推出BIBFRAME第一阶段的试点项目(2015-2016年),共有40名LC编目员参加了试点,采用 BIBFRAME编辑器作为编目界面,可实时查询 LC 规范库,采用BIBFRAME词表取代 MARC格式进行原始编目;随后LC在总结BIBFRAME第一阶段试点经验的基础上继续推动BIBFRAME第二阶段试点(2017-2018年),在对LC所有馆藏目录由原有MARC记录转换至BIBFRAME 2.0作为编目来源库的基础上,还增加了参加试验的编目员,更重要的是采用修改后的BIBFRAME 2.0编辑器,在真实的BIBFRAME环境中进行元数据编目。在此期间,还对BIBFRAME2.0进行开放注册。2019年6月,LC又有 60 名编目人员加入了 BIBFRAME 第二阶段试点,这一增加使得参与BIBFRAME试点的总人数超过100人。LC进一步扩大试验范围,解决由MARC切换到BIBFRAME 编目环境中遇到的各种问题,其中也包括从BIBFRAME到 MARC 的反向转换,其目的是为了在LC 完全采用BIBFRAME原始编目后,可以向那些暂时还没有采用BIBFRAME编目的图书馆提供MARC格式的数据。2021年,LC更是将BIBFRAME应用试验扩大到LC的所有(100%)编目员,计划采用BIBFRAME编制书目数据比例也要达到100%。与此同时,LC还将采用更强大、更精简的系统,继续优化并扩大BIBFRAME与MARC的双向转换,同时在实用环境中测试基于这两种书目格式的图书馆系统的适用能力等[10]。

据LC官网的数据显示,目前已经登记参与BIBFRAME 2.0实验实施的主要机构包括美国斯坦福大学的LD4P(关联数据生产)项目,科罗拉多学院、伊利诺伊大学厄巴纳—香槟图书馆、德国国家图书馆、匈牙利国家图书馆、Ex Libris公司的Alma和Reasonable Graph技术团队等其中,Ex Libris是一个图书馆系统商,它首先实现了从MARC到BIBFRAME的转换。而Reasonable Graph是一个开源的通用网络平台,能够为图书馆、档案馆和博物馆等文化遗产机构的数字馆藏提供关联数据管理服务[11]。当然,还有很多国家图书馆和机构已采用BIBFRAME 2.0进行应用实践探索,并没有在LC的官网登记。

需要指出的是,欧洲图书馆界在实施关联数据方面一直走在前列。其中,瑞典国家图书馆(KB)最早于2008年就率先发布Libris(国家联合目录)为关联数据,又在十年后的2018年6月再次率先上线关联数据系统Libris XL。该系统以BIBFRAME 2.0模型为核心,取代其原有图书馆自动化系统Voyager的核心部分,采用KBV词表建立本体。Libris XL被称为是目前图书馆界第一个正式使用基于BIBFRAME 2.0的联合目录系统,继续走在全球图书馆关联数据实施前列。该系统能够使得Web能够理解图书馆的书目信息,也能够让搜索引擎和 Wikidata(开源的知识图谱数据库)更直接地链接和共享 Libris XL 的数据,从而使得图书馆的书目信息真正融入了互联网,为用户提供了访问利用图书馆书目资源的新途径;与此同时,图书馆也可以利用关联数据链接到其他文化遗产机构,引用其他的关联数据集来丰富完善其馆藏目录[12]。

此外,基于BIBFRAME数据模型的Share-VDE(虚拟发现环境)项目在图书馆关联开放数据实践中发挥了积极的推动作用。该项目始于2016年,旨在建立一个有效的工作环境,使关联数据能够在图书馆内部和外部进行流通。该项目的应用范围并不局限于图书馆机构,而是扩大到包括艺术、音乐领域等更广泛的机构社区(如博物馆和档案馆),其主要目标包括在MARC 中使用 URIs 丰富记录、使用BIBFRAME 2.0将 MARC 记录转换成 RDF 格式以及根据 BIBFRAME 数据模型发布关联数据等。该项目是由Casalini libri、@Cult、16 家北美研究型图书馆和 LD4P项目共同提出的,其中Casalini libri是意大利书目和规范数据提供商,@Cult是意大利的一家发现工具和语义网解决方案自动化系统商。该项目正如该项目名称所示,发现(Discovery)功能从一开始就是该项目的重点。与基于记录的传统目录不同,Share-VDE 侧重于汇集并展示作品和作者元素之间的关系以促进资源的发现,同时也展示了基于 BIBFRAME数据模型的关联数据能够改善用户体验的强大力量[13]。

而从我国已经开展的关于BIBFRAME应用研究与项目探索实践中可以发现,学界和业界的研究人员主要选择图书馆馆藏部分文献的书目数据或者某些特藏数据库进行综合集成,并融入网络开放共享,采用 BIBFRAME2.0模型和词汇构建资源本体,如上海图书馆基于BIBFRAME本体词表成功构建了中国家谱知识服务平台、盛宣怀档案知识库和名人手稿档案知识库等。华东师范大学图书馆积极推进数字方志集成平台建设,采用了当下流行的RDF、知识本体和关联数据等技术,基于方志数据特有的时空属性,运用可视化以及知识图谱技术实现数据之间的关联关系揭示,通过自然语言处理技术实现文本深度挖掘与可视化检索,基于关联数据技术可以实现更大范围的数据集成[14]。以上这些示范性项目是国内公共图书馆及高校图书馆数据化在“智慧服务”领域积极探索与实践创新的突出代表。截至目前,我国还缺少国家层面的基于BIBFRAME2.0模型的将传统的书目数据和规范数据转化为关联开放数据的典型案例。

总之,与传统的MARC 格式相比,新一代书目格式BIBFRAME优势相对明显,更适应开放互联的语义网环境,因而应用前景广阔,但是它也有实施技术门槛较高,实施转换的成本巨大等明显不足,更为关键的是还有很多编目员对该格式还不知晓,因此未来它在国外图书馆界的应用推广以及在中国本土化的应用进程,都还有很长的一段路要走。需要强调的是,LC推出BIBFRAME格式的目标在于取代传统的MARC格式,并希望据此创建一个崭新的书目环境,可以使图书馆无缝地融入更广泛的数据网络,而不再让图书馆的海量数据资源成为网络上的一个个“信息孤岛”。从上述已经开始实验及实施BIBFRAME的欧美国家图书馆和部分机构看,越来越多的机构开始采用基于关联数据模型的BIBFRAME 2.0发布图书馆的馆藏资源,这标志着图书馆主导的书目关联数据模型BIBFRAME正逐步走向实用化、国际化,其应用范围也将越来越广。

3 总结与思考

自进入本世纪以来,国际编目领域从信息环境到数字技术均已发生了巨大变化,语义网、关联数据和智能化技术开始越来越多地应用到编目领域,特别是受到FRBR概念模型以及后来取代它的统一版概念模型LRM的影响和推动,带来了国际编目理论以及实践的全面而深刻的伟大变革,无论是编目规则(如RDA)还是书目格式(如BIBFRAME)标准,都在积极推动图书馆的书目资源朝着数据化、语义化和智慧化发展,并将成为一种不可逆转的时代潮流。目前,欧美为代表的西方发达国家图书馆已经开始采用RDA和BIBFRAME进行原始编目,并以关联数据的形式展示馆藏信息。换句话说,图书馆的编目对象从过去的记录到如今的数据,已开始进入了基于实体—关系(E-R)概念模型的关联数据编目的新时代、新阶段,开启了图书馆书目信息数据化、语义化和国际化的新纪元,并将逐步取代基于作品—载体的传统文献编目模式[15]。

与诞生于印刷资源为主的传统的文献编目规则(如AACR2)和机读目录(MARC)格式为代表的编目标准有本质不同,新一代的编目标准RDA和BIBFRAME基于ICP和LRM,始终以用户的便利性为最高原则,代表了国际标准发展的客观规律和发展趋势。从认知上看,新标准不再把知识世界看作是由基于载体的一篇篇文献构成的知识空间,而把它看成是一个个相互关联的可开放共享的网络化的实体空间,而这正与用户进行网络信息查询与检索利用时所看重的首先是其内容而不管其载体这一需求高度契合。同时,新一代资源编目标准采用万维网联盟(W3C)所发布的通用语义技术标准,以RDF和URI标识实体、属性及其关系,采用关联数据发布,使得这些图书馆所拥有的高价值数据不仅为人类读者以网页阅读,而且为机器可读、可处理和可理解,进而使得图书馆馆藏的优质资源能够融入开放互联的语义网。从时间维度分析,国际性编目标准在近10年来不断发展演进,推进了书目资源的数据化发展,基于这些新标准所生产的数据具有可信的、情景化的、相关切题的、可认知的、可预测的、可消费的等诸多特点[16],换句话说,图书馆馆藏的高价值的智慧数据不仅能够成为当前数据基础设施的重要组成部分,而且有助于推动图书馆从数据化朝智慧化转型发展,还有利于图书馆的资源发现,进而提升用户体验,从而满足用户的多元化、个性化知识信息的需求。

总之,以RDA和BIBFRAME为代表的新一代资源编目标准还在不断更新,不断升级,二者之间也在相互影响、不断协调,以适应更广泛的资源描述与组织一体化的需求,更加有利于人类知识的整序、整合、集成和分享,有利于促进人类知识的传播和交流,因而代表了资源描述与组织的发展趋势与未来。这对于数字网络环境下喜欢把搜索引擎作为检索入口的用户而言,更加便利于他们的信息查询和资源发现,有利于指引用户发现和利用图书馆的各类资源,这也将有效提升图书馆在数字时代的地位和价值。在当前语义网、大数据、云计算和人工智能等现代信息技术不断发展演进的环境下,图书馆正处在从数字化向数据化智慧化转型的关键期,面对国际编目领域新标准新技术给我们带来的挑战与机遇,我国图书馆界当更新观念,深入思考应对变革之策略,比如我国编目标准如何制订和修订更新,图书馆服务平台如何开展技术创新和升级,中文资源的数据化实践该如何开展,未来是继续学习借鉴欧美现有的技术标准与实践,还是积极探索具有中国特色的标准化数据化道路,这些都是当前我国图书馆界所要思考和解决的现实问题。

猜你喜欢

编目书目关联
推荐书目《初春之城》
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
国家图书馆藏四种古籍编目志疑
“一带一路”递进,关联民生更紧
奇趣搭配
粤剧编目整理之回顾与展望
智趣
CALIS联机合作编目中的授权影印书规范著录
图书馆集成管理系统在藏文图书编目中的比较研究——以ILASII和GDLIS为例
本刊邮购书目