SchemaBibEx模型及与BIBFRAME的联合研究
2020-11-23欧阳宁赵莉朱华
欧阳宁 赵莉 朱华
摘 要 以文档为中心的MARC,或简单地将MARC字段映射为XML已经无法满足网络时代书目数据功能需求。SchemaBibEx为网络书目资源描述规范,和书目框架格式BIBFRAME的互补为图书馆书目数据资源Web化提供了切入点,两者的联合是网络数据时代书目数据模型研究的方向。论文通过对映射表的设计、核心模型的对比及书目数据描述的分析,对SchemaBibEx模型进行研究,并通过与BIBFRAME的对比,讨论两者的联合。
关键词 SchemaBibEx BIBFRAME FRBR 书目数据
分类号 G254.1
DOI 10.16810/j.cnki.1672-514X.2020.09.008
Research on SchemaBibEx Model and the Comparative Study With BIBFRAME
Ouyang Ning, Zhao Li, Zhu Hua
Abstract Document design of MARC or the simple mapping of Marc to XML have been unable to meet the functional requirements of bibliographic data in the Internet era. The complementarity of SchemaBibEx and BIBFRAME provides a starting point for library bibliographic data to enter the web. The combination of the two is the direction of bibliographic data model in the network data era. In this paper, the SchemaBibEx model is studied through the design of the mapping table, the comparison of the core model, and the analysis of the bibliographic data description, and the association of the two is discussed through the comparison with BIBFRAME.
Keywords SchemaBibEx. BIBFRAME. FRBR. Bibliographic data.
0 引言
MARC具有五十多年的历史,在书目记录及数据存储方面的贡献是不可估量的。进入二十一世纪以来,随着网络环境的变化,信息对象越来越细小,从记录逐步发展为数据。圖书情报界的相关学者一直在探索改进或试图设计一种能满足网络时代书目数据功能需求的书目格式来取代MARC[1],主要研究聚焦三个方面:一是内容描述规则方面,如IFLA(International Federation of Library Associations and Institutions)提出的书目记录功能需求模型(Functional Requirements for Bibliographic Records,简称 FRBR);二是书目的模型及结构方面,如美国国会图书馆(Library of Congress)
提出的以本体及关联数据技术为基础的书目框架(Bibliographic Framework,简称 BIBFRAME)[2]、大英图书馆(British Library)的BNB(British National Biblioraphy)[3]等;三是网络资源描述规范,如OCLC(Online ComputerLibrary Center)扩展schema.org的BiblioGraph.net(BGN)及SchemaBibEx。
FRBR概念模型是一个实体关系模型,定义了书目实体、属性及它们之间的关系[4],通常用于图书馆数据建模工作,本文对FRBR就不再赘述。关联数据模型BIBFRAME是目前全球图书情报界讨论最多的,其使用链接数据技术和资源描述框架作为实现语言,开发的初衷是试图作为图书馆成为大规模Web数据的切入点。BIBFRAME是MARC在向互联网靠拢,是以关联数据方式取代MARC,以便更好融入网络,目前已完成了双向映射和转换。但是目前BIBFRAME过于“以图书馆为中心”,难以被网络所利用。Schema.org作为一个结构化数据规范领域的公共网络,几乎能够描述所有类别的主题内容资源。但Schema.org最初设计不是专门针对图书馆的书目资源,缺少适用于FRBR的第一组概念(WEMI)的定义[1]。作为Schema.org的具体领域应用,SchemaBibEx被设计为可用于图书馆在网络上发布书目资源的语义数据,希望可作为语义时代的书目数据格式使用。
SchemaBibEx和BIBFRAME的互补为图书馆书目数据资源Web化提供了可能,两者的联合是网络数据时代书目数据模型研究的方向。OCLC早已开始寻求BIBFRAME和SchemaBibEx的合作关系,2013年发表了“BIBFRAME和Schema.org书目扩展模型的关系”工作论文[5]1。国内的学者对于SchemaBibEx讨论的较少,选择中国知网期刊全文数据库(CNKI)作为数据来源,以“主题”为检索途径,主题词“SchemaBibEx”,截至2019年12月31日,检索出的中文文献只有1篇,即张雪松等2016年发表的《网络书目资源描述规范 SchemaBibEx及其应用》一文[6]1-9。本文首先通过FRBR核心元素,设计SchemaBibEx与BIBFRAME词汇的映射表,并进行比较;然后研究SchemaBibEx的核心模型,并与BIBFRAME核心模型对比讨论;最后通过分析规范数据,对如何使用SchemaBibEx标记BIBFRAME语句提出建议。
1 映射表设计
单一通用词汇表难以覆盖全部领域的多样性和丰富细节,Karen Coyle在博客里曾指出,从FRBR第一组实体(即WEMI的四层结构)角度出发,FRBR、BIBFRAME和Schema.org之间的相互映射是非常困难的[7]2-3。作为 Schema.org的扩展版,SchemaBibEx的术语词表是以Schema.org为基础的。但与独立开发的BIBFRAME词表不同,Schema.org词汇原本就不正式,而且OCLC以Scheme.org作为基本词表,融入图书馆书目扩展,牵头的W3C SchemaBibEx小组进展缓慢受阻,所以除部分词汇扩展被采纳外,大多数还处于草案状态[8]。本文以FRBR核心元素为橋梁,建立BIBFRAME2.0和Schema.org词表中对应的类与属性之间的简单映射,如表1所示。
从表1可以看出,BIBFRAME和Schema.org的词汇有重叠、有互补。两者的区别在于,Schema.org的属性更随意,并不严格遵守FRBR规则与层级,覆盖范围较广但是较浅;BIBFRAME则代表了一组小得多的类和属性,不是随意地附加在单独的命名空间中,覆盖范围较窄但是较深。例如:(1)题名字段在Schema.org中使用“name”,但在BIBFRAME中必须使用“title”。(2)ISBN在BIBFRAME中可以找到,被作为载体表现标识符处理;而在Schema.org中,因已链接到相关的载体,包含了ISBN,因此没有特指的类。(3)BIBFRAME词汇表设计策略充分体现FRBR第一组概念(WEMI),而SchemaBibEx却认为不需要定义和维护内容类型和载体的词汇。
由上可知,Schema.org可以随时对同一资源本体同时引用不同的规范文档,比BIBFRAME更适合于搜索引擎,是搜索引擎兼容了图书馆书目;但是对于书目数据资源,BIBFRAME更专业。正如理查德·沃利斯接受采访时曾说:“您永远不会使用Schema.org作为专业领域词汇表。对于Marc数据中的细节,它不够深度和丰富。它的作用是帮助搜索引擎,以搜索引擎能够理解和使用的方式标记书目数据。”[11]
所以作为Schema.org的扩展,SchemaBibEx在词汇表的设计上开始打磨细节,拓展专业知识领域的深度[12]。随着SchemaBibEx向书目数据领域的靠近,BIBFRAME与SchemaBibEx词汇表的互补应该是完全可行的。例如,虽未正式发表,SchemaBibEx的词汇中也提出了hasInstance和isInstanceOf属性[5]11,它们的语义类似于具有相同名称的BIBFRAME属性,将进一步链接到BIBFRAME和FRBR体系结构和概念[7]4。
2 核心模型研究
实体模型描述了结构模型、实体类型的概念、属性和链接。对于书目数据格式,层次结构是实现书目数据实体模型的基本要求。简单地说,SchemaBibEx具有以下功能:(1)SchemaBibEx衍生于Schema.org的W3C标准,使用URI标识所有的书目资源实体、概念、示例、规范数据应用程序集成等,使得本地书目资源真正成为网络资源,用户能获得更满意的搜索结果和更好的Web体验;(2)SchemaBibEx模型的开放集成和兼容性将最大化有效集成现有标准,即以最大限度地纳入现有标准和成果;(3)SchemaBibEx在结构化数据规范领域,几乎能够描述所有类别的主题内容资源 [7]6-7。SchemaBibEx模型不需要使用搜索引擎来支持标记类型,就能提高搜索结果的质量,其核心模型如图1所示。
FRBR、BIBFRAME和SchemaBibEx的核心模型关系如图2所示。
SchemaBibEx和BIBFRAME描述相同的资源类型时,都明确区分了内容表达和载体形式,良好地实现了载体表现和单件,但仍无法严格区分FRBR中“作品”与“内容表达”这两个概念[13]。但这两个模型因有不同的目标,定义了不同的建模优先级。例如:(1)work和instance在BIBFRAME中都被定义,而SchemaBibEx只定义了work。(2)bf:hasInstance是由schema:CreativeWork和schema:ProductModel共同定义的。(3)BIBFRAME定义了责任者实体,而SchemaBibEx没有。(4)BIBFRAME定义了注释实体,而SchemaBibEx没有。
从实体模型可以看出,BIBFRAME和SchemaBibEx的互补存在很大的可能性。例如,关键概念可以在SchemaBibEx中表达,但是所需的细节可用BIBFRAME中定义的相关标准来表达。SchemaBibEx模型将受益于BIBFRAME对图书馆书目数据资源更详细的描述,而BIBFRAME模型可以通过SchemaBibEx来提高搜索引擎中图书馆资源的可见性。展望未来,最理想的模型应是BIBFRAME与SchemaBibEx的开发与合作,从通用搜索引擎中最大程度地增加图书馆资源的可见性。
3 书目数据描述
关于SchemaBibEx的书目数据编码示例,张雪松等在《网络书目资源描述规范SchemaBibEx 及其应用》一文中已作详细讨论[6]6-7,本文不再详述。BIBFRAME和SchemaBibEx因具有高层次的相似性,至少对于简单的资源描述、属性的定义已基本相同,包括题名、责任者、出版商、地点、主题、类型、日期等。而OCLC工作论文中假设的混合描述模型,即如何在SchemaBibEx的描述中显式地定义BIBFRAME概念,如图3所示。
第一个 rdf: description 块是BIBFRAME编码,第二个 rdf: description 块是对应的SchemaBibEx描述,它们在结构上是相同的。BIBFRAME中的isInstanceof负责链接资源,与SchemaBibEx中的schemap: isinstanceof属性一致,都是描述同一作品不同层次实体之间的关系。第三个 rdf: description 块中,因为“图像小说”概念超出SchemaBibEx的标记范围,而BIBFRAME中此概念定义的较好,因此rdf:type语句两者都引用了。
由上所述,我们得出几点结论:(1)鉴于BIBFRAME和SchemaBibEx定义的相似性,如果SchemaBibEx能很准确地定义概念,是否不需要在BIBFRAME中再重新定义。随着时代的发展,SchemaBibEx标记的BIBFRAME语句应越来越多。两者的引用和互换,更好地控制了数据中概念的链接,能为书目数据添加额外的标签,来帮助搜索引擎或者其它应用更好地理解。(2)两个模型中相同概念的URI 指向同一对象,两个模型中的书目描述在统一的标准下可以相互转换而不丢失信息。至少在描述相同资源时,这两种模型均可以在信息损失极少的情况下自动转换为另一种模型[14]。随着开发的深入,这两个模型彼此都有可能受益于对方模型技术的提高或是应用环境的提升,如能协同开发这两个模型,可以避免重复开发。
4 結语
大数据时代,图书馆如何使馆藏书目资源融入当今的网络社会,实现全面的共知共享;书目数据如何跳出图书馆的象牙塔,真正成为Web 数据,是我们当今迫切需要研究解决的问题。SchemaBibEx侧重于广泛检索,今后会成为网络用户的书目数据格式;而BIBFRAME面向图书馆的书目信息资源,侧重对资源的详实著录,深度揭示实体间的关系,能深入细节地描述,使书目资源置身于丰富的上下文环境之中。王兴兰在《BIBFRAME 的理论及应用研究》一文中提到BIBFRAM的短期(理论研究)、中期(机构参与测试)、长期(全面用于Web网络)目标[15]。我们可以设想一个新的、动态的网络环境,用户可以通过搜索引擎搜索以SchemaBibEx标记的书目数据进入图书馆网站,再通过BIBFRAME格式的书目数据深入关联数据环境,使图书馆成为未来网络数据中心和应用服务中心[6]8。BIBFRAME和SchemaBibEx也应该进一步地联合与开发,也意味着作为世界性的图书馆组织,美国国会图书馆与OCLC需要克服困难,进行联合开发。因为,两者的联合不是简单的加法,而是分别做减法后的相加,如何减,如何落地值得我们进一步的关注和研究。
参考文献:
刘炜, 夏翠娟. 书目数据新格式BIBFRAME及其应用[J]. 大学图书馆学报, 2014(1):5-13.
周小萍. CNMARC与BIBFRAME的映射及转换研究[J]. 图书馆杂志, 2018(8):21-29.
王萍,黄新平. 基于关联开放数据的数字文化资源语义融合方法研究:欧洲数字图书馆案例分析[J].图书情报工作, 2016(6):29-37.
马澄宇. 书目记录的功能需求及其影响分析[J]. 图书馆工作与研究, 2010(11):64-66.
GODBY C J. The relationship between BIBFRAME and the Schema.org “Bib Extensions” model a working paper [EB/OL].(2013-11-26) [2019-12-15]. http://www.
oclc.org/content/dam/research/publications/library/2013/2013-05.pdf.
张雪松,谈海蓉,姚湘中. 网络书目资源描述规范SchemaBibEx及其应用[J]. 图书馆杂志,2016,35(5):59-67.
JANGRA R. SchemaBibEx: an initiative for networkedbibliographic resource description[J]. Social Science Electronic Publishing, 2018(3):1-16.
Schema Bib Extend Community Group. SchemaBibEx.vocabulary proposals[EB/OL]. (2014-05-01)[2020-01-12]. http: //www. w3. org/community/schemabibex/wiki/Vocabulary_Proposals.
周小萍. 从CNMARC到BIBFRAME:中文书目数据的富语义化研究[J]. 情报资料工作, 2018(3):99-104.
SENIOR A. Bringing it all together: mapping continuing resources vocabularies for linked data discovery[J]. The Serials Librarian, 2018, 74(1-4): 94-101.
ZAINO J. The future of libraries, linked data and Schema. org extensions [EB/OL]. (2014-03-17)[2020-02-26]. http://semanticweb.com/thefuture-of-libraries-linked-data-and-schema-orgextensions_b35315.
ADAMICH T. BIBFRAME Take 3: SchemaBibEx, OCLC WorldCat, and Search Optimization[J]. Technicalities,Sep,2013,33(5):9.
GODBY C J. The relationship between BIBFRAME and OCLCs linked-data model of bibliographic description: a working paper [EB/OL]. (2014-03-26)[2020-03-05]. http: //www. oclc. org/content/dam/research/publications/library/2013/2013-05. pdf.
宋琳琳,庄玉芳. OCLC 的关联书目数据模型及其与BIBFRAME的兼容性[J]. 图书馆论坛, 2020(1):1-15.
王兴兰. BIBFRAME 的理论及应用研究[J]. 现代情报, 2016,36(1):90-95.
欧阳宁 中国药科大学图书与信息中心馆员。 江苏南京,210009。
赵 莉 中国药科大学图书与信息中心馆员。 江苏南京,210009。
朱 华 中国药科大学图书与信息中心主任、副研究馆员。 江苏南京,210009。
(收稿日期:2020-06-12 编校:曹晓文,谢艳秋)