OCLC的关联书目数据模型及其与BIBFRAME的兼容性*
2020-07-22宋琳琳庄玉芳
宋琳琳,庄玉芳
0 引言
随着搜索引擎的出现和网络资源的激增,人们获取信息资源的途径日益丰富,联机计算机图书馆中心(Online Computer Library Center,OCLC)2005 年发布的《图书馆和信息资源认知》(Perceptions of Libraries and Information Resources)[1]指出,搜索引擎已成为用户获取信息的首选途径。与此同时,图书馆传统馆藏资源却因为MARC格式书目数据的封闭性、静态性等[2]特点而无法被图书馆OPAC以外的系统发现和获取。为增强用户对馆藏书目数据的利用,图书馆及相关机构开始面向更广泛的网络开展关联数据研究和实践。
OCLC 开发的关联书目数据模型——The OCLC Schema Model(OCLC Model/OCLC 模型)是影响力较大的研究成果,它以主要搜索引擎支持的结构化数据标记(词表)Schema.org 为基础,帮助图书馆实现数据关联,增强图书馆资源在网络中的识别度[3]。OCLC将Schema.org应用于WorldCat,令其网络访问量在6个月内(2014年5-10月)增长65%[4],其中发挥主要作用的是整合、族性关联、网络链接和实体标识符;采用Schema.org的图书馆编目,可以与规范数据集链接,增加数据质量;提供一种更具指向性、只需点击链接就可以编目的方式,使编目工作从记录管理走向实体管理;可与RDA 协调一致。具体应用中,OCLC Research 已通过内部研究资源“WorldCat 提升计划”关联利用LSCSH、VIAF、FAST 等规范数据集;通过“WORKS”项目整合了DDC、MeSH、LCTGM、GTT、GMGPC、GSAFD等词表。OCLC以这两个项目为中心,关联OCLC 外部研究系统,如“Kindred Works”“Fiction-Finder”“Identities”“Classify”,并提供产品服务“WorldCat Linked Data”“WorldCat Entities”。OCLC 所构建的关联数据资源和平台为图书馆关联数据化,尤其是采用OCLC模型的图书馆资源建设提供了强大支撑。因此,OCLC模型是一种不可忽视的关联数据建设路径。
美国国会图书馆(Library of Congress,LC)作为应用最广的编目格式MARC的创建者和维护者,为适应以FRBR为基础的新编目规则RDA,将图书馆资源推向更广泛的关联数据环境,2011 年发布将取代MARC21 以适应更广泛社区和用户需求的书目框架转变声明[5],2012年底发布BIBFRAME1.0版本,希望将其作为下一代编目格式标准[6]。自BIBFRAME发布起,OCLC就致力于关联书目数据模型与BIBFRAME间的关联与互操作研究,希望增强二者的兼容性。
反观我国图书馆界,自2008年开始的关联数据研究主要围绕两个方面展开:一是语义网环境下书目数据的关联数据化,二是关联数据的查询与服务[7]。笔者对近5年上述两个研究主题发表的论文进行综述后发现,在书目数据关联化方面,研究侧重于关联数据集的发布和关联书目数据模型开发[8-10],但尚未开发出较为成熟的通用关联书目数据模型;当前较理想的通用模型是BIBFRAME,一些学者和图书馆机构已经开展CNMARC 和 BIBFRAME 之间的转换 研究[11-12]。在关联数据查询与服务方面,研究集中于关联书目数据可视化处理[13-14],但还没有可行的利用搜索引擎促进关联书目数据被发现的研究或实践。因此,详细介绍以发现为目的的OCLC模型,并对OCLC 模型与BIBFRAME 之间的兼容性进行梳理,以期对今后研究具有一定的借鉴意义。
1 Schema.org与图书馆书目资源描述
1997年OCLC加入W3C,展开“如何在互联网上更好表示图书馆书目数据”的讨论。2011年Bing、Google、Yahoo!共同提出Schema.org,作为主要搜索引擎支持的结构化数据标记通用词表。一直关注搜索引擎发展的OCLC专家看到以Schema.org为基础建立关联书目数据模型的可能性,加之OCLC在关联数据方面的研究已取得一定成果,如2011年OCLC发布FAST,为关联数据环境提供受控的主题词表,于是OCLC决定开展以Schema.org为基础的关联书目数据模型的研究和试验,希望直接以网络搜索引擎可理解的格式发布图书馆书目数据,促使图书馆资源在更广泛的网络中被搜索引擎发现。
Schema.org 并不是为图书馆而设计的,Schema.org词表对图书馆专业领域的描述程度较浅显,且允许在更适合使用URI 的地方使用文本字符串。因此,起初许多图书馆专家对Schema.org 能否支持关联书目数据的描述持怀疑态度。OCLC研究人员最初也认为,该词汇表似乎过于侧重商业产品,仅与图书馆的书目描述需求部分重叠[15]76-77,具体表现为:首先,Schema.org没有FRBR第一组实体(即作品、内容表达、载体表现和单件)的概念表示。其次,在Schema.org中,内容和载体之间也没有明确的区别。此外,还存在一些问题,如创作作品之间的关系很少被定义、没有收藏或系列的概念、没有关于图书馆和提供或接收图书资源的组织(如大学、出版商、数据服务提供商)的事务模型[16]。
不过,在完成对Schema.org 的初步测试后,OCLC的关联数据专家和图书馆技术专家发现,对图书馆馆藏书目描述而言,Schema.org本体定义了一个合理、一致的概念模型,它包含的类和属性,如创作作品、个人、作者、导演、地点、组织、出版者、版权日期、书籍、ISBN,适用于描述基本的图书馆馆藏书目资源。此外,Schema.org本体中的概念可以以多种形式序列化,并与语义网所倡导的建模理念相兼容[16]。
2012年OCLC以WorldCat为试验基地,将WorldCat 上约 3 亿条 MARC 书目记录用 OCLC的Schema草案模型表达,使用RDFa序列化并发布成关联书目数据。该实验证明Schema.org几乎可以覆盖WorldCat 中所有类型的书目资源,但不足以满足图书馆的全部细节描述需求。
2012年,Schema书目扩展小组(W3C Schema Bib Extended Community Group)在OCLC的推动及W3C(万联网联盟)支持下,集合图书馆员、出版商和集成图书馆系统供应商等代表展开研究,赞同OCLC关于Schema.org的看法,认可Schema.org 在图书馆传统书目数据向关联数据转换过程中的重要性[15]79-80。该小组的目标是研究Schema.org标记,使其更适合于描述书目信息,提高以Schema.org 标记的书目数据的共享性,研究成果主要为Schema.org扩展词表,同时就扩展词汇征询W3C意见[17]。
2013年OCLC发布关联书目数据模型——“OCLC模型”,为Schema.org中的术语赋予了对应FRBR第一组实体4个概念的意义,因此比OCLC草案模型更符合FRBR第一组实体的层次结构。也是从2013年起,OCLC展开在公开获取的数据集(如FAST、VIAF)中进行关联数据的实验,如将VIAF中的数据以Schema.org所定义的类(如个人、组织、创作作品、题名等)重新发布,并以“作品”和“内容表达”聚类。2014年OCLC为WorldCat发布的关联数据更新了URI,这些URI 来自最新发布的WorldCat 作品数据集,该数据集使用FRBR 驱动的聚合和数据挖掘算法,以相似内容聚合规范文档和WorldCat书目记录。事实证明,Schema.org对个人、组织、创作作品、地点、主题等概念的定义足以作为VIAF和FAST中关联数据的URI的现实参照。
2 OCLC的关联书目数据模型
OCLC关联书目数据模型主要利用Schema.org 的“创作作品”(CreativeWork)本体。为使其适合关联书目数据描述,OCLC通过试验收集反馈意见,不断完善模型。
2.1 OCLC草案模型
2012年6月,OCLC发布第一代关联书目数据草案模型[15]79,试图从图书馆角度解决Schema.org 在图书馆资源描述中存在的问题,最终以一个图书馆扩展词表“Library”来弥补这方面的不足。“Library”扩展词表使OCLC 草案模型得以区分作为内容的对象和作为载体的对象,它增加了表示文献类型的类(如“Archive Material”“Newspaper”“Periodical”),增加了对象属性(如“has carrier”“place of publication”),以及数据属性(如“holdings count”“oclcnum”)[15]80-83。不过,“Library”扩展词表虽然基于Schema.org开发,但尚未形成一套完整的术语体系,它缺少一些必要的术语且匹配了一些不准确的术语,在书目描述的表达能力上仍存在不足。
OCLC草案模型证明了Schema.org几乎可以满足图书馆书目资源描述的基本需求。OCLC也强调该模型的试验意义,并征求反馈意见。OCLC草案模型发布后不久成立的Schema书目扩展小组,就Schema.org在图书馆资源描述中存在的问题,使用Schema.org中定义的术语人工编制一组语句,开始进行建模。该小组发现Schema.org原有实体已成功覆盖图书馆的许多资源描述,揭示了本体中存在的不足、不一致或术语不准确。在W3C管理的邮件列表(如“public-schemabibex”)[18]上, 该小组讨论Schema.org 修订问题,向 Schema.org 提出提案且取得了较理想的成果[15]80-81。
2.2 OCLC模型
2013年OCLC发布关联书目数据模型——“OCLC 模型”。此前OCLC 草案模型主要通过“Library”扩展词表来提高Schema.org 描述图书馆资源的适用性。而OCLC 模型则采用了Schema书目扩展小组提出的建议,即为已有的Schema.org概念赋予图书馆专业人员所理解的意义,只在完全必要时才提出扩展。例如,在馆藏事务的建模中,最初研究人员的想法是提出图书馆专用的类与属性,后来发现可以通过对Schema.org原有术语的含义作出调整以满足图书馆的使用,如Schema.org的“Offer”类,除具有出售的含义,还可以包含出借或共享的含义,这样就可最大限度地使用Schema.org原有术语来满足图书馆描述需求。此后,剩下的就是一些具体工作,如用新属性来描述书架号、索取号等图书馆特定的事项。由于Schema.org本体的类和属性链既有层次结构又有灵活性,对类和属性分配的要求较为宽松,因此,OCLC模型可以相对容易地对Schema.org进行优化。
2.2.1 集成GoodRelations本体
随着Schema.org发展,词汇表中逐渐加入第三方开发的本体,其中某些本体的关注点与图书馆利益一致,如电子商务本体GoodRelations。专业人员对其进行评估后,发现该本体中的某些词汇不仅适合描述图书馆馆藏,而且相比于图书馆专业繁复的文本描述标准,更容易被通用搜索引擎搜索和理解。因此,OCLC 模型增加了GoodRelations 本体,以提供一种方法来表示FRBR第一组层次结构中的一些概念,使OCLC模型不必提出大量的新词汇表就足以对许多图书馆资源和事务进行丰富而细致的描述。
图1 Schema.org中“Creative Work”本体和新增的“GoodRealtions”本体[16]
如图 1 所示,“CreativeWork”“Product”层次结构中的多个继承有助于区分作为内容的作品和作为对象的作品,是OCLC 作品模型的基础 。 在 引 入 GoodRelations 后 ,“schema:CreativeWork”和“schema:Product”之间产生一些冗余,对象的多类型继承也带来一些本体认识上的困难。比如,“bgn:toy”有两个父类 “schema: CreativeWork” 和 “schema:Product”[19],于是“bgn:toy”可以从两个角度解释,作为“schema:CreativeWork”的子类,它可以被理解为一种类似于图书或电影的体裁或资源类型,但作为“schema:Product”的子类时,“bgn:toy”却可以理解为一个在真实世界中可以被买卖、借出和使用的物体[20],“schema:CreativeWork”和“schema:Product”之间的冗余需要进一步精简。
2.2.2 对应FRBR第一组实体的层次结构
OCLC模型的设计充分利用Schema.org对类型分配的灵活性,为“CreativeWork”本体中的实体赋予了图书馆领域的意义,并与Good Relations本体中的实体结合,以表示FRBR第一组实体的4 个概念。“schema:CreativeWork”类对应FRBR第一组实体的“作品”或“内容表达”,并通过最佳实践的约定来选择“schema:CreativeWork”分别与“作品”或“内容表达”相关联的属性,当属性包括创作者、题名、主题或体裁时,“schema:CreativeWork”对应的是FRBR作品(见图2,#bundle2);当属性包括版权日期和类型时,“schema:CreativeWork”相当于FRBR的“内容表达”(见图2,#bundle4)。不过,由于最佳实践约定几乎不足以确定如此重要的概念,OCLC和Schema书目扩展小组成员研究替代方案。更现实的做法或许是承认标记为“schema:CreativeWork”的类对 FRBR“作品”和包含更多细节的“内容表达”的描述始终是模糊的。在实际操作中,OCLC 作品模型只将不同语言的翻译作品作为FRBR“内容表达”层的描述对象,见图3。
图2 FRBR第一组实体层次在OCLC模型中的具体表现[16]
图3 FRBR第一组实体与OCLC作品模型的类的对应关系[21]
“schema:Creative Work”和“schema:ProductModel”对应FRBR 的“载体表现”,“schema:CreativeWork”和“schema:Individual Product”对应FRBR 的“单件”。如图2 所示,# bundle5 中为描述对象分配“schema:Movie”和“schema:ProductModle”类,对应于FRBR的“载体表现”;#bundle7中为 描 述 对 象 分 配“schema:Book”和“schema:IndividualProduct”类,对应FRBR 的“单件”。在一些情况下,只需要为 描述对象分配“schema:Creative Work”和“schema:Product”其中一个本体下的类即可。比如,当作品的物理表现未知或无关紧要时,则只需分配“schema:CreativeWork”表示“载体表现”或“单件”。
2.2.3 提高模型的层次结构表现能力
尽管 Schema.org 的“Thing-Creative Work-Book”层次结构定义了一个“类和属性链”,但该链中的所有类和所有属性都是可以自由选择的,子类可以继承一个或多个父类的属性,甚至可以向上移动。因此,该层次结构实际上形成了一个类型松散的描述标识符集,可以自由构建有关资源或详或略的陈述。图 4 是 Schema.org“CreativeWork”本体的部分层次结构,其子类如“schema:Book”除了拥有“schema:bookEdition”等自身属性外,还可以继承父类“schema:Creative-Work” 的 “schema: author” “schema:About”等属性。
图4 “创作作品(CreativeWork)”的层次结构
OCLC 模型新增了一些必要的属性,如“schemap:hasInstance”“schemap:isInstance Of”“schemap:CommonEndeavor”;“schemap:hasInstance”“schemap:isInstanceOf”用于定义同一个层次结构中实体之间的关系,而“schemap:CommonEndeavor”则用于定义不同层次结构中实体之间的关系(见图2)。但后来并没有将OCLC 模型最初提出的这3 个属性纳入“schema:命名空间”,现在使用“schema:exampleOfWork”和“schema:workExample”属性来表示相似的意思(见图3),即作品的例子、实例、实现或衍生[22]。
3 术语词表
虽然Schema.org具有一定的潜力,可以支持详细程度相当于DC 元数据的描述,但Schema.org的设计者从未打算将其作为一个覆盖所有领域的本体,而是将Schema.org作为一个起点,或者说一个框架,然后在此基础之上附加各领域更详细的本体。因此,在OCLC 以Schema.org作为关联书目数据模型基础的研究中,术语词表的研究起到重要的补充作用。
3.1 Schema.org通用词表
Schema.org是通用搜索引擎支持的网页结构化数据标记通用词表,在OCLC关联书目数据模型中,它为图书馆书目描述提供了丰富的词汇基础。Schema.org词表中最重要的类、子类和属性由“Schema:”命名空间中定义的术语表示。OCLC关联书目数据模型主要利用Schema.org 词表的“schema:CreativeWrok”本体(见图4),它是“Schema:Thing”包含的子类之一,包含FRBR作品和载体表现描述中经常用到的属性,如“schema:publisher”“schema:datePublished”“schema: typicalAgeRange”“schema:inLanguage”“schema:about”[15]77。在OCLC 关联书目数据模型研究过程中,一些扩展术语陆续加入到Schema.org 正式词表 。 比 如 , Schema.org 采 纳 了 Schema 书目扩展小对期刊引文结构部分提出的改进建议,为“schema:PublicationIssue”类添加属性“schema:issueNumber”,为“schema:Publication Volume”类添加属性“schema:volumeNumber”[15]81。此外,为扩展 OCLC 模型的资源描述类型,同时尽量使用Schema.org中原有实体,一些“Creative Work”本体以外的 Schema.org 术 语 也 进 入 OCLC 模 型 的Schema.org词表,如“schema:VidelGame”。
3.2 扩展词表
3.2.1 “Library”扩展词表
“Library”是OCLC 草案模型中定义的关于格式和内容类型的扩展词表,目的是填补Schema.org 在书目描述方面的空白。作为一种小型本体草案,它在描述中添加了如“OCLCnumber”和“Holding”这样的术语,是OCLC草案模型中非常重要的一部分。不过,正如OCLC在发布初始草案时所说,第一代OCLC关联书目数据模型更多是试验性的,意在接受反馈,OCLC不打算将该词表作为永久性的词表。在进一步研究中,Schema 书目扩展小组提出“尽量为Schema.org原有实体赋予图书馆领域的意义,以表示关联书目数据描述所需的类和属性”的建议。而且,该关联书目数据扩展词表导致了OCLC 草案模型和BIBFRAME 之间的冗余。因此,在2013 年发布的OCLC Model(模型)中,Library扩展词表被OCLC废弃。
3.2.2 BiblioGraph.net扩展词表
在缺乏统一标准的情况下,OCLC 模型的扩展词表在提交公众审查之前需要一个试验场,为此,OCLC 于2014 年建立了试验性的BiblioGraph.net 扩展词表(简称“BiblioGraph.net词表”)。它具有与Schema.org词表相同的形式外观,因为它们源自相同的开源软件平台,且都是基于通用代码库构建的[20]。为了使这两个词表的更新保持同步,构建BiblioGraph.net的过程中会使用Schema.org 的最新副本,将其与BiblioGraph.net合并,这项工作帮助研究者把对Schema.org提出的扩展性词汇建议实现可视化。
BiblioGraph.net 扩展词表比 Library 扩展词表更复杂,具有更高层次,词表中的概念、实体、关系由“bgn:”命名空间中定义的术语表示。BiblioGraph.net 词表中的大部分术语定义了“schema:CreativeWork”的新子类或属性,如“bgn:Newspaper”“bgn:Thesis”。BiblioGraph.net词表可以使得类和属性优先选择“schema:”“bgn:”两个命名空间,从而将OCLC 模型的命名空间数量最少化[23]。比如,2014年9月的VIAF更新中将原有的一些类和属性由“dbpedia:”“foaf:”等命名空间转换而来,包括将“dbpedia:Place”“foaf:Name”转变为“schema:Place”“schema:name”,也增加了“schema:”“bgn:”命名空间内的新类和属性,如“bgn:Agent”“schema:inLanguage”[24]。
BiblioGraph.net扩展词表有两个长期目标。第一个目标是试验简单的常识性术语,如“Translation(翻译)”。这些术语的含义很容易理解,大多由各兴趣社区提供,如选择大众在使用通用搜索引擎时使用频次较多的关键词作为描述图书馆资源的术语。第二个目标是试验满足图书馆领域需求的专业且繁复的术语,如“Agent(代理)”(在不确定创作者、出版者等是个人还是组织结构时使用,见图5)。这些术语大多来自BIBFRAME,通过对比其在BIBFRAME 和BiblioGraph.net中的定义和用法是否相似,决定其是否可以与Schema 结合使用等。但是,BiblioGraph.net 不会包括太多在 BIBFRAME 中定义的术语,专家要经过谨慎的分析来选择可以满足更广泛需求的BIBFRAME术语。
图5 BiblioGraph.net的bgn:Agent扩展
BiblioGraph.net扩展词表由OCLC维护,词表中除Schema.org正式词汇外,其余均为候选词,经过编辑和顾问的分析和评估决定其去留[20],并由Schema书目扩展小组向Schema.org提出提案,经采纳后方可正式纳入Schema.org词表。比如,“translation”已经成为Schema.org 词汇表中正式的术语,表示为“schema:translation”。当与书目扩展词表中相同概念的词,通过其它途径进入了schema.org 正式词表,BiblioGraph.net 会删除重复术语以消除冗余或冲突。比如,“schema:VideoGame”进入Schema.org正式词表后,BiblioGraph.net便将“bgn:VideoGame”删除。自2015 年2月 16 日发布 bgn1.1 版本后 BibliGraph.net 没有再发布更新的版本[25]。
3.2.3 bib.schema.org词表
bib.schema.org的建立意味着BiblioGraph.net 扩展词表的成果得到 Schema.org 的官方认可,扩展词表中的类型和属性术语进入Schema.org 命名空间,成为Schema.org 在书目领域的扩展子域,bib.schema.org于2015年5月24日发布1.0版本。Bibliograph.net扩展词表包括已经纳入OCLC作品模型的Schema.org正式术语和正在接受审查的候选术语,该扩展词表由编辑者在实践社区(如Schema书目扩展小组)支持下维护。在bib.schema.org中,Schema.org的管理员会对书目扩展词表的通用模型进行形式化;建立 bib.schema.org 后,BiblioGraph.net 词表即上传到 Schema.org 的 Github 存储库,可从http://bib.schema.org 查看。该界面会将扩展词表与最新版本的Schema.org 整合,就像Bibliograph.net 所做的一样,因此BiblioGraph.net自2015年后不再更新。在扩展模型完全实施后,Schema.org仅维护其词表,而不维护提供其词表的网站。
4 OCLC关联书目数据模型与BIBFRAME的兼容性
2012年,OCLC和LC先后发布OCLC草案模型和BIBFRAME1.0。在此之后,二者都意识到两个独立模型的覆盖范围可能存在重合之处,甚至可能存在竞争。LC为使用范围最广的书目描述格式MARC的创建者和维护者,OCLC为世界最大的文献信息中心,二者都不可能忽视对方的重复劳动而造成的资源浪费,或由于冲突加剧而给将来的普及使用带来麻烦。为此,OCLC几乎从BIBFRAME1.0发布后即开始就OCLC草案模型和BIBFRAME1.0进行兼容性研究。
2012 年 6 月 OCLC 将 WorldCat 上 近 3 亿条记录发布成Schema标记,12月将WorldCat上的记录转换为BIBFRAME1.0 格式,转换所使用的脚本只是在早前将WorldCat 记录转换为Schema.org 标记所用的脚本基础上进行了修改[26]。试验后,OCLC对转换的BIBFRAME记录进行分析,并于2013 年6 月发布《关于BIBFRAME 和OCLC 关联书目数据模型之间关系的研究工作报告》(The Relationship between BIBFRAME and OCLC’s Linked-Data Model of Bibliographic Description:A Working Paper)[16],报告展示了OCLC在BIBFRAME早期实验小组中的工作,以及OCLC草案模型与 BIBFRAME1.0 的关系分析。2014 年8 月,OCLC 和LC 正式开始兼容性研究合作,并于2015 年发布合作研究报告《Common Ground:探索LC和OCLC的关联数据模型之间的兼容性》(Common Ground:ExploringCompatibilities Between the Linked Data Models of the Library of Congress and OCLC)[6]。
两个模型兼容性研究的目标可以概括为两点:(1)两个模型中相同概念的URI 指向同一对象;(2)两个模型中的描述可以相互转换而不丢失信息。这样,两个模型既可以达成各自的目标,又能使二者的书目描述在统一的标准下相互转换,减少不必要的工作浪费,满足图书馆和信息用户双方的需求。
4.1 OCLC草案模型与BIBFRAME1.0的兼容性
4.1.1 积极因素
在OCLC草案模型和BIBFRAME1.0兼容性研究中,研究人员发现两个模型之间存在兼容基础。首先,二者在许多高层概念上是相似的,如作品、实例、组织和个人,反映了两种出于不同动机和使用目的而设计的模型之间的共同点。其次,在两个模型的词表中很多术语拥有相同意思,如“Person”“Organization”“Place”“Author”[27]。
4.1.2 阻碍因素
尽管OCLC草案模型和BIBFRAME1.0有着兼容的基础,但二者之间仍然存在很多阻碍兼容的问题。
(1)二者在书目描述的深度和广度上存在较大的差异。在2013年1月LC举办的BIBFRAME会议上,OCLC展示了Schema扩展词表和BIBFRAME1.0之间的关系:OCLC草案模型覆盖范围更广但对书目描述不够深入,因为Schema.org中的创作作品本体也用于描述信息领域的其它资源。作为图书馆书目描述的下一代标准,BIBFRAME1.0 的情况则相反(见图 6)。因此,两个模型所定义的不同术语甚至是相同术语之间会存在具体与抽象、专业与广泛的差异。比如,BIBFRAME1.0的作品与实例之间用专指的“bf:isInstanceOf”和“bf:instanceOf”属性连接,而OCLC草案模型中的作品和实例则用可以连接多个类的泛指的“schema:isExampleOf”和“schame:exampleOf”属性连接。
图6 BIBFRAME和Schema作品模型之间的关系[16]
(2)BIBFRAME1.0 的设计以 FRBR 为基础,虽然并没有完全对应FRBR第一组实体的4个概念,但也具备基本的层次结构,而OCLC 草案模型则不具备这种结构。这增大了两个模型兼容的难度。
(3)OCLC 草案模型的“Library”词汇表与BIBFRAME1.0作品和实例类在很大程度上是重复的。图6中OCLC草案模型与BIBFRAME1.0中存在交叉重合部分,正是由OCLC草案模型的扩展词表“Library”造成的。
4.2 OCLC模型与BIBFRAME1.0的兼容性
与OCLC草案模型相比,OCLC模型改动较大,与BIBFRAME1.0的兼容性随之变化。
4.2.1 改进
(1)OCLC模型与BIBFRAME1.0之间的关系变为互补。在OCLC 模型中,新加入的GoodRelations本体可以表示FRBR第一组层次结构中的一些概念,OCLC 草案模型中的“Library”扩展词汇表被废弃。对BIBFRAME而言,这意味着OCLC 作出了让步,不再设置与BIBFRAME存在竞争性的扩展词表来描述内容、载体、馆藏和其它图书馆特有的资源。因此,图6 所显示的交叉重合关系将不复存在,BIBFRAME1.0和OCLC作品模型之间的关系变为互补[6],在语法上更兼容,语义上更互补[16]。
(2)OCLC 模型的实体与 BIBFRAME1.0 的核心实体间出现了对应的映射关系。OCLC作品模型的“Creative Work”类可以映射到BIBFRAME1.0 的“Work”类;而“Creative Work,Product Model”类可以映射到BIBFRAME1.0的“Instance”类;“Creative Work,Individual Product”类可以映射到BIBFRAME1.0的“Instance”类(见图7)。
图7 BIBFRAME1.0与OCLC作品模型的映射关系[28]
(3)OCLC 模型更加符合BIBFRAME 的层次关系。由于FRBR层次结构的应用需要在抽象程度不同的实体之间建立关联,于是OCLC 模型为原有属性赋予新的意义或增加新的属性,以描述不同层次实体之间的关系[16]。例如,为“schema:CreativeWork”类增加属性“schema:workExample”和“schema:exampleOfWork”,用以表示作品的实例,与BIBFRAME的属性“bf:hasInstance”和“bf:isInstanceOf”含义相似。
4.2.2 新问题
基于Schema.org的OCLC模型和BIBFRAME之间的关系相比之前更加清晰,但是新的兼容性又面临了一些重要的问题。
(1)两个模型的开发研究和实践运作之间的关系需要协调一致。OCLC扩展词表和BIBFRAME词表之间的关系由重合变为互补,那么这两个模型词表的设计开发者在之后的工作中也需要各自扮演互补的角色,否则会出现重复性工作而再次导致资源的浪费。为了促进两个模型的合作研究和并行发展,或许需要定义一个从抽象到具体的互补任务集合,一开始由少量模型专家引导,并逐渐扩展为其它兴趣社区的充分参与。
(2)BIBFRAME1.0 定义的一些重要的类与OCLC模型存在差异。BIBFRAME1.0为作品和实例都定义了RDF类,而OCLC模型只为作品定义。BIBFRAME1.0定义了“Authority”类,而OCLC模型中虽然也有“Authority”这一术语,但并没有作为一个类。在OCLC 模型中术语“Authority”用法十分广泛,可以是任何资源的非正式名称,如有关人员、地点、组织、概念和其他经过审查的实体信息;而在BIBFRAME 1.0 中,“bf:Authority”类主要用于对主题的描述。BIBFRAME1.0 还定义了“Annotation”类,描述评论、摘要、封面和馆藏的结构化数据,而OCLC模型中虽然没有与其对应的术语,但却提供替代的且更简洁的表述。
虽然OCLC模型和BIBFRAME1.0在一些重要的类上定义不同,但在描述“人员、地点和组织”时,两个模型都不以分配的字符串或概念形式来表示,而是以现实世界的指示对象来表示。因此,BIBFRAME1.0 一些重要的 RDF 类,如“work”“instance”“helditem”“authority”,其子类与OCLC模型中的对应术语在本体上足够相似,BIBFRAME1.0和OCLC模型之间有可以互用相应的URI。
(3)在两个模型中,仍有一些重要的概念需要在兼容性研究时协调一致。尽管FRBR 第一组实体对图书馆资源描述十分重要,但无论是OCLC 模型还是 BIBFRAME1.0 中都没有 FRBR第一组实体概念的充分表示,并且还缺少其它一些重要的概念,如藏品、系列和馆藏。虽然研究人员都在努力定义两个模型中的这些概念并使其更具可操作性,但是仍没有推动这两个模型进行合作的倡议。如果两个模型对于这些未明确的概念采用了完全不同的定义,将会阻碍二者的兼容。
4.3 OCLC模型与BIBFRAME2.0的兼容性
2016 年 4 月,LC 发布了 BIBFRAME2.0,希望将其作为图书馆资源描述的持久性标准。在BIBFRAME2.0中,BIBFRAME1.0的2个核心类(作品和实例)修改为3个核心类:作品、实例、单件。
修改后的BIBFRAME2.0 由于增加了单件类而更加符合FRBR 第一组实体的层次结构,于是OCLC模型的“Creative Work,Individual Product”类可以映射到 BIBFRAME2.0 的 Item类(见图8),两个模型的层次结构更加兼容。
图8 BIBFRAME2.0与OCLC作品模型的映射关系[28]
经历了OCLC草案模型到OCLC模型,以及BIBFRAME1.0到BIBFRAME2.0的转变,OCLC模型和BIBFRAME之间的兼容性不断增强,但二者之间仍然存在较多差异(见表1)。
表1 OCLC模型和BIBFRAME的差异
一些差异是必要的,这是双方发展目标不同而导致的。OCLC模型和BIBFRMAE的兼容性研究必须立足于一个基础,即OCLC模型和BIBFRAME都需坚持各自的目标,以实现不同的功能。
OCLC模型的目标是增强书目资源在通用搜索引擎中的发现,这就需要OCLC采取一些注重描述经济性的策略。例如,尽可能使用Schema.org 词表,只在必要时提出修订。也就是说,OCLC模型的描述永远不可能达到BIBFRAME的细致程度,BIBFRAME中一些专业繁复的术语在以发现为目的的OCLC模型中永远不可能出现。站在OCLC的立场,OCLC模型应该尽量采用最易于让大众理解的术语来描述图书馆资源,一旦图书馆资源通过Schema.org标记被发现,就可以借助BIBFRAME的功能,在图书馆支持的丰富的关联数据环境中利用书目所描述的资源。
BIBFRAME 的设计相对独立,但在兼容性发展中,不可避免会在一定程度上受到Schema.org 的影响。站在图书馆专业的立场,合理的兼容发展是:BIBFRAME 模型的设计应该最少程度地依赖于Schema.org,这样当Schema.org将来在根本上发生变化或不再使用时,图书馆社区不会受到较大的影响。毕竟信息时代网络的发展速度超乎人们的意料,Schema.org 当前在网络标记语言中的地位也可能只是暂时的。而BIBFRAME 的目标却是为图书馆乃至文化机构的资源描述所长期使用。当然,BIBFRAME模型的重要概念仍需要与主流搜索引擎支持的任何通用本体兼容,但是BIBFRAME中更加专业的概念则不希望受到搜索引擎的影响,要立足于图书馆等文化机构资源描述的专业需求。
OCLC 模型和BIBFRAME 兼容性研究的目的不是为了融合这两个模型,而是在保证两个模型独立性的前提下,实现二者之间不损失信息的书目描述映射。
4.4 兼容性研究进展
在 2017 年 1 月 ALA 冬季会议上,OCLC 的报告展示了BIBFRAME的两轮映射试验。第一轮是2012年开始在WorldCat和VIAF上进行的试验;第二轮是OCLC模型与BIBFRAME2.0之间的映射。OCLC模型的作品和内容表达层映射到BIBFRAME 的作品类,其中OCLC 模型的内容表达层目前只描述不同语言的翻译作品对象(见图 9)。
图9 OCLC模型和BIBFRAME2.0的兼容性[22]
OCLC模型和BIBFRAME2.0的映射是基于FRBR第一组实体层次结构的,但是OCLC研究人员在兼容性研究中发现,即使是FRBR的定义也会随着使用和应用环境的变化而改变,而这种改变并不总是能被明确记录下来,最重要的“作品”的定义甚至会因为用例的不同而不同。但作品在模型中的重要性不言而喻,因此,OCLC在报告中指出,合作编目项目(Program for Cooperative Cataloging,PCC)的“作品”工作小组与OCLC 的目标重合,该小组的任务是分析不同图书馆关联数据模型中的“作品”定义:这些定义有什么相同点或不同点;它们怎么与经典FRBR定义联系;作品的用例有哪些。2017年10 月该小组发布报告PCC SCS/LDAC Task Group on the Work Entity[29]。
在2017 年(1 月)ALA 冬季会议的报告中,OCLC还强调了协调一致的作品文档和标识符可能是关联书目数据模型开发的关键,因此OCLC和LC在兼容性合作研究中重点探讨如何紧密关联LC和OCLC关联书目数据模型的作品文档和标识符。此外,OCLC与PCC的“URI”工作小组一同探索向MARC记录添加URI以促进其向关联数据转换的最佳实践,并分析这些做法会对编目或资源描述工作流程造成的影响。这些工作促进了OCLC关联书目数据模型研究的深化。在展望下一步工作时,OCLC提出将发布一个包括BIBFRAME 和OCLC 作品标识符的数据集;为多语种作品定义作品模型,并且提供使用示范;提高WorldCat作品数据挖掘算法效能。
在2017年6月ALA年会BIBFRAME更新论坛上,OCLC在报告中展示了PCC作品工作小组的工作成果,即FRBR、BIBFRAME和OCLC模型中“作品”的不同含义,见表2。
2018 年ALA年会BIBFRAME更新论坛上,OCLC提出随着BIBFRAME多种扩展和变体的出现,OCLC需要对支持这种更广泛更复杂的兼容性进行更深入的思考[30]。
在2019年ALA举行的冬季会议上,OCLC的报告展示了将WorldCat书目记录通过LC提供的转换器转换为BIBFRAME关联书目数据的成果,再次强调了URI的重要性;因为缺少URI的节点相当于一个空节点,不能进入关联数据环境中参与互操作,在试验中OCLC使用Hash URI代替空节点[31]。2019年ALA年会的BIBFRAME更新论坛上,OCLC介绍了OCLC关联书目数据模型以及BIBFRAME 关联数据的转换工作,OCLC提出使用VIAF、FAST等来源的URI以及WorldCat作品集的ID,减少空白节点以保证互操作性[32]。2019年9月份,OCLC开展了一项永久标识符的调查,了解图书馆界在工作中使用永久标识符的程度以及对永久标识符的需求[33]。OCLC对统一标识符的重视程度不仅源于OCLC与LC关联书目数据模型的兼容性研究,还反映了OCLC以WorldCat、VIAF等关联书目数据集为基础关联全世界书目数据的愿望。
表2 FRBR、BIBFRAME、OCLC模型中作品概念的区别
4.5 兼容性研究展望
在过去一段时间,OCLC模型研究的重点放在多语种作品模型的开发。未来OCLC要开发除了图书以外更多资源类型的模型,如电影、音频,以满足用户对多媒体资源不断增长的需求。在多媒体资源模型的研究中,OCLC需要进一步扩展Schema.org 以提高描述多种资源的可行性,必须在更广泛的使用群体中开展试验,并听取专业编目人员的意见来进行完善。而在已经展开的多媒体资源模型的研究中,研究人员发现OCLC当前通过转换已有MARC记录来补充关联数据模型的策略已达到上限,必须对其进行升级。在实际工作中,OCLC将先在Schema.org中以相对较小的扩展集描述童话、表演、芭蕾、电影等创作作品,考虑到公众对多媒体表演的强烈兴趣,可以借鉴流行和权威的资源,如网络上访问量最高的电影数据库,以获取更多的线索来定义资源模型。OCLC相信,将图书馆资源更紧密地集成到网络中,将图书馆更紧密地连接到网络,可以实现图书馆在网络信息时代的价值。这是关联书目数据研究的目标,也是图书馆界下一代建模工作的目标。
5 对我国图书馆关联数据建设的启发
5.1 尽量使用已有的通用本体或关联书目数据模型
文献调查发现,我国图情领域的关联书目数据研究存在一种现象,一些研究者只就某一学科或某一体裁的文献资源建立专门的关联书目数据模型。开放数据五星技术规范提出:“描述资源时,尽可能使用已有的公共本体,便于资源的发现与关联。”[34]随着时间的推移,文献资源的载体类型逐渐增多,各个学科或主题的文献资源也会逐渐开放,因此研究者应该拥有更大的格局、更长远的目光,在开发关联书目数据模型之前先了解国际上或国内已有的通用本体,尽量基于通用本体进行扩展。
5.2 理性判断数据模型专业性的去留
促进大众对关联书目数据的发现和利用,意味着必须在数据模型的专业程度上作出让步。从MARC 到BIBFRAME,书目描述格式由以载体为中心发展到以内容为中心,但BIBFRAME仍然继承了图书馆自古以来的要将人类所有文献收藏起来的夙愿,因此它力求尽量详细地保存文献资源的所有信息,这决定了BIBFRAME的描述成本高,利用门槛高,其关联数据的利用范围也限制在图书馆、档案馆、博物馆等文化遗产机构中;而OCLC模型的目的是促进图书馆资源被大众发现和利用,这意味着它不能设置过高的标记门槛和使用门槛,那么OCLC模型就必须在描述的细致程度和专业程度上作出取舍。或许将来随着计算机、网络、存储等信息技术的进一步发展,真的可以在一个模型中实现两者兼得。就目前来说,使用两个互补的关联书目数据模型分别实现收藏和利用的目的或许更为现实。
5.3 尝试使用OCLC数据模型
目前国内图书馆利用OCLC数据模型开展关联数据建设的项目并不多,可能是该模型专业性较弱、描述深度不够或软件平台缺乏等原因所致。但在国外,OCLC数据模型已在图书馆中成功应用。芬兰国家图书馆在关联数据发布过程中更看重实体与其之间的关系,认为OCLC数据模型更符合其发展需求。为此,该馆以BIBFRAME为中介,将MARC数据发布成关联的Schema.org格式的数据。除此之外,多个国际组织、出版机构等也纷纷采用OCLC数据模型,如ISNI、ISSN、Spring Nature等,主要还是考虑到该模型与网络资源的兼容性强。随着OCLC数据模型与BIBFRAME兼容性的增强,相关映射方案的发布,图书馆的使用障碍也会进一步降低。国内图书馆使用OCLC数据模型进行关联数据发布与消费时,主要需要解决的是模型本地化和词表复用等问题。确保实体与关系的识别和聚合,以及转换成RDF模式描述,才能有效支持搜索引擎的发现与检索。