APP下载

基于文献计量的书目框架研究热点分析

2020-04-09刘江荣北京师范大学政府管理学院

图书馆理论与实践 2020年2期
关键词:书目关联框架

刘江荣,肖 明(北京师范大学政府管理学院)

在数据时代,数据和信息只有流通分享才具有更大的价值,而传统图书馆的馆藏数据由于数据格式只能在图书馆内部使用,无法发布到Web上进行互操作,由此影响到图书馆大量优质数据的流通,阻碍了图书馆的进一步发展。因此,图书馆界一直在努力寻找新的书目格式,可以集成和兼容各个图书馆丰富的数据,并且使其能够有效地集成到网络数据库中,从而使得更多的优质数据能被更多的用户所使用。

美国国会图书馆(Library of Congress,LC)率先意识到改变图书馆书目格式的重要性。早在2008年,该馆就率先提出设计并开发出一种新的书目格式,以便应对互联网编目环境所带来的挑战。2011年5月,LC推出书目框架(Bibliographic framework,BIBFRAME)计划。2012年,LC发布了BIBFRAME1.0版,并逐渐完善该模型。[1]2017年5月,LC的全部机读目录 (Machine Readable Cataloging,MARC)格式数据转换为BIBFRAME。[2]随着 BIBFRAME的广泛应用,一方面能使图书馆馆藏资源在整个互联网上被关联、发现和使用;另一方面还能够提高馆藏资源的利用率以及提升图书馆的重要性,丰富图书馆的服务类型。

1 BIBFRAME简介

BIBFRAME是由LC发起的一项名为“Bibliographic Framework Initiative”(书目框架计划/行动)的项目研究成果,目的是为了将传统图书馆中大量的馆藏资源融入互联网中,发挥其更大价值,将书目描述标准发展成关联数据模型,形成适用于互联网的书目信息规范。BIBFRAME1.0版本于2012年发布。[1]此后,联机计算机图书馆中心(OnlineComputer Library Center,OCLC)以及乔治·华盛顿大学图书馆、大英图书馆、普林斯顿大学图书馆等参与了早期试用。LC针对试验过程中所出现的问题,对其细节进行了修正,并于2016年推出了BIBFRAME2.0版本。[3]书目框架的基础是关联数据,面向语义网,模型和术语词表是其重要组成部分。在2.0版本中,其核心模型包括三类:作品、实例和单件(见图1)。其中,作品反映了编目资源的概念本质,包括作者、语言及其内容(主题);实例反映的是作品,包括出版商、出版地点、出版日期以及格式等信息;单件表示的是实例的副本,反映了位置(物理的或是虚拟的)、货架标记以及条形码等信息。目前,其术语词表包含有200多个类和多个属性以及类与类之间定义的关系。BIBFRAME官网为了方便用户使用,还提供了从MARC21到BIBFRAME2.0的转换工具,以推动数据转换的步伐。

图1 BIBFRAME的实体关系模型

2 数据来源

笔者主要采用Scopus外文数据库以及CNKI中文数据库为数据源。在Scopus数据库中进行检索,选择标题、摘要、关键词=“BIBFRAME”,检索时间为2019年2月1日,共计检索到英文文献71篇。在CNKI数据库中进行检索,选择主题=“BIBFRAME”或主题=“书目框架”,经剔除重复、通知、报导、简讯等非学术性文章及与书目框架相关性不大的文章,总共获得中文文献60篇。

3 BIBFRAME研究文献的计量分析

3.1 文献发表的年代分布

通过对全部文献进行年代分布分析,得出国内外有关BIBFRAME研究文献发表的年代分布图(见图2)。

由图2可知,Scopus数据库和CNKI数据库中收录的有关BIBFRAME研究文献都是从2013年开始出现的。其中,国外最早的文献是希腊爱奥尼亚大学档案与图书馆学系的Zapounidou S等对FRBR、FRBRoo、EDM和BIBFRAME所作的比较研究,该论文通过利用案例书目记录以及探索这些记录是如何表示的,突出它们之间的共性和差异。[4]国内最早发表有关BIBFRAME论文的是美国雪城大学信息学院的李恺,该论文介绍了2013年ALA年会上有关RDA、FRBR和BIBFRAME的讨论概况。[5]

图2 文献发表年代分布图

图2 中还可以反映出国内外有关BIBFRAME研究文献发表数量具有高度的相似性。二者的研究都是从2013年开始出现的,并且呈逐年递增趋势。产生这一现象的主要原因很可能是美国国会图书馆于2012年正式推出了BIBFRAME1.0版本,用来替代MARC格式,以便实现图书馆馆藏发布于互联网的目标。但是,国内外相关研究文献的总量并不是很多,表明书目框架还是一个有待深入研究的新领域,还需要更多研究人员来进一步完善BIBFRAME。

3.2 发文作者及研究机构分析

3.2.1 国外发文作者及研究机构分析

从表1可知,国外发文量排在前三位的作者分别是Zapounidou S、Sfakakis C和Papatheodorou M,这三个人合作撰写了6篇论文,其中4篇论文是研究其他书目格式与BIBFRAME的映射问题(如FRBR、EDM到BIBFRAME的映射);发文量位居第四位的是Hawkins L,该学者来自美国国会图书馆,主要研究书目框架的更新应用。另外,发文量较靠前的还有美国德雷克塞尔大学的Park JR,主要对BIBFRAME进行深入的理论研究,包括书目框架的发展情况、好处及挑战等。此外,从表1和表2可以看出,发文量较多的作者和机构具有明显的对应关系。其中,除了美国国会图书馆以外,希腊的爱奥尼亚大学、美国的德雷塞尔大学等也是书目框架的重要研究机构。

表1 国外发文作者分布

表2 国外发文机构分布

3.2.2 国内发文作者及研究机构分析

笔者对CNKI数据库中获得的数据进行统计分析后,分别得到国内发文作者分布(见表3)和发文机构分布(见表4)。

从表3可以看出,国内发文最多的是上海图书馆的夏翠娟,她与同属上海图书馆的刘炜是国内最早详细介绍书目框架的两位学者,并且将其推向实际应用。他们利用书目框架构建了家谱本体和中国家谱知识服务平台。华东师范大学图书馆的胡小菁致力于研究书目框架的应用对图书馆书目编目所带来的变化。江苏科技大学图书馆的安晓丽则主要研究书目框架这个新型书目格式对图书馆工作所产生的影响。

从表4可以看出,国内研究书目框架较多的机构主要是上海图书馆、华东师范大学、南京大学、江苏科技大学等单位。其中值得特别关注的是上海图书馆,该馆研究人员利用BIBFRAME建构了上海图书馆关联书目数据、古籍、家谱、手稿档案等不同本体,并且将本体词表发布于网站,供全球用户免费下载使用。

表3 国内发文作者分布

表4 国内发文机构分布

3.3 文献的来源期刊分析

3.3.1 国外研究文献的来源期刊分析

笔者通过对国外文献来源期刊进行统计后发现,收录BIBFRAME研究文献最多的期刊是(编目与分类季刊),该刊是图书情报学类外文核心期刊,其被视为一个讨论书目组织各个方面的国际论坛,发表了为数较多的关于编目和分类的理论和应用文章(见表5)。[6]载文量较多的国外期刊或会议论文集还包括:(期刊评论)、(计算机与信息科学通讯)(计算机科学讲义)(连续出版物图书馆员)。

表5 国外研究文献的来源期刊分布

3.3.2 国内研究文献的来源期刊分析

从表6可以看出,国内BIBFRAME研究的论文大多发表在图书情报类期刊。其中,《图书馆杂志》《数字图书馆论坛》刊载的有关BIBFRAME研究的论文最多。核心期刊发表的相关论文约占论文总数的50%,这为学者后续研究BIBFRAME提供了重要的参考资料。

表6 国内研究文献的来源期刊分布

4 国内外相关研究热点分析

4.1 国外研究热点分析

为了全面了解国外有关BIBFRAME的研究热点和研究方向,笔者除了在Scopus数据库中检索有关论文以外,还收集了BIBFRAME官网所发布的全部研究报告,共计48篇。

国外对BIBFRAME的研究包括以下两部分:① 非LC学者针对书目框架的研究;② LC书目框架项目组所推出的不定期研究报告,主要是介绍BIBFRAME的发展更新概况。笔者利用Endnote关键词统计功能,对Scopus数据库检索出的文献进行关键词统计后,得到排名前十位的高频关键词(见表7)。

表7 国外研究文献中排名前十位的高频关键词

通过对国外BIBFRAME研究文献进行统计分析后发现,其主要研究内容包括:BIBFRAME发展情况介绍、书目框架与其他书目格式的比较、传统书目的改造等。由此可见,国外研究已逐渐从理论研究进入实际应用研究阶段。

4.1.1 BIBFRAME介绍

BIBFRAME作为一个新的书目格式,需要对其进行深入研究,才能发现其优势和不足,然后逐渐完善该模型,以便更好地适应图书馆的发展变化。因此,对BIBFRAME的介绍以及更新发展的探索就成为国外研究人员的一大研究热点。

LC采编部主管Beacher W仅在书目框架更新介绍方面就发表了9篇研究报告,在其最新的一篇报告中,阐述了BIBFRAME2.0在试点图书馆所完成的目标和成就,并且对其下一步计划进行了概述。[7]如,开发出成熟的BIBFRAME编辑器,使编目员能够轻松地输入他们正在创建的BIBFRAME描述数据。Park Ok Nam等在论文中介绍了BIBFRAME模型及其当前状态,回顾了BIBFRAME类和属性,并且介绍了MARC21与BIBFRAME之间的映射,认为BIBFRAME的重要意义在于它提供了一种新的书目描述范例,并且在关联数据的上下文中扩展了用户的信息发现。[8]此外,还需要不断地对书目框架进行研究,修改BIBFRAME模型和词汇,以便支持其内容模型应用到不同的资源类型中。Beacher W的报告说明了国会图书馆根据实际情况不断的对书目框架进行修订,以实现更多数据资源的关联发布。[7]

另外一位LC学者指出,由于MARC本身的局限性以及编目实践的改变,图书馆馆藏性质更多地向电子资源和媒体资源转移,最终导致BIBFRAME的出现,并介绍了BIBFRAME的目标和发展历程,对MARC、BIBFRAME、RDA这三个模型进行了比较分析,总结了书目框架目前存在的一些问题。[9]该作者还介绍了LC启动的一个BIBFRAME新的试点,目标是使编目人员可以在不参考MARC的情况下进行工作。该试点主要包括两个重要部分:① 整个LC的MARC目录到BIBFRAME的转换,编目员可以据此来创建新资源的描述;② 与BIBFRAME目录交互的BIBFRAME描述创建工具。[9]

意大利学者Trombone A等从BIBFRAME出现前的争论、BIBFRAME的启动、BIBFRAME的类和结构、书目记录和资源描述以及访问功能要求的关系等方面详细介绍了BIBFRAME,指出用于编目图书馆数据的MARC标准的缺点,认为BIBFRAME可视为将MARC记录转换为关联数据的图书馆结构模型。[10]MihwaLee以文献综述为基础,分析了BIBFRAME 2.0的变化特点,并且提出了构建BIBFRAME的若干注意事项。[11]

由此可以发现,随着网络及语义网技术的发展,国外许多学者都意识到MARC格式的局限性,在新型书目格式BIBFRAME发布后,及时关注、不断深入对BIBFRAME的理论研究,促进其不断发展和完善,以期用BIBFRAME取代MARC格式,实现数据的语义化和关联发布,方便数据的交换与共享。

4.1.2 BIBFRAME与MARC、RDA等其他书目格式的映射

BIBFRAME作为一种全新的书目格式,与传统格式有着重要的联系与区别。为了更好地将传统格式的数据转换成关联数据,就需要研究使传统数据格式向BIBFRAME格式过渡转换的模式。

TaniguchiS从RDA元数据模式角度分析了BIBFR AME 2.0,尝试将RDA词汇表映射到BIBFRAME 2.0词汇表,以便验证BIBFRAME模式对于RDA元数据的有效性和适用性。研究结果表明,BIBFRAME不具有对应于RDA表达类,一些RDA元素没有相应的BIBFRAME属性,因此这些元素中的值不能用BIBFRAME表示。[12]目前有多种方法可以将现有的MARC21书目记录转换为BIBFRAME元数据,从而生成各种BIBFRAME元数据。在某些情况下,匹配和合并生成BIBFRAME元数据很困难,除非将转换限制为一种特殊的方法。

韩国学者Sung-Sook Lee认为,提供转换规范是基于BIBFRAME将MARC格式记录转换为关联数据的第一个过程。因此,他们对LC在2017年发布的“MARC 21 to BIBFRAME 2.0转换规范”进行了检查,并根据工作、实例和项目(即BIBFRAME 2.0核心类)对属性和类别进行了分类。[13]研究发现,多个类/属性都没有映射到BIBFRAME上,最后确定了转换韩国机器可读目录(Korean Machine Readable Cataloging,KORMARC)记录的方法。[13]此外,爱奥尼亚大学的Zapounidou S揭示了FRBR、FRBRoo、BIBFR AME和EDM模型之间的相似性和差异性,这些模型可能促进或阻碍图书馆数据的互操作性和共享。[14]研究表明,FRBR和FRBRoo、BIBFRAME和EDM模型之间有更多的共同点。目前在从FRBR到BIBFR AME的映射中测试是使用书目记录作为测试数据。在这些测试中,已经发现有一些条件可以实现映射。如类的特定属性或属性的特定值的存在,可能需要不同的映射来保存内容关系。

可以看出,在新旧书目格式的转换过程中,存在大量的映射问题,需要不同程度的人工辅助才有可能实现高质量转换。映射问题是传统数据成为关联数据的关键步骤。一方面,LC不断对BIBFRAME进行改进完善;另一方面,不断有学者提出新的映射思路和方法来解决现存问题。

4.1.3 传统书目数据的改造

图书馆界当前面临的一大挑战是增强图书馆与用户群体的关联性,这就需要图书馆将其资源发布在开放的网络中,以实现资源的网络化和可视化。为了实现这一目标,图书馆可以使用BIBFRAME书目格式和图书馆关联数据发布其资源。因此,需要将传统的馆藏数据(如MARC数据)转换成BIBFRAME数据,进行必要的数据重新格式化,以符合新模型的规范,即当前的BIBFRAME 2.0。

Xu A等从语义映射方法、元素到元素的映射、层次结构、对象和逻辑视图的改变、内容转换、映射与转换评估、转换工具和过程、BIBFRAME 1.0版到2.0版的变化等八个方面探讨了自2016年来LC如何将图书馆书目数据从MARC格式映射到BIBFRAME 2.0模型和词汇表。[15]Balster K等介绍了自2015年开始的CONSER BIBFRAME映射项目的完成情况,该项目已将数据映射转换为BIBFRAME 2.0,并且为每个元素开发了样本RDF序列化,认为未来对BIBFRAME和其他关联数据模型的调查应摆脱现有实践和标准的限制,需从关联数据模型本身出发。[16]Zapounidou S等研究了FRBR数据到BIBFRAME 2.0的映射,以及如何保存书目内容的类和关系。研究发现,尽管可以保留相同书目类的作品之间的关系,但在映射之后,之前的作品在BIBFRAME中的表示不完整。[17]此项研究说明BIBFRAME与FRBR的映射存在偏差。Xu A等建立了歌剧的书目框架模型,验证了BIBFRAME 2.0模型在多种格式的音乐资源中,从唱词到乐谱、录音、录像到流媒体音频的基本建模中的应用,并且解决了转换过程中存在的一些问题,成功地创建了一个关联的开放数据网站。[18]此外,伊利诺伊大学香槟分校图书馆将近30万条MARC电子书记录转换为BIBFRAME,开发出电子书的ER模型,并且创建了两个搜索界面,用于检索BIBFRAME关联数据。[19]

目前国外对传统书目数据改造的实践研究开展的较多,在此过程中存在如下问题:① 映射不全,不能将所有记录完全映射,导致转换后的数据存在完整性问题;② 数据类型有限,目前大多实践只是转换某些类型的数据,如电子书、歌剧等,只有较少的机构能实现数据的全面转换;③ 仍需要人工辅助,没有实现全自动转换。

4.2 国内研究热点分析

目前国内针对BIBFRAME的研究大多处于理论探讨阶段,实践方面的研究较少。笔者通过对关键词进行统计分析,最终得到排名前十位的高频关键词 (见表 8)。

表8 国内研究文献中排名前十位的高频关键词

由表8可知,我国对于BIBFRAME的研究主要体现在BIBFRAME以及其他数据格式的比较、CNMARC到BIBFRAME的映射研究、图书馆书目数据/记录的编目等方面。由此可见,我国图书馆界正在紧随国际步伐,不断研究和探索BIBFRAME在国内的适用性,以便最终实现馆藏数据在互联网上的全面共享。

4.2.1 BIBFRAME介绍以及与其他数据格式的比较

BIBFRAME是为图书馆书目数据关联化而产生的新一代书目编码标准。为了能够更好地利用这一新格式,国内许多学者对其进行了详细介绍,并将其与传统书目著录格式进行了比较。李恺在参加2013年ALA年会时,记录了RDA、FRBR、BIBFRAME最新的发展动态,[5]这是国内第一篇对BIBFRAME的介绍。后来,刘炜等又从框架模型、术语词表、用例需求、工具、服务与演示等方面介绍了BIBFRAME,分析了BIBFRAME的特点以及它在应用时存在的问题。[20]吴贝贝等从格式和模型探索两方面介绍了图书馆领域在MARC格式之后对其他书目格式的研究和探索,并且比较分析了BIBFRAME和RDA,认为BIBFRAME要完全取代使用广泛的MARC任重而道远。[21]苏建华对RDA、BIBFRAME的相关背景进行了介绍,并对二者进行了简要比较,从应用、存在问题、发展前景等三个方面论述了其研究进展。[22]娄秀明等分析了RDA和BIBFRAME的区别和联系,并对MARC21和BIBFRAME映射时存在的问题进行了说明。[23]此外还有不少学者对BIBFRAME的改进变化进行了详细介绍和分析,为其在国内图书馆的应用奠定了良好的理论基础。

4.2.2 CNMARC到BIBFRAME的映射研究

2006年,蒂姆·伯纳斯·李(Tim Berners-Lee)提出了关联数据概念以及相关技术框架,目的是将互联网上的数据、知识等连接起来,使互联网成为充满语义、各种信息互联互通的语义网。图书馆界为了适应这一变化,将其馆藏数据分享于互联网上,开始致力于利用关联数据、语义网等技术对图书馆数据进行改造升级。如,LC将虚拟国际规范文档(Virtual International Authority File,VIAF)和美国国会图书馆标题表(Libraryof Congress Subject Headings,LCSH)等标准词汇发布成关联数据。[20]此外,图书馆界要实现书目数据的关联化,就需要将传统的MARC结构化数据转换成质量好的元数据。许磊深入分析了CNAMRC与BIBFRAME的映射基础,实现了二者之间的映射,并且总结了映射时所存在的问题。[24]周小萍以普通图书若干必备常用字段及其子字段为对象,实现了CNMARC实体记录到BIBFRAME的转换,但在转换过程中有若干字段无法顺利实现转换,需要增设一些类和属性,对于专有规范字段的转换也很复杂。[25]朱美华综合分析了BIBFRAME及其在中国实施的影响因素,并总结了影响BIBFRAME在国内实施的原因。[26]郑华敏分别对 BIBFRAME2.0、BNB、EDM、LIBRIS四个典型关联书目数据模型的核心框架、功能应用、映射情况进行了比较分析,为我国图书馆将书目数据发布为关联数据提出了相关建议。[27]

虽然CNMARC和MARC21都是由MARC格式发展而来,但是其字段、功能等方面存在一定差异,目前LC提供的自动转换工具都是从MARC21转换到BIBFRAME,因此中文数据的转换可能需要不同的思路与方法,需要更进一步研究和实践。

4.2.3 图书馆书目数据/记录的转换

BIBFRAME是LC为了实现数据共享而创造的新型书目格式。目前,LC已经将所有的MARC数据转换为BIBFRAME数据。我国在这方面还处于起步阶段,但也有了一些成果。如,上海图书馆将其所藏名人手稿档案记录转换成BIBFRAME数据,并且发布了关联数据。其他学者也进行了小范围的试验,将部分中文书目数据转换成书目数据BIBFRAME数据。

夏翠娟利用上海市文献联合编目中心的中文书目数据,将原始数据通过清洗、编码和转换,实现了从CNMARC到BIBFRAME的映射转换,然后将其以RDF的形式发布在Web上。[28]常娥等从中文书目资源关联组织模型设计、CNMARC的转换与映射、书目资源URI的确定与生成、开放数据许可协议四个方面分析了中文书目数据发布成关联数据时存在的核心问题,并且发布了国鼎图书室藏书关联数据集。[29]安晓丽等从多方面详细介绍了RDA和BIBFRAME这两个书目数据标准,认为这两个标准为图书馆书目数据适应网络环境和多样化的馆藏资源提供了技术保障。[30]李勇文通过对BIBFRAME有关的国内外文献进行分析归纳,结合中文书目数据的现状及CNMARC的模型的特点,为BIBFRAME应用于中文书目数据环境提供了意见和建议。[31]此外,夏翠娟等复用了书目框架BIBFRAME的核心模型,利用上海图书馆的家谱数据,设计了家谱本体,并且推出了中国家谱知识服务平台,可以按姓氏和时空两大途径来浏览所有家谱。[32]

5 BIBFRAME未来研究展望

自BIBFRAME推出后,国内研究人员紧随国外发展趋势,在BIBFRAME的研究方面,取得了一定的研究成果。但从整体上来看,目前以理论研究为主,实践研究偏少。笔者参考国外研究和实践,提出以下相关建议。

(1)继续深入对BIBFRAME的理论研究。理论研究是实践研究的基础。BIBFRAME是图书馆领域为适应语义网环境而开发出的第一个关联数据模型,存在很多不确定和有待改进的地方,国内学者应紧密关注其发展变化,分析其在中文环境中应用存在的问题与挑战,思考BIBFRAME的本土化二次开发;BIBFRAME的技术要求很高,需要对其相关规范、协议进行深入学习和掌握。只有进行深入的理论研究以后,才能推动其尽快应用于实践,促进图书馆在互联网时代的转变和发展。

(2)深入研究CNMARC与BIBFRAME的转换问题。国内已经有学者开始尝试对CNMARC数据进行转换,其中也存在不少问题:① 在CNMARC与BIBFRAME的转换问题上还是以理论研究居多;② 在为数不多的实践研究中,研究人员只针对一部分CNMARC字段进行了映射研究,而不是对全部字段进行深入研究;③ 有些字段无法顺利实现转换,还需要人工进行干预。因此,国内研究更应该倾向于实践,要在实践过程中不断发现和解决问题,尽早将馆藏数据发布成关联数据,增加中文数据在网络上的共享性和流通性。

(3)开展图书馆MARC格式数据转换实践。国外已经有多个图书馆开展了数据转换,将传统馆藏数据转换成BIBFRAME数据。如,大英图书馆的BNB项目以及伊利诺伊大学香槟分校图书馆的电子书转换项目等,后者已将近30万条MARC电子书记录转换为BIFFRAME格式。[19]LC早在2017年就将其MARC数据全部转换为BIBFRAME数据。不过,国内图书馆实现馆藏数据的转换较少。因此,我国图书馆界也应尝试开展这方面的数据转换工作,以便尽快实现馆藏数据的关联发布。

猜你喜欢

书目关联框架
推荐书目《初春之城》
框架
广义框架的不相交性
“一带一路”递进,关联民生更紧
奇趣搭配
WTO框架下
智趣
一种基于OpenStack的云应用开发框架
本刊邮购书目
语言学与修辞学:关联与互动