基于BIBFRAME 2.0的中文电子图书编目研究
2019-01-31天津商业大学图书馆
金 华(天津商业大学图书馆)
科学家布林德利预测,2020年,全世界75%的出版物将发表数字形式,或者数字和纸版同时发表。[1]目前看来,文献资源电子化的程度比预测的要更快一些。电子图书是一种将文字、图片、声音、影像等信息内容数字化的出版物。与传统印刷书籍相比,电子图书通过网络发行,既节省了印刷成本,又不需要繁琐的运输配送;电子图书以计算机、手机、手持阅读器为载体,因其存储容量大、阅读方便、保存时间长,不易污损等优点被用户广泛接受。但是,目前还没有建立一个系统的电子图书书目数据库,无法对电子图书进行统一编目,同时,电子图书作为“虚拟”馆藏,对于其存档与保存也一直是图书馆界争议的话题。
1 现行电子图书编目模式简析
电子图书是从电子资源中分化出来的,目前国内的编目工作仍然参照现有的电子资源著录规则。早在1991年,美国国会图书馆就提出以USMARC格式为主要构架,进行电子资源编目,联机计算机图书馆中心(Online Computer Library Center,OCLC)在数据测试之后,对外文电子资源编目进行了扩充与完善。中文电子资源编目主要使用CNMARC格式,其编目标准主要是国际图联(International Federation of Library Associations and Institutions,IFLA)世界书目控制中心和国际MARC核心计划颁布的《UNIMARC指南》。除此之外,还需要参考2004年出版的《中国文献编目规则(第二版)》第十三章、《文献著录(2010年)》第9部分“电子资源(GB/T3792.9-2009)”以及中国国家图书馆内部出版的《电子资源著录规则和机读目录格式使用手册(2012年)》的规定。
1.1 电子图书编目的主要数据字段
电子图书的著录项目主要包括题名与责任说明、版本项、文献特殊细节项(资源类型与数量项)、出版发行项、载体形态项、丛编项、附注项、标准号与获得方式项。[2]根据《国际标准书目著录》(International Standard Bibliographic Description,ISBD)统一版的规定,为了适应文献资源的多样化,2011年起“内容形式与媒体类型”项也成为主要的著录项目。除了与印刷本文献资源相同的编目字段外,国内现行的电子图书编目工作还扩展了以下专用数据字段。
(1)135(电子资源编码数据)字段,对网络书目数据元素进行编码。
(2)230(资料特殊细节项)字段,描述与电子资源类型和数量有关的文献特征。
(3)307(访问或获取时间)字段,描述文献获取时间或日期范围。
(4)336(电子资源类型附注)字段,著录网络信息资源的文件格式。
(5)337(系统需求附注)字段,记录有关电子资源的技术细节,也可以描述该资源对系统的需求和检索模式。
(6)357(文献传播控制)字段,著录在编文献的作者、制作者,对文献传播控制的说明。
(7)362(出版日期、卷期或其他标识项)字段,著录在编文献出版信息中起始、终止卷册的标识,一般电子期刊用的比较多。
(8)500(一般性附注)字段,描述电子资源题名来源及查看日期。
(9)516(计算机文件类型或数据附注)字段,用于描述电子资源的系统技术信息。
(10)538(系统细节附注)字段,著录文献的系统技术信息,如,计算机文件的物理特征、软件程序的语言要求、设备要求等参数。[3]
(11)856(电子文件资源地址与检索)字段,记录所描述的电子文献的获取信息,可以生成与检索方法相关的ISBD(ER)电子资源附注。
1.2 现行电子图书编目模式的弊端
在现有纸本资源编目的基础上,融入上述专用字段,形成国内现行电子图书的编目规则与标准,借助该模式生成的电子图书编目数据,使无序的信息变为有序,过滤掉无用的信息,实现了电子图书检索与使用的便捷化。
以下是国家图书馆相关编目人员对电子图书《植物那点事》进行的CNMARC著录实例。
010##$a978-7-900282-32-3$dCNY50.00
135##$domg---auuuu
200 1#$植物那点事$b电子资源$e电子图书$f武汉博润通文化科技股份有限公司主编
215##$a1光盘(DVD-ROM)$c彩色$d12cm
230##$a电子书
336##$a文本型
337##$a系统要求:需下载并安装PDF软件阅读电子书
606 0#$a植物$j普及读物
856 4#$uhttp://ebook.lib.gdpu.edu.cn
这条电子图书的数据可以导出ISO2709格式的MARC数据,并在支持ISO2709格式的软件里进行套录,方便编目工作人员的后台维护;另一方面,用户通过OPAC实现数据检索,借助ISBN、题名、作者、主题词、分类进行主体检索,或者通过出版时间、出版社、资源类型等信息进行二次限定检索。根据检索结果中856字段著录的URL,用户可以直接链接到电子书全文显示的主页。
随着信息技术的发展以及电子图书资源的更新,电子图书编目模式在编目数据著录以及用户体验方面的弊端也开始显现。
(1)电子图书数据重复率高。目前,电子资源编目并无统一标准,主要依靠各个出版商以及数据服务平台的力量,这种相对独立的编目模式,不但难以跟上电子资源更新的速度,而且造成了书目数据的杂乱无序,不利于实现资源共享。此外,由于各编目机构采取不同的数据编目标准,每条编目数据的字符冗长且重复,在国际书目数据交流中,存在很多障碍,国际辨识度低。[4]MARC书目数据的保存和转换主要通过ISO2709格式实现,不能直接阅读;转换后的数据,包含许多特殊含义的字符,给读者用户造成困扰。
(2)电子图书数据检索效率低。图书馆拥有丰富的电子图书资源,但是用户并不能从数据库或是检索系统中精准定位所需资源。中文字符的处理、Unicode编码的局限性,已经不再是编目员面对的主要问题;关键字段的遗漏、字段格式的错误、OPAC系统不支持所提供的字段格式、不兼容的编码数据的使用,甚至于标点符号的不合理都会造成检索无效或者访问失败的情况。另外,网络数据资源的URL稳定性差,其信息源质量参差不齐,数据维护不及时,以及电子链接的滞后性,最终导致电子图书资源检索的低效率。由此,电子图书编目工作迫切地需要一种新型编目模式,并且配合更便捷的搜索引擎,提高电子图书编目数据的检索效率。
(3)电子图书数据关联度小。电子图书编目主要参考电子资源编目要求,其主要信息源取自电子资源内正式出现的信息,包括经过解压缩、打印或其他处理的信息。[2]这一标准已经不符合电子图书发展的现状,电子书大多通过网络发行,其资源访问地址变化大。由于电子图书市场管理的混乱,同一本书经由不同的出版商,提供许多相同的副本资源,有时同一种电子书甚至存在多个ISBN号。这种情况下,只依靠手头的电子图书进行编目,并不能反映某种电子图书的普遍特征。电子图书编目除了可以参考同种纸本资源的编目数据与著录细节之外,还应体现不同版本的特殊性。实现同种纸本资源与电子资源的关联以及相关类型电子图书之间的关联是目前编目工作中急需解决的问题。
2 BIBFRAME 2.0模型下电子图书编目的发展
MARC数据基础上的ISO2709格式是目前图书馆界书目著录的主流选择,每条书目记录都由揭示资源特征的字段和子字段组成,若干条记录构成了数据库。MARC数据重点关注能单独理解的分类记录,一条记录聚合了概念作品及其物理载体信息,同时借助字符串标识记录之外有价值的个人名称、企业名称、主题等信息。[5]电子图书因其特殊的物理形态,对文献编目工作提出了更高的要求,减少数据重复性,提高检索效率,实现数据关联的新型编目模式是大数据时代文献编目工作的重中之重。书目框架格式(Bibliographic Framework)在此基础上应运而生。
2.1 BIBFRAME 2.0的介绍
书目框架格式(Bibliographic Framework)是美国国会图书馆主导开发的新型书目数据格式标准。自2011年5月起,美国国会图书馆联合大英图书馆、德国国家图书馆等六个图书馆,由都柏林核心(Dublin Core,DC)元数据的发明人之一、语义万维网技术的倡导者Eric Miller领衔,正式启动“书目框架计划”。[6]2013年初,美国国会图书馆发布了BIBFRAME的完整模型,提供了具体元数据方案,BIBFRAME模型将书目世界的资源划分为4个核心类,即作品、实例、规范和注释。[7]2016年6月,BIBFRAME 2.0正式确立,与BIBFRAME 1.0相比,BIBFRAME 2.0取消了规范核心类和注释核心类,核心类精简为作品、实例、单件三大类,并且更加注重实体之间以及实体属性之间关系的描述。
2.2 BIBFRAME 2.0模型下电子图书编目的著录机制
在书目记录功能需求(Functional Requirements for Bibliographic Records,FRBR)和规范数据功能需求(Functional Requirements for Authority Data,FRAD)概念模型的基础上,BIBFRAME 2.0模式与RDA编目规则是对应的。2009年,RDA编目规则由美国、英国、加拿大等英语国家正式编制完成,并迅速投入使用。RDA在全球范围内推动了编目界的变革,其编目规则侧重“描述”与“检索”两个原则,为大数据时代的编目工作提供了重要依据。
在BIBFRAME 2.0的三个核心类目中,“作品”代表在编资源的内容层次,对应资源描述与检索(Resource Description&Access,RDA)规则中的作品和内容表达;“实例”代表在编资源的载体层次,对应RDA规则中的载体表现;“单件”主要反映在编资源在馆藏中的位置、条码等馆藏信息,对应RDA规则中的单件。作品、内容表达、载体表现和单件是FRBR通过实体——关系模型对书目世界进行抽象化提炼的第一组实体,这组实体概念,是文献编目工作的基础内容。通过BIBFRAME 2.0模式与RDA编目规则,实现了编目模式与编目规则的统一,为新型编目模式的推广奠定了基础。
(1)电子图书编目中的“作品”类目表达。在BIBFRAME 2.0实体关系模型图中,作品(Work)类主要关联主题(Subject)、代理(Agent)、事件(Event)几个重要概念,“主题”用来表达作品的一个或多个概念,包括主题、地点、时间、事件等实体;“代理”指人与机构通过角色(如作者、编辑、艺术家、摄影师等)与作品或实例相关联;“事件”专指发生在某个特定地点和特定时间的事情,该实体能把与某事件相关的时间与地点关联起来。BIBFRAME 2.0中作品类主要对应着RDA规则中的作品和内容表达,这是两个抽象的概念,其中“作品”是指独特的知识或艺术创作;“内容表达”指作品或艺术创作得以实现的方式,包括字母-数字、音符或舞谱、声音、图像、动作等多种形式的组合。
在电子图书编目中,BIBFRAME 2.0实体关系模型中的作品类主要涉及以文字、图像、音乐等表达方式所展示的作者创意,简言之,电子图书与纸本图书内容一样,可以通过统一题名进行关联,在编目工作中单纯依靠这个核心类,并不能将两种类型的资源区别开来。编目工作中所涉及的题名与责任者项在作品类目中并没有著录形式上的特别改变;在著录的内容上,由于BIBFRAME 2.0实体关系模型可以通过主题、代理、事件等属性建立作品之间的关系,如,整体与部分、继承与被继承、翻译与被翻译等关联关系,[8]在实际编目工作中所涉及的主题标引、名称标目、连接款目几大项,也可以得到更直观、更全面的体现。
(2)电子图书编目中的“实例”类目表现。在BIBFRAME 2.0实体关系模型图中,实例(Instance)类主要关联着格式(Format)、出版者(Publisher)两个重要概念。作为作品的具体化表现,实例反映了作品丰富多样的表现方式及载体形态。BIBFRAME 2.0中实例类主要对应着RDA规则中的载体表现。载体表现是指在知识或艺术内容上以及物理形式上具有相同特征的所有物理对象,主要涉及编目对象实体;图书馆向书商订购的书刊,因为针对的是一批书刊,而不是某个具体的对象,所以可以视为载体表现。
在BIBFRAME 2.0中,实例类可以整合出版机构内容,同时著录在编资源的ISBN、载体表现、风格、分类方式等子目内容。应用到电子图书编目中主要涉及版本项、文献特殊细节项、出版发行项、载体形态项、附注项几大类。①版本项主要介绍电子图书的版本说明以及与版本说明有关的附加版本说明和责任说明。②文献特殊细节项主要用于电子年鉴或是电子期刊的编目。③出版发行项是RDA编目规则与BIBFRAME 2.0都很关注的一个著录项目,属于BIBFRAME 2.0的重要概念。在电子图书编目工作中,出版发行项与该资源的供应行为形成映射关系,其中包括出版、发布、生产几种发行方式。④载体形态项是在编资源物理形态特征的描述,由于电子资源的特殊性,载体形态项只著录电子资源的颜色内容、方向比例、维度几项重要内容就可以。⑤附注项具有限定和补充正式著录项目和处理出版物任何问题的作用,凡是没有在其他的著录项目中出现而又被认为是重要的任何著录信息都可以在本项加以说明。
(3)电子图书编目中的“单件”类目信息。在BIBFRAME 2.0实体关系模型图中,单件(Item)类主要关联着被收藏(Held By)、条形码(Bar Code)两个重要概念。单件是作品和实例两个核心类的进一步深入,是载体表现的一个样例或实例。BIBFRAME 2.0中单件类主要对应着RDA规则中的单件。单件是一个具体的物质实体,编目员手头用于编目的书、图书馆馆藏中有条码的复本都可以认为是单件的实体形式。
在电子图书编目工作中,单件类主要涉及标准号与各馆内部的编目附注。国内不同出版商出版的电子图书,由于缺乏统一管理系统,其相关的标准号也不统一,影响了电子图书查找的便捷性。借助BIBFRAME 2.0,建立馆藏电子文献的“bf:HeldMaterial”类和“bf:HeldItem”类信息,实现电子文献的具体定位,读者用户可以通过电子地址、馆藏分类号、收藏时间等相关信息的记录,精准地找到所需要的电子图书。除此之外,RDA编目规则下建立的BIBFRAME 2.0实体关系模式,在电子图书编目工作中还可以记录电子图书的出处、下载阅览历史、单件内容状况、历史处理信息等。
2.3 BIBFRAME 2.0模式下编目数据的关联与检索
2009年,国际图联发布的《书目及记录功能需求》(FRBR)报告中明确提出了建立书目世界的实体—关系模型,确定用户利用书目工具的基本任务,同时通过书目数据的属性与关系对用户的映射,确立国家书目记录的基本需求。[9]RDA编目规则正是在此基础上按记录实体的属性与各种实体间的关系来组织的,旨在创建方便用户查找、识别、选择、获取所需信息资源的数据。RDA以FRBR为模型,BIBFRAME 2.0以RDA为基础。因此,FRBR关于实体、属性、实体间的关系、实体与属性间关系的概念模型是BIBFRAME 2.0对书目信息进行编目的基础。
RDA编目规则应用于BIBFRAME 2.0格式编码后,以关联数据形式发布的编目数据,可以实现书目标引内容与知识信息的紧密联系,建立网络化的联机合作编目。在此基础上建立的多条书目数据之间的关联,详见下图所示。
图 实体-关系模型
多条编目数据通过“责任者”与“作品”“创作”与“被创作”两大类关系实现实体—关系的关联。每个实体都有诸多属性特征,如,当实体是“个人”时,可以著录“个人首选名称”“生卒年”“个人头衔”“职业与工作”等属性信息;当实体是“作品”时,可以著录“题名”“版本说明”“出版说明”“丛编说明”“载体类型”等属性。[10]通过BIBFRAME 2.0建立起来的关联数据,可以打破传统编目数据单一、孤立的局面,实现书目数据外在特征的关联和内涵知识的延伸。
在MARC编目模式中,由于编目信息与用户使用缺少通用性,无法适应大数据时代对信息索取的要求;单一的关键词检索方式,不能解读用户语义检索需求。如,在中国国家图书馆联机公共目录查询系统中输入“老舍+作品”可以检索到144条记录;输入“舒庆春+作品”仅可以检索到82条记录;如果输入“老舍+文章”只能定位到一条数据。这是由于现行的检索方式只是通过服务器对检索词的外观进行单一理解,并不能真正理解语义内含而兼顾“人”的使用感受,BIBFRAME 2.0基础上的语义搜索框架则可以很好地解决这个问题。借助语义网,加入一些可以被计算机“理解”的语义信息,利用“人工智能”完成信息的搜集、整理、分析、排序与检索,形成新的检索源,可以给检索用户提供真正需要的信息。在上述检索实例中,通过关联数据被统一起来的“老舍”与“舒庆春”,可以实现检索过程中的统一;在语义模式中“文章”与“作品”因其内含的近似性,可以实现检索结果的互通。
3 结束语
进入图书馆“大数据”时代以来,图书馆馆藏从纸本资源向电子资源转型,文献编目工作也有了新的发展方向。以国际编目原则(Inter national Cataloguing Principles,ICP)为指导思想,采用FRBR家族(包括FRBR、FRAD、FRSAD)概念模型,以RDA为编目规则,以BIBFRAME为编码格式的新型编目体系正在形成。基于关联数据建立的BIBFRAME 2.0模型,是顺应数字化时代的书目格式,具有传统的MARC格式所不能比拟的优势。我国图书情报界应该在借鉴国外编目工作的基础上,加强编目领域的交流与合作,通过编目理论探讨与技术革新,建立新的编目模式,将电子图书数据发布为关联数据的形式,并成为语义网的重要部分,是时代赋予每个图书馆人的责任。