APP下载

图书馆系统演变及其元数据管理*

2021-10-19许磊

图书馆论坛 2021年10期
关键词:数据管理服务平台实体

许磊

0 引言

自1950年代开始,图书馆开始自研专注于特定业务的独立系统,用于采购、编目、流通或期刊管理等业务。进入1970年代,图书馆自动化系统(Library Automation System,LAS)更加成熟,并有商业产品推出市场。随着1960年代出现的MARC(Machine-ReadableCataloging)以及计算机技术的发展,1980年代开始,以MARC为底层元数据标准,集成了各独立功能模块的图书馆集成系统(Integrated Library Systems,ILS)逐渐取代LAS成为图书馆自动化转型的推手[1]。ILS以及随后的OPAC(Online Public Access Catalog),真正地将图书馆带入计算机时代。但随着互联网出现,图书馆上下游生态环境发生改变,数字资源成为读者的首选信息源。而ILS基于MARC构建的一套围绕纸质文献的采编典流集成系统,不再能够适应数字化、云计算的互联网环境。为满足对电子资源的管理需要,出现了各种独立的产品和服务,如电子资源管理系统(Electronic Resources Management,ERM),数字资产管理系统(Digital Asset Management,DAM);也出现了与之配套的元数据管理方案,如DC(Dublin Core)、MARCXML、MODS(Metadata Object Description Schema)。但是,各自独立的系统以及异构的元数据方案阻碍了图书馆的业务流程优化以及资源整合。与此同时,图书馆元数据领域FRBR(Functional Requirements for Bibliographic Records)、RDA(Resource Description and Access)、BIBFRAME(Bibliographic Framework)等基于关联数据设计的书目本体方案逐渐成为图书馆知识组织与融合的优选方案。因此,图书馆急需一个能够整合ILS、ERM、OpenURL解析器、DAM等众多独立系统功能,也能够支持各种开放元数据格式和数据交换协议以实现跨媒体的资源描述与组织的下一代图书馆管理系统。2010年OCLC推出的WorldShare Management Services(WMS)标志着图书馆服务平台(Library Services Platform,LSP)进入图书馆系统市场。LSP是构建在SaaS(Software as a Service)平台之上,利用云计算、Web技术和发现系统,实现全媒体的资源管理,全流程的业务管理和全网域的资源发现的新一代图书馆系统[2]。

平台化的前提是信息化,只有开放、多元的信息生态才能促进图书馆的平台化转型。信息化不仅仅是解决业务流程的问题,更改变了信息资源的开发、建设与利用的生态链。信息化的基础是自动化,图书馆自动化的发展推动了图书馆的资源与服务的网络化和数字化[3]。从图书馆自动化到信息化再到平台化,基础都是信息资源的开发,也就是利用元数据对资源进行描述、组织与开发利用。无论是LSP的统一资源管理与发现,还是数据的开放与关联,都对新一代图书馆系统的元数据管理提出了更多的要求。因此,本文从元数据管理角度对图书馆系统的演变进行梳理。并着重分析2类典型的图书馆服务平台及其元数据管理方案,即商业产品Alma和开源项目FOLIO。

1 图书馆自动化系统及其元数据管理

1.1 图书馆集成系统及其元数据管理

计算机发明之初,图书馆就敏锐地发现计算机的应用对提升图书馆内部效率具有巨大潜力。1950年代美国和英国的图书馆开始尝试将计算机应用于图书馆的内部业务[4]。到20世纪六七十年代,国内外图书馆开始研发专注于某一个核心业务的独立系统[5-8]。但直到MARC出现,才真正奠定了图书馆自动化的基础,推动了图书馆系统从单一功能的自动化系统转向集成管理系统。MARC作为一种书目元数据格式,不仅提供了创建一致记录所需的规则,成为支持图书馆庞大基础结构互通的关键标准;而且创造性地在数据内容字段中嵌入目录,即由头标区、地址目次区和数据字段区构成的格式结构,解决了早期计算机技术应用于书目数据的诸多限制[9]。MARC的创新性不仅使其成为图书馆自动化系统的基础,也使得书目数据共享达到了新的水平,推动了联合目录的发展与壮大。

图书馆系统在MARC诞生之后,经过初始阶段的探索与自主研发后,1980年代逐渐发展为由商业公司主导开发的图书馆集成管理系统,并占据主流直至今日。ILS建立在图书馆标准化的业务流程之上,从采访、编目、流通到连续出版物管理、联合目录等业务都围绕着标准书目数据格式展开。因此,无论是国内的ILAS、汇文[10],还是国外的Millennium、Aleph500、Horizon[11],都以MARC作为其元数据管理标准格式。自ILS投入使用后,其采编典流等功能模块基本是稳定的。虽然每个模块随着技术升级不断完善,但仍主要管理纸质资源。进入1990年代,日益增多的电子和数字资源改变了整个图书馆资源和技术生态,几乎所有图书馆都面临着同时支持物理和电子资源,并提供适合各种媒介服务的复合任务。由于传统的ILS侧重于纸质资源管理,图书馆不得不开发独立于ILS的系统以支持电子和数字资源管理,如链接解析器、联邦搜索、电子资源管理系统、数字资产管理系统、机构知识库。在这种背景下,图书馆需要一个不同于MARC的新的元数据标准。

1.2 数字图书馆系统及其元数据管理

当MARC成为图书馆行业主流的元数据标准时,互联网和搜索引擎却在颠覆信息传播与获取方式。鉴于MARC已不再适用新型资源的管理,图书馆专家着手利用最新技术对MARC进行改造,MARCXML因此诞生。虽然MARCXML部分解决了MARC格式的缺陷,使其在网络时代获得暂时性的新生[12],但它只是一种临时的补救措施,并不能完全解决MARC对网络资源的不适性。针对多变的网络资源,1995年来自图情档和计算机领域的专家们在都柏林发布网络世界的元数据标准DC。DC通过将元数据元素精简到最低限度,确定最为核心的15个元素,以满足对各种物理或电子资源的描述。经过DCMI的维护与推广,DC逐渐成为互联网描述性元数据的通用标准,也成为文化遗产领域新开发的数字图书馆系统的基础元数据之一[13-14]。

数字图书馆系统的元数据管理方案复杂。它不仅需要对数字对象进行描述性记录,还需要对数字对象本身的管理性与结构性信息进行记录,最后这三种类型的记录还需要一个整体框架进行封装,以实现对数字对象完整的元数据管理[15]。因此,即使部分图书馆集成系统支持对DC数据的管理,但依旧无法满足图书馆的数字资源管理需求。在图书馆自动化系统时代,面向纸质资源的图书馆集成系统元数据管理以MARC格式为主。1990年代后,面对格式多样的资源,又出现了各种数字图书馆系统。资源管理系统的分裂导致图书馆资源分散,不仅降低了用户信息检索的效率,也影响了图书馆内部业务的整合。虽然在信息服务方面,通过联邦检索[16],OAIPMH(Open Archives Initiative Protocol for Metadata Harvesting)、SRU(Search/Retrieve via URL)等元数据收割协议[17],或建设统一元数据仓储[18]等技术手段实现资源的统一检索,但在图书馆内部业务整合潮流之下,图书馆自动化系统的升级慢了很多。图书馆不得不在原有的ILS基础上开发各种补丁式工具,或者另起炉灶开发独立的管理系统,以满足日益多样的资源类型、用户需求和业务流程[19]。这种打补丁堆叠的系统开发方式使ILS丧失了“集成性”,并导致数据的孤岛化,进而降低了图书馆的服务效能[20]。图书馆需要更新系统以满足不断变化的需求。从2008年开始,系统生产商着手研发取代ILS的下一代图书馆系统。直到2010年,OCLC发布下一代图书馆系统WorldShare Management Services,才昭示纸电合一的图书馆服务平台正式进入图书馆自动化市场。

2 图书馆服务平台及其元数据管理

2.1 现状与需求

在数据驱动业务转型以及研究范式变化[21]的当下,开放共享数据日渐成为重要的生产资料,图书馆的主要矛盾已变为用户对图书馆新型服务的需求与图书馆服务能力不足的矛盾,特别是深度的数据服务、知识服务、智慧服务等[22]。可以说第三代图书馆正在经历从信息环境到数据环境、知识环境的转变,经历资源与信息服务向知识服务平台的转变[23]。

如阿克夫DIKW金字塔(Ackoff's pyramid)所描述的,知识是在信息之间建立有意义的联系,而信息则是有组织的数据。从底层的数据到信息到知识乃至到理解与智慧,每个层次的上升关键在于在低层次的各部分之间建立联系,产生新的模式,从而组成新的聚合体,并成为下一个层次的组成部分,而元数据正是其粘合剂[24]。一方面,传统图书馆元数据无论是MARC还是DC都是以记录为最小单位,无法应对资源数据化和服务知识化的挑战;另一方面,图书馆服务平台的统一资源管理与发现的基本特征决定了中央知识库在整个平台中的核心地位[25]。中央知识库集成了其他各个模块的异构资源,提高了平台效率、互操作性和自动化水平。针对多源异构元数据的互操作,服务平台需要在元数据之上建立某种机制,作为“元”元数据的知识本体就是一种解决方案[26]。长远看,无论是图书馆数据规范[27],还是资源发现服务[28],以一体化本体模型为基础的元数据模式是相对高效的解决方案[29]。业务与系统功能整合、资源关联与融合、服务智慧化与知识化这一图书馆新常态对新一代图书馆服务平台的元数据管理提出了新的需求,即完整的生命周期管理、资源类型兼容、标准规范兼容、互联网环境下的书目与规范控制、知识组织与知识融合[30]。

2.2 特点

(1)全媒体资源管理已经成为智慧图书馆的基本功能。图书馆服务平台需要兼容各种标准,实现元数据间的互操作。位于架构核心的中央知识库的数据模型将作为现有元数据的共同子集,实现对各种标准的兼容。一方面支持图书馆灵活描述纸质资源、电子资源、数字资源,不受限于文献类型与格式;另一方面也支持用户对跨媒体资源的内容发现、识别、选择、获取与导航。

(2)新一代图书馆服务平台不仅需要支持各类型图书馆本地特色性功能,也要满足未来新型服务形式的开发需求。因此,针对各种个性化和未知性的需求,服务平台的元数据是可扩展的。一方面新部署的应用程序或模块的元数据可以在原标准上进行应用内扩展,也可以启用新标准;另一方面中央知识库的元数据可以通过映射转换实现对新标准的兼容,或可以对现有模型进行扩展实现兼容。

(3)随着语义网和关联数据技术的日渐成熟,元数据的语义化改造已成为趋势。伴随着这股浪潮,知识服务、智慧服务正在成为图书馆新的发展方向。传统元数据通过标签或字段名定义元素的语义信息,不同元数据标准即使字段名相同其含义也会不同。在开放数据情境下,无法精确定义的元素不能有效支持对知识的推断。与传统元数据相比,知识本体利用RDF进行形式化编码,通过URI提供所标识元素的上下文语境。它不仅利用URI的全网唯一性,实现图书馆在互联网时代规范控制的宏愿,也使得资源描述的粒度由记录级细化到陈述级,描述对象深入到知识和实体,激活图书馆的知识服务。新一代图书馆服务平台元数据方案中本体与RDF的应用,将打破图书馆行业的“孤芳自赏”,信息组织、规范控制的思想可以贡献到整个网络之中。同时,图书馆也可以整合机构内外的各种资源,在语义层面实现元数据互操作,赋予其机器可理解的能力,促进图书馆数据的开放与融合,助推图书馆服务转型。

3 Alma平台元数据管理

Alma是商业上最成功的图书馆服务平台,无论是在用户满意度还是留存率上都处于第一梯度[31]。作为支持多类型资源管理和元数据协作的云服务平台,Alma设计了不同于传统图书馆集成系统的集中式元数据管理服务(Metadata Management Service,MMS)。一方面,Alma元数据根据需要存储在三个不同的数据区:机构区(Institution Zone)、共享区(Community Zone)和网络区(Network Zone)[32]。机构区保存有图书馆本地的Alma配置和元数据。共享区是Alma对所有租户开放的共享记录部分,包含中央知识库、规范数据库和联合书目库。网络区则保存机构联盟的共享记录。这种混合模式允许机构管理其独特的本地馆藏,同时支持一个共享的联盟目录,以及一个全球社区目录。另一方面,每个数据区又分层为MMS记录和馆藏记录(Inventory records)。MMS记录包括各种配置信息,如导入、查重、数据合并,以及MARC、DC等多种格式的描述性记录。馆藏记录包括纸质资源的馆藏复本记录、电子资源档案和数字资源表达与文档,并进一步分为3层:知识实体层(intellectual entity,IE)、中间层(Middle level)和单件层(Item)[33],如图1所示。知识实体层是一个不可见的透明实体,仅作为指向MMS记录的指针。通过IE,馆藏记录与书目描述记录实现关联。中间层对不同资源类型有不同的层次分组,这个层级记录包括纸质资源的馆藏信息、电子资源的服务信息、数字资源的表达信息。最底层的单件记录是关于纸质复本、电子文件、数字文档的有关信息。

图1 Alma元数据记录分层结构

Alma通过上述的分区、分层的元数据管理模式实现对包括本地、联盟和全球社区的多源资源的共享与协作。也实现对多种元数据格式、内容标准和通信协议的兼容,虽然这一定程度上增加了资源管理与业务操作的复杂性,但可以满足图书馆对纸质、电子和数字资源的统一管理与聚合揭示的需求[34]。另外,Alma利用嵌入式URI实现对关联数据的支持,并通过RESTful API对外提供数据服务[35]。

新一代图书馆系统是图书馆平台化转型的基础。平台化的一个重要特征是开放的标准的信息生态,任何人都可以在生态平台上开发新的应用与服务[36]。平台化强调的是协作,是与利益相关方建立的社区,合作创新促进更多价值的产生。按此理解,以Alma、WMS、Sierra为代表的商业LSP,更侧重于图书馆在云环境中对各类型资源管理的能力。虽然它们在朝着平台化方向发展,即使开放了API供数据交互,但本身仍然是一个缺乏其他行业参与者的“封闭”系统。

吴建中[37]、刘炜[38]在关于第三代图书馆及其图书馆系统的论述中都强调不同于传统图书馆的空间服务、知识服务。以商业公司主导无论是集成性、开放性还是技术先进性的问题[39],并不能完全适应第三代图书馆多样性和差异化的发展趋势。正如朱强所言,当前图书馆对其管理系统的发展无话语权,系统与数据开发商对数据库和系统的垄断极大地限制了我国图书馆的发展。因此,第三代图书馆需要更大的自主权,利用松散耦合的应用组合方式满足本地的特色发展;需要一个模式自选、业务自组、数据自管的开放服务平台应对从资源到空间、从业务到服务的各种挑战[40]。更强大的新一代图书馆服务平台不仅要满足统一的资源与业务管理,也要具有足够的灵活性、扩展性和个性化,以支持图书馆大量已知或未知的业务,满足个性化发展需求。而这种社区驱动的平台化在开源的FOLIO项目中可窥见一二。FOLIO不仅致力于开发一个创新的开源图书馆服务平台,更是一个由图书馆、开发商、供应商及其他利益机构共同组成的协作社区。

4 FOLIO平台及其元数据管理

4.1 FOLIO平台的元数据方案

一方面,作为一个面向图书馆的微服务平台,FOLIO的元数据方案遵循微服务架构数据管理的域敏感,即每一个服务可以有自己的数据模型与数据存储。根据业务需求,FOLIO将整个服务平台划分成不同的“域”,如典藏域、流通域、采访域、数字资源管理域以及核心的Codex域等。每一个FOLIO域是由多个应用程序(Apps)组成,完成特定任务的功能模块。域的数据模型与元素秉承最小化原则,只保留满足本模块功能的核心元素。另一方面,FOLIO根据资源管理域所需的描述详略程度和它们所服务的目的,将元数据记录从下到上分成3层:正式记录层(Formal Records)、业务记录层(Working Records)、统 一 记 录 层(Unifying Records)[41]。FOLIO针对具体的管理功能,根据文献类型,在不同域的App中执行。在预先了解了资源属性与相应的管理程序时,可以直接访问这些应用程序获取和管理资源,即业务记录层。但在一般情况下,是以Codex域中的应用程序作为入口,即顶层的统一记录层。根据需要,从Codex可以导航到系统的任何地方,以便在适当的应用环境中管理资源。如图2所示,FOLIO通过Codex记录与各种资源管理应用程序中的业务记录相链接,再与底层的正式记录相连,形成一条从Codex到最细粒度元数据的链接路径。

图2 FOLIO系统的数据分层[41]

图3 Codex数据模型[42]

4.1.1 Codex的元数据方案

Codex是一个规范的虚拟层,使用一个通用模型域与元素来整合不同类型资源,而不考虑格式、编码或存储位置。

(1)Codex定位于FOLIO平台的数据注册与链接中心,避免各业务域之间的纠缠。在FOLIO分层结构中,位于顶层的Codex可以充当不同模块之间的协调者。每个模块只需与中介模块集成,即可实现对其他模块的数据需求,而不用与其发生依赖关系。同时,Codex中介域的角色决定了它在整个FOLIO系统中的资源中心地位,其他资源管理模块都会将其数据记录通过映射转换后在Codex域中生成对应的记录,自然也成为所有资源查询的起点。从Codex开始,用户可以深入到更低的、更丰富的业务、正式记录层。

(2)作为一个域,Codex就有自己的概念模型来描述资源。在BIBFRAME 2分层模型和DC元素定义基础上,Codex定义了一个轻量级的作品—实例—单件/馆藏的3层数据模型。它是单个资源管理域所使用的更复杂、更专业的数据模型的共同交集。该模型足够完整,可以满足Codex域的资源描述任务。但又足够的小,避免与其他域元数据过多的重复。另外,为满足对电子资源的管理,Codex核心模型中还定义了资源包(Container)、覆盖范围(Coverage)和馆藏地信息(Location),如图3所示。

4.1.2 FOLIO的实体对象管理

以2008年瑞典国家图书馆的关联书目数据发布为标志,图书馆书目、规范数据的实体化转向成为行业共识[43]。FOLIO的元数据方案融合BIBFRAME模型特征和DC的最小化原则,为满足未来面向实体对象的下一代元数据管理构建了良好的基础。Codex愿景也表明对整个FOLIO服务平台的实体标识与关联的设想。而在具体的实施层面,FOLIO则设计了专用的实体管理App(Entities Management App)[44]。

实体管理App是FOLIO平台跨域进行实体规范控制的核心,它不仅可以对本地规范数据和取值词表进行统一的创建、发布和永久URI维护,也可以对外部开放数据源进行实时调用检索甚至于本地化缓存。FOLIO暂将实体分成代理(Agents)、体 裁(Genres)、地 理(Geographic)、主题(Subjects)、作品(Works)和其他6类实体。代理、地理、主题实体以及其他取值词表,是传统图书馆规范控制工作的延续,外部来源可以包括VIAF、LC名称规范库(LCNAF),盖蒂艺术家联合名录(Getty Union List of Artist Names)、地理名称(GeoNames)、LC主题词表(LCSH)、分面应用主题词表(FAST)、MARC和RDA中取值词表等。体裁在用户信息检索中的重要性已经得到证实[45],因此FOLIO将其作为一个独立实体进行标识管理,外部数据来源可以有善本手稿专业委员会词表(RBMS Genre Terms),盖蒂艺术与建筑词表(Getty Art & Architecture Thesaurus)等。而作品实体作为书目领域最为核心的基础实体,FOLIO更是在已有的书目本体方案基础上,兼容了最新的研究进展,即作品—超级作品模型,其作品实体包含LC BIBFRAME Works、LC hub、OCLC Works、Share-VDE Works、Share-VDE Opus。其中的LC hub,Share-VDE Opus即是在实践中对作品—实例—单件/馆藏模型的扩展,在作品层之上定义超级作品,聚合相关作品,形成作品家族。

实体管理App的元数据方案遵循FOLIO平台的域敏感以及分层结构。实体管理App中的元数据属于业务记录层,主要是提供对受控字符串的访问,而不是对实体的完整描述性。更详细的正式记录存储在实体源记录库(Entities Source Record Storage)中,或直接链接到外部数据源。因此,其数据模型也是一个抽象层,不关心原始实体描述数据的格式或存储位置。FOLIO Apps通过实体管理App提供的检索查找服务或API获取本地或外部的首选标签应用于描述数据中。

4.2 与Alma元数据方案的比较

凭借后发优势,FOLIO在微服务域以及元数据模型设计上,原生支持基于语义的规范控制与知识融通。一方面,基于微服务架构的FOLIO平台是一个基于标准协议的框架,框架内是一个个按照单一职能原则独立开发和部署的应用程序。不同的应用程序根据不同的业务需求会设计不同的数据模型与元数据元素。而顶层的Codex域则解决了异构资源的统一管理问题,同时中介各服务间的元数据链接,维持整个平台的低耦合。另一方面,基于BIBFRAME设计的最小化元数据模型,以及实体管理App,都将保障FOLIO平台实现围绕实体进行身份的管理与服务。

Alma平台虽然在异构资源整合和基于MARC的业务流程上提供了强大的功能,但也因此在基于身份的实体管理方面依旧处于BIBFLOW所言的第一阶段[46],即通过在MARC中 嵌 入URI,导 出BIBFRAME、RDA/RDF、JSON-LD记录[47]在界面中显示,或提供SPARQL、API端 点。Alma通 过FRBR化 在Primo发现层[48]对读者提供有限的信息增值服务,但其内部元数据管理依旧围绕记录展开。虽然Alma在最新的开发路线图中描述了围绕关联数据构建的一套元数据管理流程[49],但受限于现有技术架构与元数据方案,全面的实体转向效果仍待观察。二者元数据方案对比见表1。

表1 Alma与FOLIO元数据方案比较

5 结语

成也MARC,败也MARC。进入互联网时代,诞生于1960年代的MARC已经成为图书馆融入网络环境的一大掣肘。虽然在元数据方案方面,图书馆一直在积极变革,如1995年DC、1998年FRBR、2000年MARCXML、2002年MODS、2010年RDA、2011年BIBFRAME 1.0、2012年SchemaBibEx。图书馆元数据管理方案一直在努力实现更细粒度的深层描述与资源展示,但受限于图书馆管理系统与MARC的深度绑定,面向对象的实体编目以及跨领域的知识融合收效甚微。

新一代的图书馆服务平台以全新的技术架构整合各自独立的图书馆系统,通过一组标准化的内部数据结构,或通过一种本地存储不同类型记录的机制,打破MARC格式的封闭性,同时支持各种元数据标准,为图书馆提供一个开放的元数据管理环境[50],实现纸电合一的业务流程管理以及资源描述和发现服务。但在数据为王的时代,第三代图书馆需要对系统设计和数字资产拥有更大的自主权。以FOLIO为代表的新一代图书馆服务平台可以满足图书馆对管理系统的深度参与按需定制。FOLIO基于BIBFRAME和DC为基础设计的Codex抽象数据层作为其元数据管理核心。同时,根据微服务的数据管理原则,对元数据记录划分为“统一记录—业务记录—正式记录”的三层结构。这样一来,不仅可以跳出MARC“围城”,不再考虑元数据格式以及存储位置,为深度知识组合与融合提供基础;更进一步,FOLIO设计了单独的实体管理App,顺应了互联网环境下图书馆书目与规范控制的语义化趋势,为图书馆资源与服务的“出圈”提供了可能。

猜你喜欢

数据管理服务平台实体
基于大数据管理的管道智慧检验系统的研发及应用
打造一体化汽车服务平台
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
高校财务“一站式服务平台”建设探讨
CTCS-2级报文数据管理需求分析和实现
前海自贸区:金融服务实体
福州首家“奶爸版”母婴服务平台上线
基于自媒体的编程服务平台研究综述
实体书店步入复兴期?