数“智”赋能图书馆?为资源整合插上“数字翅膀”
2024-07-10杨焕敏
杨焕敏
摘要:在数字化转型的背景下,公共图书馆成为具有权威性和示范性的公共资源获取中心。公共图书馆通过数字资源整合能够促进资源共享,缩小城乡文化差距,实现城乡文化融合发展。现探讨适合唐山市公共图书馆数字资源整合的路径,包括通过OPAC实现传统馆藏资源的整合;通过集成检索系统实现数字资源整合;通过OPAC元数据和各种数字资源元数据的整合,以实现书目数据与电子资源数据的融合和呈现以及一站式检索,为城乡文化的融合发展提供丰富的资源。
数字化发展经历了资源数字化、业务流程数字化进入了数字化转型发展阶段,图书馆数字化大规模发展主要有两方面原因,一是出版机构大力推进数字化文献出版促使图书馆收藏数字化文献;二是IT厂商进入图书馆自动化系统市场,自动化集成系统开始在图书馆应用。此后,图书馆的资源、服务、管理都开始普及数字化建设。数字化转型通过建设数字资源与提升服务能力创造图书馆新的价值增长点,数字资源整合则是数字资源建设中的重要环节,也是提供一站式资源检索服务的基础。通过整合机构或地区的各类数字资源,避免重复建设,促进了数字资源共享。在数字化转型的背景下,探索唐山市公共图书馆数字资源整合的路径,实现公共图书馆数字资源共享,对于打通图书馆文化服务的最后一公里、缩小城乡文化差距、实现城乡文化融合发展,有着重要的现实意义。
数字资源整合的概念
数字资源整合是指对相对独立的数字信息源进行类聚和重组,或对分散无序的数字资源进行描述和组织,组成一个效率更高的数字资源体系。它包含资源组织和资源聚合两个层面,通过科学规范的组织各种信息资源实现高效利用,或者对分散的、异构的数字资源进行类聚和重组,便于知识的有效获取,最终实现知识的共享。
数字资源整合的意义
确立公共图书馆的权威性
数字资源整合是提升图书馆服务质量的前提和基础。唐山图书馆作为市内公共图书馆的引领者,应承担起全市公共图书馆资源整合的重任,成为未来唐山市具有权威性和示范性的公共资源获取中心。为市民提供公共数字资源服务,这既是唐山图书馆应该承担的文化服务责任,也是实现城乡文化融合的重要路径。唐山图书馆应依托已建成或正在建设的总分馆制模式下的数字资源整合基础,进行全市公共图书馆的数字资源整合,逐步确立起公共图书馆公共资源获取中心的地位。
避免重复建设实现资源共享
经过多年发展,唐山市各公共图书馆的馆藏资源日益丰富,各馆建有OPAC书目数据、电子图书、电子期刊等各自独立的数据库,资源重复建设的情况较为严重,各数据库之间互不关联,降低了资源的利用率。有效整合唐山区域内数字资源,一方面,可以全面揭示总馆及分馆的各类资源情况,避免重复建设;另一方面,通过对各类数字资源进行有效的组织和聚合,实现资源间的相互关联,可以为用户提供一站式资源检索服务,消除唐山市内的“信息孤岛”现象,实现全市公共图书馆的数字资源共享。
有利于提高图书馆的服务水平
唐山市各公共图书馆主要面向所辐射范围的市民提供服务,进行数字资源整合有利于各图书馆全面了解全市资源的整体馆藏状况,及时调整数字资源的建设策略。各种资源被整合在统一的检索服务平台,用户通过分类浏览就能了解到各个图书馆的数字资源,也可根据如题名、关键词等信息检索到多个图书馆的资源。整合后的数字资源有利于满足用户多层次的信息需求,全面提升公共图书馆的服务水平。
数字资源整合路径
元数据是描述数据的数据,其依据一定规则对电子信息资源进行描述以期达到有效检索的目的。元数据在数字资源整合过程中具有重要作用,通过元数据的描述,可以对各种分散无序的资源进行有序的组织与管理,建成各类资源库;对各类资源库的元数据相互映射与转换,实现不同资源库之间的聚合。
数字资源整合范围
资源整合从收集范围来说,主要为唐山市内各公共图书馆和已加入总分馆制建设的学校图书馆所收藏的各类资源元数据。包括馆藏编目元数据,如唐山图书馆分馆馆藏资源元数据、迁安市图书馆总分馆制编目的元数据等;自建数据库元数据,如唐山地方特色资源库、丰南数字方志等;外购数据库元数据,如中国知网、独秀知识库等。按资源类型分,有图书、期刊、数据库、音频、视频、文章、图像等;按元数据格式分,有MARC、DC、ISO、XML、SQL Server等,图书馆应用最多的是Marc和DC格式。
数字资源整合方式
常见的数字资源整合方式有网络信息导航、专题数据库、基于OPAC整合和基于统一检索平台整合。其中,网络信息资源导航和专题数据库建设适用于网络资源或图书馆通过各种方式收集但未经有效组织的数字资源的整合,侧重对资源的有效组织。基于OPAC整合和基于统一检索平台整合适合已经建成的数据库,对各种数据库进行深入整合,更侧重对资源的汇聚。根据唐山市公共图书馆数字资源建设的现状,最适合的方式是基于OPAC整合和元数据仓储的数字资源整合。
1.馆藏资源OPAC整合
馆藏资源OPAC整合包括馆内资源整合和馆外资源整合,馆内资源整合可以实现本馆馆藏资源的信息揭示,馆外资源整合可以全面揭示整个区域内馆藏资源的信息,为开展更深层次的知识发现奠定基础。
(1)馆内资源整合
依托图书馆管理系统,图书馆可以把电子资源供应商提供的MARC电子书目,经编目员处理后导入本馆OPAC书目系统。电子图书和纸本图书分别建立书目记录,通过MARC记录的856字段实现与电子资源的全文链接。其中,最常用856$u标注统一资源标识,856$z标注注释说明。例如,《可爱的唐山》电子书856$z显示为“在线阅读”,打开“在线阅读”链接便可阅读$u指向的电子书全文;《瞬间与十年》电子书856$z著录为“在线观看”,点击此链接便可打开856$u所指向的视频,让读者深入了解唐山大地震的始末。依托图书馆OPAC系统,利用856字段的26个子字段可以充分揭示馆藏资源信息,实现图书、期刊、光盘、音频、视频等MARC数据的整合,将这些资源整合在一个数据库中,用户利用同一个OPAC书目检索系统就能查询到所有馆藏资源。
(2)馆外资源整合
对不同图书馆之间的异构OPAC数据库进行整合,一方面,如果检索软件支持Z39.50协议,可以通过Z39.50协议完成。Z39.50是严格基于ISO的OSI(开放系统互联)参考模型的应用层协议,是国际通用的信息检索标准和协议。Z39.50最主要的应用领域是馆藏书目检索,也可以把多个分离的OPAC连接起来,支持跨平台异构系统之间的数据传输和数据库查询。支持该协议的检索软件可同时检索多个Z39.50服务器的异构数据库,实现异构OPAC系统之间的互联互通。但Z39.50协议是基于客户端/服务器体系结构的信息检索协议,不适合在统一检索系统中使用。
另一方面,唐山市图书馆总分馆体系的成员馆可以利用唐山市图书馆的Interlib图书馆集群管理系统实现总分馆体系下所有图书馆的OPAC整合。在总分馆体系中,唐山市图书馆作为市本级的总馆,对市区范围内的各分馆进行统一分编、统一配送,实现通借通还。在县级图书馆的总分馆体系中,各县级图书馆又是县域范围内的总馆,对县域内的各分馆进行统一分编和通借通还。唐山图书馆与各县区图书馆均使用Interlib图书馆集群管理系统,实现了管理系统的对接,从而实现OPAC资源整合。
2.基于元数据仓储的数字资源整合
元数据仓储技术在资源整合系统或知识发现系统都有应用。基于元数据仓储的资源整合系统,其显著特点是后台有庞大的知识库,也称元数据仓储。其所包涵内容的目录、不同规范和格式的元数据,用户只需使用一个检索引擎就能访问不同规范的元数据,实现一站式检索服务,大大提高检索速度。建设元数据仓储包括元数据收集和元数据整合两个关键环节。
(1)元数据收集
元数据收集有元数据收割、元数据导出导入等环节。元数据收割是指通过OAI—PMH协议收割元数据,它是开放元数据获取的网络通信协议,为元数据互操作提供了有效的解决方案。元数据仓储通过OAI数据接口定期批量收割元数据是较理想的元数据收集方式,但它主要适用于支持OAI-PMH协议的资源。对于没有提供OAI数据接口、不能通过收割方式获取元数据的资源,需要数字资源提供者从原始数据库中导出元数据,交由图书馆导入到元数据仓储中。出于商业利益考虑,外购数据库商一般不愿意提供接口收割其元数据,所以这种元数据导出导入方式更适合愿意提供元数据的外购数据库商。
(2)元数据整合
元数据整合是指对元数据仓储中的不同规范标准的元数据进行分析处理,将其转换为统一格式的元数据的过程。元数据整合具体包括以下各项工作,其中比较重要包括元数据的语义分析、制订统一元数据结构和映射关系等。
一是进行原始数据存储。是指对收集到的来自各图书馆的多种元数据进行存储。因为元数据的来源单位不同、格式多样、语义也存在差异,通过定义一个可扩展的目录结构,可以使系统通过该文件的路径分析出其存储的来源单位及格式,通过文件解析器智能识别文件来源及类型并对数据进行存储。
二是进行语义分析。语义分析需要分析每个数据库的字段,明确每个字段的含义,如题名、责任者、关键词等用于检索的必备字段;资源的修改时间、发布时间,作者简介等仅用于显示的字段;使用权限、加工信息是数据制作单位用于资源管理的字段。明确各数据库字段的含义能够减少后期整合环节的错误。
三是统一元数据结构的制定。制定统一元数据结构是元数据仓储建设的关键问题,包括关键属性集和其他属性集。关键属性集存储具有检索功能的重要描述信息,包括名称、作者、主题等,还兼顾多种类型资源的特性,如丛书信息、论文基金信息等。其他属性集存储不具有检索功能的一般描述信息,存放关键属性集中未包含的已有字段和可能出现的新字段,用于详细揭示对象数据。这样既保证了统一元数据结构包含所有数据库字段,又避免了其结构过于繁杂。
四是元数据映射关系的制定。图书馆用得最多的是MARC和DC数据,但不同图书馆所收集的元数据标准不统一,同一图书馆的元数据因应用层次不同也会产生不同的元数据不同字段之间也可能有语义的交叉的情况。因此,在元数据映射时要方便用户检索,不仅对名称、作者、关键词等有检索功能的字段进行对应转换,还要保留原始信息的完整性方便用户浏览。MARC数据资源的映射关系最复杂,其体系完备、子字段众多。对MARC的映射只能保留重要字段,同时合并相同或相近内容字段,这样不会导致统一元数据结构过于庞大。例如,将010国际标准书号、011国际连续出版物号、091统一书号的$a子字段都映射到“标识符”;将200$a题名、304题名附注、312相关题名附注和5字段的相关题名字段统一映射到“题名”;将2字段和7字段的各种责任者都映射到“责任者”等。
五是元数据转换。元数据转换是指把原始的元数据格式或结构,转换为统一的元数据格式或结构的过程。元数据转换主要是对结构不一致数据的转换和数据粒度的转换,目的是消除元数据之间异构性的同时,还要保持统一元数据结构不能过于庞大。此外,还要进行不同元数据之间的关联如书目数据和地方特色资源数据的挂接、书目数据和规范数据的挂接等,为不同系统之间的数字资源进行比较、分析、整合奠定基础。
六是元数据清洗。元数据清洗环节需要删除空值或重复数据,校正错误信息,补充不完整信息,对于转换过程中出现的无法转换的元数据则需要通过人工进行处理。数据清洗完成后可以直接加载写入数据仓储中。完成清洗后导出的数据可以为搜索引擎提供索引支持和检索显示。
基于OPAC的资源整合可以实现传统馆藏资源的整合,通过集成检索系统可以实现数字资源的整合。通过收集OPAC系统和各种数字资源的元数据,可以实现书目数据与电子资源数据的融合与呈现,从而实现一站式检索。
数字资源整合应注意的问题
馆藏OPAC整合
利用856字段与电子书全文链接时,要注意纸质书MARC记录与电子书记录这两种著录方式的选取。一种情况是纸质书与电子书都分别著录,其优点是方便对纸质图书和电子书的管理统计,在纸质书下架或因特殊原因注销记录时,不必重新增加该电子书的记录;缺点是电子书记录占用MARC数据库一定的存储空间,随着电子书数量的增多可能导致批量检索时速度变慢。另一种情况是二者都有馆藏,直接在纸质书记录上增加856字段,其优点是著录环节简单,节约MARC数据库存储空间;缺点是不便于对电子书的管理和统计。从长远考虑,电子书馆藏有增多的趋势时,通常采取第一种著录方式。
元数据整合
元数据整合离不开对不同规范元数据的访问和汇聚,因此,要加强元数据互操作的研究,特别是语义互操作的研究。在数字资源整合过程中应注意以下问题。
一是DC与MARC的映射。两者元数据结构差异较大, DC只有15个基本元素,格式简单,最初主要是对网络信息资源的描述,因其具有较好的扩展性及兼容性逐渐被用于各种类型资源;而MARC多达数百个子字段,具有完备的体系和严格的句法。编制原则和元数据结构的差异导致两者之间无法实现完全映射。DC引进了体系修饰词等概念,借鉴了分类法、主题词表等控制语言及MARC的优点,这些都有利于对DC与MARC映射的深入研究。
二是中外依据标准的不同。在对知识的揭示及检索服务环节,知识组织工具如分类法、主题法起均到了重要作用。但中外文数据库标引字段存在明显的语义差异,这是因为字段元素取值所依据的标准不同,依据的分类法有《中国图书馆分类法》《杜威十进制分类法》《美国国会图书馆分类法》等主题词表有《中国分类主题词表》《美国国会图书馆主题词表》等,应加强中外受控词表互操作研究。
数字化转型背景下,公共图书馆应该成为本地区具有权威性和示范性的公共资源获取中心,通过数字资源整合促进资源共享,为城乡用户提供丰富的文化资源。同时,带动线上线下资源流通利用,缩小城乡文化差距,实现城乡文化融合发展。
本文系唐山市科技局软科学项目“公共图书馆数字化转型赋能唐山城乡文化融合发展研究”的研究成果,项目编号:23110217f。
(作者单位:唐山学院图书馆)