基于DC元数据仓储的数字资源整合研究*
2014-02-28张宏伟
张宏伟 许 慧
(黑龙江中医药大学图书馆,黑龙江 哈尔滨 150040)
基于DC元数据仓储的数字资源整合研究*
张宏伟 许 慧
(黑龙江中医药大学图书馆,黑龙江 哈尔滨 150040)
数字资源整合在图书馆建设过程中具有广阔的市场前景和长期稳定的发展空间。介绍了国内外资源整合的研究现状,设计了基于DC元数据仓储的一站式检索系统架构模型,并对模型中元数据采集、存储架构以及数据检索等技术难点进行阐述。
DC元数据 资源整合 一站式服务
1 引言
近年来,数字资源在高校图书馆资源中所占比例越来越高,涵盖范围越来越广,国内各高校图书馆基本上都有十几个甚至几十个各类数据库资源。这些资源具有各自通信协议、类型、格式,为读者提供不同的查询方式和服务,具有各自不同的权限保护和收费策略。
图书馆学之父阮冈纳赞(S.R.Ranganathan)指出,图书馆不仅要为读者提供资源,更要节省读者获取资源的时间。因此,如何整合各类数字资源,实现数字资源的无缝链接,通过一次读者认证,为读者提供快速的一站式服务(One Stop Services),同时以统一的界面将检索结果传递给读者,使读者能够简便快速地查找所需的文献资源已经成为当前图书馆面临的最重要的课题。
2 国内外数字资源整合的研究现状
数字资源整合方式分为以下3种:基于馆藏书目数据库(OPAC)系统的资源整合、基于网络数据库的资源整合和基于知识管理的数字资源整合。国外图书馆数字资源整合起步较早,欧美发达国家在20世纪90年代开始对数字资源进行整合。主要集中在OPAC(Online Public Access Catalogue,即联机公共查询目录)、网络数据库、自建数据库、电子图书等资源的导航及整合检索等方面[1]。一些知名的系统随之出现,如Ex Libris的MetaLib/SFX、Serials Solutions的360 Search/ 360 Link。可以实现跨库检索和引文链接,适用于分布式环境下数字资源集成管理的ENCompass等。随着Web Service研究的深入,许多学者开始研究Web Service技术在数字图书馆中的应用,各种利于异构资源整合的标准及协议也不断出现[2]。例如基于元数据收割的OAI.PMH、用于书目信息的共享和互操作的Z39.50、用于情景相关的服务整合的OpenURL、分布式异构资源的检索系列协议(STARTS、SDLIP和SDARTS)等。
近年来国内图书馆领域开始对资源整合进行研究,由于起步晚、技术落后,整合的对象主要是关系型数据库,以建立数字资源整合平台为主[3]。如清华同方CNKI整合系统、TRS的数字图书馆资源整合门户、CALIS(中国高等教育文献保障系统)统一检索平台等;国内著名高校和科研院所设计和开发统一检索系统。如清华大学信息门户系统,该系统是采用以色列MetaLib/SFX为基础构建的信息门户服务;北大CALIS跨库检索系统和中科院跨库检索系统在对资源的集成和检索服务方面也处于积极的研究、探索和应用之中。
图1 一站式检索系统的总体架构
3 基于DC元数据仓储的一站式检索系统架构
一站式检索系统需要对每一资源进行简要描述,这种描述既要清晰准确又不能太复杂[4]。DC元数据即“都柏林核心(DublinCore)元数据”,是为简单描述数字资源而创建的元数据集,它简单、易于理解、可扩展,已被国际上众多项目采用,且已被因特网工程专题组(IETFOC)正式接受。
基于DC元数据仓储的一站式检索系统能够整合图书馆现有数据库资源、外购的各种数据资源以及互联网检索引擎资源,提供资源的一站式检索与服务。可以实现不同规模、多种资源库的资源整合与检索,实现检索结果统一展现。系统能向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并提供接口对应图书馆门户应用。提供与元数据仓储服务的集成功能,以实现对检索结果的整合。系统主要功能需求如表1所述。
基于DC元数据仓储的一站式检索系统的总体架构如图1所示,系统技术难点包括元数据采集、数据存储、数据检索与发布等。
3.1 元数据采集
基于DC元数据仓储的一站式检索系统支持的目标数据源广泛,只要是能提供访问的各种数据都可以成为检索的目标数据源,主要可以分为专业电子资源数据库、通用关系型数据库、业务系统文档、远程或本地共享目录文件、馆藏资源OPAC数据、互联网免费数据源以及其他应用系统数据源等。针对不同的数据源,提供了相应的数据网关和采集适配器来实现对元数据的采集和处理,元数据仓储的元数据采集设计如图2所示。
数据网关是从数据源提取元数据并组织成结构化数据的桥梁纽带,数据源有数据库服务器、文件服务器、FTP服务器、Web服务器以及用户录入数据等。数据网关是元数据仓储平台的前端子系统,因此数据网关提供一个通用的数据网关接口,并且能够与各个采集适配器以及后端的数据库之间进行良好的交互通信。
表1 基于DC元数据仓储的一站式检索系统功能需求
采集适配器主要是从源数据库查询其数据结构,并通过设定采集任务和元数据字段映射关系,建立该目标对象的元数据输出表,并转换新的数据结构进行存储。适配器任务包括选择适配器任务类型(如Z server、数据库、FTP、文件目录等)、任务名称、是否调度运行等。
当元数据仓储平台配置字段映射参数时,向网关系统发送请求,网关系统调用需要执行的适配器任务,任务调用生成的数据表结构以XML的形式发送回去,和元数据仓储平台映射,完成后执行调度任务,把不同数据源的数据以XML的形式返回给元数据仓储平台。当任务调度完成后,将元数据能够提供的数据整理并存储。
图2 元数据采集设计示例
3.2 元数据存储架构
数据存储部分技术难点是元数据存储采用何种架构方式。数字图书馆需要整合大量的馆藏资源、外部电子资源与网络资源。因此,从数据存取效率和存储安全性考虑,建议元数据仓储采取架构在多个物理服务器之上的分布式进行服务,支持数据分布以及负载均衡两种基本分布方式,并支持两种方式的组合运用。
图3 数据库集群服务模式
方式一是根据数据分类、功能不同,把内容分开存储。将整个元数据仓储的数据根据内容不同分为两类,分别存放于数据库(a)和数据库(b)中,(a)(b)内容不同;方式二是内容相同,数据不分开,只是每套数据分别存储在不同的数据库中,数据库(a)数据库(b)内都存放全部元数据仓储内容,(a)(b)内容相同。
资源调度服务器分发任务的方式可以根据网络流量、检索并发或者来访IP地址来进行任务分发。元数据仓储数据库集群系统服务模式如图3所示。当用户向元数据仓储平台Web服务器发送检索请求时,其请求可能会被资源调度服务器分配到检索集群中的任意一个检索服务器,如分配给(a),(a)检索后并从原数据库中取回检索结果,资源调度服务器在发布集群中选择一个发布服务器,如(b),则(b)选择接受数据,并返回结果,将结果页面以一定方式显示给读者用户。
3.3 数据检索和发布
数据检索和发布支持多库结果的统一展现,同时提供不同资源库的检索结果集分类和分面展现。这些展现方式都可以在一个页面上集中体现,方便读者根据自己的需要选择性查看。检索结果通过处理引擎进行合并、排重、排序等操作后,以统一的格式将结果呈现给读者[5],读者可以在一个页面中浏览不同的资源库中检索出的结果信息,甚至直接下载全文,如图4所示。
一站式检索使读者在查找所需文献资源时不必在多个数据库之间频繁地登录和退出,以减轻读者学习检索不同数据源的负担;采用多元数据库分布式全文检索,能够有效提升检索效率,为读者节省大量的时间和精力;检索结果合并,为用户呈现格式统一、分类聚合、多种排序的检索结果,大大方便用户的浏览和选择,使得图书馆电子资源得到更充分、有效的利用。
图4 检索结果界面展现
4 结语
基于DC元数据仓储的数字资源整合,是提高馆藏资源使用效率的一种有效手段,方便、快捷的“一站式”服务,大大提升读者服务的深度与广度,是Web3.0时代图书馆读者服务的必然要求。数字资源整合在图书馆数字化建设过程中具有广阔的市场前景和长期稳定的发展空间,在今后工作中,要加强资源整合的研究,探索新的整合方法,应用新的整合技术,开发新的整合平台,以应对大数据时代的到来。
[1]张雅君.基于Web Service的OAI数据资源整合[J].图书馆学刊,2011(2):53-55.
[2]徐荣华.基于元数据仓储的资源整合应用[J].图书馆杂志,2012(4):67-73.
[3]徐岚.图书馆数字资源整合方式探析——以安徽警官职业学院图书馆为例[J].安徽警官职业学院学报,2010(6):90-92.
[4]蒋继平,姚倩.文献资源整合中的统一检索系统应用研究[J].大学图书馆学报,2011(1):72-76.
[5]杜亮,刘涛.基于元数据仓储的数字资源整合研究与实践——以沈阳航空航天大学图书馆为例[J].现代情报,2012(10):46-52.
张宏伟男,1981年生。硕士,馆员。
许 慧女,1983年生。博士,馆员。
G250.73
2014-02-14;责编:徐向东。)
*本文系黑龙江省艺术科学规划课题青年项目“基于一站式图书馆数字资源整合与检索系统的研究与实现”(项目编号:12C036)成果之一。