面向资源检索的元数据仓储建设研究
2015-05-13冯红娟李云龙梁蕙玮李荣艳国家图书馆北京100081
冯红娟 李云龙 梁蕙玮 李荣艳(国家图书馆,北京100081)
面向资源检索的元数据仓储建设研究
冯红娟李云龙梁蕙玮李荣艳
(国家图书馆,北京100081)
[摘要]随着数字资源的日益增长,元数据正发挥着越来越重要的作用,尤其是在资源组织与检索过程中。基于元数据仓储建设搜索引擎,成为实现资源一站式检索的新模式。在调研现有元数据仓储研究成果基础上,介绍国家数字图书馆元数据仓储的建设情况,提出存在的问题,并进行反思与展望。
[关键词]数字图书馆元数据仓储搜索引擎资源整合
[分类号]G250.71
1研究背景
随着计算机、网络技术的发展和国家信息基础设施环境的完善,数字图书馆的建设得到稳步推进,数字资源不断增长,但由于不同资源及系统间存在异构性,传统的整合模式与检索服务已难以满足对图书馆资源的统一管理与揭示,这不仅降低了资源的利用率,更给用户带来极大不便。为提升服务水平、节省用户查询时间、提高资源利用率,需要建立一种新型的资源检索模式。
通过建立元数据仓储来进行资源整合[1],开创元数据收集、整合、管理和服务的新机制,可提升检索响应速度和整合效率,有利于数据挖掘和知识发现,可实现各类数字资源的一站式检索服务。元数据仓储的建设将为数字资源的有序组织、统一管理和高效检索提供基础,为数字资源的深层次揭示提供保证,为读者提供方便、快捷、功能强大的数字资源服务,并进一步推动数字图书馆建设的可持续发展。
2元数据仓储建设现状
目前,元数据仓储的建设方式和相关技术研究已得到图书馆、科研机构和数据库厂商的广泛关注,相继开发出一些与元数据仓储相关的数字资源整合服务平台。以下是几个元数据仓储应用的实例。
2.1 Primo
Primo[2]是Ex Libris公司开发的一站式资源发现与获取解决方案,可集成物理馆藏、数字资源以及图书馆订购或通过其他方式拥有使用权限的远程电子资源或数据库。在元数据仓储的建设方面,Primo已整合全球超过5亿学术期刊论文、报纸、电子书等资源的元数据,其中包含了Springer、OCLC WorldCat、Elsevier Scopus等系统的元数据。目前,Pri⁃mo系统已被哈佛大学、牛津大学、清华大学、上海交通大学、郑州大学等众多机构采用[3]。该系统可为用户提供简洁的搜索界面,实现一站式资源发现,并提供MetaLib联邦检索的集成。
2.2 Summon
Summon[4-6]是Serials Solutions公司推出的一项服务,可以提供图书馆馆藏资源、图书馆订购电子资源及免费开放获取资源等各类型中外文资源的统一发现与获取服务。在元数据仓储建设方面,Summon与9000余家出版社合作,收录10亿多条、100多种不同资源类型的元数据记录,包括期刊、书籍、报纸等内容。Summon系统目前已被全球数百家图书馆选用,如哥伦比亚大学、剑桥大学、北京大学、西安交通大学等。
2.3万方数据统一资源整合服务平台(UNIRMS.Net)
UNIRMS.Net是万方数据为实现信息资源的统一整合、检索和服务而开发的资源整合服务平台。该平台主要采用两种资源整合技术,第一种是基于元数据仓储的整合,即将多个全文数据库资源的元数据导入或者转换到同一个检索系统,组成一个元数据集,通过该检索系统对所有元数据进行Web检索和发布,以实现对本地资源、互联网信息资源的整合;第二种是基于中间件的整合,在SFX资源整合框架的基础上实现对网络数据库资源等虚拟资源的整合。该元数据仓储的数据包含了中外文图书、期刊、论文、专利等内容,总数据量达5亿多条(含中外文数据及引文数据)。
2.4 CALIS统一检索平台
CALIS统一检索平台的建设旨在互联网环境中,针对异构数字资源,为用户提供一种新的整合检索服务,进而提高资源利用率。CALIS统一检索平台采用新型的基于元数据的检索技术,能够对本地和异地的各类数字资源提供统一的检索。主要提供以下4类检索服务:对多种异构数字资源系统的联邦检索、基于元数据仓储的跨库检索服务、对用户提供个性化检索服务和与其他应用系统的集成检索服务。
以上基于元数据仓储的检索系统相比传统的联邦检索,查询效率及用户体验都有了较大改观,在进行详细调研分析后,国家数字图书馆博采众长,开始建设元数据仓储,并基于元数据仓储推出了资源搜索门户——文津搜索系统[7],对国家数字图书馆的资源和服务进行整合,为读者提供一站式检索服务[8]。
3国家数字图书馆元数据仓储建设实践
3.1建设意义
随着数字图书馆的不断发展,元数据得到大规模普及使用,建立一个开放、统一的元数据仓储和管理规范体系,对资源整合与揭示具有重要意义。国家数字图书馆元数据仓储通过将来源不同的各类异构数据库元数据汇集,按一定的规则进行清洗、整合并转化成统一格式元数据的过程,为实现图书馆资源的统一管理与揭示奠定了基础。
3.2整合范围
国家数字图书馆元数据仓储计划将收集到的各类元数据进行整合,元数据范围包括自建数据库元数据、外购数据库元数据、全国联合编目中心元数据以及参与联合建设的公共图书馆自建资源元数据等。
从资源类型来说,整合范围包含图书、期刊、报纸、多媒体资源、古文献、缩微资源、文档、词条等内容,涵盖图书馆馆藏的各种资源类型。从元数据格式来说,整合范围包含Marc、Excel、XML、Word、Access、SQL Server等格式。截至2014年8月,已整合各类数据库130余个,元数据超过两亿条,并对其中元数据进行着持续更新。
3.3建设流程
元数据仓储建设的具体工作流程包含元数据收集、核查、登记、规则制定、整合等环节,其流程如图1所示。
在元数据仓储的建设初期,首先需要制定元数据仓储建设的相关技术规范[9]。图书馆界元数据的格式多样,应用最广的是机读目录格式(Machine- Readable Catalogue,MARC)和都柏林核心元素集(Dublin Core,DC),在参考以上两种格式的基础上,确定ID、来源ID、题名、其他题名、责任者、出版社、URL等40余个字段为国家数字图书馆元数据仓储的核心字段,并设置可扩展的字段,以适应特殊元数据字段的情况。
3.3.1元数据收集
在元数据收集过程中,除了元数据本身,还需要对元数据的字段语义及各项描述信息进行准确收集,如元数据记录条数、元数据对应的起止日期等,以便对元数据进行维护和后续更新。针对不同数据源,需采取不同的收集策略,目前主要有系统自动收集、通过OAI-PMH接口获取及人工收集3种元数据收集策略。
图1 元数据仓储建设流程
系统自动收集需要研发数据接口程序,通过不同系统间的数据接口自动进行元数据的收集,这种方式可节省人力物力,并可保证数据实时更新,是比较理想的收集策略,图书馆自建资源的元数据正在进行数据接口的研发;通过OAI-PMH接口进行数据收集,主要是针对提供了OAI-PMH接口的数据库;人工收集元数据主要是由人工导出或生成元数据,通过邮件、FTP、光盘、移动硬盘等方式提交,该方式灵活简便,不涉及原有系统的改造,所以在收集元数据尤其是收集外购数据库元数据时应用较多,其缺点是元数据更新周期依赖于元数据收集频率,不能实现实时更新。
3.3.2元数据核查
为保证元数据的可用性、完整性、准确性,提高元数据仓储的数据质量,需要对收集到的元数据进行细致核查。元数据核查主要内容如表1所示,元数据核查阶段发现的问题,可通过与元数据提供方协商进行修改,或重新进行元数据收集。
3.3.3元数据登记
元数据登记是将每次收到的数据库元数据各项描述信息进行记录,登记项包含数据库名称、数据库元数据格式、元数据条数、元数据更新周期、元数据更新方式、元数据对应的起止日期、元数据容量、元数据字段名等内容,除了元数据固有信息的登记,还包含整合情况的信息登记,如数据库整合成功条数、失败条数及原因等。详细而准确的元数据登记,将有助于保证元数据仓储建设的有序开展和不断壮大。
表1 元数据仓储数据核查原则及内容
3.3.4元数据规则制定
元数据规则是将多样化、异构的各类元数据,转化为统一的元数据仓储格式需遵循的规范,包含元数据格式转换的“映射规则”、确定检索点字段的“检索规则”及用户界面的“显示规则”。由于各类数据库存在异构性,元数据格式、编目规则及描述粒度都存在差异,针对不同类型的资源需单独制定其元数据规则。
另外,在元数据规则制定过程中,还需进行资源分类,国家数字图书馆元数据仓储将资源分为图书、古文献、论文、期刊报纸、多媒体、缩微文献、文档、词条8个一级分类,不同文献类型分别设置不同的检索字段(如表2所示),以实现对资源的分类整合及精确检索。
表2 元数据仓储文献分类及检索字段
3.3.5元数据整合
元数据整合是根据元数据规则制定数据解析器,将多样化元数据导入统一的元数据仓储中。数据解析器首先遍历数据存储文件,自动识别未处理的文件及其格式;之后,调用相应的解析器解析数据,实现当前格式数据向元数据仓储格式的转换,并将转换后数据存储至数据库,开展数据的查重、修改、删除、合并等清洗工作;最后,导出数据为搜索引擎提供索引支持和检索显示。
3.4建设成效
元数据仓储可以为搜索引擎提供数据支持,基于国家数字图书馆元数据仓储建设的文津搜索系统自2012年正式发布使用以来,成效显著。中文方面,不但包含国家图书馆的馆藏图书、期刊、论文、古籍文献,还包含了同方知网、维普、方正阿帕比、万方等外购数据库,并计划将参与联合建设的公共图书馆元数据也纳入其中;外文方面,包含了Emerald、DDRS、Sage、EBSCO等十余个外文数据库资源。
由于文津搜索系统基于元数据仓储建设,采用分布式存储的方式,与联邦检索[10]相比,不再受限于各数据库的检索效率和传输时间,因此检索速度得到明显提升,响应时间一般小于1秒,可实现两亿多条元数据的海量文献信息一站式检索,资源的查全率和查询速度都得到较大提升。
除了具有检索速度快、查全率较高的优势以外,基于元数据仓储的搜索引擎,功能设计更加灵活。由于元数据在本地,搜索引擎可实现分类检索、排序、去重、聚类、热词排行、云图、个性化设置等功能,满足了用户的多样化需求。
4问题及思考
基于元数据仓储建设的搜索引擎,在响应速度、查询效率、用户体验等方面均取得了良好的使用效果,但也还存在以下问题亟待解决。
①元数据收集与更新问题。元数据仓储的数据来源具有多样性,自建资源的收集相对容易,可通过建设数据接口来实现元数据实时更新;外购数据库的元数据收集需与数据库厂家进行沟通协商,多采用手动更新,更新周期较长;公共图书馆自建资源的元数据收集需与各公共图书馆达成合作意向,也存在更新不够及时的问题。
②尚未充分利用规范数据。规范数据对信息的查找、定位和阐明关系具有重要作用,有利于提高检索的查准率和查全率。但目前只有图书馆书目数据进行了规范化处理,外购数据库和自建数据库还没有规范数据,如何对这些海量元数据进行规范化处理,为元数据仓储知识关联奠定基础,提高检索服务效率,是一个值得研究的课题。
③某些数据库缺少元数据标准规范。元数据仓储接收到的元数据包含MARC、DC、XML、SQL、ACCESS等多种格式,编目字段及描述粒度也不一致,某些数据库还缺少相应的元数据标准规范,这对元数据仓储的数据质量产生了一定影响。
针对以上问题,在元数据仓储建设过程中,还需进一步完善元数据收集及更新机制,增加宣传推广,提升元数据仓储建设的认知度,将有助于元数据收集和更新工作的顺利开展,有助于元数据仓储提升数据质量。另外,在元数据仓储建设过程中,还需在工作经验积累的基础上,加强对元数据标准、数字资源分类、规范控制、唯一标识符以及数据挖掘等方面的理论及实践研究,进一步推动元数据仓储的可持续发展。
5 展望
元数据仓储的建设除了技术平台的研发,更重要的是资源内容的建设,如何为搜索引擎提供内容丰富、更新及时、质量可控的元数据,是元数据仓储提升服务质量的关键。而合作共建共享无疑是元数据仓储建设的最好途径,也是其发展趋势。目前,各图书馆的外购数据库大多具有独立的入口,自建数据库、专题库等也还有较多仍处于“孤岛”状态,使用率低。通过合作共建共享,可以将更多的数字资源进行收集、汇聚、整合和服务,一方面可以节省元数据仓储建设成本,另一方面可以提高资源的利用率,为读者提供一站式的资源发现和获取服务。
参考文献:
[1]徐荣华.基于元数据仓储的资源整合应用[J].图书馆杂志,2012(4):67-73.
[2] Exlibris Primo[EB/OL].[2014- 07- 10].http://www.exlibris. co.il/.
[3]许新巧,刘华,詹华清.学术搜索引擎Primo和Google Scholar的比较分析[J].图书馆学研究,2013(18):38-43.
[4] The Summon Service[EB/OL].[2014-07-17].http://www.se⁃rialssolutions.com/en/services/summon.
[5]秦鸿,钱国富,钟远薪.三种发现服务系统的比较研究[J].大学图书馆学报,2012(5):5-11.
[6]赵国荣.高校图书馆数字资源整合探索与实践[J].图书馆学研究,2012(20):53-56.
[7]文津搜索[EB/OL].[2014-08-26].http://find.nlc.gov.cn/.
[8]魏大威.数字图书馆的科学规划与发展探析——国家数字图书馆的探索与实践[J].图书馆理论与实践,2013(4):1-4.
[9]梁蕙玮,萨蕾.数字图书馆推广工程面向数字资源整合的元数据仓储构建[J].国家图书馆学刊,2012(5):27-32.
[10]马烨.国外主要联邦检索系统的兴起、现状及发展趋势[J].图书馆建设,2009(3):1-5.
冯红娟女,1983年生。硕士,馆员。
李云龙男,1988年生。硕士,助理馆员。
梁蕙玮女,1974年生。硕士,馆员。
李荣艳女,1982年生。硕士,馆员。
收稿日期:(2014-11-07;责编:张欣。)