整合检索系统发展概述
2011-11-21夏翠军广东外语外贸大学图书馆广东广州510420
夏翠军 (广东外语外贸大学图书馆 广东广州 510420)
整合检索由最初的“Google-like”一站式检索图书馆电子资源发展到强力存取图书馆各种资源(物理馆藏和虚拟馆藏)的探索发现系统,更进一步提出以统一资源管理平台管理图书馆的各种资源。系统开发商积极开发新功能组件的系统,图书馆面临更多的选择,也有了更多思考。本文试图通过梳理整合检索系统的发展脉络,引发图书馆思考如何让读者利用整合检索成更加方便、快捷的获取所需信息资源,并以整合检索系统为新的信息服务起点做好信息服务工作。
1 整合检索系统的兴起
面对复杂多元的网络信息环境,图书馆与数据库商、系统服务商等都在努力开发可以像Google一样一站式检索图书馆各种信息资源的工具——整合检索系统。整合检索并不是近几年出现的新概念,上世纪70年代开始发展的Z39.50及90年代与网络资源搜寻有关的Metacrawler都体现了整合检索的诉求,它们均是架构于透过一个共通的搜寻接口检索异质信息来源概念所形成的信息检索通讯协议或程序工具。也有的通过API程序对检索接口的分析、指令的包装与数据的重整达到整合检索。这类型的通讯协议与程序工具的设计目的都是希望能够透过一个共通的检索接口,降低信息使用者检索多个信息来源、重复输入多次相同检索策略的繁琐。[1]但由于技术限制,不论是Z39.50、API程序或者Metacrawler,检索范围多限于单一形态资源,整合程度有限。近年来随着OpenURL以及相关程序工具的发展,整合检索在图书馆运用的成效也日见显著,metasearch,parallel search,federated search,broadcast search,cross-database search,search portal这些词汇从不同角度反映了对检索图书馆电子期刊、电子图书、自建资源等多种异构数据库信息资源的探索。
在整合检索系统的功能要求上,2005年美国国家信息标准组织(National Information Standards Organization、简称NISO)在“整合检索先导计划(NISO Metasearch Initiative)”的网站上对整合检索系统提出了三点要求,即:整合检索系统服务商能提供更有效的服务;内容供应商提供更多的内容并能保障他们的知识产权;图书馆能提供异于Google和其它免费网络资源的服务。[2]这三点要求是开发整合检索系统的基本要求,整合检索系统的发展也经历了一个由初步发展到相对成熟的过程。
2 整合检索的技术方案
目前进入商业化开发的整合检索的技术方案有两种。一是基于备用性(just-in-case)处理的元数据集中索引式整合检索,预先将各个数据库资源的元数据集中到一台或几台中间服务器上,用户通过向这几台中间服务器发送检索请求的方式来完成整合检索。[3]二是基于即时性(just-in-time)处理的跨库检索系统,用户即时将查询提交给整合系统,通过整合服务器向源数据库发送请求,获取实时检索结果的整合方式。[4]这两种方案各有优缺点,也都各自的适用范围。
2.1 基于元数据集中索引的整合检索系统
基于元数据索引的整合检索系统就是通过抽取、映射和导入等手段对分布异构资源的元数据(也可能包括对象数据)进行收集和聚合,安装在本地系统或者中心系统平台提供统一的检索和服务。[5]这是一种备用性的整合检索,需要预先集中外部数据库源的元数据,检索是针对本地系统或中心系统平台的元数据库进行的,不需要跨多个外部数据库源,也不受源数据库访问方式的限制,检索速度快。从读者使用体验看,检索速度快是这种方式的最大优点。
元数据整合是目录信息的整合,基于元数据的整合检索系统会充分发现各个源数据库的共性,它会按照异构数据的共性,重组新的学科体系,做到分类体系统一,实现对所有异构资源的学科聚合,实现学科导航检索功能。[6]
基于元数据索引的整合检索系统需要建立一个庞大的集中式索引,强调元数据的提交与处理,注重元数据的更新与维护,存在着较大的管理难题。最初由于这种方式由于涉及数据库厂商的商业利益,不要说将所有资源的元数据集中到一起,就是集中图书馆订购的那些资源的元数据也很难操作。而且由于源数据库不断更新,已经集中索引的元数据也面临数据更新和维护问题。随着开放获取运动的发展,这一困境正在得到缓解。传统数据库商担心免费资源会影响到他们的用户,开始与Google合作,一些学术性商业数据库和出版商已将其全文或文摘让Google Scholar编入索引。有些学术性商业数据库和出版商与图书馆系统服务商签约,同意系统服务商从他们数据库中直接收割元数据甚至是全文文本,并可存取这些元数据和生成索引。
元数据集中索引的整合检索在电子期刊整合中用的比较多。SwetsWise的元数据库SwetsWise MetaData收录了22000种刊名目录、3.5亿条篇名目次信息。[7]360 Core的Knowledge Works是电子期刊、电子图书及其它资源的权威知识库,Serials Solution公司与全球各地的资源提供商合作,从中收集元数据,并集成到Knowledge Works中,通过Knowledge Works合作伙伴认证计划,确保数据库商按要求正确收集和呈现元数据。目前Knowledge Works包括来自2700多个全文和4720多个非全文的出版社权威数据库的18.5万多种电子期刊、50余万种电子图书的元数据,并以每月新增150个数据库资源的速度增加。[8]
元数据集中索引的整合检索也应用在资源探索发现系统。ExLibris公司的PrimoCentral就是这样一个元数据集中式索引,它由Ex Libris统一维护、更新,将来自不同数据库商的数据进行集中索引,力求整合、揭示全世界的各主要电子期刊、电子数据库。ExLibris公司与各个数据库商协商并签订合同,定时从供应商处直接收割元数据甚至是全文文本。从不同供应商收割回来的数据全部进入Primo系统中,进行统一的数据加工、规范化,最终建立一个单一的集中式索引。目前,Primo Central中已经整合了世界上大部分的外文电子期刊文章和部分报纸、电子书元数据,目前已收录记录超过2.5亿条。[9]
Serials Solution公司的Summon Unified Search Index也是这样一个元数据集中式索引。经加工处理的元数据(部分包括全文)被预先收割到Summon Unified Search Index,并可深度索引,内容涵盖了数字资源库、报告、引文、灰色文献、会议录、学术仓储、电子期刊、报纸、电子图书、学位论文、图书馆书目记录等。[10]与Summon签约的出版商和内容供应商持续增长,目前,已有超过6800家出版商、约10万种期刊向Summon提供超过5亿条的记录。[11]
2.2 基于即时性处理的跨库检索系统
基于即时性处理的跨库检索系统指用户即时将查询提交给系统,系统将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户。[12]
对异构分布资源的整合,最佳的方式是采用标准的数据格式XML和标准的通用检索协议,如Z39.50、Open URL、Zing、ODL、OAI以及 Web Service 等,但实际上大多数电子资源并不支持或者并不开放这些接口,在实际情况中,也经常遇到资源提供商不公开他们所遵循的协议情况。针对未知协议,通常采用“页面分析技术”实现跨库检索,即通过分析各数据库的URL和HTML页面,通过抽取、尝试和分析去判定检索请求和页面内容。[13]通过标准的通讯协议和标准的数据格式来进行的整合检索能够提供准确、全面、及时的检索结果,而通过Http页面分析和模拟进行的整合检索由于受到源数据库访问方式的限制,整合的效果和准确性会受到不同程度的影响。
基于即时性处理的跨库检索系统,使用完全实时的目标资源数据,可即时检索到源数据库的最新数据,也避免了数据的更新与维护问题。但当源数据库检索接口、数据字段、数据结构发生变化时,跨库检索系统必须重新配库。
基于即时性处理的跨库检索系统的具体产品,国内目前使用比较多的有Metalib元搜索,已有许多详细介绍,此处不赘述。Deep Web Technology在检索获取集成分析深层网页数据库资源方面有独到之处,它开发的Explorit能同时并发检索数百个资源库,在几秒钟内返回高度相关性的检索结果,并将检索结果以智能聚类方式呈现给用户。[14]360 Secarch将全球领先的两大联邦检索引擎360 Secarch和WebFeat整合在一起,形成了一个功能强大、齐全的服务,可对检索结果进行整理和综合,并以聚类方式显示在一个简单易用的界面中。[15]Innovative的Encore通过Research Pro来检索资源,Research Pro异构资源整合检?系统采用的是Muse异构资源整合检索引擎。Swets公司的SwetsWise Searcher采用的也是Muse的技术,2010年2月,Swets宣布与Deep Web Technology合作来改进SwetsWise Searcher的功能。[16]
3 整合检索的发展
整合检索的两种技术方案各有优缺点,也都有各自的适用范围。如何让这两种方案扬长避短优势互补呢?资源探索与发现系统正在做这方面的尝试,而整合检索也从最初尝试按Google族的使用习惯为读者提供一个简易的检索入口来查找图书馆丰富的电子馆藏,发展到强力存取、管理图书馆各种资源(物理馆藏和虚拟馆藏)的统一资源管理平台。
3.1 从整合检索到探索发现系统
两种方案各有优缺点,也都有各自的适用范围。元数据集中索引的整合检索需要学术性商业数据库、出版商等数据提供商的配合,经许可才可采集、索引元数据。基于即时性处理的跨库检索实现了对异构资源库的并发检索,但若要访问多个外部源数据库,则检索进程缓慢,且受外部源数据库访问方式的限制容易出现检索中断。如果将两种技术集成,既可解决元数据集中索引中未提供元数据的数据库的整合检索问题,又可减少跨库检索中要访问的外部数据库数量,换而言之,既扩大了检索范围又提高了检索效率。随着数字环境的形成,两种技术也整合在一起,并作为关键技术应用到图书馆的资源门户中,单一技术的整合系统发展到两种技术并用的资源发现与获取平台。
Serials Solution公司的探索发现解决方案集成了Summon互联网级探索发现和360 Search联邦检索服务。Innovative的Encore Discovery通过Research Pro联邦检索工具和Encore Harvesting Services收割OAI元数据生成的索引集来发现资源,2010年1月宣称所整合的内容供应商的文章层级的内容,都是基串流XML模式而成,而不仅仅提前作内容的收割与索引。[17]
ExLibris将MetaLib整合检索集成到Primo中,成为Primo的组件Primo Metasearch。Primo设计为通过Primo Central提供的元数据集中式检索方式和MetaLib元搜索提供的整合检索方式进行检索和发现资源,采取了以下几种检索:
①本地Primo检索。通过检索Primo本地索引、Primo其它用户的远程索引、Primo Central索引来进行。本地索引来自当前图书馆资源的元数据,其它用户的远程索引指Primo其它用户图书馆的索引。
②Primo深度检索。没有被预先抽取元数据索引的资源,而且这些资源符合Primo的深度检索的要求。
③Primo元搜索。适用于没有被预先抽取元数据索引的资源且不符合Primo深度检索。其核心组件是Metalib元搜索。[18]
3.2 从整合检索到统一资源管理
整合检索则由最初的“Google-like”检索界面改进到发现界面,以此为基础建立服务导向的架构,一方面提升读者的使用体验,另一方面与开放链接、聚类导航、个性化空间与信息定制、用户认证和权限控制等功能一起构成一个实用的数字资源整合系统。国外图书馆和软件商相继开发出十几种数字资源整合系统,在资源整合的基础上进行更深入的资源管理研究,提出了一些新的概念,如Ex Libris提出的统一资源管理(Unified Resource Management, 简 称 URM),OCLC 推 出 的 Web-scale Management Services(简称 WMS);国内 ALIS 提出了三期建设和服务计划。
ExLibris的统一资源管理平台将可处理各类资源(包括印刷资源、电子资源和数字资源),统一整合图书馆自动化系统、电子资源管理系统、机构仓储管理系统及其它系统,2011年1月公布了Alma解决方案。Alma采用统一资源管理框架,支持图书馆所有资源的全部业务,不管这些资源是什么载体或格式、是在本地还是远程,全部业务涵盖了采分编、元数据管理、数字化以及日常业务。[19]如:Alma提供高质量、可共享的元数据,统一管理图书馆的各类资源,简化图书馆的工作流程,智能的馆藏管理让图书馆在有限的经费范围内实现最优的馆藏发展计划等。
OCLC指出WMS可让地方图书馆拥有完整自动化解决方案,而不需本地图书馆自动化系统,希望通过扩展WorldCat Local的功能来取代本地图书馆自动化系统。OCLC将WorldCat Local定位为探索发现工具,即WMS的发现层,加入流通、采购与许可管理的功能模块,旨在将现有的OCLC服务和最新开发的应用模块集成到一个协同在线网络中,希望开发一个可支持数千个图书馆有效处理数据的全球技术平台。目前已经形成三个主要的WMS模块:许可和订阅管理、流通发展、采购和工作流程。[20]
CALIS三期项目的建设目标是为全国近2000个高校成员馆提供标准化、低成本、自适应、可扩展的数字图书馆统一服务和集成平台,既要建立多级共建共享中心,又要为不同规模的高校图书馆提供低成本、本地化的数字图书馆解决方案。[21]
虽然统一资源管理目前仅为概念模式,Alma、WMS和CALIS的三期服务计划仅有少数图书馆开始早期试用,但对图书馆的影响不可忽视。以Exlibris的URM理念为例,在传统图书馆自动系统中,OPAC由图书馆提供元数据(MARC书目记录)和内容(纸本馆藏),自动化系统只是图书馆更好管理资源服务读者的工具,若元数据由Exlibris整合,内容由数据库商提供,那图书馆除了购买服务内容和服务平台,还能干什么?新技术带给图书馆的挑战前所未有!但数字化的浪潮不可阻挡,图书馆要在关注变化中寻找行业的发展机会。
4 结语
提供一个单一整合接口让读者能够非常容易地获得所需的信息是图书馆界一直追求的目标,整合检索系统让图书馆朝这目标又向前迈进了一步。但准确便捷的一站式整合检索也是对图书馆信息服务的巨大挑战,如何让整合检索入口成为图书馆服务的起点,而不是服务的终点是需要我们思考的问题。
[1]罗思嘉.信息搜寻与异质数据库整合查询系统建置之初探[EB/OL].[2011-07-26].http://www.lib.ncku.edu.tw/journal/15/4.htm.
[2]NISO Metasearch Initiative[EB/OL].[2011-05-20].http://www.niso.org/workrooms/mi/#background.
[3][4]窦天芳等.以Exlibris&Metalib为例谈整合检索的几个关键技术及应用[J]. 情报科学,2007,(8):1235-1239.
[5]姜爱蓉.数字资源整合系统的技术发展与应用趋势[J].图书馆杂志,2006,(12):14-18.
[6]蒋继平,姚倩.文献资源整合中的统一检索系统应用研究[J].大学图书馆学报,2011,(1):72-76.
[7]SwetsWise MetaData [EB/OL].[2011-05-16].http://www.swets.com/sites/default/files/factsheet/sw-md-03-2011-web.pdf.
[8]The Authoritative E-Resource Knowledgebase[EB/OL].[2011-05-16].http://www.serialssolutions.com/assets/re sources/Brochure-Serials-Solutions-KnowledgeWorks.pdf.
[9]资源发现与获取系统[EB/OL].[2011-05-16].http://www.exlibris.com.cn/product/primo/index.html.
[10][15]电子资源整体解决方案[EB/OL].[2011-05-10].http://www.serialssolutions.com/assets/publications/Seri alsSolutions_Catalog_sch.pdf.
[11]Your Library Discovered[EB/OL].[2011-5-10].http://www.serialssolutions.com/assets/resources/Summon-Br ochure-2010.pdf.
[12]李广建,张智雄.国外跨库检索系统研究项目及其特点[J].图书情报工作,2004,(4):444-447.
[13]姜爱蓉等.分布异构资源整合管理系统的技术特点和应用趋势——MetaLib&SFX综述[J].现代图书情报技术,2004,(4):1-5.
[14]Explorit Overview[EB/OL].[2011-05-16].http://www.deepwebtech.com/products/explorit-overview/.
[16]SwetsWise Searcher improves its federated search per formance with Deep Web Technologies[EB/OL].[2011-05-20].http://www.librarytechnology.org/ltg-displaytext.pl?RC=14516.
[17]Marshall Breeding.Automation Marketplace 2010:New Models,Core Systems[J].Library Journal,2010,135(6):22-36.
[18]Primo Search[EB/OL].[2011-05-20].http://www.exlibrisgroup.com/de/files/Germany/Produkte/PrimoSearchWh itePaper.pdf.
[19]Ex Libris announces the cloud-based Alma Library Management Service[EB/OL].[2011-05-17].http://www.librarytechnology.org/ltg-displaytext.pl?RC=15322.
[20]David Rapp.OCLC's Cloud-Based ILS Enters Next Phase[J].Library Journal,2010,135(13):16-18.
[21]王文清,陈凌.CALIS数字图书馆云服务平台模型[J].大学图书馆学报,2009,(4):13-18.