APP下载

国内外同构聚合检索系统比较研究

2011-06-28张国栋

大学图书馆学报 2011年5期
关键词:检索系统同构检索

□宋 爽 张国栋

1 同构聚合检索系统的兴起

随着各类商业性学术资源的大量引进和广泛使用,学术信息由稀缺资源发展成为海量异构资源集。科技用户面对着各资源提供商丰富多样的检索界面和指令,需要熟悉不同的检索系统。限于精力等原因用户往往陷入一种使用困境:被迫放弃大量数据源,只选择一、二种自己研究最常用的数据源,依靠它们作为自己的资源来源,这很容易造成相关重要资源的遗漏[1]。为解决这一问题,跨库检索系统应运而生。根据其技术发展路线可分为两个阶段:依赖计算机能力和标准协议对异构数据库的实时检索阶段和基于元数据收集的同构聚合检索阶段。

对异构数据库的实时检索方式是借助于计算机强大的处理能力,实时地对分布异构资源进行检索。跨库检索系统充当一个中间代理的角色,接受用户的查询请求后,基于对资源检索协议和平台的分析构建查询语法,并行地发出查询请求,并将获得的检索结果整合显示在系统内。其优点是为用户屏蔽了不同数据源在平台、界面、检索指令等方面的差异,可以通过一个简单的界面访问多种异构、分布的资源。缺点在于实时检索受制于待检数据库的访问速度和检索性能,检索效率难以提高。目前国内的跨库检索服务多采用此方式实现。

基于元数据收集的同构聚合检索则通过抽取、映射和导入等手段对分布异构资源的元数据(也可能包括对象数据)进行收集和聚合,安装存储于本地系统或者中心系统平台,提供统一的检索和服务。该方式的优势是数据经过收集转换后不仅格式统一,而且结构清晰,可以按照需求建立各种分类体系,或者按照更高级的知识——本体对数据进行组织和管理[2]。检索过程可控、检索速度提高,技术解决方案本身就明显优于实时检索方式。但由于图书馆等信息服务机构需要整合的多是商业性学术资源,而这些资源的提供商往往不同意用户将其元数据经过二次收集和聚合后,安装在另外一个系统平台上,导致该解决方案一直不具备可行性。但是近几年来,主流资源提供商(主要是国外资源提供商)逐渐意识到开放元数据的双赢性,已与几家软件生产商达成协议,促使集中仓储元数据进行同构检索的商业化软件最终得以萌芽。自2009年Serials Solutions公司推出第一个同构聚合检索系统Summon以来,多家软件厂商推出了类似解决方案的跨库检索系统。由于其解决方案的先天优异特性,应该可以说,基于元数据收集的同构聚合检索将逐渐取代对异构数据库的实时检索,成为跨库检索系统的主流实现方式。

虽然国外多所高校图书馆,如悉尼大学、密歇根大学等,基于元数据收集的同构聚合检索系统得到了具体应用并取得了很好的应用效果,但引入国内时间相对较短。同时由于中文资源提供商的数据封闭性,相关软件系统在国内的具体实施难度更大。因此本文的主要目的并不是对系统进行评价,而是在对此类系统的元数据涵盖范围、功能特点等方面进行比较的基础上,总结目前同构聚合检索系统的一般特点,发现问题,进而为各信息服务机构根据各自实际选择相关产品并有效实施提供建设性意见。

2 国内外五种同构聚合检索系统比较

从各软件厂商的营销策略出发,此类跨库检索系统被冠以不同名称,有的将其称为“互联网级探索发现服务”[3]、有的命名为“资源发现与获取解决方案”[4]。笔者根据前文对跨库检索系统发展阶段的分析,从产品功能和产品成熟度两方面考虑,选取了国内外五种同构聚合检索系统,具体包括:Serials Solutions公司的Summon、Ex Libris公司的Primo、OCLC公司的 WorldCat Local、超星公司的百链、书生公司的同构跨库检索系统。

2.1 比较结果分析

五种同构聚合检索系统都通过优先对元数据进行整合存储和预处理、为读者提供了互联网搜索引擎方式的检索体验,检索具有使用方式简单、响应速度快、检索结果无重复、格式统一等优点。在实现跨库检索同时,都能实现准确定位全文链接。

表1 国内外五种同构聚合检索系统比较

① 该数据由Ex Libris公司2010年10月提供

② 该数据由超星公司2010年9月提供

(1)元数据涵盖范围比较

同构聚合检索系统以类似互联网搜索引擎的方式提供服务,读者检索的是应用系统自身建立的元数据库,而非各信息服务单位真实的订购数据库。为保证读者能够搜尽本馆馆藏,必须要求软件商建立的元数据库涵盖范围尽可能全面,或者说,更加接近于本馆馆藏。否则将出现大量漏检,给用户使用带来困扰。

在对各公司的资源列表进行比对、并结合对上线应用系统的测试结果来看,各系统包含的元数据各有侧重。Summon和Primo收集的外文期刊较全,基本涵盖了国外主要资源提供商的数据库产品。Summon的大量报纸元数据对于公共馆相应系统的建设将大有裨益。WorldCat Local则由于OCLC在世界图书元数据中一贯的领袖地位,包含的中外文图书元数据最为全面。但是由于中文资源提供商对自有数据的一贯封闭,几家国外系统均未能与其达成元数据使用协议,导致国外系统中包含的中文元数据量非常有限。而国内同构聚合检索系统由于其直接下载元数据的灵活性,中外文数据比较平衡。

(2)元数据的收割方式比较

元数据的收割方式方面,国内外系统有明显不同。国外相关系统均完全依靠与各数据商签订相关协议来获取元数据,合理合法。国内相关系统则完全依靠免费下载元数据,合理但存在一定的法律争议。且与协议获得元数据的方式相比,其元数据的准确性和连续性相对较差。数据质量的参差不齐将直接影响检索的查全率和查准率。

(3)中文数据处理的技术能力和关注程度

由于同构聚合系统的检索效果将由系统本身决定,因此国外系统中文数据处理的技术能力需要特别考察。从考察结果看,由于Ex Libris公司中国办事处组织了一批技术力量,中文数据处理方面工作得以一直有力推进。再加上2009年Primo在上海交通大学的正式上线[7],积累了一定的本地化经验,项目实施力量能力较强。相比之下,其他两个国外系统进入中国时间不长,且可能因为尚未在中国正式签订实施项目,配备的技术力量有限,相关本地化工作也有待开展。

(4)功能特点比较

五种同构聚合检索系统总体功能一致,但国内外产品在系统架构方面又有所区别。国外系统多将全文获取的定位功能独立出来,如Summon和Primo在依托各自旗下独立模块360link和SFX的同时,也可兼容其他公司的相关产品。用户馆可以利用上述模块自行界定本馆馆藏,并根据不同数据库链接语法的变化在后台及时更新相关配置。而国内系统则并未做类似区分,馆藏定义和配置工作均需委托公司相关技术人员代为处理。

从功能细节看,各软件产品各有特点。Summon主要围绕电子资源的便捷检索设计系统功能,以简洁的显示界面和便捷的操作见长;由于Primo致力于成为一站式资源发现与获取门户,与本地系统的结合更为紧密;WorldCat Local则在图书类文献的显示效果及馆际图书实时检索方面独具实力;百链对中国用户的检索习惯分析透彻,功能设置合理;书生同构搜索产品的可定制性较强。

(5)系统服务方式和价格

五种同构聚合系统集中体现出软件即服务(SaaS)的销售和使用模式。SaaS是指由软件供应商以服务的方式对用户进行软件的日常维护、更新和技术支持的一种软件分发模式[8]。供应商提供所有程序逻辑和数据的主机服务,使最终用户能够通过基于 Web的用户界面在公共因特网上存取数据。在该模式下,图书馆不再需要投入资金来购买服务器等硬件设备,而由供应商负责硬件设施和软件升级等工作,能够节省大量的人力、物力和财力。但目前国内高校购买此类系统仍有担忧,因为SaaS采用的是远程访问的模式,它必然对网络有着强烈的依赖,如果出现不可抗拒因素,这项服务就会瘫痪。另外,由于用户购买的只是检索系统当年的使用权而非所有权,一旦卖家需要更新系统或者对系统进行大的调整,原有的服务很可能停止;不仅如此,买家面对供应商每年的提价或其他要求也是很难抵制的[9]。

国内外系统售价大多由系统购置费用和服务年费两部分构成,但国外系统的价格远高于国内产品。随着相关产品市场的陆续打开,国外系统将集中在高端市场争夺,而国内系统多集中在中小馆市场。

2.2 主要存在的问题

(1)国外系统依靠与各数据库商签订协议获取元数据,虽然保证了数据质量,但也导致许多未能签订协议的重要元数据(主要是中文资源商的大量中文数据)无法在该系统中直接检索。因此国外系统在中国实施时,必须结合对异构数据库的实时检索方式以保证检索查全率。除增加了系统实施难度外,形成的两个检索入口也会对用户使用带来一定困扰,需要有效设计服务说明界面进行引导。

(2)国内系统通过访问数据资源免费题录页直接下载元数据,能够实现按需建设元数据库。由于自行下载建设的数据量巨大,如何保证元数据的质量及其连续性成为关注重点。从目前的测试情况看,书生同构跨库检索系统的元数据库建设刚刚起步,而百链系统虽元数据建设达到一定量级,但依据对检索结果的分析可见,其数据质量有待加强。

3 改进同构聚合检索应用效果的几点建议

从国外高校对同构聚合检索系统的选择来看,悉尼大学选择与Series Solutions合作[10]、普林斯顿大学购买了Primo[11]、华盛顿国立大学选择World-Cat Local作为其联邦检索平台[12],表明没有一款产品能满足所有人的需要,能够垄断市场的系统目前并不存在。各应用单位需要根据自身机构特点,将需求与系统优势结合考虑,以最大程度发挥出同构聚合检索系统的服务效益。并在系统实施及后续服务过程中,在技术允许的范围内,进一步推动该系统的功能提升。

3.1 形成基于用户检索行为分析的检索推荐

形成基于用户检索行为分析的检索推荐包含三个层面的内容:建立满足用户检索需求的同构元数据库为用户提供有效检索结果、根据用户输入推荐切合用户需要的检索词和更深层次的、通过主动收集用户检索偏好信息实现检索结果的有效推荐。

对于第一个层面的实现,要求应用单位比较不同同构聚合系统元数据库的涵盖范围与用户检索需求的差异,选择差异相对最小的系统实施,并在后续工作中采用各种方式进一步缩小差异;检索词的有效推荐层面则要求系统能够根据本应用单位用户的检索行为对拟推荐检索词逐步优化,并对用户的拼写错误等给予正确提示,以实现系统与用户的友好交互;收集用户检索偏好信息实现检索结果的有效推荐层面,可分为显式或隐式两种方式实现。对于显式方式,系统通过为用户提供可供评价检索材料的相关工具来实现相关推荐;对于隐式方式,系统记录并分析用户检索行为、浏览路径等,以实现有价值信息的推荐[13]。随着检索推荐层次的逐层推进,用户从多次尝试检索发展到得到有效检索指导,最终通过系统的有效推荐得以轻松检索,系统与用户的“粘度”不断加强。

3.2 有效形成知识网络,变文献为服务

以同构聚合检索系统建设为契机,应用单位得以把本馆订购的各类电子资源、馆藏纸质资源、机构库等自建资源的文献数据进行整合,以统一的界面提供服务。但是如果仅仅将其作为检索的统一入口,对内容缺乏深入挖掘,没有有效地形成知识网络,不注重功能特色与细节开发,对于用户来说,是卸掉了一种包袱,背上了另一种负担。因此,同构聚合检索作为一种新的服务方式,在其建设完善过程中,应基于庞大的元数据库建立有效的知识挖掘机制,加强对文献主题内容、文献关联关系的深度挖掘,并以形象化的方式揭示给用户。可通过可视化处理,使得检索结果的呈现方式从基于点阵的表格形式进步到动态的可视化模式。如将搜索结果做成一张示意图,每个主题分类目录被显示为一个彩色的圆圈,在每一个目录里,每个子目录也同样显示为彩色圆圈,当你点击相应的圆圈时,相关的区域就会被放大,里面就会显示更多的子内容[14]。建立起文献之间的链接(包括引证文献、参考文献、同类文献等)、知识元之间的链接(包括作者、机构、刊名以及相关关键词等)、分类导航之间的交叉链接后,节点丰富、交织纵横的库间知识网络得以构建。最终形成区别于google scholar等其他学术搜索引擎的服务特色,真正成为用户欣于接受的服务系统。

1 常唯.综合性学术搜索引擎研究.大学图书馆学报,2007(2):73-78

2 姜爱蓉.数字资源整合系统的技术发展与应用趋势.图书馆杂志,2006(12):14-18

3 Serials Solutions.[2011-02-17].http://www.serialssolutions.com/summon/

4 Ex Libris.Empowering libraries to address user needs.[2011-02-17].http://www.exlibrisgroup.com/category/PrimoOverview

5 Ex Libris.Summon?Content &Coverage.[2010-09-10].http://www.serialssolutions.com/summon-content-and-coverage/

6 OCLC.Content in all formats from libraries and publishers around the world.[2010-09-10].http://www.oclc.org/worldcatlocal/overview/content/default.htm

7 Ex Libris.Primo Provides One-Stop Discovery and Delivery for Shanghai Jiao Tong University.[2010-10-15].http://www.exlibrisgroup.com/files/CaseStudy/ShanghaiJiaoTongPrimo.pdf

8 Chong F,Carraro G.抓住长尾市场的架构战略.[2010-06-10].http://www.cnsaas.com/FileDownload/longtail.pdf.

9 马骅.国外主要联邦检索系统的兴起、现状及发展趋势.图书馆建设,2009(3):1-5

10 Serials Solutions.University of Sydney Library earns bigger return on its content investment with new technology[2010-07-19].http://www.serialssolutions.com/assets/publications/UofSydney_Summon_CaseStudy.pdf

11 Ex Libris.[2009-09-17].http://www.exlibrisgroup.com/default.asp?catid={916AFF5B-CA4A-48FD-AD54-9AD2ADADEB88}&details_type=1&itemid={238A3327-04DF-4388-A44B-BD7EC0B4FE9C}

12 OCLC.University of Washington Libraries adopt WorldCat Lo-cal as their discovery and delivery solution.[2009-09-17].http://www.oclc.org/services/brochures/213050usc_uwashington.pdf

13 Tamar S.User-Centric Solutions for Scholarly Research in the Library.[2009-07-27].http://liber.library.uu.nl/publish/articles/000215/article.pdf

14 Groxis.Groxis and EBSCO Publishing Partner to Provide Visual Search Technology.[2008-06-15].http://www.groxis.com/service/grokker/pr29.html

猜你喜欢

检索系统同构检索
巧用同构法解决压轴题
指对同构法巧妙处理导数题
同构式——解决ex、ln x混合型试题最高效的工具
高等代数教学中关于同构的注记
2019年第4-6期便捷检索目录
收录《信号处理》的检索系统及数据库
收录《信号处理》的检索系统及数据库
本刊被以下检索系统及数据库收录
本刊被以下检索系统及数据库收录
专利检索中“语义”的表现