仅有搜索与浏览是不够的
——兼谈OPAC、集成搜索系统、发现系统的未来*
2020-01-08陈定权罗昱琪
陈定权,罗昱琪
随着信息技术快速发展以及信息环境的日益复杂化,图书馆的内外部环境都发生了颠覆性变化。尽管受到搜索引擎等商业信息服务的冲击,图书馆依然是用户获取信息的重要渠道。基于博格曼的理解,所谓信息获取(Access to Information),即是指对某一计算机网络和可获的内容加以连接,技术具有可用性,用户具有必要的技能和知识,而内容本身的形式也具有可用性和实用性[1]。人们在谈论获取(Access)的时候,一般都是讨论用户如何获取外界的信息或服务。例如,网络接入点(Access Point)和开放获取(Open Access)都是从用户的视角来理解的。本文所讲到的获取也是站在用户视角来讨论的。经典教材《现代信息检索》(Modern Information Retrieval)第2版讲到用户的任务时,用户使用信息检索系统可以完成两个类型的任务(retrieval Task)①:一类是搜索(Searching),另一类是浏览(Browsing)[2]。基于用户视角来讨论信息获取就无法回避用户的浏览行为和搜索行为。倘若一个信息系统无法同时为用户提供浏览和搜索,就不能称其为信息检索系统,只能是搜索系统或浏览系统。这样的严格区分是希望帮助用户关注自己的信息获取行为,而不是被一个笼统抽象的概念来左右自己的行为。
自图书馆启动信息化以来,联机公共目录检索②系统(Online Public Access Catalog,OPAC)是读者获取信息的最初手段和重要手段。随着电子资源种类和数量的增加,OPAC 无法担此重任,借鉴元搜索引擎(Meta Search Engine)技术的集成搜索(Integrated Searching)开始登上了图书馆技术应用的历史舞台。再后来,资源发现与传递系统(Resources Discovery and Delivery System)浮出水面,现在俨然成为图书馆技术应用的风向标。本文简要回顾OPAC、集成(联邦)搜索和资源发现系统的应用历史,以搜索与浏览为切入点来比较3个系统的异同,试图预测3个系统的发展前景。需要特别说明的是,本文在讨论信息获取时,刻意强调是通过某种专业的计算机信息系统,淡化了数据库和导航系统的贡献,但这并不代表它们不重要。相反,它们是图书馆需要一直坚持的,是图书馆开展电子资源服务的根本。这就像我们讨论数字图书馆的重要性,而不能忽视实体图书馆的存在是一样的。
1 现代信息技术催生并推动OPAC 持续发展
1970 年代左右开发的OPAC,前后历经近50年仍然顽强地存在着,到今天为止依然是图书馆集成系统(Integrated Library System)不可或缺的必备子系统,堪称信息技术史上的一大奇迹。作为图书馆集成系统的重要组成部分,OPAC一直是用户获取馆藏文献信息的主要途径之一。早期的OPAC是应用计算机来模拟传统书目卡片柜的功能,用户通过联机终端来访问馆藏[3]。如果熟悉OPAC历史的话,最初的OPAC是Open Public Access Catalog的缩写,后来才演变为Online Public Access Catalog,在因特网环境下又演变为Web OPAC(Web-based OPAC),但我们依然习惯称之为OPAC。单从功能上看,无论是单机的、基于客户机/服务器技术的,还是现在基于万维网的;无论是命令行界面(Command Line Interface),还是图形用户界面(Graphic User Interface),用户感知到的功能并没有多大差异,当然,底层的实现技术是有质的变化。
2004 年提出Web2.0 后,图书馆也顺应时代发展潮流,适时推出了图书馆2.0[4],而最关键的部分就是OPAC2.0。OPAC2.0 是以用户驱动、服务驱动的社会性软件和在线服务,以数据的开放性作为其核心功能,系统支持与其他互联网服务之间的集成[5]。尽管学界对OPAC2.0抱有很高的期望[6-7],业界也积极开展实践,但系统开发商对此响应却不积极,只是基于现有系统架构,在用户界面层引入网络2.0相关要素,如标签、评级、分享。再后来,又提供了基于分类法的浏览功能③,弥补了只能搜索的不足。毫无疑问,这些新元素和新功能提升了用户体验,吸引了图书馆的关注。但它与搜索引擎、网络书店相比没有明显的优势,因此对OPAC用户并没有特别的吸引力[8]。系统开发商当初的不积极响应是有其理由的,后来的实践也证明图书馆用户的参与积极性非常低,对那些所谓的评论、评级、分享等功能基本持漠视的态度。
尽管集成搜索和资源发现系统在很多图书馆得到应用,但OPAC依然是图书馆无法舍弃的信息获取入口之一。如果打开众多图书馆网站,就会发现基本上以用户术语“馆藏查询”或“馆藏目录”来代替了专业拗口的OPAC。用户的使用习惯、馆员的馆藏管理需要,再加上其成熟的功能需求和技术架构,以及较低的运行维护成本,作为图书馆集成系统一部分的OPAC将会在很长一段时间里与资源发现系统并存,短期内还看不到被取代的可能。
2 丰富的电子资源让集成搜索有了强烈的市场需求
丰富的电子资源满足了用户信息需求,却加重了用户获取信息的成本和认知负担。为此,OPAC系统曾经试图对电子馆藏进行编目以便接纳这些电子资源(主要是电子图书),但很快就放弃这种努力。如何为用户提供一个便捷的信息获取系统,以便取代OPAC,就是当时图书馆的一个迫切需求。受到Google的简洁搜索界面的影响,借用元搜索引擎的技术思路,2000年前后市场上推出了“一站式”的集成搜索。
集成搜索(Integrated Searching)④也称为联邦 搜 索(Federated Searching)、 跨 库 搜 索(Cross-Database Searching)等,是借助单一的搜索接口,利用统一的搜索方法、实现对分布式、异构信息资源的一站式搜索操作机制[9]。这类系统最为典型的是艾利贝斯公司(ExLibris)2000年的MetaLib[10]。集成搜索确实减轻了用户获取信息的负担,无需逐个搜索数据库,但它的搜索能力并没有得到增强,却丢失掉原有数据库的特色搜索功能和浏览功能,也没有实现真正意义上的相关性排序[11]。总体来说,搜索准确率没有提升,甚至有所下降,但搜索的召回率还是有所提高。当资源总量达到一定数量级后,召回率还重要么?用户更关心的是结果页面的准确率,召回率已经不再重要了。就像搜索引擎那样,用户更看重第一页的搜索质量,又有多少人会去翻页?如果用户真的想获取所有相关文献,看重召回率,最终还是得依赖专业数据库。
市场上可供选择的集成搜索系统也是有限的,较有影响的就是MetaLib。国内图书馆对待商业化集成搜索的态度是谨慎的,只有少量图书馆引进,部分图书馆则自行开发简易的集成搜索系统,更多的还是持观望态度。后来的发展情形证明那些持观望态度的图书馆是理性正确的。
Web2.0技术和理念也推动着集成搜索的进化,提升了用户体验,但2006年左右市场上出现的资源发现与传递系统却迅速抢占了风头。它几乎继承了集成搜索的功能,除了能够覆盖的数据库范围有所区别外。集成搜索的知识库(Knowledgebase)、分面搜索与分面浏览等为资源发现与传递系统积累了经验,催生出自己潜在且强劲的对手,最终被它取代,仿佛就是资源发现与传递系统的阶段性过渡产品。
搜索引擎在早期发展阶段,它所能索引的网页覆盖范围是有限的。元搜索引擎概念的提出就是为了扩大搜索的覆盖范围,但随着索引网页覆盖范围的不断增加,元搜索引擎也很快淡出学者的视野。类似地,集成搜索也遵循同样的发展规律,即随着资源发现与传递系统集中索引仓储规模的扩大,它很快就会淡出图书馆的视野。
3 云计算催化下蓬勃发展的资源发现系统
2004年底,Google的学术搜索一经面世就衬托出OPAC、集成搜索的不足,调高了用户对信息获取体验的期望,为图书馆的信息获取设置了目标系统。Google学术搜索建有独立的索引仓储,这让传统的系统开发商寻找到一条与集成搜索迥然不同的技术解决方案——预收割元数据并建立集中索引仓储。2006年左右,Interfaces公司⑤推出的资源发现与传递系统Encore并没有建立集中索引仓储,而是基于它的集成搜索系统来实现资源发现与服务[12],本质上可以将其看作集成搜索的改良版。但ExLibris在2006年推出的资源发现与传递系统Primo 则建立了集中索引仓储,很快抢占了发展先机。后来的发展也证明,建立集中索引仓储是正确的决策。集中索引仓储让内容提供商或期刊代理商看到了海量元数据的商业价值,也纷纷利用自己拥有的海量元数据推出资源发现系统,抢占市场先机,如期刊代理商Serials Solution 公司2009年推出Summon,EBSCO 公司2010年推出EDS(EBSCO Discovery Service)。
早期的资源发现与传递系统是用户发现文献(文献的线索型信息),系统向用户传递文献全文或服务。如果仔细斟酌,就会发现该系统的名称涉及到两个视角,即用户和系统,这或许是后来更名为发现系统的一个因素吧。另一个原因是,发现资源要远比获取资源更重要。在图书馆服务日益发达的今天,获取一份已知的文献应该是不难的,但难在如何知道该份文献的存在。可以说,只有用户想不到的文献,没有用户得不到的文献。在云计算的催化之下,发现系统很快就以发现服务(Discovery Service)来宣传,淡化其系统的概念,以服务的名义来攻城略地、开发市场。
发现系统事先收割的海量元数据(后来甚至可以收割全文)和建立的集中索引仓储,是发现系统各种优势的基础,即所谓数据驱动的发展战略。但由于发现系统需要与众多数据库供应商签订预收割协议,那些还没有签订协议的数据库,图书馆还只能继续借用集成搜索系统,此时,发现系统与集成搜索系统共同为用户提供信息获取。例如,清华大学图书馆、上海交通大学图书馆就同时引入了Aleph 500、发现系统Primo、集成搜索MetaLib。
从功能来看,发现系统不仅提供图书馆自身拥有的目录资源,还在更高的层次上将印本资源和电子资源集成在一起,为用户提供一站式搜索、大结果集的分面浏览,推荐相关文献信息,功能非常丰富。发现系统没有历史遗留系统的包袱和约束,能够充分吸收图书馆2.0实践成果,充分借鉴集成搜索的经验,但为了显示与集成搜索的不同,最终以发现系统来命名。发现系统其实有着更大的野心,那就是帮助用户去探索发现未知的领域或主题,而不仅仅满足于便捷浏览和高效搜索。尽管一般用户难以将发现系统与集成搜索明确区分,但如果图书馆只是把资源发现系统看作一站式搜索或集成搜索(这可以从图书馆网站上看出端倪,它们大多以搜索或检索名义加以宣传),是远远不够的。发现系统至少在两个方面是有别于集成搜索的。第一,基于丰富的元数据,乃至全文,对文献做了作品级的整合,准确率有很大提升,用户获取信息的认知负担有所下降。第二,提供探索性服务,帮助用户探索未知的信息,甚至是未知的研究领域,而不仅仅是满足用户的信息需求。
4 图书馆信息获取的未来
基于OPAC、集成搜索和资源发现的应用历史,结合用户的信息行为,未来的信息获取将会在以下几个方面得到继续发展。
(1)OPAC系统的部分功能依然有着强劲的生命力,不可偏废。严格讲,OPAC并没有提供相关度排序功能。未能提供相关度是OPAC 的不足,但也是它的潜在优势。搜索引擎与资源发现强调搜索准确率,淡化查全率,但OPAC具备精确配备能力,把是否相关的判断交给用户,强调用户的主动性,尽管效率低下,却也是科研型用户的必备工具。OPAC的另一个特点是能够准确地再次找到已知文献(known item),这恰是资源发现系统的不足[13]。同样的查询词,发现系统可能返回不同的结果,不同的排序,但OPAC 不会。更特别的是,图书馆还可以利用OPAC来实现部分资源管理任务。这些就是OPAC依然有着旺盛生命力,不容易被抛弃的重要原因。
(2)浏览与搜索依然是未来信息获取的基本手段。无论技术如何发展,作为用户获取信息的两个基本手段,搜索与浏览是必备的基本功能。一般来说,搜索是基于用户某个信息需求,用户事先有一个大概的信息需求,而浏览则有助于用户拓展自己的兴趣领域,探索发现一个全新的信息世界。用户在看似不经意的浏览过程中,经常会无意中发现有用或感兴趣信息,人们常常称之为“信息偶遇”(Information Encountering)[14],即无意中发现有用或感兴趣信息的行为。早期的OPAC只有搜索功能,后来提供了基于分类法的浏览功能;早期的集成搜索主要集中在搜索,后来也提供了分面浏览;发现系统也是顺着集成搜索的发展惯性,继续完善浏览与搜索功能。
(3)探索是信息获取未来需要突破的方向。搜索与浏览是信息获取的基本手段,但仅有搜索与浏览是不够的,探索是信息获取系统亟需突破的方向。所谓探索,本意是在一个未知的空间里发现有价值的信息或主题,也是发现系统当初推出时的原始动机。用户通过浏览是可以实现某种探索能力,但它是用户主动的人工行为,效率低下。国内将Discovery System 翻译成发现系统,原本没有偏差,但图书馆实践则说明业界对资源发现系统的认识不足,大多还将其定位在搜索层面,如清华大学图书馆的水木搜索、北京大学图书馆的未名学术搜索、武汉大学图书馆的珞珈学术搜索、中山大学图书馆的智慧搜索,只有个别图书馆将其定位于探索,如上海交通大学图书馆推出的“思源探索”。艾利贝斯公司在宣传Primo 时明确指出,发现不仅仅是搜索(Discovery is not just about searching),强调通过意外发现来实现探索(Exploration through serendipitous discovery),技术手段是文献自动推荐(bX Article Recommender)、主题探索(Topic Explorer)、引文追踪(Citation Trails)、虚拟浏览(Virtual Browse)和其他数据库或资源推荐等[15]。
目前发现系统在发现与探索方面还只是处于初级阶段,随着用户认知等相关研究的深入,资源发现系统必将在探索服务上作出更多创新。
5 结语
现阶段OPAC、集成(联邦)搜索、发现系统(服务)在图书馆还得到很大范围的应用,但应该对它们的未来走向有一个较为理性判断。OPAC的功能需求非常成熟,其独特的功能使得图书馆、部分用户还对其依依不舍。只要图书馆集成系统还在运行,OPAC就不会退出历史舞台。那么能否直接由OPAC过渡到发现系统呢[16]?无论是研究还是实践表明,目前的发现系统还是无法完全取代OPAC,短期内二者还是和谐共存。即便是下一代图书馆集成系统或图书馆服务平台(Library Service Platform,LSP)取代当前的图书馆集成系统,OPAC的功能也会通过重构技术手段在LSP得以重生或再现。集成搜索系统基本完成其历史使命,图书馆对其逐渐失去了兴趣。即便还有少量数据库未能被纳入资源发现系统,但准确率优先的用户使用习惯使得用户并不关心召回率,发现系统完全可以取代集成搜索。资源发现以优异的浏览与搜索功能、全新的探索能力,开始成为用户信息获取的主要渠道,但暂时还无法取代OPAC 系统。对于科研人员而言,联邦搜索和资源发现都只起到辅助作用,最终还是依靠专业的期刊及其所在的数据库,以及实体馆藏。依赖实体馆藏,也就无法离开OPAC系统。
深入分析LSP,会发现它是基于统一资源管理(Uniform Resources Management,URM)模型,通过重构图书馆集成系统、电子资源管理系统(ERMS)、发现系统而形成的有机集成系统。发现系统将是LSP的重要组成部分,如同OPAC是图书馆集成系统的重要部分一样。但可以预见的是,OPAC的部分特色功能将会在发现系统中得以重生再现,或者LSP 系统将会模拟或集成OPAC的部分特色功能,那时OPAC将彻底成为历史。顺便补充一点,艾利贝斯公司已经不再宣传推广电子资源管理系统Verde,Verde功能应该是基于URM 模型被整合进图书馆发现平台Alma中,将电子资源的管理与印本资源的管理集成在一个全新的系统或平台中。
注释
①Modern Information Retrieval第一版在介绍检索任务(retrieval task)类型时,是用Browsing 和Retrieval 二字,国内翻译成“浏览”和“检索”。第二版更正为Browsing和Searching,国内翻译是“浏览”和“搜索”。所以,本文在讨论搜索与浏览的时候,将其置于用户完成检索任务情景中,是从用户视角来思考的。
②当年把Online Public Access Catalog 中的Access翻译成检索是当时对检索技术理解偏差导致。因为在那个时代更强调是使用计算机技术把MARC书目记录向用户开放,至于如何开放则没有清晰认识。基于这样理解,Access翻译成获取可能更恰当。但现在业界已经习惯这种译法了,也没有必要纠正。
③从技术上,OPAC提供的基于分类法的浏览其实就是通过分类号搜索来实现的。
④国内不少学者将Integrated Searching、Federated Searching等名词翻译成集成检索或联邦检索,但本文认为,翻译成集成搜索或联邦搜索更合适,如同我们只能把Search Engine翻译成搜索引擎而不是检索引擎。
⑤艾利贝斯集团公司2015年10月被内容供应商ProQuest公司收购,成为ProQuest的子公司。Innovative Interface Inc.2019年年底被艾利贝斯收购,也成为ProQuest的子公司。这样,国际上知名的三大集成系统供应商中的两家被ProQuest收购,第三家是SirsiDynix公司。