APP下载

国内外资源发现系统功能特色分析及其启示

2017-03-06葛梦蕊

新世纪图书馆 2017年1期
关键词:图书馆

葛梦蕊

摘 要 发现系统是数字资源整合的新趋势,论文通过网络调查和实际体验Summon、EDS、Primo、超星发现、读秀学术搜索、e读等发现系统在图书馆的应用情况,对发现系统的发展及含义进行介绍,从元数据、检索与界面、功能架构、商务因素4方面对以上6个系统进行对比,进而提出增加资源覆盖量、提高元数据版权意识、加强系统开放性、规范相关性排序结果、辅助整合图书馆资源等完善我国发现系统功能的建议。

关键词 资源发现系统 数字资源整合 图书馆

分类号 G250.7

DOI 10.16810/j.cnki.1672-514X.2017.01.014

Features Analysis and Enlightenment of Resources Discovery System at Home and Abroad

Ge Mengrui

Abstract Discovery System is a new trend of digital resource integration. This paper investigates the application status in libraries of Summon, EDS, Primo, Superstar discovery, Duxiu academic search and eduChina by Internet investigation and practical operation. It introduces the meaning and development of resources discovery system, and compares those discovery systems from the aspects of metadata, retrieval and interface, functional architecture and business factors. In addition, it puts forward several suggestions to improve the functions of systems in China, such as increasing the amount of resources, improving the copyright awareness of metadata, strengthening the openness of system, standardizing the relevance ranking results, as well as assisting the integration of library resources.

Keywords Resources discovery system. Digital resource integration. Library.

1 发现系统产生背景

追溯发现系统的渊源,要从20世纪90年代中期开始。随着信息数量的快速增长,许多用户面对无数的信息系统、众多异构接口和内容各异的机构数据库无从选择。为了解决这一问题,Google于1998年问世,以独有的信息门户吸引了无数用户。与此同时,在图书馆界和学术界,其他的信息发现与传递系统(与图书馆的ILS相分离的系统)也开始出现,包括机构资源库、课程管理、电子存储和数字馆藏管理系统等。这些系统给当时的图书馆和机构提供了更多保存、发现和传递信息的额外渠道。

随后,图书馆系统商效仿google搜索引擎,开发并推出联邦检索方案,联邦检索,可同时查找、检索和充分显示来自不同的远程机构的信息内容。然而联邦检索系统是一种分而治之的异构检索,检索效果依赖于各个数据库系统的自有功能,在检索速度、检索结果的去重和排序等方面存在难以克服的缺陷[1]。如成本较高、检索速度慢、使用方法复杂以及其技术不能实现与个人订阅数据的全面整合等[2]。

在某种意义上说,以类似Z39.50协议为基础的联合搜索在文献引用和全文获取层面上代表了一个早期的网络发现系统。在20世纪晚期,图书馆系统开始向“下一代”目录演化,此种“目录”可以让终端用户在图书馆提供的检索界面上实现具有Web2.0交互特性的标注、创建列表、添加书评、网站链接等应用体验[3]。虽然其界面有很多突破和创新,但它仍局限在图书馆传统的书刊资源和本地自建数字资源的范围内[4]。同時,图书馆的OPAC系统、资源导航系统、链接服务器、跨库检索系统等也对资源的组织与获取带来一系列不便,如缺少检索功能、检索结果在去重和排序等方面存在不足;检索速度不够快;不能实现电子资源和实体资源之间统一揭示等。因此,基于以上系统的种种不足及数据处理中的诸多问题,在元数据检索、关联检索等技术发展的基础上,统一资源发现系统应运而生。

2 资源发现系统定义与特征

统一资源发现系统是系统商通过与出版社等内容提供商的合作,对海量的、来自异构资源的元数据和部分对象数据,采用分析、抽取等手段进行预收集(pre—harvested),并将这些数据按映射转换规则转换为标准格式,纳入到元数据标准体系中,并建立索引,形成一个预聚合的元数据联合索引库,在本地或者远程中心平台提供统一的查询搜索服务[5]。

根据Jason Vaughan在《图书馆技术报告中》对发现系统特征的概括,我们从五个方面理解发现系统的定义。(1)网络规模的发现。由一个预收割形式的主索引和拥有丰富功能的发现层组成,发现层提供来自馆藏资源、开放资源和订阅资源的一站式检索功能。(2)主索引。也被称为基础索引或统一索引,是预收割形式的元数据与包含WDS服务的全文文献的集合,主索引通常包括系统商的全文与引文、OA的全文与元数据、已订购数据库的全文、摘要和索引、馆藏目录的MARC。(3)发现层。用户界面与用于发现、展示,并与图书馆内容系统相互作用的检索系统,如WSD的主索引。(4)预收割索引。元数据与全文文献系统定期进行积累,并在检索前进行预处理;集中不同来源的数据加工成中央索引。(5)相互许可内容。内容由图书馆和WDS出版商共同规范,使得授权用户可以检索并浏览结果[6]。

发现系统提供的发现和传递服务具有以下特征。(1)内容。服务搜集了来自馆藏目录和远程数据库商提供的可以检索到文章层面的数据,基于正规的系统处理流程,并迅速返回按相关性排序的检索结果,以此建立一个全方位的大型中心索引。其内容既包括图书馆内的资源也包括购买的系统商的元数据。(2)发现。拥有单一的检索框,能提供类似Google的用户检索体验并带有高级检索功能。(3)传递。快速提供按相关性排序的结果,并按照用户所预期的直观化方式予以呈现,如使用分面导航可获取更深入的结果。(4)弹性。该系统为底层系统,既可以被架构在图书馆本地系统中也可放置于远程的系统提供商中,相比于传统的图书馆服务,该系统更为开放,为图书馆自行定制服务提供了更多的自由度[7]。

3 发现系统对比分析

3.1 元数据

3.1.1 元数据来源

资源发现系统的元数据来源有四种渠道。(1)图书馆本地数据的上传。这是图书馆最基础也是最传统的元数据,包括印刷型的纸质图书、期刊,也包括馆藏系统中的电子资源和数据库资源,通过OAI接口、数据收割、人工导入等各种方式上传,经发现系统的统一检索向用户提供服务。(2)图书馆自建库。指根据其特色资源和自身发展需要创建的特色数据库,如高校学位论文库、教学库和名师库等。因担心自建特色资源会被商业公司所操控,存在安全隐患,一些图书馆不愿意将这部分资源予以提供。(3)商业数据库资源。发现系统商与数据库商签订协议,通过订购的方式获取元数据资源,以这一方式获取的元数据质量最高且不存在版权问题,它是发现系统最主要的元数据来源。(4)免费资源及OA资源。随着开放存取逐步深入人心,网络OA资源在学术界占有越来越大的比重,发现系统也开始采用OAI协议对这些开放数据进行收割,但使用这一方式获取的元数据在质量上远不及前几种方式所获得的元数据。

3.1.2 元数据覆盖范围

元数据是资源发现系统的基础,发现系统的元数据数量和可检索量是决定其易用性的主要指标。表1列举了各系统的元数据数量,其仅为阶段性指标,随着系统规模的扩大其数据总数也在不断增加。从资源总量看,各系统相差不大,均集中在9~10亿,相比于其他系统,数据库商所开发的EDS、Summon和超星在数据占有方面更胜一筹。其原因有两点:首先,他们与多家出版社保持良好的合作,在数据集成方面有先天优势;其次,以EDS和Summon为例,对于一些极具价值的资源,数据库商不愿意向其他厂商开放,这部分资源只有其自身的发现系统才能使用,如只有通过Summon才能获取ProQuest 的全文数据,ASP&BSP数据库也只有通过EDS才能做全文检索[8]。从国内外发现系统的资源覆盖方面来看,国外系统资源覆盖范围更广,对资源的揭示也更为深入,它们侧重于对核心期刊文献的深度获取,力图为用户提供全方位的资源发现与关联性分析,在中文资源的覆盖上也逐步与维普等厂商签约,以获取中文元数据使用权限;国内的发现系统更偏重于中文资源,外文仅局限于数据层面。

3.1.3 元数据质量

元数据的质量关系到发现系统本身的质量,这里我们从两个方面进行阐述。(1)数据重复与数据规范不一。各发现系统在数据库选取中存在大同小异的情况,数据存在大量重复,以超星和读秀为例,二者均隶属于超星公司,为此其发现系统所收录的元数据内容几乎相同,在资源上无过多差别。其次,由于发现系统的数据仓储来自于对海量数据的收割,为此不同来源的元数据在著录形式上存在差异,给数据判断带来许多困难。(2)元数据有“薄”“厚”之分。一般来说元数据只包含题名、作者、来源等较少字段的数据称为薄数据,如果在此基础上增加了如摘要、关键词、主题等字段则称为厚数据。目前,国内外各发现系统都着力呈现厚数据,如Summon、Primo的大多数索引都深入到全文层面;读秀学术发现在向读者提供书目信息的同时还增加了图书前几页的免费试读等。

3.2 检索与界面

3.2.1 高级检索

(1)Summon高级检索带有分面导航功能,包含四个范围选项,用户通过点击“All Field”下拉菜单选择基本项(Basic)和高级项(Advanced),并且可以使用布尔逻辑算符对这四个范围选项进行关联与限定,也可以选择出版时间范围、文献类型和语言等进一步限制检索词。(2)EDS将高级检索分为中文检索和外文检索,使用者可自行选择检索字段和逻辑关系,如字段中有多个检索词可以增加检索行数量。(3)Primo系统一旦调用高级搜索功能,之前检索的结果会向屏幕下方移动,屏幕上会同时显示基本项与高级项两种搜索方式的共同结果。读者需要选择资料类型和语种,同时将时间精确到具体日期。(4)用户可以在超星的高级检索系统中限制每页所显示的信息条目数,同时专业检索项也被包含其中,读者可按照提示说明使用逻辑运算进行专业查找。

总体来说,EDS高级检索项更加灵活精细,不熟悉布尔逻辑运算的用户也可以轻松使用;超星系统则给予用户更大的选择空间,同时为专业人员提供相应服务。

3.2.2 分面导航

分面导航是通过筛选从而精简检索结果的列表项,出现在检索结果页面左下方,各系统功能对比见表2。Primo基于对大量读者使用信息的分析,发现目标文献的相关文献,特别是最新的学术论文,并将其推荐给用户[5],与其他系统相比,其分面导航功能更为强大,更强调一站式发现与获取。国内系统没有同行评议项,更注重资源的查找功能。Primo和Summon在时间限定方面都可以使用鼠标在滑动条内拖拽选择时间范围,EDS、读秀和e读则需要读者自行键入时间;其中Summon可以将时间显示精确到具体日期,而Primo、EDS、读秀只能精确到年份。

3.2.3 可视化程度

Primo、Summon、EDS、超星、e读均涉及了可视化内容,在书刊检索页面,书封信息会予以显示,Primo、Summon的时间轴拖拽功能也属可视化结果。在国外三个发现系统中,Primo的可视化程度较高,在其检索结果页面的顶部会显示相关论著发文量的趋势图,横轴为时间、纵轴为发文量。笔者以“信息组织”为关键词,点击搜索后进入“CHARTS”界面,此界面顯示了三个以“相关知识点”“相关作者”和“相关机构”命名的圆球状分支结构的可视化图形;两个以面积图和折线图组合形式显示的“信息组织-图书馆学术发展曲线图”和“信息组织-期刊学术发展曲线图”;两个关于“核心期刊”和“普通期刊”的扇形统计图。北京师范大学“木铎搜索”的Primo系统将可视化放在了分面导航中,相关作者、文献来源、主题等也分别以条形图显示。在我国的学术发现系统中,超星提供专门的“可视化学术分析”功能,包括趋势分析、知识图谱和产出统计三部分。在趋势分析中系统将检索词的发展脉络以及同一研究专题不同文献类型增长趋势以折线图的方式予以显示;其知识图谱类和产出统计与Primo中“CHARTS”界面类似,均是对学科整体发展情况的概括。

3.2.4 检索结果显示

资源发现系统将图书馆的纸本和电子信息整合,通过统一的检索框,将检索结果按不同的类型展现在用户面前。在国外的发现系统中,Primo的检索结果较丰富,包括维基词条、书封、网摘目次、书评、二维码、热门文章(热门文章指与该学科有关的全球数据库中检索次数较多的文章)等,对于检索结果的获取,Primo提供在线全文链接(静态全文地址)、SFX链接(动态匹配全文及更多获取途径)、OPAC via Link (链接到OPAC)三种不同方式。在国内的发现系统中,读秀学术搜索呈现给用户多种检索结果类型供其选择,在图书查找方面,读秀可将查找结果深入到章节部分,提供图书的前言页、版权页、目录页及正文部分的试读,让用户在借到图书之前就可以对其内容进行大致了解。在知识查找方面,系统将用户输入的关键词深入到每一页资料中进行查找,如对结果不满意,可以进行检索结果的二次查找,并可使用多个关键词同时检索。对于输入的每一个检索词均提供检索词的英文翻译、词典、同义词和共现词等相关资料,以方便用户选择和进行关键词的查找。

3.3 功能架构

3.3.1 服务方式

在服务方式上,Summon、EDS、超星、读秀均采用云计算的方式,云计算模式无需在本地安装服务器,不占用本地资源,是目前的主流模式。Primo所采用的混合模式(云+本地),将元数据部署在云端,将馆藏资源和自建资源存放于本地。这种模式的好处是:可以消除某些图书馆不愿意将自有数据提供给商业公司的顾虑;可将某些中文数据库的元数据纳入本地元数据仓,部分解决国外发现产品不支持中文数据库的问题。

3.3.2 OPAC系统整合

在与本馆OPAC整合方面,各发现系的整合深度存在差距,详见表3。国外发现系统在提供馆藏信息链接,直接调用OPAC功能与界面上更具优势,基本能够对不同类目之间的复杂关系进行揭示。而我国发现系统的本地化整合局限在数据层面,仅仅是辅助读者找出资源,没有实现对资源内容进行深层次标引以达到知识发现的程度。

3.3.3 用户空间设置

资源发现系统强大的个性化和社群功能可以让用户根据自己的喜好进行检索结果的保存和整理,并与其他用户分享观点和专业知识,以满足用户的网络影响预期和知识的交流与创新[9]。由表4可知,作为系统商所开发的产品,Primo的技术性能更高,账号划分也更为细致;在信息推送方面EDS更为擅长,通过用户的检索行为分析其偏好,以快报推送的方式提供主动服务,从而吸引用户增加对发现系统的使用;国内的e读和读秀则赋予用户更多的自主权限,允许用户根据个人喜好对其空间主页进行设置,对于一些热衷于个性化服务的读者来说是不错的选择。

3.3.4 资源导航

期刊和数据库导航是发现系统的重要功能,各系统也将电子资源导航功能区别于其他功能单独列出。包括Summon、Primo、超星在内的三种资源导航都提供了按照字母顺序和学科查找两类方式,各自特色导航见表5。Summon更侧重于资源整合和馆藏发现,360导航功能可以帮助用户多方位地进行资源发现;Primo则具有强大的技术功能,在资源集成方面更具优势,可以在图书馆的自动化系统中应用发现系统,从而进行更为深入的数据挖掘与分析;国内系统则更偏好于从资源本身出发,对资源进行评价,借助图书馆资源热度排名进行导航。

3.3.5 RSS订阅服务

RSS(Really Simple Syndication)是基于XML技术的因特网内容发布和集成技术。RSS服务能直接将最新的信息即时主动推送到读者桌面,使读者不必直接访问网站就能得到更新的信息。读者定制RSS后,只要通过RSS阅读器,就可看到即时最新的内容。目前,Summon、Primo、EDS、读秀学术搜索等多种发现系统都实现了这一功能,用户只要按照系统上的说明,下载RSS阅读器,复制频道的链接地址(URL)实现频道定制后即可使用。同时,这一RSS定制是双向的,如果用户收集到了新资源的RSS地址,也可以通过E-mail告知图书馆,实现资源共享。使用RSS定制与追踪实现个性化服务已经成为每个发现系统的必备功能。

3.3.6 系统特色

国内外发现系统在系统定制上均有各自特色:Primo的技术性能较高,在与本地系统兼容方面更具优势,其特有的排序算法也加速了检索结果列表的创建;Summon在资源发现和资源整合方面功能强大,完全脱离联邦检索的限制,在系统维护方面更加方便快捷;EDS的元数据覆盖和知识发现更胜一筹,资源内容更为丰富;超星更侧重知识服务,如关键词关联、引文关联等。因此,国外发现系统的资源优势在于:(1)数据覆盖较全面,信息挖掘深度大,对同一资源从不同角度进行揭示,以满足不同的检索需要。(2)系统本地化整合程度高,与图书馆的其他系统链接紧密。我国发现系统则在学术评价以及用户互动方面更为擅长,通过学术评价帮助用户了解各期刊文章的价值所在,指导阅读。

3.4 商务因素

发现系统的购买与实施需要密切的配合与沟通,其价格模式和开放性是产品考察中必须考虑的问题,详见表6。(1)在价格模式方面,数据库商和系统商所开发的产品收费方式略有不同,数据库商只收取资源使用费,一般按年度计算,如Summon、EDS;系统开发商在收取年服务费的同时还需加收系统的初次安装费,如Primo。(2)在系统开放性方面,国外三种系统均为开放系统,即未购买系统或未注册系统的用户也有权查看系统的界面并使用其查询功能,除无法登陆个人空间和借阅资料外,所有连接互联网的用户可不受IP地址的限制自由访问该系统进行资料的查找。而我国的超星和读秀系統均为非开放系统,只能通过购买的方式才能进行操作。

4 对我国系统商的建议

4.1 增加资源覆盖量

以Summon、Primo为代表的国外发现系统,由于中文资源出版商和数据库商在资源占有方面的封闭性,为国外发现系统获取中文数据设置了障碍,在元数据覆盖方面以外文资源为主,中文资源相对较少。目前,各系统商正通过技术弥补这一不足。如EDS系统已能够支持Unicode大字符集信息检索与多语言检索,具备中文分词与繁简通检功能;Summon支持大部分中文字符集,实现了CNMarc,CMarc与USMarc/Marc21的映射,并支持中文的简繁互检和拼音检索等。

对于国内发现系统而言,资源覆盖量不足是主要问题,具体表现在两个方面。首先,对各类型资源数据提供发现揭示的机会不平衡,多数集中在对图书、期刊文献资源的发现揭示,对图片、音乐、影片等类型的信息数据则较少涉及[10]。其次,国内发现系统对外文资源覆盖量不足,外文检索效果差。针对以上问题,资源发现系统商可采取以下对策:第一,利用元数据仓储技术和数据挖掘技术丰富元数据种类和内容,并保证数据的更新速度;第二,积极与国外数据库商和图书馆合作,力图打破外文资源获取瓶颈,充分学习Summon、EDS等系统商获取外文数据的经验,以实现中外文资源的均等覆盖和质量保障。

4.2 提高元数据版权意识

对于元数据的版权问题,系统商需要关注以下方面。(1)对于图书馆的本地数据库,系统商应与图书馆签署版权保护协议,在获取图书馆数据库开放接口的同时,明确各自责任,以保证数据合法使用;此外,系统商也需提高自身的安全防护技术,消除图书馆的顾虑。(2)在使用图书馆自建数据库时,应明确划分公开与保留的字段信息,对于涉及个人隐私的内容,应在获取数据时自动将其屏蔽。(3)在商业数据库资源的获取方面,系统商应注意与数据库商签订授权协议,以保证数据合法性,同时减少今后数据更新工作中的麻烦。(4)在获取OA资源时,应尽量注意选择经费支持的、能够提供长期且稳定元数据服务的机构和组织所提供的OA资源,确保资源的可靠性[11]。

4.3 加强系统开放性

由表6可知,国外三种发现系统均为开放系统。以清华大学图书馆的Primo水木搜索为例,在检索结果列表中,除“标签/评论”项需要读者登陆后才可进行评论的填写外,其它功能包括在线查看、详细信息、手机二维码、网摘目次等内容,非授权用户也可进行操作,甚至可以通过点击“试读信息”按钮进行资料的试读。

在笔者所调查的国内三种发现系统中,除e读外,超星公司所推出的超星发现和读秀学术搜索均为非开放性系统。在调查过程中,无论是以登陆超星发现系统的官网方式或是通过进入其他图书馆的超星发现数据库的方式,笔者都无法进入其系统主页。相比于超星发现,读秀的封闭性较弱,对于非注册用户,系统提供了“进入体验版”选项,虽然可以进行相关信息的查找,但其体验时间和权限仍被限制。

早期出现的以Google为代表的搜索引擎相比于图书馆检索系统之所以获得成功,开放性是其决定性因素。可以说“简单、快速、易用、有效”的检索体验是发现系统的宗旨[12]。然而,国内发现系统则以“非订阅用户”为由将部分读者拒之门外,在一定程度上背离了资源发现系统的原旨。为此,国内系统商在提高发现系统性能的同时,当务之急是加强其开放性,让更多的潜在用户使用并体验该系统,这样不仅让用户了触了其强大功能,而且在用户体验中可更多地挖掘新的功能,以此真正打开用户市场。

4.4 规范相关性排序结果

从刘颉颃等在广州大学城开展的一项关于发现系统的调研可见,检索结果的相关度排序被用户认为是最有用的功能[13]。对于检索结果的相关性排序,国外发现系统有不同的排序算法,旨在為用户呈现更好的检索效果。如Summon使用专有的关联算法,分配给各个元数据字段不同的权重,对于不同的内容类型使用不同的参数。Primo申请了相关性排序技术的专利——ScholarRankTM,对结果记录的三方面进行评价,以判断该记录的排列顺序。评价内容包括记录内容跟检索式的匹配程度、记录的学术价值评分(ScholarRank评分)、读者的信息及读者实时的研究需求[14]。在显示页面,Primo提供日期、受欢迎度、作者、题名四个选项,供用户进行相关性排序的选择。EDS的排序是按照“主题词表”优先的方式进行,包括主题词表的控制性词汇、文章的标题、作者的关键字、文摘中的关键字、全文中的关键字。

在国内发现系统的相关性排序方面,e读相关性排序仅按出版年代升序和降序两种排序规则;而在读秀学术搜索的试用版中,笔者并未找到与相关性排序相关的选项。为此,在相关性结果的规范问题上,国内系统商需重视对关联数据和语义搜索技术的使用,分析用户检索行为[1],在按一定规则予以显示的同时,为用户提供更多的排序选项,做到智能化搜索。

4.5 辅助整合图书馆资源

帮助用户找到资源并非系统的最终目的,发现并及时下载原文实现利用才是资源发现系统的价值所在。因此,发现系统能否与图书馆的本地系统实现整合是决定其易用性的首要指标。在这一方面国外的发现系统有更大的优势。以Summon为例,如表4所示,Summon不仅为读者查找图书馆的OPAC资源增加了包括将检索结果限制在本馆、专门的OPAC分面导航以及呈现该系统的实施流通数据等特别功能以外,也实现了Summon与图书馆已有的文献评价系统、本馆的学科服务平台和Web of Science\Scopus等文献评价系统的无缝整合。

5 结语

我国发现系统基本上实现了系统与图书馆本地资源的整合,但这一整合仅局限于数据层面。超星和e读系统虽然可以显示馆藏信息,但是点击之后系统自动跳转到图书馆OPAC界面,而非原有的发现界面,系统所提供的仅仅是一个链接。学术资源发现系统应是深度整合图书馆各种类型资源、提供单一入口的学术资源发现服务平台,它能帮助读者快捷、准确地在海量信息资源中查找所需文献,提供最合适的获取服务集成,并在查找过程中获得最佳体验,而非依靠用户通过链接进行手动检索。笔者认为,以超星等为代表的部分国内发现系统并不能称其为真正的资源发现系统,他们仅仅帮助读者通过OPAC链接逐一寻找资源,并未利用统一资源整合平台帮助用户发现和利用资源。因此,我国的资源发现系统需要加强与图书馆本地系统的整合,学习国外发现系统的资源整合技术,真正实现发现系统对馆内资源的全面覆盖,成为名副其实的一站式检索工具。

参考文献:

猜你喜欢

图书馆
图书馆
迷宫弯弯绕
迷宫弯弯绕
图书馆
图书馆里静悄悄
气味图书馆
欢迎到图书馆做客
你会估算吗
去图书馆