三个外文检索系统的比较研究
2015-04-11李雪婷
王 菁 曹 君 李雪婷
(哈尔滨工业大学图书馆,黑龙江?哈尔滨 150001)
·业务研究·
三个外文检索系统的比较研究
王菁曹君李雪婷
(哈尔滨工业大学图书馆,黑龙江?哈尔滨 150001)
〔摘要〕资源整合是提高资源利用效率的有效保障。Dialog国际联机检索系统、Scopus信息导航工具和Summon发现系统是3个不同的外文检索系统,它们都将大量的异构平台上的资源整合到1个平台上供读者使用,它们之间有一些联系和不同点。本文从4个方面对它们进行了介绍和比较。
〔关键词〕资源整合;国际联机检索系统;发现系统;信息导航工具
随着文献资源的数量快速增长,数据库技术和网络传播能力不断提高,文献资源的检索平台逐步发展,检索功能也日益强大。为满足读者对不同文献资源的检索需求,外文文献的检索平台越来越多,但是这些平台在系统结构、信息内容、呈现界面和使用方法上完全不同,这给读者在使用时带来很大困扰,读者更希望在一个平台上检索到更多的文献,甚至是一次性检索到所有平台的文献,这就需要一个资源整合系统,这个系统或者可以将大量不同数据库中的文献集中到一个数据库中,或者可以同时实现跨平台检索,总之是可以实现在一个检索界面中同时检索大量资源的一站式检索。本文介绍了3个外文检索系统,它们是Dialog国际联机检索系统、Scopus信息导航工具和Summon发现系统,这是3个性质不同的系统,它们是当今图书馆数字资源整合平台的代表和典范,它们共同的特点就是海量数据、资源有效整合和一站式检索。
本文将从数据库的结构特点、文献资源含量、检索功能、检索结果处理4个方面对3个系统进行比较。
1 数据库的结构特点
国际联机检索是指用户使用检索终端设备,通过通信设施(如通信网、调制解调器、自动呼叫器、通信控制器等),直接与中央计算机连接,检索远程数据库中的信息资源。在检索过程中采用的是人机对话方式,可随机或脱机浏览、传递所得信息。国际联机检索系统上的数据来自世界各国的检索系统,每个系统的计算机成为网络上的节点,每个节点连接多个检索终端,各节点之间以通信线路彼此相连,网络上的任何一个终端都可以联机检索所有数据库的数据。国际联机检索系统具有检索范围广、检索速度快、检索功能强、信息资源庞大、数据库种类多、服务方式和输出方式灵活和检索全面的特点。Dialog国际联机检索系统是世界上第一个也是最大的联机检索系统,无论从深度、广度还是准确性及速度上都是最强大的。2008年Dialog系统加入了Proquest公司。
Scopus数据库是一个集信息检索、网页搜索、引文分析、全文链接、资源整合及检索结果分析功能于一身的超大型文摘数据库。Scopus数据库是Elsevier公司从2002年开始与加拿大多伦多大学、美国匹兹堡大学和新加坡国立大学等21个世界著名大学及研究机构,选择超过300名科学家和信息研究人员进行了广泛而密切的合作,以用户为中心,设计开发出的具有独特功能的科技信息检索与导航系统。数据来源于国外的信息机构,数据收集之后重新进行标引、建库,形成完整的数据库,检索字段和检索方式都有自己的特点。严格来讲,Scopus不算一个资源整合系统,而是一个集成数据库。
发现系统是近几年新开发出的资源整合系统。和以往资源整合系统不同,发现系统集成了元数据集中索引和实时跨库检索技术的优点,既有中央元数据仓储支撑,检索效率高,检索结果准确清晰,又联合了实时跨库检索技术,使检索范围更广,几乎覆盖了各种信息资源。发现系统的工作原理是系统提供商通过与出版社等内容提供商的合作,对海量的、来自异构资源的元数据和部分对象数据,采用分析、抽取等手段进行预收集,并将这些数据按映射转换规则转换为标准的格式,纳入到元数据标准体系中,形成一个预聚合的元数据联合索引库,在本地或远程中心平台提供统一的搜索服务[2]。Summon发现系统是最早出现的资源发现系统,它是Proquest公司旗下的Serials Solution公司于2009年7月推出的第一款网络资源发现系统。Summon发现系统和Dialog国际联机检索系统目前归属于同一家公司。Summon数据来源很广,但不使用联邦检索方式。
2 文献资源的含量
Dialog国际联机检索系统在proguest平台上现在可以利用的有96个通用数据库,40个专利数据库。这些数据库包含了科技工程类、药学、专利和商业新闻。可以说覆盖几乎网络上所有收费的和免费正规的、还有一些网络上没有的数据库。其中商业新闻类包括全球性新闻与商业信息,竞争情报,公司、产品信息和工业情报,行业市场研究报告,这些大多是在网络上无法获取的资源。数据最早回溯到1800年,可以说Dialog国际联机检索系统收录文献的年代是最早的,也是最全的。
Scopus数据库的收录了来自4 000多家出版商的14 000多种期刊、750种会议录、600种商业出版物的2 700万条论文摘要和参考文献。数据最早回溯到1966年,每年新增110万条记录,其中还收录了465种开放获取(Open Access)期刊;并且,1996年以后发表的所有文章所附的2.3亿条参考文献均进入了数据库。Scopus还与著名的Sciru检索引擎整合,可以提供1.8亿个科技信息(包括专利)网页的信息[3]。
Summon发现系统的资源来源于网络上的收费数据库、免费数据库和图书馆的OPAC系统。只要元数据是开放的,发现系统都可以收割到自己的系统之中。目前(截至2014年5月30日),Summon系统包含文献量10亿条,其中报纸含量占57.92%,期刊占20%,专利占7.5%,电子书占3%。英文文献有8亿多条,占79.27%,中文文献仅占4.42%。
3个系统在包含文献的内容上有很大的重复度,例如他们都包含EI工程索引的信息,但是回溯的年代范围不相同。一篇EI工程索引1873年的文献Back water in streams as produced by dams,在Dialog国际联机检索系统中有,其他两个系统中都没有。而1969年的一篇文章Study of water plant isolation from contamination,3个系统中都有,这是因为网络版EI数据库回溯到1969年,而后两个系统的数据都来自于网络版EI数据库。
从上面可以看出,3个数据库都是整合不同平台的信息资源,只是整合的方式不同。
单从数据库的介绍中,我们只能知道每个数据库包含的文献量,不能了解数据库之间的关系。为了帮助读者充分了解数据库包含的文献情况和他们之间的关系,我们做了一个测试,选出240份查新报告中从Dialog数据库中检索到的1 447篇文献,它们来自不同的数据库(见表1)。将这些文献在Summon系统中和Scopus系统中进行检索,得到结果如下。
Summon系统中共检索出1 227篇文献,有220篇没有检索到,检索成功率84.79%。
Scopus系统中共检索出1 182篇文献,有265篇没有检索到,检索成功率81.68%。
其中有110篇文献在两个系统中都没有,全部检到成功率92.39%。
表1 3个数据库检索结果
表1(续)
3 检索功能
3个系统都有简单检索和高级检索功能,只是高级检索的选项有点不同,这里不做对比,我们只对专家检索进行对比。
专家检索是指通过输入由检索字段代码、逻辑算符、位置算符和截词符将检索词按照检索策略组合形成检索式只需一步得到检索结果的一种专业检索方式。这种检索方式可以快速、准确的获得检索结果。专家检索在不同的平台有不同叫法,在Proquest平台叫命令行检索,在Scopus平台叫高级检索,Summon平台没有设计专门的专家检索,我们就用简单检索的功能框代替专家检索。
不同的平台专家检索的检索规则不相同,我们先了解一下每个平台的检索规则和可检索字段数量。
表2 3个数据库逻辑算符、通配符与可检索字段数量
下面通过实例来说明3个系统专家检索的使用方法。
选择题目为“运动界面纳米效应的液态轴承转子式微机械陀螺研究”的一篇2013年做的查新报告。这篇报告中的检索式是原Dialog检索平台使用的检索式,我们将这个检索式转换成3个系统分别能够识别的检索式,然后查看检索结果的数量和是否覆盖查新报告中密切相关文献。
原Dialog系统检索式:(micromachined or micro()machined or MEMS) and gyroscope?and (liquid(2n)bearing or moving()(interface or surface) or (suspension or suspend???)(s)rotor??)得到检索结果40篇。
首先换成Proquest版Dialog系统检索式:
其次换成意义相同的Scopus检索式:
(micromachined OR (micro PRE/0 machined) OR MEMS) W/2 gyroscope*AND ((liquid W/2 bearing) OR (moving PRE/0 (interface OR surface)) OR ((suspension OR suspend*) AND rotor*))全库检索得到结果63篇。
再换成相同意义的Summon发现系统检索式:
(micromachined OR (micro AND machined) OR MEMS) AND gyroscope*AND ((liquid AND bearing) OR (moving AND (interface OR surface)) OR ((suspension OR suspend*) AND rotor*))在图书馆具有的数据库中检索得到2 979篇,文献太多看不过来,进行检索式的修改。
修改后的检索式:
(micromachined OR micro-machined OR MEMS) AND gyroscope*AND (″liquid bearing″ OR ″moving interface″ OR ″moving surface″ OR ((suspension OR suspend*) AND rotor*))在图书馆具有的数据库检索得到589篇文献,限制到英文期刊文献,只有128篇。扩展到图书馆没有的文献得到7 688篇文献,限制到英文期刊,只有137篇文献。
以上3个检索式都是在全字段进行检索,没有做字段限制,这是因为查新课题对查全要求较严,当全字段检索的结果不是很多的时候,不做字段限制。但当检索结果太多时,还有平时检索文献时,可采用字段限制。最好的字段是题目——关键词——摘要字段,这在Proquest版Dialog系统和Scopus数据库中都有,但Summon系统没有这个字段,这可以说也是Summon系统的一个缺陷。
本文作者将原来查新报告中给出的密切相关文献拿来检验,用以上检索式在3个系统中检索得到的结果都包含查新报告中的密切相关文献。结果证明3个系统外文检索功能都非常好用,只是检索者要对3个系统的特点非常熟悉。根据我们的经验,如果想要检索结果精确些,可以用国际联机检索系统,如果要检索结果更全一些,可以用Summon系统,如果要以期刊为主,又要检索功能好一些,可以用Scopus系统。
除常用的3个检索功能,Scopus系统还设置了作者检索和机构检索功能,利用这两个功能,可以对特定的作者或机构进行检索。检索时要注意作者姓名的拼写方式和机构的拼写方式,系统可自动识别多种拼写方式,这是Scopus系统特有的检索功能,其它两个系统没有该两项功能。
4 检索结果的处理
对检索结果的处理能力是检验一个系统功能是否强大的重要方面,下面我们从不同的方面对3个系统对检索结果的处理能力做个对比。
表3 3个数据库对检索结果进行处理的对比
聚类表示可以从不同的方面进行数据精炼,例如Scopus系统有年份、作者姓名、学科类别、文献类型、来源出版物和关键字等10个可聚类的项目。
Scopus系统可以进一步做检索结果的分析,它可以从7个方面对检索结果进行分析,它们是年份、来源出版物、作者姓名、归属机构名称、国家/地区、文献类型、学科类别,每一项我们都可以通过图和表两种方式看到分析的结果,这是Scopus系统更高级的服务。
此外,Scopus系统的作者检索功能的检索结果显示出6个方面的信息,第一显示作者信息介绍,包括姓名(各种拼写方法)、作者ID、作者单位;第二显示作者发表的文献情况,包括发表文章数量、引用的参考文献数量、被引文献数量、高频因子、合作者、文献发表的主要领域以及在WEB上发表的文献情况等;第三显示文献的历史,包括发表时间段、来源出版物以及相关机构等;第四显示发表文章的具体信息;第五显示被引文献的详细信息;第六显示合作者的文章发表情况。通过这些信息,我们可以了解某个作者的科研状况。Scopus系统的机构检索功能的检索结果同样可以让读者通过机构发表文章的情况对机构的科研产出做出评价。
因此,从检索结果的处理来看,Scopus系统的功能是最强大的。
5 结 语
资源的有效整合是图书馆数字化建设的必由之路,社会上不断出现新的整合系统,但到目前为止,外文文献的整合系统从发展模式和发展方向上来看主要是本文研究的3种,其它的系统虽然也有些还在使用,但实践之后发现有很多问题,例如Mylibrary系统,Muse系统等。本文研究的3种系统也各有优缺点,但由于他们的自身优势都很明显,因此还将会在图书馆界应用很久,尤其是Summon系统,如果它能有Dialog系统数据优势(虽然Summon数据量也很大,但覆盖的专业范围有限),Scopus的检索功能和结果处理能力,那它将是资源整合比较完美的系统。
参考文献
[1]谢新洲,滕跃.科技查新手册[M].北京:科学技术文献出版社,2004.
[2]包凌,蒋颖.图书馆统一资源发现系统的比较研究[J].情报资料工作,2012,(5):67-72.
[3]叶艳鸣,曹均,黄扶敏,等.基于科学导航理念的Scopus数据库[J].四川图书馆学报,2006,(1):24-26.
[4]秦鸿,钱国富,钟远薪.三种发现服务系统的比较研究[J].大学图书馆学报,2012,(5):5-11,17.
[5]于光.信息检索(第2版)[M].北京:电子工业出版社,2014.
[6]路莹.图书馆资源整合新技术——探索发现系统[J].中华医学图书情报杂志,2013,22(5):28-31.
[7]樊怡菁.SCIE与Scopus数据库之比较[J].图书情报工作,2006,(1):106-108.
(本文责任编辑:郭沫含)
Comparative Study on Three Foreign Retrieval System
Wang JingCao JunLi Xueting
(Library,Harbin Institute of Technology,Harbin 150001,China)
〔Abstract〕Resource integration improves the effective protection of resource use efficiency.Dialog international online retrieval system,Scopus information navigation tools and Summon discovery system are three different foreign retrieval systems which integrate a large amount of resources on heterogeneous platforms to one platform for readers’ sake.There are some connection and differences between them,and the article introduced and compared them from four aspects.
〔Key words〕resources integration;international online retrieval system;discovery system;information navigation tools
〔中图分类号〕G254.92
〔文献标识码〕A
〔文章编号〕1008-0821(2015)06-0139-05
DOI:10.3969/j.issn.1008-0821.2015.06.026
作者简介:王菁(1963-),女,副研究馆员,研究方向:信息咨询和科技查新,发表论文10余篇,参编图书5部。
收稿日期:2014-06-24