Google Scholar与工程索引的检索比较
2009-01-11洪道广
洪道广
〔摘 要〕对2000-2008年检索结果进行了具体比较与分析,通过标题名Google Scholar可以检出88%EI中的英文期刊文献及56%会议论文;全文检索可检出62%的EI英文期刊文献。
〔关键词〕Google Scholar;工程索引;标题检索
〔中图分类号〕G252.1 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0125-03
Comparison Between two Searching Engines:
Google Scholar and Engineering IndexHong Daoguang
(Library,East China University of Science and Technology,Shanghai 200237,China)
〔Abstract〕The article compared and analyzed the literature searching results from 2000 to 2008.By key words in title,Google Scholar gave 88 percent English journal and 56 percent reference literature records retrieved from EI.The English journal records became 62 percent by retriving them in all indexed field.
〔Keywords〕Google Scholar;engineering index;title retriving
2004年底Google公司凭借着其强大的数据聚集与处理技术发布了基于学术内容的搜索:Google Scholar(以下简称GS)。如同GOOGLE搜索,GS很快成为学术搜索最强有力的工具之一,吸引了广大读者使用,也吸引着图书情报和信息服务人员对其使用性能进行比较与评价。例如朱佳鸣[1]、陈家翠[2]研究与分析了GS的检索性能,Koush[3]、夏旭[4]等分别研究了GS的引文检索并与SCI、Scopus的引文索引进行比较。
工程索引(以下简称EI)是检索世界各国工程领域内学术文献的最主要和最权威的工具之一。近期Meier[5]通过将EI的检索结果随机选择标题在GS的全文检索中进行一一比对,调查了GS对EI的覆盖率,取得了良好的结果。但作者没有对GS与EI的检索进行直接比对,本文从读者的角度比较这二者的检索结果,以便对基于工程学科的研究人员提供使用上的指导。
1 检索方法
对工程研究人员来说,通过关键词进行相关课题的检索是常用的方法,本文选择标题检索与全文检索二种方法进行比较。GS选用英文版(http:∥scholar.google.com/)作为检索界面,相比中文版(http:∥scholar.google.cn/),英文版GS在高级检索中增加了7个学科分类,供读者进行进一步的学术分类选择,其中工程学科与计算机科学、数学分为同一学术学科;EI查询选用其网络版在国内的镜像(http:∥www.engineeringvillage2.com/),我校购买了EI的使用权。
1.1 基于题名检索
利用关键词基于标题名查询可得到最接近主题的结果。EI与GS均具有直接对题名字段查询的功能。为了取得较全面的样本,本文参考Meier[5]选择的EI中8个相关学科,对关键词的选择作适当修改,使结果数目控制在10~50之间,以方便比较。表1为对应的学科及对应的检索式:
表1中最后一栏为实际检索结果中,标题里出现的对应词根派生词,缺省情况下EI提供了自动取词根(Autostemming)检索。GS的题名查询对所选关键词进行的是精确查询,系统不能自动对其词根的派生词进一步直接查询。本文为了比较方便,在进行对应的GS标题检索中选择上述出现的所有衍生词作为检索,如上表中环境工程的GS检索式为:
allintitle:water supply|supplies|supplying|supplied quality|qualities
(GS检索中空格表示逻辑与,“|”表示逻辑或)
1.2 基于全文检索
从标题查询的结果看学科2(Civil土木工程)检出率与平均数最为接近(见表2),这里选择其作为全文检索的样本进行进一步的结果比较。这里所指的全文检索对EI来说实际是所有索引字段的检索,并不包括文献全文本身。为限制检索结果数,对上述标题检索词进行的限制,EI选择如下的检索式进行全文检索:
Buildings AND dynamics AND evaluate AND“reinforced concrete”
实际研究表明,GS除标题外,其它字段的检索也具有自动取字根功能。如在GS中,用上述关键词的组合检索,结果中的非标题字段里也查到了Building、dynamic、evaluating、evaluation等相应的派生词。因此这里选用相同检索式查询。GS全文检索的结果数目惊人,一般读者可以考虑增加关键词、控制年限、学科分类等进行进一步限制。这里GS的检索数据按年度、分类分别查询汇总,并根据排序取前100条检索记录进行比较。
2 检索结果比较及分析
EI的检索结果可以直接批量倒入数据库处理,GS给出的结果有字符数的限制,例如长标题的文献是带有省略号的标题名。本文通过GS设置中的使用偏好(Scholar Preferences)设定,将文献的完整信息导出到文献管理软件,借助程序集中导出与处理GS的查询结果,并与EI进行分析对比,因为不同的检索方法有不同的结果,本文结果中用对应的检中率表示以区别前面文献中所指的覆盖率[5]。
2.1 题名检索结果比较
上述检索式进行标题名查询,EI共有211篇文献,GS去除重复有786篇文献(上述数据查询均为2009年4月15日的结果),对应的文献类型分布见表2。
上述EI检中率指相同结果数据与EI本身的检出数据之比。文献类型及文献语种进行进一步的分类比较得出表3、表4的结果。表3中括号里数据是相应的EI检中率,EI只包含期刊文章与会议论文,而GS除二类文献外还有博士论文、技术报告、图书、专利及其它种类文献。表4中GS没有明确的语种标记,通常是直接显示对应的语言或其英文文摘,所以这里没有统计,只显示对应的检中数。
根据以上结果进行以下统计分析与比较。
2.1.1 EI与GS收录的文献种类分析比较
EI文献从检索的结果看只有会议论文与期刊文献,不含其它类型的文献。本人利用字母S开头的关键词对EI进行所有字段检索[检索式:((S*)WN All fields)],除2000年有137篇报告外,2001年起只有期刊文献与会议论文,不含技术报告、学位论文等文献,与上述结果基本相一致。EI目前收录的会议文献主要为英文语种,会议占所有文献的23%。非英文文献中,中文语种比例较高。与其相比GS数据来源广泛,除期刊文章、会议论文外还有博士论文、技术报告、图书、专利及其它类型数据。其中博士论文、技术报告所占的比例较少,进一步调查发现博士论文中4篇来自umi论文平台(http:∥gradworks.umi.com),技术报告4篇来自CSA平台(http:∥md1.csa.com),这二类其余的文献均来自文献的引文; GS的专利数据来源于google patents与freepatentsonline.com平台,其它类型数据来源广泛。
2.1.2 GS中EI的文献检中率分析
统计显示GS通过题名检索得到的结果数据与EI比平均为3.73∶1,最高比例近6∶1,GS对EI的文献检中率平均为72%,其中英文期刊检中率为88%,非英语文献及会议录文献检中率较低,其中中文文献51%,其它语种文献占47%,EI会议文献主要是英文(上述48篇文献中除1篇中文外其余均为英文)GS的检中率为占56%。
对应学科的查询结果与此前文献报道的覆盖率结果有较大的差异,例如文献中土木工程(表1中学科2),文献报道其EI的覆盖率为100%。将本文EI检索结果得到的总数为34中未检中的9条标题在GS中进行全文检索,发现有5条没有查到,按文献覆盖率应该为85%;另外有2条显示中文标题,1条显示西班牙文标题,1条未显示年份,上述4篇文献尽管在GS中存在,但限于上述英文标题与相关年份查询结果不属上述检中之列,因而结果低于文献所指的覆盖率。
分析表明一些学科的数据较低,主要是由于所占的会议文献与非英文的文献比例较高所致。从表结果看尽管GS比EI的会议论文结果数多1倍(97∶47),但GS中给出的97篇会议论文中,有31篇来自其它文章的引文,带有文摘的会议论文主要来自少数专业协会的平台,如ieeexplore.ieee.org平台有12篇会议论文、link.aip.org平台有5篇,其余比较分散,一些数据来自图书。非英文的文献其显示的主要是本身语种的标题,其英文标题通常没有被GS标引,因而影响了其英文标题检索。上述EI中的中文文献,被GS检中的结果比较发现,5篇来自CSA平台(CSA.com),其余来自其它文献的英文题录引文,CSA平台提供了统一的英文界面包含了许多非英文文献的英文标题与文摘。对中文学术文献,国内万方文献平台(scholar.ilib.cn)及维普期刊平台(cqvip.com)提供了较完整的数据,GS也收录了这2个平台,但从检索结果看上述平台中的英文题录没有作为GS的题名标引,所以在上述查询中来自这2个平台的中文期刊没有被检出。
2.2 全文检索结果比较
对GS与EI的全文检索结果如下表5,GS结果按英文版中高级查询的全部学科及分类中工程学科分别查询,表中括号内为对应的EI检中文献数,数据记录仅限于英文题录对比。
相比EI检索,GS的给出全文检索结果数目相差具大,如果GS不经分类查询上述结果数为之比相差58倍(6976∶121),通过学科分类中工程学科查询的结果数约为全部查询结果的一半,相差28.6倍的数据量。GS文献结果数多不仅是在于来源数据广,也在于GS索引来自一些带有完整的文献全文而不仅仅是摘要与标题。表5显示全文查询的结果覆盖力并不高,对EI的平均检中率只有54%,其中英文的期刊文献,检中率为62%,会议论文检中率只有31%,比本文通过标题查询的结果数低。对比发现主要原因是EI标引中另有受控词(Controlled Terms)或自由词(Uncontrolled Terms)字段,这二字段中一些关键词在本身的文献标题与文摘并没有,如上述EI中有32篇文献的标题或文摘中不含“building”及相字根衍生词,当GS收录的仅是标题与文摘的标引时,这些文献就难以查出。
通过分年度、选GS前100条记录、及按分学科查询表明,上述EI中的文献基本上可以通过学科分类中查出,二者相差只有9条,而年度对比中前100条GS文献其EI平均检中率30%,相当于通过对应GS全部结果中检出EI结果数的67%,说明GS的结果排序与EI的结果有一定的相关性。
3 结 论
通过GS与EI的查询对比可以得出如下结论:
(1)GS数据中许多非英文文献本身带有英文的题录及摘要,GS在标引时一般没有把其英文题录作为题录标引,而只是在全文中可以查询到,部分能查询到英文标题的非英文文献主要来自英文文献引文及来自英文平台上的译文;
(2)标题名检索中,GS可以查出EI中88%的英文期刊文献及57%的会议文献。GS标题检索时需要在查询窗口人工输入相关的派生词才能满意地查询到完整的结果,例如通常情况下名词关键词要考虑其单复数;
(3)EI有自己独立的受控词或自由词字段,其中的一些关键词不同于文献本身标题及文摘的词,全文查询时影响了GS对EI中的文献检中率;
(4)GS可以部分代替EI进行文献查询,但相比二者更多的是具有互补性。GS数据来源广、免费检索,但实际结果显示具有不确定性;EI来自各工程学科的核心文献,标引数据严格规范,检索功能强大,检索结果具有权威性,但文献数据收录相对狭窄。读者实际使用时可考虑在EI检索的基础上,进一步进行GS查询,扩大文献范围。
参考文献
[1]朱佳鸣.Google Scholar Beta检索性能的初步分析[J].图书情报工作,2005,49(12):115,11.
[2]陈家翠,谷玉荣.Google学术搜索检索性能的分析及评价[J].情报理论与实践,2007,30(5):74-78.
[3]Kayvan Kousha and Mike Thelwall,Google Scholar Citations and Google Web/Url Citations:A Multi-discipline Exploratory Analysis,Journal of the American Society for Information Science and Technology,2007,58(7):1055-1065.
[4]夏旭.基于Google学术搜索的引文检索研究[J].情报理论与实践,2006,29(6):697-701.
[5]John J.Meier and Thomas W.Conkling,Google Scholars Coverage of the Engineering Literature:An Empirical Study,The Journal of Academic Librarianship,2008,34(3):196-201.