谷歌学术搜索的缺陷
2014-04-03林睿
林睿
〔摘 要〕Google Scholar是一种重要的检索工具。作者从应用角度中抽样统计并分析了这种工具的一些不足,包括对谷歌学术的自动检索式扩展,专利检索,引用功能3个方面,在统计结果分析中可能对用户产生误导的地方。
〔关键词〕Google学术搜索;缺陷;文献;检索式;专利;引用
DOI:10.3969/j.issn.1008-0821.2014.02.022
〔中图分类号〕G250.73 〔文献标识码〕B 〔文章编号〕1008-0821(2014)02-0103-04
谷歌学术搜索(Google Scholar),简称GS,是一种覆盖范围全面、功能强大、使用简便、快捷并且免费的互联网学术资源整合利用工具。它不仅适合一般性搜索,而且能满足严谨的学术搜索重任。GS以期刊论文为主,其搜索范围覆盖了几乎所有知识领域的高质量的学术研究资料。面向中文用户的中文版“Google学术搜索”将搜索扩大至中文学术文献领域。其中文版界面(http:∥scholar.google.com.hk)使中国用户能够更方便地搜索全球的学术科研信息。相比CNKI、万方、维普、Science Direct等数据库资源,它的搜索范围更广泛,不论是任何学科或者任何的期刊,都可以进行直接搜索,提供一种便捷的全免费的服务[1]。因此,近年来,谷歌学术搜索成为广大科技工作者的常用的重要检索工具,也成为一些文献情报统计分析中常用的工具[1]。但随之其广泛应用,其缺点也被逐步发现和提出,一些不足和缺陷正在被逐步改正;但是随着GS功能的拓展,仍不断出现有新的缺陷[1]。作者近年在对谷歌学术搜索的应用中,发现了一些至今仍然存在的缺陷,包括自动检索式扩展、专利及引用功能的缺陷,这些不足不仅可能造成一些用户的理解错误,也有可能影响文献情报统计的准确性;为此,作者随机抽样了100名作者,分别应用GS的直接检索、作者检索式检索、专利及引用功能检索,并参照国家知识产权局的专利检索结果(数值均以平均值±标准差表示),应用SPSS 16.0软件分别进行配对t检验,以进一步分析其功能上的缺陷(表1)。表1 应用GS的不同功能和检索式进行检索的抽样结果
当检索范围扩大的时候,反而出现了检索数目下降的情况,而这个事实上并不应该出现;同样的词条,国家知识产权局的专利检索结果是40个相关的结果。同样问题出现在以人名作为检索词的情况,例如以“付贤智”为检索词,出现的结果是1 210条,而当勾选“包括专利”的检索中,出现的结果仍然也是1 210条,当检索范围扩大的时候,检索数目并没有增加,是不是意味着“付贤智”并没有任何专利呢?我们在国家知识产权局的检索中,可以检索到以“付贤智”为发明人的国内专利有42条。目前常用的专利检索网站有:中国国家知识产权局网站,中国专利信息网,Soopat专利搜索,Pantentics等,其中中国国家知识产权局网站等网站提供了免费的专利检索服务。提供免费服务的谷歌学术搜索也在其中增加了这一功能,但是我们从检索结果中看到,不论是以名称还是作者,谷歌学术搜索的“包括专利”的计数结果都有错误;那么这个错误是不是仅仅是因为计数结果的模糊所致的呢?我们对一些拥有专利的作者名进行进一步检索,发现在结果中,并没有列出包括其专利的检索结果。这种“专利”检索功能常常是完全失效的。目前为止,国内也有许多学者对专利检索系统进行了比较,而尚没有对谷歌的专利检索功能的系统的分析[6-7];但由于GS的检索策略承袭了普通谷歌检索中应用的PageRank算法,即主要看某项成果在其他文献中被引用的情况,同时还将文章全文、作者和出版物等因素纳入算法,我们推测其专利检索结果也是同样运用上述算法,同时由于没有诸如Soopat等记录完整的专利数据库作为支持,故而导致其“专利”检索功能常常是完全失效。所以我们认为目前的谷歌学术搜索不能成为专利检索的平台,甚至也不具备参考的价值。
3 引用缺陷与专利检索功能类似,同样的问题出现在GS界面中“包含引用”这一选项功能上,虽然没有像“包括专利”功能出现的例如条目数不变,甚至条目数下降的局面。但是在引用功能上,仍存有让用户产生误读的地方。
3.1 抽样分析3.2 个例分析同样,以检索式“作者:付贤智”为例:在选择“包含引用”的功能下,搜索条目由201条增加到231条。对于一些非专业的检索者就会容易产生一种错觉——从增加的数目上估计出引用作者的全部文章大约有30条,但从实际上看,引用的情况远远大于30,其一篇文章的被他人引用次数就超过了80次。那么这多出的30条是什么呢?我们逐条对照发现其结果与“引用”并无关联,仍然是一些关于作者文献的搜索结果。GS可以说是一个大型的引文数据库,其PageRank算法使其某个单条文献的被引用分析具有比较高的意义,在单条的搜索结果中,每一条记录都有关于其被引用次数的统计及其详细情况,可以了解其结果在其他文献中被引用的情况。但是对于一个从某个检索词检出的所有检索结果中分析其有关的引用情况,例如用上述方法试图分析某个学者发表的所有成果的整体被引情况,结果会有非常大的偏差。
4 改进中的谷歌学术谷歌学术在设计之初,并没有像其他检索数据库一样,对文献进行严谨的逐条入库分类并提供搜索服务;而是在谷歌搜索引擎的基础上,在其“爬虫”程序“抓取”了大量含有文献资料的数据库的基础上,对其算法进行深入开发后进一步衍生出的一种类别搜索工具[1]。从其诞生之初,人们就发现其缺陷不断。但是随着技术的逐渐进步和完善,这些缺陷也得到不断的改正。Jacso在2009年时曾对当时的谷歌学术测试版(Google Scholar beta)的缺陷做出了说明,当时由于解析器方法的缺陷,谷歌学术存在着严重的数据夸大,“影子作者”(Ghost authors)现象,识别错误等问题[1]。但是随着搜索方法的改进,谷歌学术测试版(Google Scholar beta)也已经下线,取而代之的是其正式版(Google Scholar),在这一版本中,这些问题得到了明显的改进。我们对当时Jacso提到的几个问题进行了测试。例如,当输入“author:Password”搜索时,不再出现将大量的网页中存在的密码输入提示当成作者名字的现象,搜索结果也从原来的910 000条变成1条。而对“author:subscribe”搜索时,也不再出现有将subscribe模糊解析为“SOR RENEW”、”STO AJOG”等并不相干的词条进行搜索。同时,在对一个作者名进行搜索时,大致和作者的论文情况比较吻合,不再出现之前常常出现的数十倍甚至数千倍的无关的搜索结果,“影子作者”现象大致得到了改正。因此,我们可以期待,在未来的谷歌学术中,上述问题有可能得到进一步的改进;同时,我们也应该注意到,由于谷歌学术有可能对算法进一步改进,利用谷歌学术进行相应的数据的统计及查询时,特别是在不同时期,或者对既往文献进行分析的时候,也存在着因为搜索算法的不同,而发生数据来源不同的差别,从而造成在文献分析中发生的方法错误的风险。endprint
5 结 语谷歌学术搜索是一种专业性强、广泛使用的一种简便的互联网学术文献搜索工具。自谷歌学术搜索从Beta试用版到如今的正式版,历经多次更新,其功能越发完善,而其不足也在逐步地得到改进,从而使得更加易于使用。但是目前仍有些方面有待进一步提高和完善。我们在此从基础的应用角度对目前的一些不足做出了表述,希望目前的用户避免在使用这个工具中发生失误,或者对结果产生误读,对于利用谷歌学术进行文献及情报统计分析上,由于谷歌学术搜索工具自身在不断更新,我们建议对再分析的过程予以注意,避免增加系统性误差。而对检索结果的计数数值上,由于其存在上述自动检索式扩展、专利、引用功能等方面的缺陷,因为其常常存在着结果的明显偏差,并不适合严谨的分析。对于普通用户而言,由于谷歌的自动检索式扩展仍然存在着缺陷,仍然应该要在检索式运用等方面加以注意,尽可能使用表述精确的检索式,以避免检索结果的错误;而对于专利及引用的相关的检索需求,不建议通过谷歌学术搜索进行检索。
参考文献
[1]关于Google学术[EB/OL].http:∥scholar.google.com.hk/intl/zh-CN/scholar/about.html,2013-08-04.
[2]欧荣,叶孟良,赵文龙.Google学术搜索引文统计功能测评[J].情报探索,2007,(4):67-68.
[3]Peter Jacso.As we may search-Comparison of major features of the Web of Science,Scopus,and Google Scholar citation-based and citation-enhanced databases[J].Current Science,2005,(84):15-20.
[4]Peter Jacso.Newswire Analysis:Google Scholars Ghost Authors,Lost Authors,and Other Problems[J].Library Journal,2009,(9):45-50.
[5]张贝妮,王军.数字图书馆中的检索式扩展方法研究[J].计算机应用研究,2006,(4):71-73.
[6]胡晓,魏雪梅.我国网络专利检索平台分析和评价[J].科技管理研究,2010,(14):75-77.
[7]李湖生,康美娟.中外四大官方网站免费专利检索系统之比较研究[J].图书馆理论与实践,2008,(1):16-18.
(本文责任编辑:孙国雷)endprint
5 结 语谷歌学术搜索是一种专业性强、广泛使用的一种简便的互联网学术文献搜索工具。自谷歌学术搜索从Beta试用版到如今的正式版,历经多次更新,其功能越发完善,而其不足也在逐步地得到改进,从而使得更加易于使用。但是目前仍有些方面有待进一步提高和完善。我们在此从基础的应用角度对目前的一些不足做出了表述,希望目前的用户避免在使用这个工具中发生失误,或者对结果产生误读,对于利用谷歌学术进行文献及情报统计分析上,由于谷歌学术搜索工具自身在不断更新,我们建议对再分析的过程予以注意,避免增加系统性误差。而对检索结果的计数数值上,由于其存在上述自动检索式扩展、专利、引用功能等方面的缺陷,因为其常常存在着结果的明显偏差,并不适合严谨的分析。对于普通用户而言,由于谷歌的自动检索式扩展仍然存在着缺陷,仍然应该要在检索式运用等方面加以注意,尽可能使用表述精确的检索式,以避免检索结果的错误;而对于专利及引用的相关的检索需求,不建议通过谷歌学术搜索进行检索。
参考文献
[1]关于Google学术[EB/OL].http:∥scholar.google.com.hk/intl/zh-CN/scholar/about.html,2013-08-04.
[2]欧荣,叶孟良,赵文龙.Google学术搜索引文统计功能测评[J].情报探索,2007,(4):67-68.
[3]Peter Jacso.As we may search-Comparison of major features of the Web of Science,Scopus,and Google Scholar citation-based and citation-enhanced databases[J].Current Science,2005,(84):15-20.
[4]Peter Jacso.Newswire Analysis:Google Scholars Ghost Authors,Lost Authors,and Other Problems[J].Library Journal,2009,(9):45-50.
[5]张贝妮,王军.数字图书馆中的检索式扩展方法研究[J].计算机应用研究,2006,(4):71-73.
[6]胡晓,魏雪梅.我国网络专利检索平台分析和评价[J].科技管理研究,2010,(14):75-77.
[7]李湖生,康美娟.中外四大官方网站免费专利检索系统之比较研究[J].图书馆理论与实践,2008,(1):16-18.
(本文责任编辑:孙国雷)endprint
5 结 语谷歌学术搜索是一种专业性强、广泛使用的一种简便的互联网学术文献搜索工具。自谷歌学术搜索从Beta试用版到如今的正式版,历经多次更新,其功能越发完善,而其不足也在逐步地得到改进,从而使得更加易于使用。但是目前仍有些方面有待进一步提高和完善。我们在此从基础的应用角度对目前的一些不足做出了表述,希望目前的用户避免在使用这个工具中发生失误,或者对结果产生误读,对于利用谷歌学术进行文献及情报统计分析上,由于谷歌学术搜索工具自身在不断更新,我们建议对再分析的过程予以注意,避免增加系统性误差。而对检索结果的计数数值上,由于其存在上述自动检索式扩展、专利、引用功能等方面的缺陷,因为其常常存在着结果的明显偏差,并不适合严谨的分析。对于普通用户而言,由于谷歌的自动检索式扩展仍然存在着缺陷,仍然应该要在检索式运用等方面加以注意,尽可能使用表述精确的检索式,以避免检索结果的错误;而对于专利及引用的相关的检索需求,不建议通过谷歌学术搜索进行检索。
参考文献
[1]关于Google学术[EB/OL].http:∥scholar.google.com.hk/intl/zh-CN/scholar/about.html,2013-08-04.
[2]欧荣,叶孟良,赵文龙.Google学术搜索引文统计功能测评[J].情报探索,2007,(4):67-68.
[3]Peter Jacso.As we may search-Comparison of major features of the Web of Science,Scopus,and Google Scholar citation-based and citation-enhanced databases[J].Current Science,2005,(84):15-20.
[4]Peter Jacso.Newswire Analysis:Google Scholars Ghost Authors,Lost Authors,and Other Problems[J].Library Journal,2009,(9):45-50.
[5]张贝妮,王军.数字图书馆中的检索式扩展方法研究[J].计算机应用研究,2006,(4):71-73.
[6]胡晓,魏雪梅.我国网络专利检索平台分析和评价[J].科技管理研究,2010,(14):75-77.
[7]李湖生,康美娟.中外四大官方网站免费专利检索系统之比较研究[J].图书馆理论与实践,2008,(1):16-18.
(本文责任编辑:孙国雷)endprint