百度学术搜索与超星发现系统比较分析及评价
2016-08-23覃燕梅
覃燕梅
(广东技术师范学院图书馆,广东 广州 510665)
·应用研究·
百度学术搜索与超星发现系统比较分析及评价
覃燕梅
(广东技术师范学院图书馆,广东 广州 510665)
本文针对百度学术搜索提出的“高校图书馆计划”,致力于知识发现,连接用户与图书馆的信息服务的目标,通过引入超星发现系统进行比较分析,对百度学术搜索系统在收录数据、检索功能、检索结果排序、数据挖掘服务、题录引用与导出、全文获取途径等方面进行实证分析,考量百度学术搜索作为国内首个拥有亿级别索引量的互联网学术平台的中文学术资源搜索和服务能力。通过比较分析显示,百度学术搜索需借鉴超星发现系统进一步优化和完善,以期为国内学术平台研究、学术资源搜索平台的建设实践、性能评价等提供参考。
百度学术搜索;超星发现系统;比较分析;评价
百度是目前全球最大的中文搜索引擎,每天响应来自全球138个国家数十亿次的搜索请求,覆盖95%以上的中国网民。依托强大的搜索引擎技术优势,于2014年6月初,又正式推出了一项免费的学术文献搜索服务——百度学术搜索[1],收录中外文资源约2.5亿,成为国内首个拥有亿级别索引量的互联网学术平台。2015年6月3日,百度学术在2015高校图书馆发展论坛上,正式发布了“高校图书馆计划”,致力于知识发现,连接用户与图书馆的信息服务。
知识发现是以知识挖掘和数据分析为基础,通过现代技术手段将资源整合、知识发现、信息推送融为一体,实现知识价值再造[2]。近年来,国内关于知识发现系统的研究不断升温,各类型图书馆也相继引入国内外的各种“知识发现系统”。目前,国内基于文献资源数据库的知识发现系统主要有 “超星发现系统”、“中国学术搜索”、“智立方发现系统”以及“学知搜索”等[3]。
百度学术在“知识发现”方面做得如何?是否能够将互联网与图书馆信息服务深度整合,推动图书馆中文学术资源搜索和服务的变革?是否能如同Google Scholar一样,一跃成为图书馆读者进行学术资源搜索的第一入口?笔者尝试引入国内较著名的超星发现系统进行比较,对百度学术的收录数据情况、检索功能、检索结果排序、数据挖掘服务能力、题录引用与导出、全文获取途径等方面进行实证分析,以期为国内学术平台研究、学术资源搜索平台的建设实践、性能评价等提供参考。
1 收录数据
1.1 元数据总量
百度学术声称索引了6亿条元数据,其中期刊论文超过5亿条,会议文献超过3 700万条,学位论文超过3 000万[4]。由于系统不支持空检索,数据总量无从核实。
2013年,国内的超星公司推出了“超星发现”这一基于海量数据挖掘与分析的中文网络级资源发现系统[5],超星发现系统(以下简称“超星发现”)支持空检,可以空检出系统数据量约5.6亿条。其中期刊论文约2.8亿条,会议文献约2 000万余条,学位论文约621万条。
为了有较为直观的比较,笔者随机选择了“莫言”、“堆栈”、“Library”3个关键词,于2015年9月19日通过题名(标题)途径进行检索,并对结果进行比较。关键词抽查结果如表1所示:
表1 关键词抽查结果
虽然百度学术声称的的资源量要高于超星发现,但从关键词抽查结果的实际测试看,百度学术除期刊检索出的资源量要大于超星发现外,会议论文和学位论文检出的资源量并不都高于超星发现,甚至低于超星发现。
1.2 元数据来源及元数据类型
百度学术声称的数据获取途径有如下3种[6]:
(1)题录数据:来自于数据商合作、OAI(Open Archives Initiative)协议收割、搜索引擎收录。
(2)引文数据:OA(Open Access)集成。
(3)全文数据:来自于数据商合作、学术网站解析、PDF解析。
超星发现声称的元数据来源途径也有3种[7]:
(1)出版社、期刊社合作;
(2)图书馆数字化加工;
(3)网上采集。
参考产品宣传资料和实际系统,百度学术与超星发现包括的元数据类型如表2所示。
表2 元数据类型
注1:在产品资料中宣称有,但实际系统中未见。
百度学术与超星发现都有3种元数据来源途径,均能够较好的保证数据来源。从检索类型上来说,除了期刊、学位论文和会议论文外,超星发现系统还有标准、专利、科技成果、视频等其他元数据类型,具备较为完善的文献类型,这与超星发现基于超星公司旗下的电子图书及视频系统的资源量是分不开的,可以帮助用户获取除了常用的期刊、图书、学位论文之外的资源信息。
2 检索功能对比
百度学术与超星发现均提供了较为强大的检索功能,检索方式包括基本检索、高级检索、分面检索及智能检索等。如表3所示。
表3 检索功能
2.1 基本检索与二次检索
百度学术与超星发现的简单检索功能很相似,均是通过单一检索框,对篇名、作者、出处、主题词、摘要等字段进行统一检索。
百度学术未提供二次检索功能。超星发现支持二次检索,效果类似于将两个关键词用空格连接。即检索A,二次检索B,类似于检索“A(空格)B”。
2.2 高级检索与专业检索
百度学术的高级检索功能较为简单。一是区分“全部检索词”和“精确检索词”,使用“全部检索词”时,系统会对检索词做自动分词处理,并用逻辑运算符and(与)连接;而使用“精确检索词”时,系统不对检索词做自动分词处理。二是可以限定标题字段、作者、出版物、发表时间,所有选项用逻辑运算符and(与)连接。超星发现的高级检索功能非常强大,支持6种字段,非与或3种逻辑运算符,“模糊”和“精确”两种匹配模式,1~5个组合条件,还可以限定语种、文献类型、ISSN/ISBN、年份等。
百度学术未提供专业检索功能。而超星发现支持专业检索,专业检索者可以通过类似(QK(T=移动图书馆|K=系统)|NP(T=移动图书馆|K=掌上图书馆))*(2000 2.3 分面检索 2.3.1 内容(文献)类型 百度学术目前提供了期刊、会议、学位3个文献类型的分面筛选,同一时间只能选择查看某一类型文献或者全部文献。 超星发现提供了基于图书、期刊等12个内容类型的分面筛选,支持各种类型的多项选择。 2.3.2 学科(领域) 百度学术和超星发现均提供了基于学科(领域)的分面筛选。但是,超星发现更为严格的参照了《中国图书馆图书分类法》的分类体系和标准,同时支持二级分类。 2.3.3 核心(重要)期刊 百度学术目前提供了SCI、SSCI、CSSCI等8种核心期刊筛选类别,同一时间只能选择查看某一类别文献或者全部文献。 超星发现提供了SCI、EI、CSSCI等6种重要期刊筛选类别,类别较少,但是支持各种类别的多项选择。 2.3.4 时间(年份) 百度学术将检索结果按照近三年(2015年、2014年、2013年)进行了汇聚,同时支持自定义起至年份查询,同一时间只能选择查看某一年的文献或者全部文献。 超星发现将检索结果按照9个类进行了汇聚,更为详细,支持自定义起至年份查询,支持各种时间段的多项选择。 2.3.5 其它分面 超星发现除了上述4种分面功能外,还提供了作者、作者机构、关键词、刊种、地区、基金、精炼检索等更多分面操作。 2.4 智能检索 百度学术支持中英文跨语言检索,通过简单点击,可以在中英文检索词之间切换,能够较好满足研究者对国内外研究资料的搜索。还可以智能识别刊名,例如当检索“图书馆论坛时”,系统会自动显示期刊的相关信息和图表(如图1所示)。 图1 智能识别期刊 超星发现支持部分学名、别名与俗称的智能检索,例如检索“土豆”时,系统会同时检索马铃薯。支持英文单复数的智能检索,例如检索“library”,系统同时会检索“libraries”。还支持简称与全称的智能检索,例如检索“北大”,系统会同时检索“北京大学”。但是存在一些误差,例如笔者用“人大”检索,系统会同时检索“中国人民大学”,而不是“人民代表大会”。超星发现还提供了作者智能识别功能,当用户检索“莫言”时,系统会自动提示“只检索作者”,方便用户对检索途径进行限定。 可见,从检索方式上来说,百度学术和超星发现都提供了基本检索、高级检索、分面检索及智能检索。此外,超星发现还提供二次检索和专业检索。在基本检索、高级检索、分面检索及智能检索性能对比上看,超星发现提供了更多、更加全面的检索性能。 百度学术与超星发现均未公布各自的排序算法。但是,通过实际测试,可以观测到部分计算规则。百度学术默认是以文献的被引量排序,并为用户提供了相关性、被引量、时间降序3种排序方式选择。超星发现的默认排序算法较为复杂,似乎综合考虑了文献类型、被引量、出版时间等,并为用户提供了7种可选择的排序方式,如:馆藏优先、学术性、相关性、出版日期等。 发现系统由于具有海量的资源,用户在使用时一般返回的结果均较多。一个优秀的排序算法便极为重要,它可以保证用户在检索结果的第一页或前几页找到自己所希望查找的文献,极大提升用户的检索效率和使用体验。例如,谷歌的检索结果排序算法便是其核心技术之一,是其核心机密。从检索结果排序来说,超星发现系统提供了较完善的排序方式。 发现系统不仅需要提供强大的检索功能,还需要进行数据挖掘和聚合,建立知识单元之间的关联,通过各种预置模型,帮助用户快速形成对相关知识和信息的结构性认识。 4.1 相关搜索 百度学术充分运用搜索引擎的算法,通过数据挖掘,在每一次搜索之后给出了相关搜索建议,包括相关热搜词、相关期刊、相关作者、相关文章等。 超星发现支持知识的关联图谱。可视化图谱中包含知识与知识、知识与人、知识与机构的关联,并按相关性从近至远分布,同时在右侧提供了与检索主题相关的文献(如图2所示)。 图2 超星发现关联图 4.2 趋势研究 超星发现对检索词在海量的数据中进行深度分析,生成一个以时间为横轴,以发文量为纵轴的涵盖图书、期刊、学位论文、会议论文、报纸等常用文献类型的综合对比趋势曲线图(如图3所示)。 可见,在相关搜索方面,与百度学术在每一次搜索之后仅提供搜索建议相比,超星发现系统提供了知识、人、机构三者间的关联图谱,可以更加直观的对用户的知识点进行很好的扩展。从研究趋势来说,超星发现系统提供了各个文献类型全面的趋势研究分析,并可生成趋势曲线图,可视化更强。 4.3 多主题对比 超星发现支持多主题对比,通过用户输入对比主题(最多可扩充到5个),同时提供了完善的对比字段类型。因而,从多主题对比来说,超星发现系统可提供多个主题检索结果的对比,并且对比结果同样涵盖图书、期刊、学位论文、会议论文等多种文献类型。 4.4 参考引证分析 百度学术中检索得到一条资源后,可以查看其对应的引证文献,包括期刊、学位论文、会议论文。 超星发现功能更为强大,除了支持期刊、图书、学位论文、会议论文之间的立体引用分析,还可以查看其共引以及同被引文献,并且可以显示出其参考引证的关系图(如图4所示)。 从参考引证来说,超星发现系统拥有目前唯一的图书参考引证分析,并且还支持期刊、学位论文、会议论文等文献类型的参考引证服务,可以很好的了解一篇文章的同引以及共被引等信息。 图3 超星发现文献趋势曲线 图4 超星发现引证分析 百度学术支持单篇文献的引用,支持多种格式(如图5所示)。 图5 百度学术题录引用 超星发现的题录导出可以选择多篇文献和不同的字段,可以导出多种格式,并且可以对已保存的题录进行二次修改。即,可将自己不想导出的题录进行删除操作,使导出题录变得更加灵活。 从题录导出来说,两个系统均支持多种格式的题录导出,但超星发现系统可以更加自由灵活的对已保存的题录进行修改,以及对导出字段和导出类型的选择,超星发现系统的题录导出可以说更加的灵活、便捷。 百度学术提供维普、万方、知网的全文下载链接,同时提供百度文库、道客巴巴、豆丁网等下载链接和文献互助。 超星发现在“获得途径”处提供万方、知网、维普等电子资源供应商名称,点链接直接进入相应的数据库文摘页面进行在线阅读全文或下载,提供“邮箱接收全文”的文献传递获取方式。 在全文获取上,百度学术提供百度文库、道客巴巴、豆丁网以及文献互助等更多的获取途径,超星发现相对获取途径较少。 作为一款免费的学术搜索引擎,百度学术以其丰富的资源量和中英文的跨语言检索功能,极大的方便了学者对学术资源的搜索。而针对其提出的“高校图书馆计划”,致力于知识发现,连接用户与图书馆的信息服务目标,通过与国内较著名的超星发现系统在资源量、资源来源及资源类型、检索方式、检索结果排序、数据挖掘服务、题录导出及全文获取途径等方面的对比分析显示,百度学术搜索在以上方面还存在一些有待提高和改进的地方,尚需以超星发现系统为借鉴,进一步的优化和完善。 [1]谢奇,关晶,杨错.后GoogleScholar时代新的学术利器——百度学术搜索[J].农业图书情报学刊,2015,(6):110-114. [2]刘江玲.面向大数据的知识发现系统研究[J].情报科学,2014,(3):90-92,101. [3]王悦辰.国内四大中文知识发现系统比较分析[J].图书馆工作与研究,2015,(9):42-45. [4]百度学术.百度学术与图书馆信息服务整合[R]. [5]洪坚.网络级资源发现系统与图书馆信息服务——基于超星中文发现系统的思考[J].图书馆工作与研究,2014,(6):42-45. [6]学术中国.百度学术:大数据时代的图书馆变革[EB/OL].http:∥www.thebigdata.cn/YeJieDongTai/14277.html,2015-10-11. [7]北京超星公司——产品部.超星发现系统介绍[EB/OL].http:∥www.baidu.com/link url=gRSM9EthsE2wJKQkxS37lAuB8Uv 97CiYXO4tjNU6CAJmDAgu4s4AAFUj24IeqSGVsooBqAPKS8PXG XypJ41XxDZdlcNtTmMUkzaFZZWiK0A62dJQ34mKZdBF0N6kCv&wd=&eqid=c487aeec000034cf0000000556487659,2015-10-12. (本文责任编辑:孙国雷) Comparative Analysis and Evaluation of Baidu Academic Search System and Superstar Discovery System Qin Yanmei (Library,Guangdong Polytechnic Normal University,Guangzhou 510665,China) Baidu Academic Search System has proposed his“University Library Program”,wants to be devoted to knowledge discovery,connecting users and the information service of the library.Aiming at this purpose,the artcle comparatively analysed Baidu Academic Search System and Superstar Discovery System at the collection of data,retrieval function comparison,the sort of retrieval results,data mining service,bibliography citing and exporting,approach of full text acquisition etc,considering and discussing the Chinese resource search and service capability of Baidu Academic Search System as a billion level index.Comparative analysis displayed that Baidu Academic Search System need to further optimizing and improving by drawing lessons from Superstar Discovery System.And the paper expected to provide reference to the research of domestic academic platform,and Academic resource search platform construction,and Performance evaluation. Baidu Academic Search;SuperStar Discovery System;comparative and analysis;evaluation 2015-12-01 广东省软科学研究计划项目“网络环境下青少年信息素质能力提升系列科普”(项目编号:2015A070708012)、广州市科技局项目“‘全民阅读’环境下青少年移动阅读与学习科普教育研究”成果之一。 覃燕梅(1977-),女,办公室主任,副研究馆员,研究方向:信息咨询服务、信息素质教育和数字图书馆建设,发表论文10余篇。 10.3969/j.issn.1008-0821.2016.03.008 G250.76 A 1008-0821(2016)03-0048-053 检索结果排序
4 数据挖掘服务
5 题录引用与导出
6 全文获取比较
7 结 语