APP下载

学术搜索引擎的现状与展望

2019-04-22顾恒轩杨青飏

卷宗 2019年10期
关键词:用户

顾恒轩 杨青飏

摘 要:随着学术资源的大规模数字化与爆炸式增长,学术搜索引擎的价值已经渐渐体现。但学术搜索引擎的更新换代并未与其用户数量的激增相对应。学术搜索引擎用户查询意图分类体系不明确;PC端学术搜索引擎使用不便捷;学术搜索引擎未充分使用用户个人档案等问题在阻碍学术搜索引擎的发展。本文重点介绍了学术搜索引擎的研究与应用现状,并针对目前的不足提出未来展望。

关键词:学术搜索引擎;移动化;用户

1 引言

随着学术资源的大规模数字化与爆炸式增长,学术搜索引擎的价值已经渐渐体现。所谓学术搜索引擎,是指专门搜索学术资源的,具备简单搜索框的搜索引擎。相较于具有跨库检索功能的学术数据库而言,学术搜索引擎不需要使用者进行人工选择数据库或文章特征,操作简单。相较于综合类搜索引擎而言,学术搜索引擎在搜索对象特征、用户行为特征、用户查询式特征上都与之不同,因此二者不能混为一谈。在实践操作中,由于学术研究者的时间与检索技术水平有限,因此需要使用学术搜索引擎来降低学术信息搜寻成本,提高自己的工作和学习效率。实际上,越来越多的学者和公司已经意识到了这一点,构建和上线了学术搜索引擎,如Google Scholar, Microsoft Academic,Aminer等。且各大公司和机构在根据学术搜索引擎的上线效果不断尝试着优化,如:微软学术搜索在2012年由于检索效果不佳而下线,直到2017年下旬,经过改善的“Microsoft Academic”才重新上线;美国艾伦人工智能研究所也于2016年推出了使用深度学习技术进行结果呈现优化的学术搜索引擎Semantic Scholar等。这也印证了学术搜索引擎具备极高的使用价值。

2 学术搜索引擎现状

由于目前关于学术搜索引擎理论层面的研究数量太少,且仅有的理论研究也不全面,因此本文从几个常用、且有特点的学术搜索引擎出发介绍学术搜索引擎的研究现状

目前比较常用的学术搜索引擎有Google于2004年推出的“Google Scholar”,Microsoft于2017年上线的“Microsoft Academic”,中文学术搜索引擎“百度学术”等。后文将对Google Scholar,Microsoft Academic,百度学术以及基于深度学习的学术搜素引擎Semantic Scholar的基本功能和特点做简单的介绍。

Google Scholar是较早推出的一款学术搜索引擎,支持多种语言检索。Google未公开发布其数据来源,但一般认为其文献信息来源包括:学术性商业数据库;出版社网站和来自“.gov”,“.org”,“.edu”的信息,即政府、社会机构和高校网站的信息。Google Scholar的文献检索查全率非常高,是Microsoft Academic,百度学术等学术搜索引擎的数倍至数十倍。基于其庞大的文献资源,它为用户推出了个性化功能:引文分析和个人学术管理。用户可以通过文献记录的锚文本查看该文献的引文列表,作为判断该文献影响力的一个依据;也可以使用个人学术管理功能,知晓自己文献的引用情况,管理自己的文献,计算自己的学术影响力指数等。

Microsoft Academic是微软公司推出的基于语义的学术搜索引擎,是为数不多的一款实现按领域检索的学术搜索引擎,包括了15个领域,每个领域包含若干学科方向。它是上一个版本“Microsoft Academic Search”优化后的成果。与Google Scholar类似,Microsoft Academic也为用户建立了个人档案。以个人档案为基础,Microsoft Academic提供了可视化服务,个性化搜索等功能 。用户可以查看学术地图、作者关系图、引文关系图等。但由于Microsoft Academic未完全解决“重复文献”“重复作者”的问题,因此关系图的准确性还有待提升。值得一提的是,上一个版本的Microsoft Academic Search曾经通过Windows Phone Client推出过移动服务功能,用户可以使用手机进行学术文献检索。

百度学术作为目前国内代表性的学术搜索引擎,在中文文献检索领域处于世界领先的地位。其UI设计与功能设计上很大程度借鉴了Google Scholar的思路,为用户提供了个人学术管理和可视化功能,包括研究热点分析可视化和学术成果可视化等。

Semantic Scholar是2016年推出的基于深度学习的学术搜索引擎。尽管目前它仅包含computer science和medicine兩个学科,且相较于成熟的学术搜索引擎,其在检索模式上更为单一,但它提出了一套新的文献影响力评价指标,也为学术搜索引擎的结果呈现提供了一种新思路。学术搜索引擎使用者渴望用尽可能少的检索次数找到符合自己需求的学术文献,但仅根据被引量和下载量这两个指标难以全面地衡量一篇学术论文在某领域的重要性。鉴于此,Semantic Scholar使用深度学习技术为学术文献设计了如高影响力引用次数,引用加速度,年度引用趋势图等文献、作者评价指标,并运用深度学习技术优化推荐排序,旨在用尽可能少的检索次数检索到更符合其信息需求的学术文献。

3 现有学术搜索引擎的不足

尽管现有的学术搜索引擎正不断地努力优化改良,但它们依旧存在几个共有的问题:

1)学术搜索引擎用户查询意图分类体系不明确。对于搜索引擎而言,查询意图分类体系可以指导工程师更好地设计整个搜索引擎的检索策略。在综合性搜索引擎研究中,当下较为权威的搜索引擎用户查询意图分类体系有Broder和Rose提出的“信息类、导航类、事务类”分类体系。可它的分类对象是所有电子资源,而非学术资源,因此并不合适。在学术信息检索领域尚未出现合适的、学界公认的学术查询意图分类体系,这一定程度上制约了学术搜索引擎相关研究的进展,导致学术查询意图识别以及学术检索的突破发展缓慢。

2)PC端学术搜索引擎使用不便捷。近些年,智能手机的高速普及带动了移动设备用户数量的增加,但学术搜索引擎的移动化却进展缓慢。在第一代“Microsoft academic search”推出时,曾为Windows Phone手机提供了移动端学术信息检索。可随着Microsoft academic search的下架,移动端学术搜索引擎也随之下架。因为学术搜索引擎具备“一站式”的优势,绝大多数情况只需要一个搜索框即可完成检索,并不需要如学术数据库的诸多选择框,很适合在移动设备上操作,所以如果学术搜索引擎实现移动化,那将会提高学者的学术搜索便捷度,并同时增加学术搜索引擎的普及率和关注度。

3)学术搜索引擎未充分使用用户个人档案。用户个人档案包括了用户个人基本信息、学术信息、检索记录等一系列可以反映用户特征和用户行为的数据。然而大多数建立个人档案的学术搜索引擎都只对用户的学术信息进行开发利用,推出了引文分析、学术管理等功能,并未合理利用检索记录优化检索结果呈现。根据Verberne等学者得出的研究结论:结合用户的检索记录可以一定程度上优化学术检索的结果。但目前尚未出现合理利用个人档案中的检索记录,为用户提供个性化检索的学术搜索引擎。

4 展望

作者认为,对于学术搜索引擎而言,接下来的研究重点应主要包括两部分:学术搜索引擎的移动化研究和学术搜索引擎理论的研究。前者包括移动化学术搜索引擎的设计,用户行为研究,用户心理研究,检索结果呈现等;而后者主要包括学术搜索引擎用户查询意图分类,查询意图识别,查询策略及算法优化等。移动化,个性化,精准化是学术搜索引擎发展的关键词。

参考文献

[1]赵蓉英,陈烨.学术搜索引擎Google Scholar和Microsoft Academic Search的比较研究[J].情报科学,2014,32(02):3-6,15.

[2]Verberne S, Sappelli M, S?rensen D R, et al. Personalization in Professional Academic Search[C]// Proceedings of the Integrating IR Technologies for Professional Search Workshop. 2013:1–8.

[3]Khabsa M, Wu Z, Giles C L. Towards Better Understanding of Academic Search[C]// Proceedings of the 16th ACM/IEEE-CS on Joint Conference on Digital Libraries, 2016: 111-114.

[4]Li X, de Rijke M. Academic Search in Response to Major Scientific Events[C]//The 5th International Workshop on Bibliometric-enhanced Information Retrieval. 2017: 41-50.

[5]Li X, de Rijke M. Do Topic Shift and Query Reformulation Patterns Correlate in Academic Search?[C]//European Conference on Information Retrieval, 2017: 146-159.

[6]謝智敏,郭倩玲.基于深度学习的学术搜索引擎——Semantic Scholar[J].情报杂志,2017,36(08):175-182.

[7]WIKIPEDIA. Microsoft Academic Search[EB/OL].(2017-09-06)[2019-2-12]. https://en.wikipedia.org/wiki/Microsoft_Academic_Search#cite_note-Microsoft_Academic_Search_FAQ-1.

[8]Ortega J L, Aguillo I F. Microsoft Academic Search and Google Scholar Citations: Comparative Analysis of Author Profiles[J]. Journal of the Association for Information Science and Technology, 2014, 65(6): 1149-1156.

[9]刘敏.基于用户体验的微软学术搜索和百度学术搜索对比研究[J].情报探索,2018(07):55-63.

猜你喜欢

用户
雅阁国内用户交付突破300万辆
您拨打的用户已恋爱,请稍后再哭
关注用户
关注用户
两新党建新媒体用户与全网新媒体用户之间有何差别
关注用户
关注用户
挖掘用户需求尖端科技应用
Camera360:拍出5亿用户
100万用户