APP下载

一种简单高效的科研兴趣自动发现与多视角检索方法

2017-03-31赵华张玉强程成左健健

软件导刊 2016年8期
关键词:科研人员检索可视化

赵华+张玉强+程成+左健健

摘 要:发现科研人员的科研兴趣并实现对科研兴趣的多视角高效检索在推荐评审专家、构建虚拟科研团队、指导学生选择导师等方面具有重要意义。为了能自动发现科研人员的科研兴趣并进行多视角的检索与展示,首先基于网络爬虫爬取了关于某一学科的海量文献,抽取元数据,建立关键词共现矩阵,然后基于复杂网络GN聚类算法实现科研兴趣的自动发现,最后实现了一个科研兴趣自动发现与多视角检索原型系统,提供科研兴趣的多视角检索。该系统可以满足不同用户的多方面检索需求,以更好地为用户提供服务。

关键词关键词:科研兴趣发现;多视角检索;可视化;关键词聚类;关联矩阵

DOIDOI:10.11907/rjdk.161441

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2016)008-0134-03

0 引言

科研工作已经成为科研院所、高校等工作人员日常开展的重要工作之一,是高校教师职业生涯中的一个重要组成部分。随着科研工作的逐步深入,学科分类越来越细致,及时发现和跟踪科研人员的科研兴趣在推荐评审专家、构建虚拟科研团队、指导学生选择导师等方面都具有重要意义。然而,一方面随着科学技术的不断发展,科研人员的研究方向也不断演化且方向分类更加细化,这给评审专家推荐、虚拟团队构建等工作造成了很大困难;另一方面,面对海量科研信息,如何能够快速检索到用户真正感兴趣的内容,也是近年来科研人员关注的一个热点问题。目前,虽然大多数科研期刊数据库都建立了自己的搜索引擎,以方便用户检索相应的科研信息,但是目前的检索结果大多只是按照文献发表的先后顺序进行排序,结果比较单一,无法帮助科研人员从多个视角对比分析所需的科研信息。

为此,本文结合内容分析、数据挖掘、个性化检索等相关技术,研究如何在科研大数据背景下准确地发现科研人员的科研兴趣并进行多视角检索的方法,并实现了一个科研兴趣自动发现与多视角展示系统原型。

1 相关研究工作

发现用户兴趣是个性化推荐等研究领域的基础工作,即根据用户的兴趣实现个性化推荐,所以发现并对用户兴趣进行建模是个性化推荐领域的核心问题和研究热点,并已经取得了一系列相关的研究成果。邹博伟等[1]为了识别出用户的新兴趣,改进了TextTiling方法以使系统可以自动选择合适的动态阈值,并将其在个性化检索系统中进行了测试,取得了较好效果;白丽君、张永奎[2]提出基于智能Agent的用户兴趣发现与更新,通过监视跟踪用户的浏览行为和操作,判断用户对哪些文献资料感兴趣,对该文献提取兴趣特征词和内容关键词则被认为是用户真正的兴趣;牛朝林等[3]针对微博用户兴趣随时间变化的特征,提出一种基于模糊关联规则的微博用户潜在兴趣发现方法,该方法采用LDA主题模型表示微博主题的分布,挖掘模糊关联规则,最后通过相似度计算发现潜在兴趣;为了应对微博的数据稀疏特性,王仁武等[4]提出首先构建主题词共现图,然后通过Clauset算法和PageRank算法聚类实现族群兴趣的自动发现;国琳、左万利[5]通过构建和分析用户兴趣分布曲线以及发现兴趣领域专家,提出甄别状态不正常的伪专家算法;王实、高文等[6]根据用户的访问记录定义了一个隐马尔可夫模型,然后提出一种新的增量发行算法Increase-R用于发现用户的兴趣迁移模式;王喆、唐杰等[7]充分考虑领域专家的研究成果及师生关系等因素,采用学习排序的方法作为框架,用权威度来衡量一位专家在某领域作为指导者的成就及影响力;而文献[8]、[9]指出,衡量某科研人员在该领域的权威度,更应考虑其发表论文的数量、质量以及合作关系。

从上述研究现状可以看出,目前对用户研究兴趣的发现大多数是面向社交网络开展的,而很少有针对科研领域的科研兴趣发现方面的研究。因此,如何快速准确地找到科研人员的科研兴趣及重要研究成果,對了解科研领域的发展变化及关注的科研热点具有重要意义。

2 系统模型及数据获取方法

2.1 系统基本框架

如图1所示,本文的科研兴趣自动发现与多视角可视化方法主要包含3个模块:数据获取及预处理模块(M1)、科研兴趣自动发现与可视化模块(M2)以及科研兴趣多视角检索模块(M3)。

(1)科研论文是科研成果的重要载体,是科研兴趣的重要表达方式。为此,数据获取及预处理模块主要通过自制的论文爬行器爬取互联网上出现的科研论文,并抽取论文元数据,为后续的科研兴趣自动发现作好数据准备。

(2)科研兴趣自动发现与可视化模块是本文工作的核心,主要是从已有的论文数据库中自动发现科研人员的科研兴趣。该发现方法首先建立关联矩阵,然后对矩阵进行聚类得到相关科研兴趣,最后将挖掘的科研兴趣进行可视化。

(3)科研兴趣多视角展示模块主要是为用户提供多种检索方式,以实现对科研兴趣的多视角展现,方便用户进行对比分析。目前主要实现了3种检索方式。

2.2 基于网络爬行器的数据获取及预处理方法

要想获得教师的科研兴趣,必须找到一个学术思想集散地,以追踪最新科研数据。经过多方面比较,本文选定万方数据库(www.wanfangdata.com.cn)作为抓取科研信息的集散地,同时本文研究工作只选取了位于该数据库中计算机领域3大期刊(软件学报、计算机学报、计算机研究与发展)的科研论文。建立全面的教师信息库、及时更新教师信息是准确发现科研兴趣的前提与关键。

本文设计并实现了论文爬行器用于实现对论文数据的获取。该爬行器首先对获取的链接进行筛选,过滤掉非“www.wanfangdata.com.cn”开头的所有链接,只处理本站内的链接。经过过滤,可以剔除其中的动态链接、明显的广告链接等,然后将相对URL转换成绝对URL,最后将待爬取的链接存储到列表中等待调用。网页展示给用户的主要内容是它的文本,为抽取其中的信息,需要进一步分析其网页结构,利用正则表达式准确定位到需要的文本内容并使用抽取工具(BeautifulSoup)将文本内容抽取出来。数据存储是论文爬行器工作的最后一步,也是后续系统开发所使用的数据源。在本爬虫中,有针对性地抽取了万方论文在线网站中的论文标题、作者、作者单位、关键词、出版日期、被引次数及作者发文次数以及H值[10]等信息,在数据存储时对抽取到的相应信息进行整理,再依次存入数据库供系统使用。部分数据示例如图2所示。

3 基于内容分析的科研兴趣发现及可视化方法

3.1 基于关键词聚类的科研兴趣发现方法

科学文献是科研工作者进行研究成果表达的一种主要方式,它可以反映出学科领域的主要研究内容和方向,而关键词是论文核心内容的提炼浓缩,能高度概括出论文的基本内容。因此,可通过挖掘科研人员发表的论文关键词集合来了解作者科研方向,实现研究兴趣的挖掘。具体方法为:首先建立论文关键词共现矩阵,然后对共现矩阵进行聚类得到作者研究兴趣,最后通过可视化图将作者研究兴趣进行可视化,以向用户直观展示。本文用于科研人员科研兴趣发现的算法描述如下:

Input:科研人员姓名

Output:该科研人员的科研兴趣

Step1:从爬行器爬取的科研数据库中检索到该教师的所有科研论文,得到其科研论文集合ExpertPaper={paper1,paper2,...papern}。

Step2: 抽取论文集合ExpertPaper中每篇论文的关键词,形成关键词集合KeywordSet={keywordi|keywordi∈paperj,paperj∈ExpertPaper,1≤i≤m,1≤j≤n}。

Step3: 建立关键词共现矩阵(Coij)m×m,Coij的取值由公式1计算得到,此处keywordi和keywordj共现是指它们作为同一篇论文的关键词出现。

Coij=k,if keywordi和keywordj在k篇论文中共现Coij=0,else(1)

Step4: 采用GN算法对(Coij)m×m进行聚类,得到教师的科研兴趣。

3.2 科研兴趣可视化方法

在通过关键词聚类获得了教师的科研兴趣之后,为更好、更直观地展现教师的科研兴趣,对教师科研兴趣可视化进行了研究和实现。XML(Extensible Markup Language)和JSON(JavaScript Object Notation)都是常用的数据交换格式。其中,JSON是一种轻量级的数据交换格式,采用完全独立于语言的文本格式,这些特性使JSON成为理想的数据交换语言,易于阅读和编写,同时也易于机器解析和生成。因此,本文选取JSON作为数据交换格式。首先需要将图1所示的科研信息数据库中的数据转换成JSON格式,然后将数据导入到Js Chars可视化插件,从而实现可视化。

4 科研兴趣多视角检索与展示

本文在上述教师科研兴趣自动发现的基础上,实现了科研兴趣的多视角检索与展示,目前可以通过3种方法进行多视角检索和展示科研兴趣,以方便用户更全面地对比分析。本文实现的原型系统运行(在浏览器中输入地址 127.0.0.1:9876)之后,即可显示如图3所示的主界面。

该页面主要显示3部分内容:首先是一个搜索框,用户可以搜索感兴趣的作者、关键词或地区信息;第二部分是展现数据库中按出现次数从多到少排列的教师列表以及发文数量;第三部分是数据库中的关键词,即代表教师研究方向,按出现次数从多到少排列,并显示出现次数。点击任意一个教师姓名则会显示出该教师的科研兴趣,例如点击发文数量较多的冯登国、高文老师,便会可视化出二位教师的科研兴趣,如图4所示。

通过图4的饼状图可以发现,冯登国老师的科研方向排名前8(设定只显示前8个)的分别为:访问控制、可信计算、可信平台模块、信息安全、分组密码、证明安全性、数字水印和安全协议。其中访问控制总共出现了14次,因此可以认为这是冯老师的第一兴趣点。同样地,可以得出高文老师的科研热点方向是手语识别和人脸识别。通过这种展示方式可以极大地方便用户了解感兴趣教师的研究方向及取得的成果,对学生选择合适的导师起到很好的指导作用。

在图3所示的主界面中除了可以通过教师来展示科研兴趣外,还可以实现按地区检索与按关键词检索。例如以“青岛”作为关键词检索,会得到青岛地区科研人员列表,从中可以发现本校的吴哲辉、梁永全、杜玉越等知名教师信息。点击某位教师姓名,同样可以显示如图4所示的该教师的科研兴趣。通过按地区检索,可以方便用户寻找某个特定地区的知名教师,同时可以了解该教师的科研兴趣,方便建立科研团队,以更好地开展科研合作工作。如果按照关键词检索,比如“Petri网”,可以得到如图5所示的列表,该列表将国内研究Petri网的相关教师都列在其中,比如清华大学的林闯教授、山东科技大学的吴哲辉教授等。

5 结语

本文实现了一个简单高效的科研兴趣自动发现与多视角检索方法与系统,首先通过论文爬行器爬取互联网上的科研信息,建立科研信息数据库;其次通过对关键词共现矩阵进行聚类,实现科研兴趣的自动发现并可视化;最后提供了按姓名、按地区、按关键词3种检索方法,以满足不同用户多方面的检索需求。

本文工作目前只是针对中文科研论文进行了研究,而且研究中仅利用了关键词信息,下一步工作将考虑面向跨语言(中文、英文)科研论文处理分析的科研兴趣自动发现方法,同时将积极探索科研论文中的其它信息,以更好地改善科研兴趣自动发现的效果。

参考文献:

[1]邹博伟,张宇,范基礼,等.基于改进TextTiling方法的用户新兴趣发现的研究[J].计算机研究与发展,2009,46(9): 1594-1600.

[2]白丽君,张永奎,李荣陆.基于智能Agent的用户兴趣发现和更新[J].计算机工程,2003,29(2): 236-237.

[3]牛朝林,高茂庭.基于模糊关联规则的微博用户潜在兴趣发现[J].计算机系统应用,2016,25(1):31-38.

[4]王仁武,袁毅,翟伯荫.基于Clauset和PageRank的社交网络族群兴趣发现研究[J].情报杂志,2015,34(1):183-187.

[5]国琳,左万利.基于兴趣图谱的用户兴趣分布分析及专家发现[J].电子学报,2015,43(8): 1561-1567.

[6]王实,高文,李锦涛,等.基于隐马尔可夫模型的兴趣迁移模式发现[J].计算机学报,2001,24(2): 152-157.

[7]中国科技论文在线.基于权威度的指导者挖掘与个性化推荐方法[EB/OL].http://www.paper.edu.cn.

[8]HIRSCH J E.An index to quantify an individual's scientific research output[C].Proceedings of Natl Acad Sci USA 102(PNAS'05),2005:16569-16572.

[9]LIU XIAOMING,BOLLEN J,NELSON M L.Co-authorship networks in the digital library research community[J].Information Processing & Management,2005,41(6): 681-682.

[10]王勇,徐永紅,姚萍.科研评价指标-h指数研究综述[J].情报杂志,2011(30): 41-44.

(责任编辑:黄 健)

猜你喜欢

科研人员检索可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
科研人员破译黑猪肉特征风味物质
基于CGAL和OpenGL的海底地形三维可视化
治疗艾滋病,中国科研人员有了新发现
广东公安科研人员风采
2019年第4-6期便捷检索目录
“融评”:党媒评论的可视化创新
专利检索中“语义”的表现
国际标准检索