APP下载

基于学术社区的科技论文推荐方法

2012-11-14贺超波沈玉利余建辉吴琳琳

关键词:学术协同论文

贺超波, 沈玉利*, 余建辉, 林 海, 吴琳琳

(1.仲恺农业工程学院计算机科学与工程学院,广东广州 510225;2.华南师范大学计算机学院,广东广州 510631)

基于学术社区的科技论文推荐方法

贺超波1, 沈玉利1*, 余建辉2, 林 海2, 吴琳琳2

(1.仲恺农业工程学院计算机科学与工程学院,广东广州 510225;2.华南师范大学计算机学院,广东广州 510631)

提出一种以学术社区服务系统为基础,面向学术社区用户的新型科技论文推荐方法,可充分利用社区用户信息改善科技论文推荐质量以及效率. 对该方法所涉及的学术社区服务系统设计、网络社区发现以及基于网络社区的协同推荐算法等关键问题的实现思路进行了详细阐述. 实际应用表明,该方法可为科研用户提供更准确、更可信的论文推荐服务.

学术社区; 科技论文; 推荐; 社区发现

目前在论文检索领域虽然有专业的学术搜索引擎和检索服务提供商,如Google scholar search、Microsoft academic search以及中国知网(CNKI)等,但面对返回的大众化检索结果,用户往往不能在最短时间内找到自己需要的论文. 科研人员更希望论文检索系统能根据用户的实际需求主动推荐科技论文,从而节省检索时间并获得高质量的检索结果. 目前对于科技论文推荐的理论方法研究主要分为如下几类:(1)基于内容的推荐[1-2]. 该方法不需要用户对论文项目进行评分,主要是在对科技论文内容相似度进行计算的基础上,根据用户所选择的论文返回与其相似度较高的论文列表完成推荐. 在相似度计算问题上,有些研究者基于过去已发表的论文计算出相似度高的论文列表,并推荐给科研人员用户[3]. (2)基于协同过滤技术的推荐[4-5]. 协同过滤推荐技术在论文推荐领域也已得到应用. 需要用户对论文进行评分,并基于用户的评分计算用户间的相似度,从而可以综合相似用户对某一论文的评价,得到推荐系统对目标用户对该论文的预测分数,从而决定是否进行推荐. 协同过滤技术利用了相似用户具有相似兴趣这一社会化现象对推荐质量有一定的改善,但存在数据稀疏性、冷启动以及计算方法可扩展能力差等问题,影响了推荐效果. (3)混合推荐技术[6]. 基于内容的推荐和基于协同过滤技术的推荐在实际应用中都存在缺陷,因此多数的研究是将这2种推荐技术组合起来进行推荐,其效果一般都优于单一的推荐方法. (4)基于引文关系分析的推荐[7-8]. 该方法利用了科技论文之间存在引用关系的特点,对引文关系进行了度量,提出了2个论文相关性计算标准:文献耦合度和文献同引度,可有效对相关性高的论文做出推荐. 总体来说,以上方法都可以实现科技论文推荐的目标,但存在无法有效应对数据稀疏性、冷启动以及大数据量计算等问题,推荐质量和效率仍有改善的空间. 目前随着互联网用户通过各种在线网络社区服务平台互动、协作更加频繁,联系更加紧密,已有相关研究表明结合网络社区发现技术,利用用户间的关系网络信息可以进一步改善传统推荐方法的推荐质量以及效率,是目前推荐领域的研究及应用热点[9-10]. 本文提出以学术社区服务系统为基础,结合网络社区发现以及协同过滤推荐技术设计新型科技论文推荐方法,其创新之处在于基于网络社区挖掘为社区科研用户提供科技论文推荐服务可以改善目前常见的论文推荐服务所面临的问题,并且所做出的推荐充分利用了用户的社会化信息,将更加准确和可信,用户将获得更优质的个性化推荐服务体验.

1 基于学术社区的科技论文推荐方法

1.1 方法框架

首先经过设计专门的数据抽取模块建立用户基本数据库、科技论文基本数据库、用户关系网络数据库和用户论文评价数据库,然后通过社区发现模块对用户基本数据库和用户关系网络数据库进行离线计算,对用户群进行社区划分,最终形成若干用户社区. 对于要进行论文推荐的目标用户可以首先确定其所在社区并发现K个最相似用户,再结合基于网络社区的协同推荐推荐算法以及用户论文评价数据经过综合计算后做出论文列表推荐,整个方法的框架结构见图1.

图1 方法框架Figure 1 Framework of method

1.2 学术社区服务系统设计

学术社区服务系统作为进行科技论文推荐的重要数据来源,按照Web2.0技术规范以及社交网络服务平台建设标准进行设计,更大程度地为广大科研用户提供优质的用户交互体验,包括用户与用户的交互、用户与系统的交互. 同时为促进用户各种关系网络的形成,应实现用户关注、好友搜索、协作交流以及群组等功能,从而促进用户群形成关注关系网络、好友关系网络以及协作关系网络等,可为进行科技论文推荐所需的用户关系网络数据库提供重要的数据来源. 另外,结合科技论文协同推荐的需要,需实现科技论文的分享、收藏以及评价等具有采集用户研究兴趣的功能.

基于以上设计原则,开发了面向科研工作者的学术社区服务系统:学者网(http://www.scholat.com),并为2 000多名实名制科研人员提供了成熟的个人学术主页、团体机构主页定制以及科技论文检索等服务,并初步形成了一定规模的用户关注关系网络、好友关系网络以及协作关系网络等.

1.3 网络社区发现方法

网络社区发现目的是将用户群根据特定的度量方法划分为多个社区,社区内的用户相似度高,不同社区的用户相似度低,这为确定目标用户的K个相似用户缩小了搜索范围,节省了计算时间. 目前网络社区发现方法可以划分为2种类型:一种是根据用户之间的显式关系网络信息,如好友关系网络信息,利用某种距离度量方法进行社区划分,称为显式发现;另外一种则是根据用户隐含的相似信息,如基本资料信息,应用某种相似度计算方法进行用户聚类并得到若干用户社区,称为隐式发现. 显式社区发现方法可使用文献[11]提到的层次聚类算法,可获得较好的效果. 在隐式社区发现方法上,本文提出了一种基于用户Profile文件相似度计算的用户社区发现方法,其核心思想描述如下:

学术社区用户的Profile文件包含个人兴趣、教育背景、工作经历、简介等较真实的信息,所以对Profile文件进行相似度计算的结果可以反映出用户之间的真实相似程度,而对Profile文件相似度的计算可以基于文本向量空间模型(Text Vector Space Model,TVSM)进行计算. TVSM是一种有效的文本相似度计算模型,它的主要核心思想是首先对某用户Profile文本dj进行特征词提取处理,并计算其中每一个特征词Ti的权值Wi,j,Wi,j可使用逆文本词频计算,即:

(1)

其中fi,j为词频,表示特征词Ti在文本dj出现的次数,N表示文本集中的文本数量,ni表示含有特征词Ti的文本数量. 通过使用文本向量空间模型,Profile文本dk与dl的相似度Sim(dk,dl)可以采用计算向量空间夹角余弦值cos(dk,dl)的方法进行计算,余弦值与相似度成正比,余弦值越小表示文本相似度越低,余弦值越大表示文本相似度越高,余弦值的取值范围为[0,1],0表示完全不相似,1表示完全相同,计算公式如下所示:

Sim(dk,dl)=cos(dk,dl)=

(2)

根据式(1)和式(2),可以计算出任意2个用户uk和ul的相似度Sim(dk,dl),基于该相似度度量可以利用数据挖掘中的K均值聚类算法进行用户隐式网络社区发现,算法描述如下:

输入:用户集合U={u1,u2,…,un}, 用户社区发现数目期望值K.

输出:K个用户网络社区.

(1)从U中任意选择K个用户作为初始网络社区中心;

(2)repeat;

(3)计算每一个社区中用户相似度的均值,作为新的社区中心;

(4)将每一个用户重新指派到最相似的社区中;

(5)Until用户社区不再发生变化.

1.4 基于网络社区的协同推荐算法

在通过网络社区发现算法对用户进行分类后,可以首先快速确定目标用户所在的社区并根据相似度计算结果获得K个最相似的用户,最后可以基于这K个相似用户的论文评价信息进行协同推荐. 协同推荐的过程即是对目标用户待推荐的论文项目进行预测评分,并返回预测评分处于前N位的论文列表. 假设目标用户ut所在社区与其最相似的前K个用户集为Ci,则ut对待推荐的论文项目pi的预测评分rut(pi)可以基于如下公式进行计算:

(3)

输入:目标用户ut, 目标论文列表pt.

输出:论文推荐列表p.

(1)获取用户ut所在社区C;

(2)从C中获取与ut相似度最高的K个用户;

(3)for eachpiinpt;

(4)根据式(3)计算预测评分rut(pi),pi,rut(pi)写入p;

(5)对p中项目依据rut(pi)进行降序排序.

协同推荐算法的核心部分是为目标用户寻找最近邻用户,与传统的直接全局遍历查找的方法相比,该算法的查找范围局限于目标用户所在社区,搜索空间得到很好的缩小.假设全局用户社区为C,目标用户所在社区为Ci,则传统算法的复杂性为O(C),本文方法为O(Ci),而在现实的社区网络中|Ci|<<|C|.

2 应用实例及评价

图2 PALRecSys推荐页面

基于现有学者网的用户数据,运用本文的科技论文推荐方法设计与开发了个性化的科技论文推荐系统PALRecSys,可以为学者网的科研用户提供论文推荐服务. 该系统实现了相关功能并主要利用了用户间的关系网络信息以及用户Profile文件相似信息进行推荐. 图2为该系统向某目标用户进行推荐的页面. 如图所示,“Top 10 推荐”为PALRecSys基于网络社区发现协同推荐算法做出的论文推荐列表,另外,该系统为用户提供了科技论文评价功能,用户可以浏览与其处于同一社区的用户论文评价信息,这样可以帮助用户选择是否继续深入阅读该论文. 目前经过对用户论文推荐反馈数据进行统计分析,结果表明用户对推荐结果反映良好,实际表现为多数用户选择收藏、分享所推荐的论文. 另外,用户反馈数据中包含了用户对推荐论文的评价分值,本文采用了平均绝对误差评价模型(MAE)对系统预测推荐分值与用户真实评价分值进行计算,实验随机选取了50个用户的评价分数值,计算结果为0.36,表明本文方法具有一定的推荐精度,其中平均绝对误差评价模型定义如下:

(4)

3 结束语

本文方法对科技论文的分享与推荐具有积极的意义,具体表现在:

(1)通过构建学术社区服务系统可以有效采集与分析科研用户的研究兴趣、用户关系以及使用习惯等信息,并以此为基础为用户提供更为准确、全面而且具有个性化支持的论文推荐服务.

(2)对在线科研人员学术社区进行网络社区挖掘,可以发现具有不同研究兴趣的网络社区,社区内用户研究兴趣高度相似,从而可以缩小在进行科技论文协同推荐的过程中为目标用户寻找相似用户的范围,进而提高协同推荐计算方法的效率.

(3)通过分析社区内的用户关系对推荐的影响,可以更好地挖掘用户对科技论文的需求倾向,从而提供更精准、可信的论文推荐. 在下一步的工作中,将重点对用户处于多个社区的发现方法进行研究,以更适合科研用户研究兴趣广泛的现实推荐情形,从而为科技论文推荐系统做出更合理的推荐提供依据.

[1] CRISTIANO N, ALBERTO L, ALTIGRAN S,et al. A source independent framework for research paper recommendation[C]∥Proceedings of the 11th annual international ACM/IEEE joint conference on Digital libraries.Ottawa,Canada,2011:297-306.

[2] 王嫣然,陈梅,王翰虎,等.一种基于内容过滤的科技文献推荐算法[J].计算机技术与发展,2011,21(2):66-69.

[3] KAZUNARI S, KAN M Y. Scholarly paper recommendation via user’s recent research interests[C]∥Proceedings of the 10th annual joint conference on Digital libraries. Gold Coast, Australia,2010:29-38.

[4] 董坤.基于协同过滤算法的高校图书馆图书推荐系统研究[J].现代图书情报技术,2011(11):44-47.

[5] 王磊.协同推荐技术及其在科技文献个性化推荐系统中的应用研究[D].南京:南京理工大学,2007.

[6] 崔金英.网络科技文献推荐系统的设计与实现[D].上海:华东师范大学,2010.

[7] 胡蓉.一种新的经典文献推荐机制的设计[J].计算机应用与软件,2011,28(11):268-270;286.

[8] 张志平,李琳娜.NSTL文献检索系统中相关文献推荐功能的设计及实现[J].现代图书情报技术,2010(7/8):110-113.

[9] FRANK W, STEFANO B, FRANK S. A model of a trust-based recommendation system on a social network[J].Autonomous Agents and Multi-Agent Systems, 2008,1:57-74.

[10] 刘继.基于网络云团的聚合协作推荐方法[J].计算机工程与应用,2011,47(26):21-24.

[11] 程学旗, 沈华伟.复杂网络的社区结构[J].复杂系统与复杂性科学,2011,8(1):57-70.

MethodforScientificPaperRecommendationBasedonAcademicCommunity

HE Chaobo1, SHEN Yuli1*, YU Jianhui2, LIN Hai2, WU Linlin2
(1. Department of Computer Science and Engineering, Zhongkai University of Agriculture and Engineering, Guangzhou 510225, China;2. School of Computer, South China Normal University, Guangzhou 510631, China)

The quality and efficiency of existing methods for scientific paper recommendation still need improvement. Furthermore, the large-scale user data in virtual network community has provided a new way for carrying out collaborative recommendation. In this paper a new method for scientific paper recommendation is presented, which is based on academic community service system and can fully employ community user information to improve the quality and efficiency of recommendation. The solutions for the key problems in this method, including academic community system design, community discover and collaborative recommendation algorithm based on community are given in details. The practical application example showed that this method can provide more accurate and credible scientific paper recommendation service for research users.

2012-04-01

国家自然科学基金项目(60970044);国家科技支撑计划项目(2012BAH27F03);广东省科技计划项目(2011A091000036);广东省部产学研项目(2011B090400507);广州市科技计划项目(11C42190700)

*通讯作者,syl8899@21cn.com

1000-5463(2012)03-0055-04

TP391

A

10.6054/j.jscnun.2012.06.012

Keywords: academic community; scientific paper; recommendation; community discover

【责任编辑 庄晓琼】

猜你喜欢

学术协同论文
蜀道难:车与路的协同进化
如何理解“Curator”:一个由翻译引发的学术思考
“四化”协同才有出路
对学术造假重拳出击
三医联动 协同创新
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
协同进化
2013年5—12月最佳论文