基于学术论文的共同研究兴趣人员的推荐
2021-08-26张智强侯爱琴杜娜娜甘大广
张智强,侯爱琴,杜娜娜,甘大广
(1.西北大学 信息科学与技术学院,陕西 西安 710127;2.北京万方软件股份有限公司,北京 100038)
0 引 言
目前海量文献资料大多数是通过数字图书、电子文档的形式获取,为信息共享提供方便的同时,可能会导致信息过载。各种推荐系统是解决信息过载的一种有效方法。推荐系统根据用户之前的行为信息发现其需求,从而对用户感兴趣的信息进行推送[1]。其中,协同过滤推荐算法是目前应用于各电商最广泛的个性化推荐算法。基于用户行为信息的协同过滤算法可有针对性地推荐新的项目,因此得到了广泛应用[2]。然而,该类算法仅考虑到用户间评分信息,却忽略了用户本身的属性特点,存在很多局限性,很难保证推荐质量。新用户的冷启动、数据稀疏性和推荐准确性依旧是目前亟待解决的难题。综上,本文提出一种基于用户特征的共同研究兴趣人员的混合推荐算法。
1 相关工作
1.1 协同过滤
在协同过滤领域,Herlocker[3]和Breese都为协同过滤(Collaborative Filtering, CF)算法的评估提供了概述和框架。除了原来的K近邻算法[4]之外,还有很多算法被提出并用于协同过滤。其中包括基于项目的算法和基于模型的算法[5],如贝叶斯网络和聚类。
ReferralWeb将协同过滤、搜索、社交网络相结合,创建了一个推荐系统,在一个已经存在的社交网络中,将具有共同兴趣的人推荐给彼此。笔者的工作是在ReferralWeb基础上做了扩展,探索了将CF直接应用到社交网络的方法。
大多数CF应用领域推荐的条目彼此之间的关系相关性不大,而研究论文方面的推荐,论文之间存在复杂的引用关系网络。要成功地将CF应用到这个领域,需要对算法进行修改,以有效地解释引文网络数据。
1.2 引文索引
自动引文索引可提供一种通过引文链接检索文献的方式,ResearchIndex能够快速创建一个计算机科学论文的大型在线引文网络。通过使用协同过滤等技术,可以大大提高如ResearchIndex这样的引文索引系统的检索速度。
Woodruf等人提出一种推荐算法,可以融合文本和引文数据进行推荐。这种混合过滤算法结合了语义信息和协同信息,在研究论文领城有很大的应用潜力。单独使用研究论文引文,忽略研究论文的内容进行推荐,可能会导致不正确的结果。例如,一些研究人员在参考文献部分引用了一篇论文,却没有在论文的主要内容中实际使用它们。
1.3 引文作者网络
利用学术论文的参考文献,可以创建反映学者之间研究兴趣相关性的引文网络。多年来,图书馆员和信息专业人员一直在研究学术论文作者之间关联网络的创建和索引方法[6-7]。
Waleed Reafee等人提出一种推荐引用的方法。他们的方法是应用协同过滤(CF)方法,通过研究论文之间的引用创建一个作者之间引用关系图表。这些数据可以映射到CF的框架中,并用于克服冷启动问题。Caragea等在假设论文作者具有一定背景知识的前提下,使用奇异值分解(Singular Value Decomposition, SVD)来提供更好的引文推荐。然而,为了体现作者的背景知识,用户需要准备与作者的研究主题相关的引文的初始集合。
2 基于学术论文的共同研究兴趣人员推荐算法
为了更好地利用用户本身的属性特点,本文使用用户过去发表的论文及其引文以档案的形式为用户背景建模,并利用信任关系的可传递性,通过直接信任和间接信任两种方式为研究人员推荐相似用户,帮助其找到与自己研究兴趣相同的研究者。其算法流程如图1所示。
图1 基于学术论文的共同研究兴趣人员推荐流程
2.1 建立用户配置文件向量
首先将研究人员分为初级研究人员和高级研究人员,这是因为这两种类型的研究人员的论文列表的特性不同。初级研究人员为只有少量发表的论文,尚未引证(即没有引文);高级研究人员是指有大量论文发表且已被引证。
本文利用论文的摘要及其引文网络,来建立该论文的引用文档。用户配置文件的表示是基于以特征向量表示的论文。每个研究人员发表的每一篇论文,都将转化成一个个特征向量,如下:
式中TF(tk, p)是p中tk项出现的频率。因为研究人员发表的论文数量较少,可能会对IDF评分的计算产生不利影响,所以采用TF而不采用标准的TF-IDF方案。
基于论文特征向量fp的集合,可以通过每个研究人员发表的论文与其引文、参考文献来构建初级研究人员和高级研究人员的配置文件。
本文采用余弦相似度作为论文之间的权重。根据式(1),分别让fu和fv作为论文u和论文v的特征向量。然后根据式(3)可以计算出2个向量之间的相似性sim(fu, fv)作为论文之间的权重wpu→v。
这种方法通过强调其引文与参考文献之间的相似性增强了研究人员论文中的信息。
(1)初级研究人员配置文件向量
本文选取只有一篇论文发表的初级研究人员,且该论文尚未被引证(即没有引文,只有参考文献)。根据文献[8],初级研究人员配置文件向量Puser的定义如下:
(2)高级研究人员配置文件向量
根据以上分析,计算高级用户配置文件向量Puser,公式如下:
2.2 基于信任关系的相似兴趣用户推荐
信任度是指在为用户做推荐时,其他用户的参考程度。对一个用户越信任,其参考程度越大;若两个用户属性比较相近,则可以认为其喜好具有较高的相似性。因此,本文考虑基于用户信任关系的相似性构建用户信任网络。结合信任关系的推荐系统可以有效地缓解传统协同过滤算法中存在的数据稀疏问题,并为每个用户提供可信且准确的推荐。信任度分为直接信任度和间接信任度。直接信任度表示有直接关联的用户相似性,间接信任度表示没有直接关联却存在相似度的用户相似性[9]。
2.2.1 直接信任推荐
直接信任是指两个用户在某些行为方面表现为直接相关,并且通过直接相关的行为对对方产生直接信任关系。具体过程为:利用二分K-Means算法对用户聚类,可以得到所选用户的候选用户集群,再利用Top-K算法,选取与该用户相似性较高的前K个用户作为最佳用户进行推荐,如图2所示。
图2 直接信任关系模型
2.2.2 间接信任推荐
间接信任是指两个用户没有直接关系,而根据信任的传递性,信任从一个用户传递到下一个用户,经过不止一次的传递到达指定的用户,两个用户之间需要其他用户的搭桥后才能信任传递。设用户u和用户v没有直接信任度,但用户u和用户w有直接信任度,用户w和用户v有直接信任度,那么就可以说用户u和用户v通过用户w建立了间接信任关系。
图3 间接信任关系模型
3 实 验
3.1 实验数据集
本实验采用科技情报大数据挖掘与服务系统平台AMiner中的数据集,选用其中的DBLP-Citation-network V11数据集,包含4 107 340篇论文和36 624 464条引用关系。为建立用户配置文件、获得准确的推荐结果提供了保障。
本文获得万方数据的支持,通过数据接口选取其中的30位用户及其引文网络作为本文的测试数据集并进行了实验验证。
3.2 评价指标
本文研究人员相似度计算采用了余弦相似度计算公式,如下:
式中Pu,Pv分别为用户u、用户v的配置文件向量。
3.3 实验结果
本文分别采用AMiner数据集和万方数据进行直接信任和间接信任两种方式的推荐,两个数据集实验结论一致。下面以AMiner数据集为例进行实验说明。
3.3.1 初级研究人员推荐
(1)直接信任推荐
随机选取了数据集中的15位初级研究人员(只有一篇最近发表的论文,尚未引证,即没有引文),并为其生成配置文件。对每一位研究者,采用直接信任方式分别计算了前3位、5位、7位、10位相似研究者的余弦相似度,如图4所示。
图4 直接信任研究者(初级)间余弦相似度
从图中可以看出,随着推荐相似研究人员的增多,研究人员间的相似性也越来越低。研究者4推荐的前3位研究人员和前5位研究人员,经过查证都只发表了一篇论文且均为这篇文章的共同作者,所以相似度为1。
(2)间接信任推荐
对间接信任方式,实验中仍采用上述直接信任实验选取的数据集中的15位初级研究人员,根据信任可以在信任网络中传播的原理,分别取传递距离为3,5,7,10,15,20进行了对比实验。间接信任研究者间余弦相似度实验结果如图5所示。
图5 间接信任研究者(初级)间相似度
从图中可以看出,信任传递距离越远,研究人员间的相似性越低。在推荐研究人员从3位增长到5位时,相似度骤减,这也是因为对初级研究者推荐的研究人员中,前3位可能是同一篇文章的共同作者,前5位由于间接信任传递距离的增长相似度降低。对任意一个用户,间接信任与直接信任方式相比,推荐人数相同的情况下,间接信任研究人员间的相似性略低于直接信任。此外,随着间接信任传递距离的增长,其相似性降低幅度较小。
3.3.2 高级研究人员推荐
本文选取数据集中发表文章相对较多的15位高级研究人员(有一系列论文,过去发表的论文有被引证),并根据研究人员最近5年论文列表为其生成配置文件并通过二分K-Means算法对用户进行聚类。大量研究指出:使用研究者最近5年的论文列表基本可代表该研究者的研究方向。如果使用该作者的全部论文列表,则向量会很大,而且其研究方向可能有改变;而如果使用较少的论文列表则不能更好地代表其研究方向。
(1)直接信任推荐
取数据集中发表文章相对较多的15位高级研究人员,根据研究者最近5年的出版物列表生成其配置文件进行匹配,直接信任研究人员间的余弦相似度实验结果见表1和图6所列。对于同一研究者,根据余弦相似度高低排序进行推荐。从图6中可以看出,随着推荐人数的增多,虽然相似性有所下降,但下降的幅度很小。总体来说,推荐前5位相似研究兴趣人员时,比推荐前3位时的相似度变化值平均仅为2.39%;推荐前7位时,比推荐前3位时的相似度变化值平均为4.16%;推荐前10位时,比推荐前3位时的相似度变化值平均为6.18%,其相似度也仅仅平均变化了0.044 2。
表1 直接信任研究者间相似度表
图6 直接信任研究者(高级)间余弦相似度
(2)间接信任推荐
仍取上述数据集中的15位高级研究人员,计算间接信任研究者间余弦相似度见表2及图7所列。同样地,对于同一研究者,按余弦相似度高低排序进行推荐。从图7可见,同一研究者信任传递距离越远,相似性有所下降。总体来说,推荐前5位相似研究兴趣人员时,比推荐前3位时的相似度变化值平均仅为5.77%;推荐前7位时,比推荐前3位时相似度变化值平均为8.88%;推荐前10位时,比推荐前3位时相似度变化值平均为12.4%,其相似度变化平均为0.203 3;推荐前15位时,相似度变化值平均为15.8%,比推荐前3位时其相似度变化平均仅为0.232 2;推荐前20位时,比推荐前3位时相似度变化值平均为18.9%,其相似度变化也平均仅为0.294 6。所以,随着间接信任传递距离的增长,虽然相似性在减小,但减小的幅度并不大,这样就极大地扩展了推荐用户列表。
表2 间接信任研究者间余弦相似度表
图7 间接信任研究者(高级)间余弦相似度
4 结 语
本文使用研究人员过去的论文列表建立用户配置文件,分别对初级研究人员和高级研究人员通过直接信任和间接信任的方式对其进行相似研究人员的推荐。结果表明,通过直接信任方式和间接信任方式推荐均可找出相似度高的研究人员,直接信任方式比间接信任方式推荐相似度略高。通过间接信任方式不仅为该研究者找出相似度较高的研究人员,而且能够极大可能地推荐更多相似兴趣的人员。本文基于内容的用户兴趣关系网的推荐方法也缓解了推荐系统的稀疏性和冷启动等问题。