APP下载

学术社交网络中的权威学者推荐模型

2020-09-29李春英肖政宏李天送

计算机应用 2020年9期
关键词:权威影响力学者

李春英,汤 庸,肖政宏,李天送

(1.广东技术师范大学计算机科学学院,广州 510665;2.华南师范大学计算机学院,广州 510631)

0 引言

学术社交网络服务是典型的以人为中心的计算(Human Centered Computing,HCC),学者是学术社交网络的主体[1]。学术社交网络以学者相互建立关系为基础,以实名或者非实名的方式自主构建社交关系网络服务。像其他复杂系统一样,学术社交网络系统可以模型化为由学者(节点)以及学者之间的关系(边)构成的无向无权重复杂网络图结构。在这个无向无权重复杂网络中,有些节点间的连接关系比较紧密,有些节点间的连接关系则相对稀疏。与现实生活中由各种关系构成的人际交往圈类似,交往圈内部的人联系比较多,而交往圈之间的人联系则相对较少。这种交往圈在学术社交网络中被称之为学术社区。学术社区是学术社交网络中非常有意义的属性。学术社区检测是为了对在线学术社交网络进行分割,从而对学术社区成员进行标识,找到具有相似研究兴趣等共同特征的群体,目的在于区分学者特定的兴趣联盟,更好地发现学者的属性特征、兴趣爱好及行为倾向等,为学术社交网络平台的各类学术推荐系统提供决策支持。

随着学术社交网络的快速发展,学术社交网络平台存在信息过载和信息不对称等问题,对学者特别是影响力低的青年学者而言,需要花费更多的时间和精力寻找到自己感兴趣的内容。为了持久保持学者对学术社交网络的黏性和满意度以及依靠网络拓扑结构进行相关计算具有模型简单、计算效率高和易于应用等优势,本文提出融合学术社区划分的权威学者推荐模型。该模型使用学术社交网络平台学者间拓扑结构关系数据对学术社交网络中的学者进行社区划分,使兴趣相似的学者聚集在同一个社区,并在学术社区内部计算学者的影响力进而推荐影响力较大的学者给影响力较小的非直接好友学者,使之建立直接关系进而为影响力低的学者的研究起到导向作用。该推荐模型总体框架如图1 所示。该推荐服务不仅可以准确地为学者们提供其感兴趣的权威学者,而且可以增强学者尤其是影响力低的青年学者对学术社交网络平台的使用满意度和黏度,进一步为学术社交网络平台形成良好的口碑及吸引潜在的学者提供帮助。

图1 学术社交网络权威学者推荐模型总体框架Fig.1 Overall framework of influential scholar recommendation model in academic social network

1 相关研究

为了解决学术社交网络信息过载问题,学术界从多个角度对学者用户的偏好进行研究,并取得了丰富的研究成果。文献[2]提出一种基于论文共同作者学术关系的推荐系统。该推荐系统应用科研人员所著论文的关键词对科研人员进行建模,突出科研人员与研究领域之间的关联,通过论文共同作者等学术关系计算科研人员之间的相似度并进行推荐。文献[3]从学者知识结构和学术行为网络两个维度出发,构建基于相似兴趣的学者推荐模型,挖掘分析学者知识结构特征、学者间合作网络、机构间合作网络关系,计算学者在这3 个层面上的相似度并进行整合实现学者推荐。文献[4]通过综合分析科研社交网络中专家所具有的知识信息以及社会关系信息,并以此为基础,构建链接预测模型对科研社交网络中的用户进行相关专家推荐。文献[5]定义出了两个主要的合作者推荐情境,即基于相似性的合作者推荐和在一个特定的背景限制下的合作者推荐。对于基于相似性的合作者推荐问题,其提出了一个混合方法,分别从专业知识的相关性、社交网络的邻近度和机构层面的合作度3个维度,整合了5种异质文献网络的特征。针对在限定背景下的合作者推荐问题,其给出了一个以专业知识的覆盖面为导向的合作者推荐机制,该机制提出并使用了一个基于传统的潜狄利克雷分配(Latent Dirichlet Allocation,LDA)模型的改进方法,以提高其对同一语料库中不同影响力的文档的建模性能。文献[6]提出了一种个性化的导师智能推荐方法,用于在科研社交网络上为有需求的学生推荐适合自己个人特征的导师。该方法融合了相关度分析、连接度分析、质量度分析以及个性匹配度分析,有助于为有决策需求的学生提供导师选择支持。文献[7]从学者的学术能力和合作关系网络两个维度构建推荐模型,通过相关学者的学术能力挖掘候选推荐学者的知识覆盖度,根据历史合作关系网络挖掘合作质量,综合计算在这两个层面的推荐值实现合作学者推荐。最终以百度学术学者主页数据进行实证验证了模型的有效性和有用性。文献[8]利用在线学术社区中的实体和关系数据,提出了一种基于异构网络的方法来推荐学者朋友,并进一步讨论了元路径和相应的学习权重如何帮助理解研究人员的偏好和行为。文献[9]提出基于深度学习和有偏向随机游走的多层次融合模型为科研人员推荐潜在的合作者,在DBLP(Digital Bibliography & Library Project)和hep-th(Theoretical High Energy Particle Physics)数据集上的实验证明了所提出的模型相对于其他方法在精度、召 回 率、F1 得 分、MRR(Mean Reciprocal Rank)和nDCG(Normalized discounted cumulative gain)方面的有效性。文献[10]通过移除引用的论文节点来构建具有多种类型节点和链接关系的简化异构网络;然后,使用两个重要的度量来加权网络中的链接关系(边),以使随机步行者的行为产生偏差;最后,通过采用带有重启的随机游走算法来检索相关作者,并根据排名得分输出排序的合作者推荐列表。文献[11-12]采用了兼顾内容和网络拓扑结构的混合方法,文中使用2~3 个特征增强学术合作网络中科研人员之间联系的重要性,虽然他们捕获了科研人员之间协作的联系和兼容性,但是仍然存在许多隐性因素,例如其隶属关系的物理距离、年龄或血统以及影响现实生活中协作的个性等。文献[13]提出基于学者和研究主题的相互依存度共同代表学者和研究主题,并提取学者的基本特征以进行高质量的新合作者推荐。文献[14]针对科学合作模式可能会随着学者的职业年龄而发生变化的问题,设计了一种对学者的职业年龄敏感的科学合作推荐(Career Age-Aware Scientific Collaborator Recommendation,CAASCR)模型。该模型从数字图书馆中提取作者身份、提取基于出版物标题/摘要的主题以及用于衡量学者相似性的具有职业年龄意识的随机游走,在两个真实数据集上通过与6 种基线方法进行比较,实验结果表明提出的模型在精度和召回率方面可以达到最佳性能。在第22 届国际数据挖掘与知识发现(22th SIGKDD Conference on Knowledge Discovery and Data Mining)的推荐系统专题中,罗马大学和谷歌合作了一篇让人耳目一新的论文:“人们的社会联系可以保护消费者免受推荐系统扭曲的影响”[15]。该研究表明了人们的社会联系在推荐系统中具有非常重要的地位。文献[16-18]对社交网络进行图结构的形式化描述,并使用社交网络的拓扑结构信息挖掘社交用户所在的朋友圈(社区)进而预测用户的偏好,并对社区内的用户进行相关的推荐服务,取得了一定的效果。文献[19]提出一种融合社区结构和兴趣聚类的协同过滤推荐算法提高推荐系统的准确性。这些研究进一步表明了融合社区的推荐算法在一定程度上具有更好的推荐准确性。

现有的大多数方法主要侧重于为科研人员推荐可能的学者或合作者,而推荐有影响力的权威学者的方法很少。因此,本文提出一种融合学术社区检测的权威学者推荐模型(Influential Scholar Recommendation Model based on Academic Community Detection,ISRMACD)。利用学术社交网络平台学者网(SCHOLAT)中学者间的真实社会联系——好友关系所产生的复杂网络拓扑结构关系进行学术社区检测,并利用社区检测结果实现社区内部的权威学者推荐服务。

2 学术社区检测

2.1 标签初始化

学术社交网络系统可以模型化为由学者作为节点及学者之间的关系作为边的复杂网络拓扑结构G(V,E)的形式,其中V表示社交网络学者集合,E表示学者间好友关系的集合。文献[20]已经证明核心学者圈所定义的结构是社区的核心单位,处在同一个核心学者圈中的节点,必然处在同一个社区。在学术社交网络中,影响力大的学者群体同样会成为社区的核心结构。因此对学术社交网络进行初始化时,着重考虑寻找学术社交网络中的核心学者圈作为学术社区的核心结构。该模型按照定义1 的规则在学术社交网络中寻找不相交的核心结构并为其中的学者用户赋予一个相同的标签及权重,后续查找核心学者圈的过程则不再考虑已具有标签的学者用户节点。

定义1学术社交网络被模型化为G(V,E)的图结构形式,其中V表示学术社交网络学者节点集合,即学术社交网络中任意一个学者节点i∈V,E表示学术社交网络学者节点间相邻关系的集合。N(i)是学者节点i的邻接节点集合,|N(i)|表示学者节点i的好友数,也是学者节点i的度数,本文把它作为学者i的影响力。在图G中寻找局部影响力最大的学者圈Gm,且不存在学者圈Gt⊆G,使得Gm⊂Gt,则称Gm为核心学者圈(Core Scholar Group,CSG)。

标签初始化规则如下所示。

1)设置学术社交网络中所有学者节点ui的标签集Ci=∅。

2)设置迭代次数t=1。

3)按照定义1 寻找学术社交网络中的CSG,并令标签权重有序对(t,1)∈Ci。其中t为标签号,一个标签号将代表一个社区,1为标签t的权重值。

4)t=t+1。

5)重复步骤3)~4),直到学术社交网络中没有再满足要求的学者节点,初始化过程结束。

根据标签初始化规则,以一个简单的复杂网络为例,如图2 所示。按照定义1 的寻找核心学者圈规则,算法首先在图2中选择度数最大的节点4,在节点4 的所有邻居节点中,节点11 是度数最大的一个,因此在网络中继续寻找与节点4 和节点11 均相邻的节点,只有节点8 符合定义1 要求的条件。按照此规则继续寻找与节点4、节点11和节点8均相邻的第4个节点,发现该网络中没有节点符合加入的条件。因此,第一个核心学者圈只包含3个节点4,11和8。依此类推,在图2中共找出3 个核心学者圈CSG,分别为节点群(4,11,8)、(3,5,6)和(12,13,14),如图3 所示。按照标签初始化规则分别为每一个CSG 中的节点赋予相同的标签及权重,即节点群{4,11,8}对应的标签及权重均为1,节点群{3,5,6}对应的标签为2、权重为1,节点群{12,13,14}对应的标签为3、权重也为1。

图2 复杂网络拓扑结构Fig.2 Complex network topology

图3 初始化后复杂网络拓扑结构Fig.3 Complex network topology after initialization

2.2 标签更新

通过对学术社交网络的拓扑结构分析得知,每一个社区至少包含一个影响力比较大的核心学者圈,社区的拓扑关系由核心学者圈向周围扩展。标签在传播时,以核心学者圈CSG 中节点及其对应的标签权重作为迭代开始时的种子。根据复杂网络小世界原则,只要节点的邻居节点拥有标签及权重,在算法的迭代过程中,其一定能获得标签和权重。标签更新时按照式(1)定义的规则更新节点的标签和权重。

其中N(x)表示学者节点x所有邻居节点的集合。在式(1)中,节点x在第t-1 步已经拥有标签c,那么当节点x在第t步更新时,如果其邻居节点y也拥有标签c,则节点x在第t步更新时,在标签c下的权重值为其在第t-1步标签c的权重值与其邻居节点y在第t-1 步标签c的权重值与节点x度数的比值之和。若被更新节点x没有邻居节点的标签c,则bt-1(c,x)值为0,节点x接收邻居节点的标签c作为新标签,并按照式(1)计算节点x在标签c下对应的权重。

标签更新过程具体操作步骤如下所示。

1)令迭代次数I=1。

2)随机排序网络节点得到一个序列S。

3)根据标签更新式(1)定义的规则更新节点的标签及权重。

4)每一轮迭代后删除权重小于阈值1/L(L为算法每一次迭代后当前节点拥有的标签数)的标签及权重。若所有标签权重都小于1/L,则保留最大的一个;若最大的标签有多个,则随机选择一个。

5)归一化所保留的学者节点标签权重,使其和为1。

6)如果S中的所有学者节点都拥有了标签,则算法停止。

7)否则令I=I+1,重复步骤2)~6)。

2.3 后期处理

算法迭代过程停止后,节点拥有的标签数即为学者所属的社区个数,每一个标签代表一个社区,标签相同的节点组成一个社区。按照这些规则进行后期处理后,在图2中共发现3个社区,分别为社区C1:{4,8,9,10,11},社区C2:{1,2,3,4,5,6,7}和社区C3:{12,13,14}。结果如图4所示。

图4 复杂网络社区检测结果Fig.4 Community detection results of complex network

3 权威学者推荐

社区发现算法对学术社交网络中的学者按照网络拓扑结构中表现出来的信息进行了相似性聚集。推荐模型接下来对社区内的学者进行挖掘并寻找影响力较大的学者,将影响力较大的学者推荐给社区内其他非直接好友学者用户。该推荐模型第二步的关键点在于寻找影响力较大的学者节点。在学术社交网络中,如果和一个学者建立联系的学者数量越多,一定程度上可以说明该学者的影响力(权威)越大,是一个广受欢迎的学者。因此,在基于好友关系的学术社交网络中,将学者影响力大小定义为其好友数量,即学者节点对应的度数,如式(2)所示。其中,ui为复杂网络中的任意一个学者节点,d(ui)为学者节点ui的度数,Uiscore表示学者影响力大小。

按照定义1 的规则,核心学者圈是社区内度数较高的学者节点集合,具有较高的影响力,但是在寻找不相交的核心学者圈时存在较高影响力的学者节点没有被加入核心学者圈的情形。为了避免漏掉一些影响力较大的学者,推荐模型将社区内高于平均影响力的学者作为社区内影响力较大的学者,分组推荐给社区内其他非直接好友学者。

4 复杂度分析

假设学术社交网络有n个学者节点且节点的平均度数为k,核心学者圈的平均节点数为m。最终发现的学术社区数为c个。ISRMACD 模型在学术社区检测阶段所使用的最大时间耗费为寻找社区中的核心结构CSG,近似为O(n2);在模型的推荐阶段,为各个学术社区建立索引需要的时间复杂度为O(c);计算社区内节点的影响力并按照影响力高低进行排序需要的时间复杂度近似为O(km+m2)。因此,该推荐模型的时间复杂度近似为O(n2)。

5 实验与评价

实验采用了学者网2016 年5 月30 日的学者好友关系数据集,并对该数据集去除噪声,保留了最大的一个连通分量,共计3 053 个学者节点和10 920 条好友关系(边)构成的学术社交网络关系图。在该数据集上应用本文提出的ISRMACD模型进行权威学者推荐。模型在标签初始化阶段共获得182个核心学者圈,亦即产生了182 个标签,在这些核心学者圈中学者数最多的是13 位、最少的是3 位,并且有125 个核心学者圈只包含3 位学者,占比超过2/3,即三角形结构往往是一个社区的核心结构,每个核心学者圈包含的学者数(Number)统计情况如图5所示。在图5中横坐标表示核心学者圈的序号、纵坐标表示核心学者圈中的学者数量。使用这182 个核心学者圈中的学者节点及其对应的标签和权重作为种子进行学术社区检测,最后检测到109 个学术社区,其中最大社区包含1 339 个学者,最小社区为3 个学者,具体如图6 所示。在图6中,横坐标表示社区序号,主坐标轴表示社区内学者用户(scholar number)的数量,次坐标轴表示社区内学者的平均影响力(average degree)和社区内包含的核心学者圈(CSG number)数量。在社区1 中,学者数是1 339,平均影响力是9.496,包含71 个核心学者圈;而在社区9 中,学者数是89,平均影响力是56.218,包含3 个核心学者圈。因此在真实社交网络中,社区中学者数越多,学者之间的相互联系相对越稀疏,为非直接好友关系的低影响力学者推荐权威学者显得更有意义。

图5 核心学者圈中学者数统计Fig.5 The numbers of scholars in core scholar groups

图6 社区内各项数据统计结果Fig.6 Statistical results of various data in communities

一些基于模块度函数的社区发现算法存在分辨率和尺度问题,如社区发现结果易淹没较小的社区结构[21]。但是从本文的实验可知,聚类结果中既有包含1 339个学者节点的大型社区,也有只包含3 个学者节点的小型社区。因此,本文的聚类结果反映了真实社交网络的社区发现需求,能够为进一步的权威学者推荐服务提供比较精确的决策支持。另外,从社区发现结果可知,很多学者属于多个不同的社区,这与学者网数据集有关。学者网数据集中的大多数学者可能因相同工作单位而属于同一个社区;也可能因不同的学术组织团体而聚集在一起;或因同一个科研团队/课程团队而属于另外一个社区;或因相同研究兴趣而与不同单位不同地域的学者构成一个社区。以学者网创始人汤庸教授为例,在该实验所采用的连通分量中其分别属于7 个不同的社区,共有938 个好友,好友遍布海内外各大知名科研院所,是影响力很大的权威学者。汤庸教授目前的研究方向、研究兴趣代表了学术领域当前的一些热点研究问题。将类似于汤庸教授的权威学者推荐给社区内的其他非直接好友学者,其他学者通过学者网好友社区内的信息共享可以实时获得权威学者的科研动态信息,具有较好的科学研究行动导向作用。

为了对所提出的学者推荐模型进行量化评价,利用在SCHOLAT 数据集上的学术社区划分结果及学术社区内学者影响力权值,在学者数最多的社区采用每组随机推荐10 名影响力权值高于社区内平均影响力权值的学者给社区内的其他非直接好友学者,以便对推荐模型的准确率、召回率以及准确率和召回率的加权调和平均函数F-Measure进行定量分析。准确率、召回率和F-Measure函数的计算方法分别如式(3)~(5)所示:

本实验选择向10 位参与测试的学者分别推荐1 组、2 组和3 组,即10 名、20 名和30 名权威学者来检测推荐模型的准确率、召回率以及F-Measure函数随着推荐权威学者数增加情况下的变化情况,实验结果如图7 所示,在图7 中Precision-1、Recall-1 和F-Measure-1 分别表示推荐1 组权威学者时的推荐精度、召回率和F-Measure函数值,Precision-2、Recall-2 和F-Measure-2 分别表示推荐2 组权威学者时的推荐精度、召回率和F-Measure函数值,Precision-3、Recall-3 和F-Measure-3 分别表示推荐3 组权威学者时的推荐精度、召回率和F-Measure函数值。从图7 可以看出,当推荐10 名权威学者时,推荐模型的推荐准确率总体表现较好,但是推荐模型的召回率比较低。随着推荐权威学者数的增加,推荐精度总体呈下降趋势,也许测试用户不愿意一次接受太多的推荐结果、需要时间来进行消化,但是推荐模型的召回率和F-Measure函数呈上升趋势,这和召回率和F-Measure函数的计算方法有关,即在推荐总数确定的情况下,随着被接受的推荐学者的增多,召回率和F-Measure函数的值也随之增加。总体来讲,该推荐模型的推荐精度均在60%以上,推荐准确率较好。

图7 推荐模型的质量评价Fig.7 Quality evaluation of recommendation model

6 结语

本文阐述了融合学术社区检测的学术社交网络权威学者推荐模型的工作原理,模型首先对学术社交网络进行学术社区检测,并将学术社区检测结果作为兴趣相似学者的聚集。社区的核心结构是每个社区内节点度数(影响力)较高的学者,在社区内具有更高的权威,但是考虑社区核心结构可能没有包含全部权威学者,因此,该推荐模型将社区内影响力高于该社区平均影响力的学者作为有影响力的权威学者推荐给社区内的其他非直接好友学者。在SCHOLAT 数据集上的实验表明该推荐模型取得了较高的推荐准确率,能够对真实学术社交网络平台学者网的功能演化及预测提供有力支持。下一步将对学者网的全部用户数据(包括多个连通分量)进行动态社区发现,并根据动态社区发现结果实现权威学者在学术社交平台中的实时在线推荐。研究还发现,学者网中学生用户的数据相对都比较稀疏,为了避免数据稀疏及为冷启动学生用户提供更好的权威学者推荐服务,引导他们的学习及学术研究,下一步研究考虑结合学者尤其是学生用户的其他属性数据,如专业、研究兴趣、浏览轨迹等数据进行学术社区检测并为相应的推荐服务提供支持。

猜你喜欢

权威影响力学者
“心血管权威发布”公众号简介
《义务教育体育与健康课程标准(2022年版)解读》权威出版
学者介绍
学者简介
学者介绍
太极拳,风縻世界的影响力
My Hobby
跟踪督察:工作干得实 权威立得起
权威发布
黄艳:最深远的影响力