基于同构合著网络的合作者推荐模型研究
2017-05-13杜秀春康文杰
刘 欣, 杜秀春, 康文杰
(1.长沙学院计算机工程与应用数学学院,湖南 长沙 410022; 2.国防科学技术大学计算机学院,湖南 长沙410073)
基于同构合著网络的合作者推荐模型研究
刘 欣1, 杜秀春2, 康文杰2
(1.长沙学院计算机工程与应用数学学院,湖南 长沙 410022; 2.国防科学技术大学计算机学院,湖南 长沙410073)
随着社会网络的快速发展,对同构合著网络中合著关系推荐问题的研究现已成为一个研究热点.首先定义了合著关系和同质性;其次给出不同情况下合著关系特征,建立合著关系推荐模型,并提出了不同情况下产生合著关系推荐的算法.实验表明,通过该模型可为作者推荐适合的合著者.
同构合著网络;作者相似性;学科相似性;信任度
随着科学和工程领域的快速进步,合作的趋势朝着两个不同的方向发展,一方面,合作的形式日益趋向于多样化、复杂化;另一方面,合作的范围突破地域的限制并逐步扩大,跨地区、跨国家之间的合作日益密切而且合作强度不断增大.这就需要一个合作推荐模型来为科研工作者推荐合作对象,为将来的合作提供一个推荐的平台.
社会网络结构和行为共同演化来促进人与人之间的合作[1],尤其是科研合作网络,这种动态的社会合作网络结构可以促进合作,网络节点间链路的重连可以促使合作达到很高的水平[2].Brzozowski 和 Roman在惠普公司内部社交网站Watercooler上做了一次评测推荐方案实验,主要提出类三种推荐方法:基于网络结构推荐,基于用户行为推荐和基于用户档案相似度推荐,实验结果表明用户的社交行为更能反映真实的自我和更容易被推荐者接受[3].与以上结论完全不一致的是,Aiello[4]等人发现标签能够刻画用户的兴趣相似度,不同于以前仅根据结构相似性的是他们考虑了用户在标签、圈子、图书和音乐等这些行为上的相似性.越相似的网络节点对产生连边的可能性越大,张千明[5]等人将基于相似性的链路预测模型应用于标签分类问题中,通过相似性计算出未标签节点与所有已标签节点标签的相似度.链路预测有望为网络演化提供一个简单同一且相对公平的比较平台[6].类似地,如何刻画网络中节点的相似性也是一个重大的理论问题,只有能够快速准确地评估某种相似性定义,才能进一步研究网络特征对相似性指标选择的影响[7].Yizhou Sun[8-10]等人提出了在异构书目网络中合作关系预测思想并给出了具体的基于元路径的关系预测模型以及元路径的拓扑特征.Xiao Yu[11]等人建立基于元路径的预测模型,并提出用两相引用概率研究方法来更加高效有用地预测引文关系.Ball 和Newman[12]用极大似然模型研究类采访获取的社会网络关系,发现对于非互惠的边,大多数是由社会地位低的个体指向社会地位高的个体,而互惠边通常在社会地位相似的人体之间产生.吕琳瑗[13]利用链路预测的方法推断影响航空网络演化的重要因素,研究结果表明两个城市之间是否存在航空线路与它们的经济水平紧密相关,其中与GDP第三产业关联更为突出.文献[14]和[15]对现有推荐系统评价指标进行了系统的阐述,总结了推荐系统评价指标的最新研究进展,从准确度、多样性、新颖性及覆盖率等方面进行多角度的阐述,并对各自的优缺点以及适应的环境做了深入的分析.
首先给出了合著关系和同质性的定义;其次给出了不同情况下合著关系的特征;再次建立了合著这推荐模型,并给出了不同情况下产生合作关系的算法;最后通过实验,并对作者之间的合著者推荐模型进行合理性、正确性分析与检验.
1 合著关系的定义
合著关系是已发表的学术论文中作者之间共同署名的关系.合作关系是指社交网络中人与人之间已合作的关系和潜在的合作关系.潜在的合作关系是指社会网络中那些还没有建立合作关系的节点在将来很有可能合作的关系,它既受已合作关系的影响,又受自身属性的影响.在本文中,合著关系和合作关系是同一种关系,因为本文研究范围只针对学术论文,对合作关系的预测也只是研究作者将来可能的合作对象.而合作关系定义相对广泛一些,它不仅包含合著关系,而且包含其他领域的合作关系.
1.1 合著关系的描述
定义(合著关系矩阵):在合著网络中,我们假设网络中n个不同的节点,用RM=(R1,R2,…,Rn)′表示节点之间合著关系矩阵,Ri(1≤i≤n)表示第i个节点与其他节点之间的合作关系.则合著关系矩阵表示如下:
其中,节点之间的关系rij(1≤i,j≤n)表示第i个节点与第j个节点之间的合作关系,rij=0表示第i个节点与第j个节点之间以前没有合作,rij=k表示第i个节点与第j个节点之间合著k次.显然,rij=rji,这是因为第i个节点与第j个节点之间的合作次数与第j个节点与第i个节点之间合作次数相同.因此RM=(R1,R2,…,Rn)′是对称矩阵,具有对称矩阵的所有属性.
1.2 同质性
同质性是指合著网络中节点具有相同的属性或特征,同质性可以分为两类:作者相似性和学术相似性.
(1)作者相似性(AuthorComparability)是指作者之间综合能力的相似程度.这种相似程度取决于一个因数,即作者在某会议上发表论文的数量,职位.不同刊物或会议上发表论文可以反映不同的学术水平,发表论文数量的多少表示作者的水平程度高低.所以可以将论文刊物或会议分为四个等级:等级A(A类会议或期刊),等级B(B类会议或期刊),等级C(C类会议或期刊),等级D(EI),等级E(核心期刊),等级F(普通期刊).
作者相似性矩阵:AT=(A1,A2,...,An)′=
Ai(0in)表示作者i,ai,bi,ci,di,ei和fi分别对应于作者在四个等级论文刊物或会议上发表论文的数量,以及它们所对应的影响因子为I1=0.5、I2=0.25、I3=0.125、I4=0.1、I5=0.075、I6=0.05。所以,作者Ai与作者Aj的相似性AC为:
(1)
(2)学科相似性(ProfessionalDisciplineSimilarity): 是指两个科学家所从事科研领域的相似程度.能否跨学科合作主要取决于其学科之间的可合作程度,我们通过计算历史合作次数与总次数的比例来定义学科相似度.所以学科与学科的学术相似性AS为:
(2)
这里, 表示学科与学科可能合作程度,表示学科和学科历史合作次数,表示学科论文总数,因此是随时间动态变化的.
(3)地域相似性
地域相似性(RegionalSimilarity)是指学校或科研单位所处的地理位置对其与其他合作单位合作的影响.在互联网高度发展的今天,我们不得不承认很多单位之间作者的合著依然受到其地域和学校级别的限制,例如在湖南,国防科大、中南大学和湖南大学合著比较频繁,而与其他学校的合著次之,因为地域相同的情况下,与学校的级别也有很大的关系.我们将这类特性公式化如下:
(3)
Ld(Ai,Aj)表示地域差,同一城市取值为0,同一省份取值为1,同一国家为2,不同国家为3.max(|Ld(Ai,Aj)|)表示最大地域差为3.Sd(Ai,Aj)表示单位级别差,985高校或国家重点单位为4,211高校为3,一本类高校为2,二本类高校为1,其他为0.如果高校级别相同,此时Sd(Ai,Aj)=0,因此RS(Ai,Aj)=|Ld(Ai,Aj)|/max(|Ld(Ai,Aj)|)表示地域相似性只与地域有关。
2 合著关系的特征
在合著网络中,任意两个节点之间的合作都存在三个关系,即(1)直接合著关系、(2)间接合著关系和无合著关系.无合著关系又可以分为可达路径合著关系和不可达路径合著关系
(1)直接合著关系
直接合著关系就是指两个作者直接合作完成学术研究、论文撰写及共同署名发表过至少一篇以上论文.如图1,作者a与作者b合作1,2,…,k次.
图1 直接合著关系
(2)间接合著关系
图2 作者A和作者B有k个共同合作者的情况图
间接合著关系就是指两个作者没有共同署名发表过论文,但他们可能有共同合作者,该作者跟他们都存在直接合著关系.如图2所示,k个共同合著者中只要有一个合著者介绍就会促成作者a和作者b之间的合作.
(3)无合著关系
无合著关系是指排除直接合著关系和间接合著关系情况之外的关系,可能存在如下两种情况.
①可达路径合著关系
路径可达是指在合著关系网络中总能找到一条以上路径从作者a到达作者b.图3显示作者a要与作者b合作,需要有k个合著者的共同引荐.
图3 作者A经k个作者传递推荐和作者B建立关系图
②不可达路径合著关系
不可达路径合著关系就是找不到一条路径可以从作者a到达作者b.但也存在合作的可能性且受到作者相似度、学术相似度和地域相似度的影响.如果作者水平相当、且在同一地域,他们的合著几率会大很多,是合著推荐的最佳人选.如图4,作者a与作者b所在的网络隔离,作者a或作者b也可是是孤立节点.
图4 作者a和作者b在两个相互隔离的网络中
3 合作者推荐模型
基于给出的合著网络基本性质(即同质性)与合著关系特征,便可以建立合著关系推荐模型来解决不同情况下合著者推荐问题.针对前面描述的四种合著关系,可给出在不同关系下的合著推荐计算方法.而推荐合著的概率也与作者之间的信任度有关,下面给出每种情况下信任度的计算方法.
3.1 直接合著关系的推荐模型
定义(信任度):在合著网络中,信任度(Trustdegree)表示作者A对其合著者的信任程度,其与作者的合作次数、能力和影响力有关,能力可以用作者发表论文水平来衡量,而影响力通过与该作者合著的人的平均度来度量.因此,信任度TD:
(4)
3.2 间接合著关系的推荐模型
间接合著关系中作者之间的信任度与推荐者和作者相似性有很大的关系,在合著网络中,推荐者的介数(Betweenness)越高,推荐概率越大.同样,作者越相似,被推荐的概率越大.因此,推荐概率与介数和作者相似性有关.推荐概率被定义如下:
(5)
这里,pk(Ai,Aj)表示共同合著者k推荐作者i和作者j之间合著的概率,Betw(Ak)表示作者k的介数,Betwmax表示所有作者介数的最大值,AC(Ai,Aj)为作者i与作者j之间的作者相似性.
推荐者越多,作者之间的信任就越大.而且只要有一个推荐成功就成功,因此,信任度TD:
(6)
3.3 无合著关系的推荐模型
无合著关系的推荐主要依赖三点,作者相似性,学术相似性和地域相似性.地域相似性越大,信任度越小.所以,信任度TD:
(7)
这里,当存在可达路径合著关系时,α=1表示需要n个推荐者传递推荐促成作者i和作者j合作.当存在不可达路径合著关系时,α=0.
4 实验
为验证合作关系模型,采集了某科研单位科研工作者以及相关合作者80名,论文206篇,从中挖掘相关合著者信息对可能的合作关系进行研究.
首先随机选出18个节点并给出它们的作者相似性因素,用于计算作者相似性.不难发现图中节点71为孤立节点,这样可计算节点71与其他节点之间的信任度,信任度越高,被推荐的概率越大.这里先给出所有作者的相似矩阵列表如(表1),根据此表可以算出作者相似性.
表1 作者相似矩阵表
表2 区域相似性表
图5 作者学术水平图
根据表1计算得出作者的学术水平图,如图5,再根据作者的学术水平可以得出作者71与其他作者之间的作者相似度,如图6地域相似性与作者所处的地理位置有关,表2显示作者集{71,73,80}为一个地区,学校等级为1,而作者集{1,3,17,33,40,55,63,79}为地区2,学校等级为3,两个集合之间的地区差为1,学校等级差为2,所以他们中作者的区域相似性为(1/3)2+1=1/27.如图6,带三角形的域相似性,带菱形的线表示作者相似性,带正方形的线为学术相似性.
图6 作者71与其他作者之间的作者相似性和学术相似性
由于作者71是孤立节点,没有跟其他节点合作过,所以公式(7)中为0.通过作者相似性,区域相似性,学术相似性,我们可以根据公式(7)计算作者71与其他作者之间的信任度,并将其较大的值作为合著推荐者.如图7所示,节点71与其他节点之间的信任度从高到低依次是33、19、61和56等,因此我们推荐这些节点作为作者71的合著者.
图7 节点71与其他节点之间的信任度
5 结论
本文通过对同构合著网络的研究,建立合作可能性预测模型并给出了合著关系矩阵和合作信任度的计算方法,通过对不同情况下合著关系特征的分析,提出了在同构合著网络图中推荐可能合作者的思想,经实验结果表明该模型的确能够为科研工作者推荐可能的合作对象提供一个很好的平台,为今后科学家之间的合作找到了一条捷径.
[1]FehlK,vanderPostDJ,SemmannD.Co‐evolutionofbehaviourandsocialnetworkstructurepromoteshumancooperation[J].Ecologyletters, 2011, (6): 546-551.
[2]RandDG,ArbesmanS,ChristakisNA.Dynamicsocialnetworkspromotecooperationinexperimentswithhumans[J].ProceedingsoftheNationalAcademyofSciences, 2011, (48): 19193-19198.
[3]BrzozowskiMJ,RomeroDM.whoshouldIfollow?Recommendingpeopleindirectedsocialnetworks[A].Proceedingsofthe5thInternationalConferenceonInformationandKnowledgeManagement[C].NewYork:IEEEPress, 2011:1825-1834.
[4]AilloLM,BarratA,SchifanellaR,etal.Friendshippredictionandhomophilyinsocialmedia[J].ACMTransactionsontheWeb, 2012, (2):9.
[5]ZhangQM,ShangMS,LuL.Similarly-basedclassificationinpartiallylabelednetworks[J].InternationalJournalofModernPhysicsC, 2010, (6): 813
[6]WangWQ,ZhangQM,ZhouT.EvaluatingNetworkModels:ALikelihoodAnalysis[J].EurophyicsLetters, 2012, (2): 5769-5778.
[7]ZhouT,LuL,ZhangYC.Predictingmissinglinksvialocalinformation[J].TheEuropeanPhysicalJournalB-CondensedMatterandComplexSystems, 2009, (4): 623-630.
[8]SunY,BarberR,GuptaM,etal.Co-authorrelationshippredictioninheterogeneousbibliographicnetworks[A].ProceedingsofInternationalConferenceonAdvancesinSocialNetworksAnalysisandMining[C]. 2011: 121-128.
[9]SunY,HanJ,YanX,etal.Pathsim:Metapath-basedtop-ksimilaritysearchinheterogeneousinformationnetworks[J].ProceedingsoftheVldbEndowment, 2011, (11):992-1003.
[10]SunY,NorickB,HanJ,etal.Integratingmeta-pathselectionwithuser-guidedobjectclusteringinheterogeneousinformationnetworks[A].Proceedingsofthe18thACMSIGKDDinternationalconferenceonKnowledgeDiscoveryandDataMining[C].ACM, 2012: 1348-1356.
[11]YuX,GuQ,ZhouM,etal.Citationpredictioninheterogeneousbibliographicnetworks[A].Proceedingsofthe12thSIAMInternationalConferenceonDataMining[C]. 2012: 1119-1130.
[12]BallB,NewmanMEJ.Friendshipnetworksandsocialstatus[J].NetworkScience, 2012,(1):16-30.
[13] 刘宏鲲,吕琳媛,周涛.利用链路预测推断网络演化机制[J]. 中国科学:物理学 力学 天文学, 2011, (7): 816.
[14] 刘建国,周涛,郭强,等.个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,(3):1-10.
[15] 朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012, (2):163-175.
(作者本人校对)
Research on Co-author Recommender Model Based on Homogeneous Coauthor Networks
LIU Xin1, DU Xiuchun2, KANG Wenjie2
(1. College of Computer Engineering and Applied Mathematics, Changsha University,Changsha Hunan 410022, China;2. School of Computer, National University of Defense Technology, Changsha Hunan 410073, China)
With the rapid development of social network, cooperation relationship recommender has become a tend. First, we define coooperation relationship and homogeneity in this paper. Second, the characteristics of coopration relationship in different conditions are given. Third,we build the model of co-author recommender, and propose different methods to recommend the best co-author. Finally experimental data is collected and calculated. Experiments show that the proposed methods are reasonable and effective.
homogeneous coauthor networks; author comparability; professional discipline similarity; trust degree
2017-03-14
湖南省教育厅基金(批准号:14C0095)资助项目.
刘欣(1978— ),男,湖南常德人,长沙学院计算机工程与应用数学学院讲师,博士.研究方向:计算机网络与社会网络.
TP391
A
1008-4681(2017)02-0062-05