SLTA-PathSim:一种融合节点属性和文本信息的相似性度量算法
2020-05-12刘辉林罗梦莹
刘辉林,闫 娜,罗梦莹
(东北大学 计算机科学与工程学院,沈阳110169)
E-mail:liuhuilin@mail.neu.edu.cn
1 引 言
随着在线社交媒体的发展,网络交互变得极其复杂.现有的网络大多是包含多种类型节点、链接以及丰富语义信息的异质信息网络.通过在异质信息网络中建模数据,可以捕捉丰富的语义信息并应用于其他网络分析任务.
异质信息网络分析的一个基本问题是确定合适的相似性度量指标来表征节点之间的相似性.文献信息网络作为一种典型的异质信息网络,描述了科学文献的体系结构和客观规律.在文献信息网络中搜索与指定作者相似的其他作者有利于各种数据挖掘任务.例如,相似性结果可以指导作者发现潜在的合作者.因此,两个作者可能会更早地进行学术交流,有助于学术研究.此外,相似性搜索在推荐系统方面也有广泛应用,例如文章推荐,朋友推荐等.
相似性度量作为一种常用的评估节点对之间相似度的无监督方法,一直是数据库和web搜索领域的重要研究内容.目前,很多学者对相似性度量方法进行了研究,大多针对于同质信息网络.然而,随着在线社交媒体的发展,包含多种类型节点以及交互关系的异质信息网络在真实世界中占据主要地位,图1的文献信息网络就是一种常见的异质信息网络.该网络包含“作者”、“论文”、“会议”、“术语”四种不同类型的节点,这些节点之间构成了多种交互关系.以作者A1和作者A2之间的关系为例,作者A1撰写的论文P1和P2与作者A2撰写的论文P4和P5都发表在“SIGMOD”会议上,论文P3和P6都包含相同的术语“Link Prediction”.
图1 文献信息网络
异质信息网络中的两个节点可以通过不同的路径进行连接,不同路径表达的语义信息也不尽相同.2011年,孙等人[1]提出了元路径的概念,为异质信息网络中的相似性度量提供了一个全新的视角.通过对现有方法进行分析和总结,本文在PathSim算法的基础上,设计了基于节点属性和文本信息的SLTA-PathSim 算法.该算法考虑了论文中作者署名位置、论文标题和摘要对挖掘结果的影响,其主要贡献如下:
1)作者署名位置信息是论文的一个重要属性,在一定程度上反映了作者对论文的贡献程度.因此,本文提出了基于元路径和作者署名位置的SL-PathSim算法,在计算交换矩阵时加入了作者署名位置的计算.
2)由于提交渠道的不同,同一个会议上发表的多篇论文研究内容可能存在差异[2].论文标题和摘要反映了论文的主要研究方向,通过分析两个作者发表文章的文本相似性可以了解作者的研究兴趣是否相近.因此,本文提出了基于元路径和文本内容的TA-PathSim算法,实现了两个节点之间相似性分数的加权组合.
3)最后,通过在著名的AMnier数据集上进行多组相似性搜索实验,对本文提出算法的有效性进行了验证.
2 相关工作
相似性度量作为一种常用的评估节点对之间相似度的无监督方法,一直是复杂网络分析领域的一个热点话题.直观地说,如果两个节点交互得越频繁则它们的相似程度越高.
2011年孙等人提出了用于单条对称元路径中同种类型节点间相似性计算的PathSim方法[1],该方法综合了两个作者之间的所有路径以获得相似性,在搜索相似作者方面取得了良好的效果.为了评估不同类型节点的相似性,石川等人借鉴异质信息网络中SimRank算法[3]的基本思想,提出了HeteSim算法[4].该算法采用双向随机游走计算两个节点通过给定元路径的相遇概率,可以在任意元路径下测量任何节点之间的相似性.2018年周等人通过对大量文献进行研究,发现现有方法大多基于用户指定的元路径,为此设计了一种基于元结构的异质SMSS框架[5],能够自动构建并捕获丰富的语义信息.文献[6]从信息论的角度出发,提出了一种基于元路径的互信息模型MMI,通过路径实例熵的数量来定义相似性分数,减少了因节点之间缺少连通关系而造成的误差.
上面介绍的方法均属于根据专家的先前经验来挖掘有用的知识,而如何自动且有效地进行网络特征的学习推动了网络嵌入的发展.网络嵌入旨在将每个网络嵌入到低维空间中,学习节点的嵌入向量[7].在得到节点的向量表示之后就可以通过余弦相似性等距离度量方式计算节点之间的相似性.Bryan Perozzi等人于2014年提出了DeepWalk嵌入算法[8],首先在网络上采用随机游走策略生成节点的邻居集合,然后应用Skip-Gram模型训练嵌入.付等人提出了一种针对异质信息网络的Hin2Vec网络嵌入方法[9],不同于DeepWalk,Hin2Vec的核心是一个神经网络模型,通过同时嵌入网络中的节点和链接,更多地利用了网络结构和元路径所表达的语义信息,使得生成的向量空间与实际网络更加接近.尽管大多数现有的嵌入方法考虑了异质关系,但它们通常对所有关系采用单一模型进行嵌入,没有区分不同的关系类型,这不可避免地限制了网络嵌入的能力.2019年陆等人提出了RHINE模型[10],从数学分析角度出发,将作者与论文之间的关系视为一种点对点结构,论文与会议之间的关系看成一个以另一个为中心的结构,针对不同的关系结构采用不同的嵌入方法.
系统回顾所有相关研究,我们发现以往的研究并没有考虑节点属性和丰富的文本信息来量化相似性.因此,本文在PathSim基础上提出了一种融合节点属性和文本信息的SLTA-PathSim算法,并通过在AMiner数据集上进行多组对比实验,证明了SLTA-PathSim的有效性.
3 问题定义
本节将简要介绍文献信息网络中涉及的一些概念、符号以及交换矩阵的定义和计算.
定义1.异质信息网络(Heterogeneous Information Network)通常被定义为G=(V,E,A,R),其中V表示网络中的节点,E表示这些节点所形成的链接.节点类型映射函数为θ:V→A,链接类型映射函数φ:E→R.对于任意节点v∈V,属于一个特定的节点类型θ(v)∈A,对于任意一条边e∈E,属于一个特定的链接类型φ(e)∈R,并且满足节点类型|A|>1或者链接类型|R|>1[1,2].
定义2.文献信息网络(Bibliographic Information Network)是一种典型的异质信息网络.图1展示了一个包含作者(Author)、论文(Paper)、会议(Venue)以及术语(Term)四种节点类型的文献信息网络.
图2 网络模式与典型元路径
定义3.网络模式(Network Schema)通常被定义成TG=(A,R).类似数据库中的E-R图,网络模式是网络的一种元描述.图2(a)为文献信息网络的网络模式示意图.
4 SLTA-PathSim算法
文献信息网络包含多种类型的节点和链接.由于网络的异质性,同质网络方法不能简单地应用到异质信息网络中,进而吸引了大量研究人员对异质信息网络研究的兴趣.孙等人提出的PathSim算法虽然在作者相似性评估方面取得了一定的成果,但该方法依赖于路径实例的数量,通过整合节点间有限的路径数计算相似性.
给定一条对称元路径P,对于任意两个节点ai和aj,PathSim(ai,aj)定义如公式(1)所示,其中pai→aj指在元路径P下从节点ai到达节点aj的路径实例.
(1)
由公式(1)可知,PathSim由两部分组成:一是给定元路径P下源节点与目标节点之间的路径实例数,二是节点到自身的路径实例数.如果两个节点之间的元路径实例越多,相似性就越高.对于单一查询来说,PathSim算法的时间复杂度为O(n*d),其中n表示目标节点的数量,d为交换矩阵MP中目标节点的平均邻居数.
尽管PathSim后续被应用于文献信息网络中的多种数据挖掘任务,但忽略了节点属性和文本信息的影响.针对PathSim的不足,本文提出了一种融合节点属性和文本信息的SLTA-PathSim算法.下面几小节,将对该算法进行详细描述.
4.1 基于元路径和作者署名位置的SL-PathSim算法
对于计算文献信息网络中两个作者之间的相似性,论文这一类型节点起着关键性作用,很多基于元路径的方法都可以围绕论文进行扩展.通过对论文中存在的多种属性和文本内容进行分析,与现有方法不同,本文抓住了作者署名位置这一重要属性对计算结果的影响.一般来说,作者的署名位置越靠前,作者对论文的贡献程度越大.基于这样的想法,本文提出了基于元路径和作者署名位置的SL-PathSim(Signature Location-PathSim)算法,其时间复杂度同样为O(n*d).下面将给出该算法的定义,并通过分析实例对该算法进行介绍.
根据交换矩阵的定义,给定对称元路径P,对于两个相同类型的节点ai和aj,SL-PathSim算法的定义如公式(2)所示.其中sl(ai)表示作者ai的署名位置,sl(ai)=slmax+1-slcur,slmax是ai发表的所有论文中署名位置的最大值,slcur指作者在当前论文中的署名位置.若作者与论文之间不存在写作关系,则sl(ai)为0.
(2)
图3是作者Jim和Mike之间基于元路径APVPA的一个简单文献信息网络实例,其中包含作者、论文、会议三种不同类型的节点.
在元路径APVPA下,交换矩阵M=WAPWPV…WVPWPA,其中WPA=WAPT,WVP=WPVT.邻接矩阵WAP表明作者和论文之间是否存在写作关系.以图3中的Jim为例,该作者发表了三篇论文P1、P2、P5,并没有发表论文P3、P4和P6,因此本例中通过PathSim算法计算得到的WAP如表1所示.
图3 基于元路径APVPA的文献信息网络实例
表1 PathSim计算的邻接矩阵WAP
Table 1 Adjacency matrixWAPcalculated by PathSim
P1P2P3P4P5P6Jim110010Mike001101
作为论文节点的一个重要属性,作者署名位置信息在一定程度上反映了该作者对论文的贡献程度.因此,本文在计算交换矩阵时,增加了作者署名位置.同样以图3示例中的Jim为例,该作者发表的三篇文章P1、P2、P5中最大署名位置为2,根据公式slmax+1-slcur,可以得到:slP1(Jim)=2+1-1=2,slP2(Jim)=2+1-2=1,slP5(Jim)=2+1-1=2.因此,本例中通过SL-PathSim计算得到的WAP如表2所示.
表2 SL-PathSim计算的邻接矩阵WAP
Table 2 Adjacency matrixWAPcalculated by SL-PathSim
P1P2P3P4P5P6Jim210020Mike001102
邻接矩阵WPV表示论文与会议之间的发表关系,其通过PathSim算法计算的结果可以表示为表3.由于作者署名位置仅存在于作者和论文之间,在论文和会议之间并不存在,所以这里直接将PathSim计算的WPV结果作为SL-PathSim算法的WPV邻接矩阵.
表3 PathSim计算的邻接矩阵WPV
Table 3 Adjacency matrixWPVcalculated by PathSim
KDDSIGMODP110P210P310P410P501P601
4.2 基于元路径和文本信息的TA-PathSim算法
文献信息网络中的论文节点包含多种文本信息,例如论文标题,摘要,关键词等,其中论文标题是对文章最简要的概括.这也与现实情况相符,两个作者所撰写的论文标题越相似表明其研究方向越相近,但通过标题仅能了解作者的大致研究方向.设想两位作者在同一会议上发表了文章,标题都是“网络表征学习的研究与应用”,但二者分别基于同质信息网络和异质信息网络,虽然两篇文章的标题完全相同,但是研究内容却存在很大差异.如果仅仅考虑论文标题之间的相似性,反映的只是论文的部分信息,计算的准确性就会下降.因此,本文提出了基于元路径和文本信息的TA-PathSim算法,同时计算论文标题和摘要之间的相似性,并取它们的平均值作为两篇文章的最终文本相似度.
目前文本特征提取问题的研究工作,逐渐从传统方法向深度学习方法转移[12].传统的“Bag-of-Words”忽略了词的顺序和单词之间表达的语义信息.虽然“N-Grams”模型考虑了顺序,但效果没有显著改善.为此,本文采用Doc2Vec模型来实现论文标题及摘要相似度的计算,该模型通过PV-DM模型将文本映射成向量,在一定程度上保留了文本的语义信息[13].
算法1详细介绍了Doc2Vec模型的使用流程.首先根据文献信息网络中论文节点提供的标题集对Doc2Vec模型进行训练,然后利用训练出来的模型M将论文标题和摘要转化为特征向量,最后通过距离计算公式计算论文标题及摘要的相似度.关于距离公式本文使用的是余弦相似性度量方法,其时间复杂度为O(n*m),n代表作者的个数,m是两位作者在同一个会议上发表文章的数量.
算法1.文本相似性的计算
输入:文献信息网络G,作者集合A,给定作者a1
输出:论文标题相似性St,论文摘要相似性Sa,论文相似性Sta
1. 初始化相似性值列表St,Sa,Sta为φ
2. 使用论文标题集训练Doc2Vec模型得到M
3.Va1←a1参加的会议
4. FOR eacha2inADO
5.Va2←a2参加的会议
6. IFVa1∩Va2=φ
7.Sta=0
8. END IF
9. ELSE
10. FOR eachvinVa1∩Va2DO
11.P1,P2←v中a1,a2发表的论文
12.T1,T2←a1,a2发表论文的标题
13.A1,A2←a1,a2发表论文的摘要
14.v1,v2←M(T1),M(T2)
15.v3,v4←M(A1),M(A2)
16.St,Sa←cos(v1,v2),cos(v3,v4)
Sta←(St+Sa)/2.0
17. END FOR
18. END ELSE
19. END FOR
20. RETURNSta
给定元路径P,虽然PathSim能够捕捉节点之间微妙的语义信息,但是节点自身存在很多属性信息和丰富的文本信息,如何考虑这些信息对挖掘结果的影响是个关键.因此,在PathSim算法的基础上,本文将论文标题和摘要的相似性作为两位作者之间基于元路径相似性分数的权重.对于相同类型的作者ai和aj,TA-PathSim(ai,aj)定义如公式(3)所示,其中Sta(ai,aj)表示ai和aj在同一会议上发表论文的标题相似性和摘要相似性的平均值.
(3)
由于TA-PathSim加入了标题和摘要文本相似度的计算,在执行和计算过程中会花费相应的时间,因此执行效率要低于PathSim,其时间复杂度为O(n*d*m),m是两位作者在同一个会议上发表的文章篇数.由于对于任意两位作者a和a′,若不存在一个满足APV的元路径使得作者a与作者a′关联,那两个作者a和a′一定不相似[12].因此,本文计算文本相似度的前提是判断两位作者是否在同一会议发表了论文,如果存在这样的目标作者,则执行计算,避免查找网络中的所有作者,大大缩减了计算时间.
5 实 验
本节利用PathSim算法对所提出的算法进行了定性评估,基于元路径APVPA搜索并分析与“Christos Faloutsos”相似的Top-10作者,对本文提出算法的有效性进行了验证.
5.1 数据集
由于加入了论文标题及摘要的相似性计算,数据集的获取成为了本文的难点.以往的研究大多采用DBLP的“4-area-dataset”数据集,但该数据集包含的标题和摘要信息基本一致.因此,本文使用AMiner数据集进行实验.AMiner是清华大学计算机科学系开发的数据分析与服务平台,为计算机领域的研究者提供了许多前沿知识和研究方向.为了使计算出来的结果更加真实,本文选取了AMiner数据集中1992年到2011年的数据,并删除了不包含摘要的论文.此外,考虑到大多数研究者关注顶级会议上发表的论文以及每个研究领域都有相应的社区,本文根据谷歌学术指标提取了6个领域的数据,即人工智能(AI)、计算机视觉(CV)、数据挖掘(DM)、数据库(DB)、计算语言学(CL)和信息系统(IS)[14].处理后的数据集包括1.46M论文、476K作者和4K会议.
5.2 SL-PathSim算法分析
首先对数据集进行处理,从而获得每篇论文中每位作者的署名位置.在计算交换矩阵时,如果作者发表了一篇论文,slmax+1-slcur可用来表示两个节点间的连通性,其中slmax为作者在所有发表论文中署名位置的最大值,slcur为作者在当前论文中的署名位置.
分析表4中SL-PathSim,PathSim查找的与“Christos Faloutsos”相似的Top-10作者,“Heikki Mannila”和“Ravi Kumar”之间的顺序略有不同.“Heikki Mannila”共发表论文19篇,其中2篇作为第一作者,9篇作为第二作者,7篇作为第三作者,1篇作为第六作者.作者“Ravi Kumar”发表论文43篇,第一作者7篇,第二作者25篇,第三作者7篇,第四作者3篇,第五作者1篇.根据上述数据以及作者署名位置计算公式我们可以得出结论,作者“Heikki Mannila”对论文的贡献程度要大于“Ravi Kumar”.如果目标作者和源作者在同一会议上发表论文,目标作者对论文贡献程度越大,该作者与源作者越相似.因此,“Heikki Mannila”的相似度得分应高于“Ravi Kumar”.
表4 APVPA下PathSim和SL-PathSim搜索的与“Christos Faloutsos”相似的Top-10作者
Table 4 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and SL-PathSim under APVPA
PathSimSL-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.8794Philip S.Yu0.8921Philip S.Yu0.8551Jian Pei0.8714Jian Pei0.7404Charu C.Aggarwal0.6943Jieping Ye0.6502Ravi Kumar0.6847Heikki Mannila0.6491Eamonn J.Keogh0.6845Ravi Kumar0.6198Heikki Mannila0.6753Huan Liu0.5752Vipin Kumar0.6715Bing Liu0.5585Hui Xiong0.6677Hui Xiong0.5513
从表4中我们可以看出,关于与“Christos Faloutsos”相似的Top-10作者,SL-PathSim和PathSim的查找结果存在细微的差别.原因是PathSim算法只是基于元路径的实例数量计算节点对之间的相似度,仅仅考虑作者是否发表了一篇论文,并没有考虑作者对该篇论文的贡献程度.本文提出的SL-PathSim算法在考虑元路径实例数量的同时考虑了作者署名位置的影响,所以它的结果更接近事实.
5.3 TA-PathSim算法分析
TA-PathSim算法的实现主要包含四个步骤:首先训练论文标题集以获取Doc2Vec模型,然后利用Doc2Vec模型将论文的标题和摘要转化为特征向量,再利用余弦相似性度量方法分别计算标题和摘要的相似度,最后计算得到两个作者的相似度.
表5 APVPA下PathSim和TA-PathSim搜索的与“Christos Faloutsos”相似的Top-10作者
Table 5 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and TA-PathSim under APVPA
PathSimTA-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.6268Philip S.Yu0.8921Philip S.Yu0.6058Jian Pei0.8714Jian Pei0.5917Charu C.Aggarwal0.6943Ravi Kumar0.4703Ravi Kumar0.6847Charu C.Aggarwal0.4676Eamonn J.Keogh0.6845Vipin Kumar0.4666Heikki Mannila0.6753Heikki Mannila0.4645Vipin Kumar0.6715Hui Xiong0.4634Hui Xiong0.6677Eamonn J.Keogh0.4549
表5给出了TA-PathSim与PathSim搜索到的与“Christos Faloutsos”相似的Top-10作者,其中“Heikki Mannila”和“Eamonn J.Keogh”的排名顺序有较大差异.“Heikki Mannila”发表的文章共有19篇,其中6篇关于“similarity”,3篇关于“cluster”.“Eamonn J.Keogh”共发表21篇论文,其中15篇论文关于“time series”,4篇论文关于“similarity”.源作者“Christos Faloutsos”发表了8篇关于“proximity measures”和“similarity queries”的论文,2篇论文关于“time series”,2篇关于“cluster”.通过上面对作者发表文章主要内容的分析,“Heikki Mannila”的研究兴趣与源作者的研究兴趣更为相似.因此,“Heikki Mannila”应该排在“Eamonn J.Keogh”之前.
PathSim算法仅仅考虑在同一会议上发表论文的作者之间的交互关系,而不考虑作者发表的论文内容是否相似,即作者的研究兴趣是否接近.因此,TA-PathSim搜索出来的结果更加可信.
5.4 SLTA-PathSim分析
基于上述算法分析,我们已经知道SL-PathSim和TA-PathSim都取得了很好的效果,为此本文对SL-PathSim和TA-PathSim进行了整合,将其作为一个扩展,即SLTA-PathSim算法.对于相同类型的作者ai和aj,SLTA-PathSim(ai,aj)定义如公式(4)所示,其时间复杂度为O(n*d*m).为了证明SLTA-PathSim算法的有效性,本文同样查找了与“Christos Faloutsos”相似的Top-10作者.
(4)
表6 APVPA下PathSim和SLTA-PathSim搜索的与“Christos Faloutsos”相似的Top-10作者
Table 6 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and SLTA-PathSim under APVPA
PathSimSLTA-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.5982Philip S.Yu0.8921Philip S.Yu0.5806Jian Pei0.8714Jian Pei0.5027Charu C.Aggarwal0.6943Heikki Mannila0.4520Ravi Kumar0.6847Jieping Ye0.4465Eamonn J.Keogh0.6845Ravi Kumar0.4205Heikki Mannila0.6753Huan Liu0.3861Vipin Kumar0.6715Bing Liu0.3828Hui Xiong0.6677Hui Xiong0.3826
分析表6,SLTA-PathSim算法的搜索结果与PathSim的搜索结果相近,但顺序略有不同.在元路径APVPA下,表4中“Heikki Mannila”和“Ravi Kumar”之间的排名顺序与表5中的顺序相反.通过上面的分析我们已经知道“Ravi Kumar”共发表43篇论文,其中14篇关于“similarity”和“social network”.如果仅仅考虑源作者和目标作者之间所发表文章的文本内容,“Ravi Kumar”与源作者更为相似.但通过分析作者署名位置信息,作者“Heikki Mannila”对文章的贡献程度比“Ravi Kumar”要大得多.因此,“Heikki Mannila”的相似性分数相对较高,与作者“Christos Faloutsos”更加相似.
为了进一步验证SLTA-PathSim算法的性能,本文将PathCount、Hin2Vec和SLTA-PathSim进行了对比.表7是三种算法查找到的与“Christos Faloutsos”相似的Top-10作者.在元路径APVPA下,Path Count算法只是简单地判断两位作者是否在同一个会议上发表了文章,如果存在这样的元路径就把两位作者之间的路径实例数量加1.因此,如果目标作者与源作者之间存在的路径实例数量越多,两个作者越相似.由于“Philip S.Yu”与源作者多次在同一会议上发表文章,所以Path Count查找结果为“Philip S.Yu”与源作者相似程度比较高.路径数仅仅反映了网络的局部结构信息,而每个会议包含不同的主题,路径数越多仅能说明两个作者研究领域相似,但具体的研究兴趣可能存在较大的区别.Hin2Vec算法返回一些作者(例如“Andrew Tomkins”),在特定的研究兴趣上不同于“Christos Faloutsos”.出现这种现象的原因可能是网络嵌入适用于大规模网络,而本文使用的数据集是20年内的作者发表论文数据,并且删除了没有摘要的数据,因此其效果低于SLTA-PathSim.
本文提出的SLTA-PathSim算法,从网络结构、节点属性和文本内容等多角度出发,综合了能够影响作者之间相似性的多方面因素.此外,由于存在多个作者与源作者之间的路径数相等的情况,具体哪位作者与“Christos Faloutsos”更相似则无法判断,为此本文进一步证明了SLTA-PathSim算法的有效性.
表7 APVPA下Path Count、Hin2Vec和SLTA-PathSim搜索的与“Christos Faloutsos”相似的Top-10作者
Table 7 Top-10 authors similar to “Christos Faloutsos” searched by Path Count、Hin2Vec and SLTA-PathSim under APVPA
Path CountHin2VecSLTA-PathSimChristos Faloutsos78.0000Christos Faloutsos1.0000Christos Faloutsos1.0000Philip S.Yu39.0000Ravi Kumar0.8576Jiawei Han0.5982Jiawei Han33.0000Jiawei Han0.8376Philip S.Yu0.5806Hans-Peter Kriegel27.0000Philip S.Yu0.8349Jian Pei0.5027Hector Garcia-Molina27.0000Andrew Tomkins0.8268Heikki Mannila0.4520JianPei23.0000ChengXiang Zhai0.8234Jieping Ye0.4465Haixun Wang23.0000Jian Pei0.8217Ravi Kumar0.4205Wei Wang′23.0000Charu C.Aggarwal0.8197Huan Liu0.3861H.V.Jagadish22.0000Jimeng Sun0.8144Bing Liu0.3828RaghuRamakrishnan22.0000Bing Liu0.8007Hui Xiong0.3826
6 总 结
通过阅读大量文献,对现有相似性计算方法进行分析和总结,发现一些算法没有评估节点属性和文本信息对挖掘结果的影响.为了更好地表达信息,本文提出了SL-PathSim算法,该算法考虑了作者对论文的贡献程度.此外,本文还从文本内容角度进行分析,设计了基于论文标题与摘要相似度的TA-PathSim算法以实现相似性分数的加权组合.在指定元路径APVPA下,利用著名的AMiner数据集设计了多组实验,通过查找与“Christos Faloutsos”相似的Top-10作者,证明了本文所提算法的查找结果更接近于事实.
虽然SLTA-PathSim在作者相似性度量方面效果很好,但使用的是预先定义好的元路径.如何在大规模的复杂异质信息网络中自动挖掘有用的元路径是一个极具前景的方向.