APP下载

基于PPMI的异质属性网络嵌入

2022-12-15东坤杰周丽华朱月英杜国王

计算机研究与发展 2022年12期
关键词:拓扑图网络拓扑异质

东坤杰 周丽华 朱月英 杜国王 黄 通

1(云南大学信息学院 昆明 650504)2(大连理工大学计算机科学与技术学院 辽宁大连 116086)(kunjiedong@qq.com)

网络是一种普遍存在的、可以描述复杂系统中链接关系的数据结构,广泛应用于计算机科学、生物信息学、社会科学等相关领域.网络分析是指利用数据挖掘技术从原始网络分析和挖掘网络的本质特征,发现和理解事物间的内在联系.高效的网络分析方法不仅可以创造巨大的商业价值,而且对社会稳固、经济发展和健康医疗等具有深远的积极影响.因此,网络分析引起了工业界和科研工作者的关注和研究.

节点依附有属性信息的网络称为属性网络[1].传统的网络分析方法通常只关注网络中节点间的链接关系,忽略了节点本身的个性化属性信息.个性化属性信息揭示了物以类聚的同质性效应[2],如具有相同主题、关键字等属性的论文相似性较高,论文间容易出现引用关系.节点属性从微观视角描述节点的个性化信息,网络拓扑从宏观角度描述节点间的链接关系.尽管2种信息异质,但是由于它们描述的是同一对象,因此这2种信息之间存在一致性和互补性关系.如何高效地融合2种异质性信息是影响网络分析任务性能的一个关键问题.

目前的网络分析研究大多建立在同质属性网络(homogeneous attribute network, HoAN)上,即网络中所有节点的类型相同,链接关系的类型也相同.然而,现实世界中的属性网络通常是异质的,即网络中包含多种类型的节点和(或)多种类型的链接关系.如图1所示,网络中包含4种节点类型(作者(A)、论文(P)、主题(T)和会议(C))以及10种关系类型(撰写/被撰写(A-P)、发表/被发表(P-C)、包含/被包含(P-T)、属于/被属于(T-C)和引用/被引用(P-P)).相比同质属性网络,异质属性网络(heterogeneous attribute network, HeAN)具有多样化的节点类型、复杂的网络关系和更丰富的语义信息[3].在图1中,作者间的合著关系(author-paper-author, A-P-A)、不同作者发表了相同研究主题论文的关系(author-paper-theme-paper-author, A-P-T-P-A)及不同作者在相同会议上发表论文的关系(author-paper-conference-paper-author, A-P-C-P-A)等共同描述了网络中丰富多样的语义信息.异质属性网络中多种类型的节点和链接关系给网络分析任务提供丰富语义的同时也带来了新的挑战.

Fig. 1 The citation network among papers图1 文献引用网络

异质属性网络嵌入(heterogeneous attribute network embedding, HeANE)就是将网络中多种类型的节点和(或)多种类型的链接关系映射到低维、紧凑的空间,同时保护原始异质属性网络中节点的属性特征和不同类型对象之间的异质链接承载的复杂、多样且丰富的语义信息[4].嵌入学习获得的低维表示不仅有利于机器学习算法的应用,而且有助于解决数据存储和高计算复杂度的问题.通常,节点属性被视为位于非线性流形中[5],但现有的HeANE方法没有有效地捕捉这种非线性流形的几何结构,而且节点属性和异质网络拓扑信息的融合效率也有待提升.

为了有效捕捉网络中节点、连边和属性的异质性信息,并提升异质性信息的融合效率,本文提出基于PPMI的异质属性网络嵌入学习方法HANEP.HANEP首先基于属性相似性构建属性图,并依据不同的元路径提取异质网络的拓扑信息;然后基于属性图和拓扑图执行随机冲浪获得属性和元路径的拓扑概率共现(probabilistic co-occurrence, PCO)矩阵,进而计算属性和元路径拓扑的正点对互信息(positive point-wise mutual information, PPMI);最后,将PPMI输入到考虑局部图正则的多个自编码器(auto-encoder, AE)完成嵌入.在HANEP中,基于属性相似性构建的属性图描述了节点属性的非线性流行结构;基于不同元路径提取的拓扑图有效捕捉了不同类型节点间的异质链接承载的丰富的语义信息,并且属性图和拓扑图是2种异质性信息的同质表示,不仅方便以相同的方法处理而且有利于提高异质信息的融合效率.另外,PCO矩阵捕捉了不同节点间的转移概率,PPMI较好地维持了图的结构特征以捕捉节点的高阶近邻信息,AE有效地捕捉了潜在的非线性关系.

本文的工作主要贡献有3个方面:

1) 提出了一种基于PPMI的异质属性网络嵌入模型HANEP,通过属性相似性和不同元路径抽取的网络拓扑构建属性图和拓扑图,进而计算PCO矩阵和PPMI矩阵,利用AE有效捕捉并融合网络中的多种异质性信息.

2) 设计了属性图和元路径拓扑图的局部图正则以增强属性和元路径拓扑的局部一致性,并给出了HANEP的算法描述.

3) 在3个真实异质属性网络数据集上通过节点分类、节点聚类、消融实验、可视化和参数敏感性分析实验,结果表明本文所提的HANEP方法的性能优于基线算法.

1 相关工作

近年来,许多属性网络嵌入模型被提出,本节将主要介绍同质属性网络嵌入和异质属性网络嵌入的相关工作.

1.1 同质属性网络嵌入

为了在同质属性网络嵌入中结合节点属性和网络拓扑信息,ASNE[2]提出在级联2种信息时引入1个权值参数来调整属性的重要性.DANE[6]设计2个允许交互的AE保护节点属性和网络拓扑的一致性和互补性关系.ANRL[7]采用邻域增强的策略将节点属性作为编码器的输入,在网络拓扑信息的指导下重构节点的目标邻居.AANE[8]采用分布式的方法考虑节点的属性特征,加速嵌入学习的过程.GAT[9]基于图注意力机制为中心节点的邻域节点分配不同的权重,然后加权得到中心样本的新表示.ONE[10]提出一种非监督的异常值检测算法,通过最小化离群节点的影响生成健壮的属性网络嵌入表示.DFANE[11]提出双重融合策略充分捕捉节点属性和网络拓扑的区分性特征和互补性信息.DANEP[12]首先构建与网络拓扑同质表示的属性图,进而设计局部成对约束的图正则以增强局部特征的一致性.PMI[13]通过最大化中心节点与其k阶邻居之间的互信息,从而利用节点的位置信息指导嵌入学习的过程.然而,上述方法仅考虑了相同类型的节点和链接关系,忽略了网络中节点和链接关系的多样化特征.

1.2 异质属性网络嵌入

异质属性网络中不同类型对象间的链接关系承载着更丰富的语义信息,这些语义信息可以通过元路径来捕捉.不同元路径捕捉了节点间不同的关联关系,描述了不同的语义信息.Metapath2vec[4]基于元路径的随机游走获取节点的异质性拓扑信息.HIN2Vec[14]使用不同类型的节点和链接关系学习节点及元路径的向量表示.HEER[15]对异质网络中不同的链接类型定义不同的度量空间,以保持统一度量空间下节点的兼容性.HAN[16]提出分层注意力机制考虑节点和元路径在语义空间中的个性化偏好.GANTE[17]考虑属性信息的多元化,同时支持直推式和归纳式2种学习方式.NECS[18]利用异质属性网络中丰富的社区结构指导节点的表示学习.HDGI[19]利用图卷积模块和语义级别的注意力机制捕捉节点的局部表示,通过最大化局部和全局互信息学习节点的低维表示.HeteSpaceyWalk[20]提出基于元路径、元图、元模式的异质个性化空间随机游走方法,集成多条元路径捕获更丰富的拓扑信息.

2 相关定义

定义1.异质属性网络[3].异质属性网络通常被定义为一个无向图G=(V,E,A,Q,U),其中V表示网络中节点的集合,E表示网络中边的集合,A∈n×m表示节点的属性特征(n表示节点数,m表示节点属性的维度),Q表示节点类型的集合,U表示边类型的集合,|Q|+|U|>2.每个节点对象v∈V属于一个特定的对象类型,每条边e∈E属于一个特定的边类型,节点类型和边类型的映射函数分别为φ:V→Q和φ:E→U.

Fig. 2 The architecture of HANEP图2 HANEP模型框架

定义3.异质属性网络嵌入[15].给定一个异质属性网络G=(V,E,A,Q,U),异质属性网络嵌入学习的目的是找到一个映射函数f:V→d,该函数能够将异质属性网络中的每个节点v∈V映射为d维空间d中的一个向量(d≪|V|),同时保留原始网络中多种类型的节点和边关系的本质特征.

定义4.概率共现(PCO)矩阵[21].给定一个无向图G=(V,E,A),随机排序图中的节点,PCO矩阵描述了从任意节点vi经过k步转移后到达其他节点vj(j≠i)的转移概率.

定义5.正点对互信息PPMI[22].给定一个无向图G=(V,E,A),点对互信息PMI衡量节点对(vi,vj)间的相关性.通过进一步将PMI矩阵中的负值分配成0,则形成PPMI,其数值越大,说明相关性越高.

3 HANEP模型

为了捕捉和高效地融合多种类型节点的属性和异质链接关系的本质特征,本文提出一种基于PPMI的异质属性网络嵌入方法HANEP. HANEP首先基于节点属性的相似性利用k近邻图[22]的方法构建属性图、依据不同的元路径r1,r2,…,rL提取不同链接关系的网络拓扑图,然后基于属性图和元路径拓扑图进行随机冲浪[22]获得PCO矩阵,并计算属性和元路径拓扑的PPMI.然后,HANEP利用多个神经网络AE分别基于属性图和元路径拓扑图的PPMI学习节点属性和元路径拓扑的固有本质,同时使用局部成对约束的图正则增强局部结构特征.属性图和拓扑图的PPMI表示有利于保护属性和拓扑的高阶近邻信息和复杂的非线性结构.HANEP模型框架如图2所示.

3.1 构建属性图

节点属性描述了节点的个性化信息,通常被视为位于某种非线性流形中[5].属性图有利于捕捉属性信息的非线性流形结构.设A∈n×m表示网络中节点的属性矩阵,Anew∈n×n表示节点属性的相似性矩阵,其中元素表示节点vi和vj的属性ai和aj的相似性,余弦相似性的计算如式(1)所示:

(1)

3.2 构建元路径拓扑图

异质属性网络中节点对象包含丰富的链接关系,依附于链接关系的语义信息可以通过元路径来捕捉.如图1所示,元路径APA,APTPA,APCPA可以分别描述作者的合著关系、相同研究主题关系、在相同会议上的发表论文关系.依据元路径r1,r2,…,rL可以抽取不同链接关系的网络拓扑,令S1,S2,…,SL∈n×n表示元路径拓扑的邻接矩阵,元素表示节点vi和vj在元路径rl上可达;否则

3.3 随机冲浪产生PCO矩阵

pk=α·pk-1P+(1-α)p0,

(2)

其中pk是一个行向量,其第j项表示从节点vi经过k步转移后到达节点vj的概率,p0是第i个元素为1、其余元素均为0的初始化one-hot向量,α表示随机冲浪过程中节点跳转到下一个节点的概率,1-α表示节点返回原顶点重启随机冲浪过程的概率.

3.4 计算PPMI矩阵

(3)

MPPMIvi,vj=max(MPMIvi,vj,0),

(4)

3.5 自编码器

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

3.6 损失函数

为了训练HANEP捕捉异质属性网络中节点属性特征和节点间的丰富链接关系,本文定义局部节点对约束损失Llocal和重构损失Lrec作为惩罚项,以反向传播的方法训练AE,提高嵌入学习的质量.Llocal和Lrec定义为:

(15)

(16)

综上所述,HANEP模型在训练学习过程中考虑局部节点对约束损失Llocal和重构损失Lrec.因此,HANEP模型的损失函数定义如式(17)所示,其中参数α和β是用来平衡局部节点对约束损失和重构损失之间的权重.

L=αLlocal+βLrec.

(17)

3.7 算法描述

本文利用Adam[23]算法在训练过程中迭代优化AE直到模型收敛或迭代次数达到设定的迭代阈值,HANEP算法描述如算法1:

算法1.异质属性网络嵌入HANEP算法.

输入:异质属性图G=(V,E,A,Q,U),元路径r1,r2,…,rL,参数α,β,嵌入维度d,学习率λ,迭代损失阈值ε,迭代次数阈值τ;

输出:嵌入表示hi.

① 基于属性相似性构建属性近邻图C;

② 基于元路径r1,r2,…,rL抽取网络拓扑S1,S2,…,SL;

④ 初始化参数θ={θC,θSl}(1≤l≤L);

⑤ repeat

⑥ for each nodevi∈V

⑦ 训练AE,更新参数θ;

⑧ end for

⑨ until迭代损失小于εor 迭代次数等于τ;

4 实验评估和分析

本节从节点分类、节点聚类、消融实验、可视化和参数敏感性分析5个方面分别来评估HANEP模型的性能.

4.1 实验准备

4.1.1 数据集

本文实验使用了ACM,DBLP,IMDB这3个公共可用的异质属性网络数据集来评估和验证HANEP模型的有效性,其中ACM包含3 025篇论文、5 835位作者、56个研究主题和3种类标签,论文关键字的bag-of-words表示为1 870维的特征向量;DBLP包含14 328篇论文、4 057位作者、20个会议、8 789个主题和4种类标签,作者信息表示为334维的特征向量;IMDB数据集包含3 550场电影、4 441位演员、1 726个导演和3种类标签,电影信息表示为2 000维的特征向量.与文献[16,19]中的HAN和HDGI模型相似,本文分别依据元路径{PAP,PTP},{APA,APCPA,APTPA},{MAM,MDM}提取数据集ACM,DBLP,IMDB的网络拓扑信息.数据集的详细信息如表1所示:

Table 1 Information Statistics of the Datasets Features

4.1.2 基线算法

本文选择了11种方法作为基线,包括:4种网络拓扑嵌入方法(DeepWalk[24],GraRep[26],SDNE[25],DNGR[22]),4种同质属性网络嵌入方法(PRRE[27],DANE[6],DFANE[11],DANEP[12])和3种异质属性网络嵌入方法(HAN[16],HDGI[19],HANEP-A).实验中所有基线算法与HANEP使用相同元路径抽取的网络拓扑信息.具体来说,网络拓扑嵌入方法不区分依据元路径抽取的网络拓扑信息的异质性,将依据不同元路径抽取的所有网络拓扑信息汇聚成一个网络拓扑进行训练学习;同质属性网络嵌入方法使用与网络拓扑嵌入方法相同的方式学习网络拓扑,同时考虑了网络中节点的属性信息;异质属性网络嵌入方法区分依据元路径抽取的网络拓扑信息的异质性,即对依据不同元路径抽取的网络拓扑信息分别处理,并同时考虑节点的属性信息.同质属性网络嵌入和异质属性网络嵌入的基线算法介绍如下.

DANE[6].DANE考虑节点属性和网络拓扑的一致性和互补性关系,首先通过随机游走获得邻域拓扑,然后采用2个对称的、允许相互交互的AE捕捉节点属性和邻域拓扑的高阶非线性信息.节点属性AE和网络拓扑AE在嵌入学习中实时交互,捕捉2种信息的一致性和互补性关系.

DFANE[11].DFANE包括基于早期融合策略的早期融合组件和基于后期融合策略的后期融合组件,前者主要负责捕捉节点属性和网络拓扑的互补性信息;后者负责从2种异质信息中提取各自的独特本质,这2个组件在一致性损失函数的约束下协同训练以实现信息交互.

DANEP[12].DANEP是一种基于PPMI的同质属性网络嵌入方法,该方法首先基于样本属性间的相似性构建属性图;然后分别对属性图和网络拓扑图进行随机冲浪获得属性和拓扑PCO矩阵并计算其PPMI;最后级联属性图和拓扑图的PPMI矩阵输入共享AE学习节点的低维表示.

PRRE[27].PRRE考虑节点属性和网络拓扑的部分相关性,即节点属性相似但网络拓扑不相似或网络拓扑相似但节点属性不相似.PRRE首先利用期望最大化算法训练2个阈值来区分节点属性和网络拓扑的相关性,进而定义节点属性和网络拓扑的积极、模糊和消极的相关关系.

HAN[16].HAN扩展图神经网络到异质信息图,首先使用指定的元路径捕捉网络中不同语义关系的邻居节点,然后利用分层注意力机制考虑每个邻居和每条元路径的不同注意力权重,聚合邻居信息,获取目标节点的嵌入表示.

HDGI[19].HDGI基于互信息最大化实现无监督的图神经网络嵌入学习,使用注意力机制捕捉不同元路径上节点的局部表示,通过最大化局部和全局互信息学习节点的低维表示.

HANEP-A.HANEP-A是HANEP模型的变体,HANEP-A汇聚不同元路径抽取的链接关系构建异质网络拓扑图.相比HANEP依据不同的元路径构建相对应的拓扑图,HANEP-A汇聚多条元路径构建异质网络的综合拓扑图.通过HANEP和变体HANEP-A,本文想探究依据单条元路径构建多个拓扑图和汇聚多条元路径构建单个综合的网络拓扑图对嵌入学习的影响.此外,通过变体HANEP-A和DANEP,本文想探究对称独立的节点属性AE和网络拓扑AE与级联节点属性和网络拓扑信息的共享AE对嵌入学习效果的影响.

实验中所有基线算法都进行了参数调优,使用最好结果进行比较.

4.1.3 参数设置

参数α和β是用来平衡局部节点对约束损失Llocal和重构损失Lrec之间的权重.在实验中,本文通过网格搜索算法调整参数α和β用于节点分类、节点聚类和可视化任务.为了达到精确和直观的评估效果,本文在节点分类、节点聚类和可视化任务上应用相同的参数.此外,本文基于数据集ACM,DBLP,IMDB设置相同的神经元层次结构(属性特征数或节点数-512-128-64).每个数据集对应的参数α和β数值,以及神经网络层的神经元个数如表2所示.具体来说,节点属性编码器的第1层输入对应节点的属性信息,而第l(1≤l≤L)个网络拓扑编码器的第1层输入对应节点在元路径rl上可达的网络拓扑信息.

Table 2 The Parameters and Structures of Neural Network for Each Dataset

4.2 性能评估

本文选择节点分类和节点聚类任务评估模型嵌入学习的性能.实验中,随机选取10%,30%,50%的节点作为训练集,余下的节点作为测试集,SVM[7]作为分类器;Micro-F1和Macro-F1作为分类指标;k-means++[6]作为聚类算法;精确度(accuracy, ACC)和标准化互信息(normalized mutual information, NMI)[11]作为聚类指标.指标数值越高说明性能越好,本文重复实验过程10次统计指标的平均值示于表3.

从表3可以看到:

1) HANEP在数据集ACM和DBLP上取得了最优的Micro-F1和Macro-F1;在数据集IMDB上取得了次优的Micro-F1和Macro-F1;变体HANEP-A在数据集IMDB上获得了最优的Micro-F1和Macro-F1;在数据集ACM和DBLP上获得了次优的Micro-F1和Macro-F1,这些结果表明基于属性图和元路径拓扑图的PPMI在嵌入学习过程中有利于捕捉异质属性网络中多种类型节点的个性化信息和异质链接承载的丰富语义信息.

2) 变体HANEP-A在数据集DBLP上获得了最优的聚类指标ACC和NMI;在数据集IMDB上获得了最高的NMI值,表明汇聚多条元路径构建单个综合的网络拓扑图学到的嵌入比依据不同元路径构建多个拓扑图学到的嵌入更有利于聚类,进一步说明依据不同元路径构建多个拓扑图捕捉到了多种类型节点的个性化信息.

3) 基线HAN在数据集ACM上获得了最优的聚类指标ACC和NMI、在数据集DBLP上获得了次优的NMI、在数据集IMDB上获得了最优的ACC;HDGI在数据集ACM上获得了次优的ACC和NMI、在数据集DBLP上获得了次优的ACC;说明注意力在嵌入学习中是值得考虑的因素.

4) 变体HANEP-A优于基线DANEP,说明独立的学习节点属性和网络拓扑比级联的学习方式更有利于捕捉异质网络中节点的本质特征.HANEP-A在节点分类和节点聚类任务上优于DANE,DFANE,PRRE,说明属性图和拓扑图的PPMI表示有利于捕捉高阶近邻信息和复杂的非线性结构.

5) 在网络拓扑嵌入模型中,除了Deepwalk和Grarep在数据集DBLP上比同质属性网络嵌入模型获得较好的分类结果外,在其余情况下同质属性网络嵌入模型的节点分类和节点聚类结果都比网络拓扑嵌入模型好,说明节点属性信息在异质网络嵌入学习中提供了有效的辅助作用.

4.3 消融实验

本节以DBLP数据集为例,通过消融实验分别评估了单条元路径APA,APCPA,APTPA;多条元路径APA+APCPA,APA+APTPA,APCPA+APTPA,APA+APCPA+APTPA和节点属性Attribute在异质属性网络嵌入学习中的贡献,以探究元路径和节点属性对嵌入结果的影响.消融实验模型设置与HANEP相似,消融实验设置和结果示于表4,其中“学习资源”列中的APA,APA+APCPA,APA+Attribute分别表示利用单条元路径APA、多条元路径APA+APCPA、元路径APA和属性信息进行训练学习,其余消融实验的设置与此类似,不再一一列举.

Table 3 Performance Evaluation of Node Classification and Node Clustering

Table 4 Performance Evaluation of the Ablation Experiment on the DBLP Dataset

从表4可以看到:

1) 单条元路径APA,APCPA,APTPA的性能差异明显,其中APTPA性能明显优于APA,APCPA,说明不同元路径在嵌入学习中捕捉异质网络拓扑信息时有不同的贡献;元路径APA+APCPA,APA+APTPA,APCPA+APTPA分别优于其各自对应的单条元路径性能,说明不同元路径在嵌入学习过程中可以提供互补信息.

2) 元路径APTPA的性能优于APA+APCPA,说明实验性能不仅取决于元路径的条数,也取决于元路径在描述异质网络拓扑中的重要性.元路径APCPA+APTPA的性能优于APA+APCPA+APTPA、APCPA+APTPA+Attribute的性能优于APA+APCPA+APTPA+Attribute,加入APA后嵌入学习性能反而降低了,说明元路径APA存在噪声.此外,单条元路径APA嵌入学习时的性能明显劣于APCPA和APTPA,也证实了APA存在噪声.

3) 同时考虑节点属性和元路径(APA+APCPA+APTPA+Attribute,APCPA+APTPA+Attribute,APA+APTPA+Attribute,APA+APCPA+Attribute,APTPA+Attribute, APCPA+Attribute,APA+Attribute)时的学习性能优于只考虑元路径(APA+APCPA+APTPA,APCPA+APTPA,APA+APTPA,APA+APCPA,APTPA,APCPA,APA)时的学习性能,说明节点属性在异质属性网络嵌入学习中提供了有效的辅助作用.

4.4 可视化

本文使用t-SNE[28]方法将节点的低维嵌入表示投影到2维空间,布局中的点表示网络中的节点,其中不同的颜色表示节点的类标签.期望的布局是相同颜色的点相互聚集,不同颜色的点相互分离且有明显的分离界线.相同颜色的节点越聚集、不同颜色的节点越疏远说明节点的低维表示捕捉了原始节点的固有本质和区分性特征,即嵌入学习效果越好.图3给出DBLP数据集的可视化结果作为代表案例,其中布局里的点表示论文,节点的颜色表示论文的类别.

Fig. 3 The visualization results of different methods on the DBLP dataset图3 不同方法在DBLP数据集上的可视化结果

Fig. 4 The sensitivity of HANEP on α and β图4 HANEP关于参数α和β的敏感性

观察图3可知:HANEP和变体HANEP-A的可视化表现最佳(图3(l)(k)),表现为布局中相同颜色的节点彼此靠近,不同颜色的节点相互远离且有清晰的分离边界;HDGI和HAN获得了次优的可视化结果(图3(j)(i)),表现为相同颜色节点的聚集程度和不同颜色节点的分离效果差于HANEP和HANEP-A;DeepWalk(图3(a))表现为相同颜色的节点聚集在一起,不同颜色节点的分离边界不清晰;其余基线的可视化表现为不同颜色的节点混合在一起(图3(b)~(h)).可视化结果再次表明本文所提模型HANEP在异质属性网络嵌入学习中的有效性.

4.5 参数敏感性

HANEP使用参数α和β平衡节点属性和元路径拓扑的局部节点对约束损失Llocal和重构损失Lrec的权重.如图4所示,本文统计节点分类指标Micro-F1和节点聚类指标ACC在DBLP数据集上随参数α和β的变化情况作为代表来分析HANEP的参数敏感性.如果模型性能对参数不敏感,则说明模型有良好的健壮性和稳定性;反之,则说明模型的健壮性和稳定性较差.从图4可见,节点分类指标Micro-F1和节点聚类指标ACC值在数据集ACM,DBLP,IMDB上随参数α和β的变化情况是稳定的,几乎没有明显的波动,说明HANEP在节点分类和节点聚类任务上有良好的健壮性和稳定性.

5 结束语

本文提出了一种基于PPMI的异质属性网络嵌入学习模型HANEP,该模型基于属性相似性构建的属性图描述了节点属性的非线性流行结构,基于不同元路径提取的拓扑图有效捕捉了不同类型节点间的异质链接承载的丰富的语义信息,并且属性图和拓扑图是2种异质性信息的同质表示,不仅方便用相同的方法处理而且有利于提高异质信息的融合效率.另外,PCO矩阵捕捉了不同节点间的转移概率,PPMI较好地维持了图的结构特征以捕捉节点的高阶近邻信息,AE有效地捕捉了潜在的非线性关系,设计的图正则增强了局部特征的一致性.在3个数据集上的实验结果验证了HANEP算法的有效性.

本文工作中,元路径由用户指定,并且所有元路径间相互独立.在未来工作中,我们将考虑识别元路径间的耦合关系来指导节点的嵌入学习过程,消除元路径信息的噪声,以获得更高质量的嵌入表示.

作者贡献声明:东坤杰负责实验思路构思、方法设计和程序设计、数据整理、实验探究、数据分析、初稿撰写;周丽华负责实验监督、数据分析、初稿的审阅和修改指导;朱月英、杜国王、黄通负责数据整理、实验探究、数据分析、实验结果可视化.

猜你喜欢

拓扑图网络拓扑异质
简单拓扑图及几乎交错链环补中的闭曲面
基于通联关系的通信网络拓扑发现方法
基于异质分组的信息技术差异化教学
“对赌”语境下异质股东间及其与债权人间的利益平衡
基于含圈非连通图优美性的拓扑图密码
能量高效的无线传感器网络拓扑控制
2017款捷豹F-PACE网络拓扑图及图注
劳斯莱斯古斯特与魅影网络拓扑图
Ag2CO3/Ag2O异质p-n结光催化剂的制备及其可见光光催化性能
基于拓扑规则Pb-S-O体系优势区图的绘制与应用