一种异质信息网络表示学习方法

2021-03-08张蝶依尹立杰

新一代信息技术 2021年24期

张蝶依，尹立杰

(河北地质大学信息工程学院，河北石家庄 050031)

0 引言

网络数据作为表达物体间关系的一种载体，在现实世界中无处不在，例如生物、社交和计算机系统等，在这些系统中相互作用的组件可以抽象为信息网络[1]。由此可见，信息网络已经成为我们日常生活中重要组成部分，对信息网络进行研究和分析已经引起学术界众多研究者们的广泛关注。随着网络时代的迅猛发展，信息网络所面临的复杂性越来越高，如何有效、快速处理网络中的数据成为亟待解决的问题。

采用邻接矩阵[2]这种高维稀疏的编码方式来表示网络中的节点，很难被机器学习算法处理。网络表示学习采用低维向量表示网络中的节点，同时尽可能地保留网络原始的结构特征。由于低维向量很容易被机器学习算法处理，因此被广泛应用于节点分类[3-5]、聚类[6-7]、链接预测[8-9]和推荐[10-13]等应用场景中。

现在已有大量工作致力于同质网络的表示学习，相关研究工作包括 DeepWalk[14]、LINE[15]、Node2vec[16]、GraRep[17]等，但是这些算法只考虑了网络的拓扑结构，使得学到的节点或边的特征表示在后续的实验任务中并没有取得很好的效果。现实世界的网络除了包含拓扑信息之外，还包含更多可利用的辅助信息，例如微博中包含用户信息、微博内容等属性信息，充分利用这些异质信息有助于学习更加准确的节点表示。将现实世界的信息网络建模为异质信息网络，即由多种类型的节点通过多种类型的连边形成的网络，不仅保留了网络中的拓扑结构信息，而且可以获取网络中丰富的语义信息，例如，学术网络包含作者、论文、会议等不同类型的节点，以及作者和论文间的撰写关系、论文和会议间的发表关系等。近年来，大量学者开始研究异质网络表示学习的相关方法，本文将从不同角度对这些表示学习方法进行介绍和总结。

1 相关定义

定义1异质信息网络

用 G = (V, E, T ,ϕ, φ)表示一个信息网络，V表示网络中的节点集合，E表示网络中边的集合。T=(TV, TE)，TV和TE分别代表节点和边类型的集合。每个节点v∈V和每条边e∈E的类型由映射函数确定，分别表示为给定的有向网络G就是异质信息网络，否则为同质网络[18]。

定义2异质网络表示学习

给定一个异质信息网络 G = (V, E, T ,ϕ, φ)，V表示网络中的节点集合，E表示网络中边的集合。异质网络表示学习[19]是将网络中的节点v∈V投影到一个潜在低维表示空间 Rd中，学习一个映射关系，同时保留网络原有的结构信息和语义关联。

2 异质网络表示学习方法介绍

随着现实世界网络的复杂化和扩大化，如何充分挖掘并运用异质网络中存在的丰富信息是一项非常重要的任务。通过不同网络表示学习方法得到节点的向量表示，可以将其应用到机器学习任务中，有效利用异质网络中的丰富信息。根据对异质网络表示学习模型的研究，将已有的方法分为3类：基于网络分解的方法、基于随机游走的方法和结合应用任务的方法。

2.1 基于网络分解的方法

基于网络分解算法的核心思想是根据节点类型的不同，将异质信息网络分解成多个简单的网络，分别对这些网络进行表示学习，通过融合这些特征信息得到节点的低维表示。例如，Tang等人提出的 PTE[20]算法将异质文本网络分解为word-word，word-document，word-label三个子网络（如图1所示），分别对三个不同类型的子网络进行表示学习，获取三种不同类型节点间的相似性，得到网络中节点的向量表示，将文本中所有单词对应的向量表示取平均即为文本最终的向量表示。Shi等人提出的 HERec[21]模型根据元路径抽取出相同类型的节点序列，对不同元路径抽取到的同类节点分别进行表示学习，并利用融合函数将节点的不同表示进行融合，得到节点的最终表示。

图1 异质文本网络的三个子网络Fig.1 thr ee sub-networks of heterogeneous text network

2.2 基于随机游走的方法

随机游走作为一种经典的网络表示学习模型，常用于刻画网络中节点间的关系，因此也被广泛用于获取网络节点的采样序列。基于随机游走的方法主要是采用不同的随机游走策略对网络中的节点进行采样，并通过预测节点间的邻居关系得到节点的低维表示。例如，Metapath2vec[22]通过对称的元路径来进行随机游走，将得到的游走序列作为神经网络skip-gram模型的输入，通过更新参数进而得到节点的低维嵌入，但在输出层并未将节点的类别区别开来。Metapath2vec++模型在神经网络的输出层，针对网络节点类型的不同，将异质网络分解成若干同质网络。Zhang等人在元路径的基础上提出metagraph2vec[23]方法，通过构建多条元路径获取节点间的不同语义关系。Fu等人提出了HIN2Vec[24]模型，通过随机游走的方式选取节点序列，考虑节点及节点间不同类型的边关系，基于神经网络学习节点和元路径的向量表示，HIN2Vec模型的框架示意图如图2所示。HINE[25]通过元路径随机游走获取节点的局部和全局语义信息，提高了网络节点嵌入的准确性。

图2 HIN2VEC 模型框架Fig.2 the framework of HIN2VEC

2.3 结合应用任务的方法

Sun等人提出了一种基于元路径的相似度算法 PathSim[26]，该算法采用对称元路径的方式计算异质网络中相同类型顶点之间的相似度。Wang等人提出的 SHINE[27]模型将原始的 HIN划分为三个单类型的网络：情感网络，社会网络，信息网络，针对三个网络分别建立对应的自编码器，将学到的节点表示进行融合，用于预测可能存在的情感链接。Yang提出一种基于元路径的链接预测方法 BRLinks[28]。该模型首先剔除网络中的无关节点，重新构造异质信息网络，然后采用余弦相似度计算两两节点间的相关性得到节点相关性矩阵，计算每条元路径上节点的链接概率，最后将通过不同元路径得到的节点概率加权求和作为待预测节点间的链接概率。Shi等人提出一种异构网络推荐方法 HERec，该算法采用 Meta-Path的随机游走方法生成采样序列，通过删除与起始节点类型不同的节点，对得到的同构节点序列进行表征学习，由于不同的 Meta-Path会得到不同的节点表示，通过设计融合函数获取节点的唯一向量表示，将异质信息网络的表示融入到矩阵分解框架中，从而用于推荐系统，HERec模型框架如图3所示。MCRec[29]将基于元路径的上下文融入到用户-商品对的信息中，同时采用协同注意力机制增强用户和商品的节点表示，很大程度上提高了推荐性能，并通过大量实验验证该模型可以缓解推荐系统中普遍存在的冷启动问题。LGRec[30]将通过网络拓扑结构得到的用户与商品的直接关系作为局部信息，通过元路径获取到的用户与商品的间接关系作为全局信息，将局部信息和全局信息进行融合，得到用户和商品更准确的表示，并通过实验验证了该模型在推荐系统的有效性。

图3 HERec模型框架Fig.3 the framework of HERec

3 应用场景

3.1 节点分类

节点分类是根据网络节点拥有的共同特点将其划分为不同的类别。比如，在社交网络上，用户可以根据个人的兴趣爱好进行分类。用户的兴趣爱好作为分类的类别标签，是对用户进行有效分类的主要依据。然而真实数据中的类别标签往往是十分稀疏的，所以需要根据少量节点的标签信息以及节点间的链接关系，对大量未标注节点的分类情况进行标注。

3.2 节点聚类

节点聚类就是按照节点特征的差异将网络节点划分为多个簇的过程，使得同一个簇内节点间具有相似的特征，不同簇中节点间拥有的特征尽可能不同。由于异质网络中包含丰富的语义信息，可以利用一些额外信息（如属性信息）进行聚类分析。

3.3 链接预测

链接预测[31]是通过已知的网络节点及其链接关系等信息预测网络中丢失的边或者未来可能会出现的边，对链接预测的研究可以帮助我们分析网络的演化过程，在现实生活中有广泛的应用。例如，可以通过链接预测方法计算尚未产生关系的两个人成为朋友的概率，实现社会网络中的好友关系推荐。链接预测任务中常用的评价指标为AUC值，在进行链接预测时，需要把网络中的样本数据集划分为训练集和测试集，AUC指标就是计算测试集中连边的分数值高于不存在的连边分数值的概率。

3.4 推荐

推荐系统是通过研究用户的信息需求、兴趣爱好，将用户可能感兴趣的产品推荐给他们。近些年，随着网络表示学习的兴起，一些研究者开始意识到异质网络推荐系统的重要性和必要性。传统的一些推荐方法大多数是利用用户-商品间的交互记录为用户推荐商品，但是这种方法往往存在冷启动问题，即无法为新用户推荐产品。随着互联网服务的快速发展，越来越多的工作[32-34]开始尝试融合一些辅助信息实现更精准的推荐。例如，在电影推荐系统中，可以为具有相同观影记录的用户推荐电影。利用用户-用户、商品-商品之间的关系可以提高推荐性能。

4 结论与展望

现实世界的网络包含大量不同类型的实体和关系，将这些不同类型的网络信息融合为整体，不仅可以挖掘网络中丰富的结构信息和语义信息，还可以精准刻画网络实体特征。异质网络表示学习是通过设计合适的网络特征学习模型，把不同类型的节点映射到同一向量空间，用低维连续的实值向量表示网络中的节点，有效缓解了网络数据的稀疏性问题。

本文对现有的异质信息网络表示学习方法进行了分类，并详细介绍了各个类别下的一些主要研究模型及其特点。随着大数据时代的到来，异质网络分析逐渐成为数据挖掘、网络安全等领域的研究热点，充分挖掘异质网络中存在的丰富信息具有重要意义。异质网络表示学习是一个非常有前景的研究方向，在以下几个方面仍然面临着巨大挑战：

（1）适应大规模复杂网络。现实应用场景中的网络往往是大规模的，例如，淘宝网络中包含上亿节点。针对大规模异质网络，在对设计好的网络模型进行训练时往往存在训练效率太低、响应时间过长等问题，克服这些问题是异质网络表示学习真正迈向实际应用场景的关键一步。

（2）适应网络的动态变化。现实生活中的异质网络具有动态性，大多数异质网络表示学习方法主要依赖于静态的网络拓扑结构信息进行表征学习，没有考虑网络节点（或边）实时变化的问题。然而，随着时间的增长，网络在新增一些节点的同时，也会伴随部分节点的消亡，同时网络节点间的链接关系也会出现改变，如何从时间维度考虑网络结构的动态变化是未来值得研究的一个方向。

（3）实现更多的实际应用。目前的异质网络表示学习方法已经应用到一些数据挖掘任务中，并逐步与电商、网络安全等应用系统相结合，但是还有更多针对大规模复杂网络的应用场景尚未发掘，将异质网络分析付诸实践，在更多具体应用中发挥作用是未来值得探索的方向。