基于局部建模的异构图表征学习方法

2023-10-20汤齐浩

现代计算机 2023年15期

汤齐浩，杨亮

（河北工业大学人工智能与数据科学学院，天津 300401）

0 引言

现实世界中的对象及其互动通常是多模式和多类型的，异构图能够很好地对这些复杂而多样的联系进行建模，它包含了多种类型的节点或边，并广泛存在于自然科学和社会科学界，比如引文网络和电商网络。近些年来，异构图表征学习受到了广泛关注，并基于这个研究发展了异构图神经网络（heterogeneous graph neural networks,HGNNs）。

然而，现有的HGNNs 基于节点交互的方式来进行邻居信息聚合，这种方法虽然能够较好地捕捉简单的二元关系，但存在于邻居节点之间的高阶语义联系却被忽略，因此，节点表征无法蕴含其局部特征。一些基于异构注意力机制［1-3］的方法引入了与类型有关的注意力层来捕获类型信息，不同类型的节点基于各自的上下文进行交互，这种方式不仅需要引入大量的参数组，而且对图中存在的噪声较为敏感，另外，还需要多个注意力头来提取多样化的局部信息，由于多个注意力头之间没有任何约束，这使得捕获的信息存在高度的冗余性。尽管后来一些方法［4-5］将超图与异构图进行结合来进一步考虑节点之间的高阶关系，它们利用元路径实例构建超边，将原始异构图分解成多重超图，然而这些方法受限于专家知识预定义的元路径，而且也仅仅将这种高阶关系局限于元路径内部。

针对上述问题，本文提出了基于局部建模的异构图表征学习方法L2NH。该方法通过构建邻居节点之间的协方差矩阵来捕获它们之间潜在的语义联系，为了进一步融入边的类型信息，提出关系编码对局部网络进行“去异”操作，并将类型信息融入到协方差矩阵从而全面地描述局部网络特征。然后将局部子网进行特征值分解并从一个全局的视角进行邻居聚合，即局部到点的聚合方式，使得节点表征蕴含其局部特征。最后在分解的基础上，提出了一种多通道机制来捕获多样化的局部信息。

1 模型设计与分析

1.1 概述

本节将详细阐述所提出的L2NH模型，它的总体框架如图1所示，可分为多关系局部网络提取、关系编码与相关性建模和多通道融合三个阶段。

图1 L2NH模型示意图

在第一阶段中，以每个节点为中心提取它所在的局部子网。如图1（a）所示，浅蓝色椭圆区域代表以节点v为中心的局部网络。在第二阶段中，首先以关系编码的方式将边表征增广到节点表征上进行“去异”操作，然后构建节点之间的协方差矩阵来挖掘它们之间的潜在语义联系，具体示意图见图1（b）。在第三阶段，对局部网络进行分解得到多个正交的通道，在每个通道中得到蕴含局部特征的节点表征，最后通过注意力机制将这些表征进行融合得到最终的节点表征，如图1（c）所示，图中u1、u2、u3坐标轴代表着3个通道的方向，不同的通道两两正交，zv表示多个通道下的表征经过注意力融合之后最终节点v的表征。

1.2 多关系局部网络提取

一个异构图可以被定义G={V,E,Tv,Te,ϕ,φ} ，它包括节点集V、边集E、节点类型集合Tv和边类型（或者关系）集合Te，由于包含多种类型的节点或边，它还定义了一个节点类型映射函数ϕ:V→Tv和一个边类型映射函数φ:E→Te。对于任何关系r∈Te，都可以得到一个关系矩阵Ar∈R|V|×|V|，它对应着G的一个二部子图。对于Ar中的任何非0 元素aij，它表示节点vi与vj之间存在关系r，反之则不存在。最后将所有的关系矩阵加在一起得到G的邻接矩阵A，其具体表达式如下：

对于节点v来说，它对应的局部网络可以从A的第v列导出，将提取节点v的局部网络定义如下：

其中：f(). 代表子图提取操作，Gv表示以v为中心的局部子网，它包含了v的一阶邻居以及它们关联的边，如图1（a）浅蓝色区域所示。

1.3 关系编码与相关性建模

当得到多关系局部子网Gv以后，开始进行局部建模来挖掘潜在的语义联系。为了方便阐述，这里仅仅关注模型的第一层，并且不失一般性地假设Gv一共有M个节点。这些节点的属性矩阵表示为Xv=[x1,x2,…,xM]，每一列对应一个节点的属性向量，它们关联的关系集合为。

由于不同类型的节点可能具有不同维度的属性，因此采用了针对每种节点类型的线性层，将节点特征映射到共享的特征空间，具体表达式如下：

表示节点的原始特征向量，hv∈RF表示对齐之后的节点向量，表示可学习参数矩阵，即一个与节点原始特征维度有关的线性层。

正如前文所述，传统的点对点传播方式默认邻居节点之间相互独立而忽略了它们的潜在语义联系，本文提出的L2NH模型认为邻居节点之间具有相关性，节点之间的传播应该反映节点周围的特征。具体而言，L2NH 构建了一个协方差矩阵来描述邻居节点之间的相关性，并采用自注意力机制［6］来捕捉这种成对的依赖关系。自注意力机制可以描述为一个映射函数，它接受一个查询和一系列键值对作为输入，并生成一个输出。为了避免引入过多的参数组增加模型的复杂度，L2NH 仅使用一个投影矩阵来简化查询（Q）、键（K）和值（V）矩阵的获取过程。用H=[h1,h2,…,hM]表示Gv中的节点投影到公共空间的表征矩阵，它的每一列对应着一个节点，然后再通过一个投影矩阵W∈RF×F将所有节点映射到隐藏层表征空间来获取Q、K、V三种矩阵，它们表示如下：

受图像尺度归一化［7］使得图像更具有对比度的启发，节点的每个维度减去节点整体平均值的操作使得节点在每个维度上的表征更具有区分度和可比性。设所有节点的平均值构成局部网络的平均向量，它表示为μ=[μ1,μ2,…,μM]T，对于μv∈R，它的具体表达式如下：

经过尺度归一化之后，Q、K、V矩阵可以重定义为

得到Q、K矩阵以后，基于它们的相似度来捕获节点之间的相关性，进而构建邻居节点的协方差矩阵来描述局部特征，于是，协方差矩阵表示为

然而，在Gv中通常存在多种类型的边，由于局部性已经融入了拓扑信息，如何在局部建模的过程中融合边的类型信息成了又一挑战。在以往基于点对点传播方式的研究工作中，要么引入与边类型有关的参数组［8］，要么将边的表征融入到消息中进行传播［9］，要么将关系类型融入到注意力值中，它们一是引入了大量的可学习参数组导致模型过于复杂，二是仍然坚持建模同构图的观点。为了避免这种问题，这里L2NH采用了一种非常简单而有效的关系编码方式。具体而言，给每条边分配一个d维的表征，对于相同类型的边它们分配的表征一样，而不同类型的边分配的表征则不一样。基于这种限制，Ev对应的边表征矩阵可以表示为R=[r1,r2,…,rM]，然后将边的类型信息转移到节点上对Gv进行“去异”操作得到增广后的节点表征矩阵表达如下：

协方差矩阵S本质上描述了节点之间的相关性，而通过关系编码将边的类型信息融合到该矩阵中，因此可以用更少的参数对局部子网进行建模，全面地反映了节点的局部特征。

1.4 多通道融合

为了在邻居聚合的时候考虑到局部的潜在语义联系，L2NH 采用了一种局部到点的邻居聚合方式。具体而言，将协方差矩阵S∈RM×M进行特征值分解得到局部子网的特征向量，计算过程定义如下：

为了获取更为多样化的局部信息，目前流行的方法为多头注意力机制和多通道机制。它们利用相同意义的非共享参数重复着相同的操作流程，试图捕获多样化的信息。然而，注意力头或者通道之间是完全独立的，没有任何约束来加强信息的多样性，这会造成信息的冗余而进一步引发过拟合。为此，本文在局部相关性建模的基础上提出了一种全新的多通道方法来提取多样化的局部信息。具体而言，不同的特征向量可以用作不同的通道，不同的通道之间相互正交，这种正交的性质可以加强捕获信息的多样性。对于通道m，节点v的表征为

节点最终的表征zv可以通过注意力机制将多个通道进行加权求和得到，具体表达如下：

其中：M为通道的个数，可以被解释为通道m对节点v的重要性，该系数可以通过以下公式进行计算：

其中MLP：RF∈R 是一个两层的多层感知机，隐藏层的激活函数为tanh，所有节点的局部网络都共享同一个MLP。

对于半监督节点分类任务，通过最小化交叉熵损失来优化模型参数，具体的损失函数表达如下：

其中：C代表着分类器的参数，VL代表训练集的节点集合。而yv表示节点v真实标签。zv代表节点v用于分类任务的表征，它来自于模型的输出层。

2 实验

为了验证L2NH的有效性，本文将在四个常用的异构图数据集上与八个先进的基准方法进行实验对比。

2.1 数据集

本文实验数据集包括两个学术网络DBLP 和ACM，一个电影网络IMDB 和一个商业网络Yelp。数据集详细统计信息如表1所示。

表1 数据集的统计数据

2.2 对比方法

本文通过与一些先进的基线模型进行对比，来验证所提出的L2NH的有效性。

Metapath2Vec（简称MP2Vec）［10］：该方法基于元路径进行截断随机游走并结合skip-gram 算法实现保留语义相似性。本文依次测试了MP2Vec所有元路径，并报告了最佳性能结果。

HAN［11］：该方法利用层次化的注意力机制，包括节点级别的注意力和语义级别的注意力，同时学习节点和元路径的重要性。

MAGNN［12］：该方法进一步考虑了HAN 忽略的元路径实例中的中间节点，然后使用注意力机制执行元路径内部聚合和元路径间聚合。

RGCN：该方法在GCN［13］的基础上在聚合邻居的时候引入与边类型有关的参数组来对不同边上的消息进行与类型有关的转换。

GTN［14］：该方法将每种关系看作一个可学习权重，整个异构图就是一个可学习的带权同构图，并且通过端到端学习来自动发现元路径，因此该方法可以认为是基于注意力机制的模型。

HGT：是一种基于Transformer 架构的异构图神经网络，通过引入与相邻节点类型和边类型有关的参数组来计算边注意力值。

HetSANN：该方法应用与边类型有关的注意力层来计算不同类型边上的注意力值。

SimpleHGN：该方法在GAT［15］的基础上将边类型表征融入注意力层中，并使用残差连接和表征归一化技巧来提高表达能力。

2.3 实验结果

本研究采用Macro-F1 和Micro-F1 作为指标来全面地评价模型的性能，实验结果如表2 所示，其中加粗表示最优性能，加下划线表示次优性能，所有结果是五次实验的平均值。

表2 节点分类实验结果

实验结果表明，LNPH 方法在所有基准数据集上均表现出最佳的性能，特别是在IMDB数据集，相较于次优的算法整体提升了5.59%。MP2Vec 属于浅层模型且只考虑了结构信息，并没有考虑到节点的属性信息，其性能往往不如其他深层模型。基于元路径的方法的性能容易受到预定义元路径的影响，比如HAN 在一些数据集上的性能不如自动发现元路径模型GTN。而基于注意力机制的方法虽然考虑了类型信息，但学习到的注意力值完全基于节点对交互，容易忽略局部节点之间的潜在语义联系，这可能导致噪声和过拟合，例如HetSANN 在Yelp 数据集上的表现远不如其他模型。RGCN既没有使用多通道机制，也没有考虑高阶语义关系，因此表现也不如L2NH。注意力模型Si-HGN 与自动发现元路径模型GTN 在四个数据集上包含了次优的性能，这在某种意义上能够说明融入类型的注意力机制也能够隐式地挖掘元路径，但是这种注意力机制并没有考虑局部高阶语义联系，且GTN 的时间复杂度又是相当高的。综上所述，L2NH 方法能够在所有数据集上取得最佳性能，进一步证明了捕捉局部潜在的高阶语义联系和多样化聚合在异构图分析中的重要性。

2.4 消融实验

为了更好地展示L2NH各部分的效果，本节实验将该模型的部分操作进行剥离来观察实验结果的变化。这里评估了L2NH的两种变体：

L2NH-R：该变体不使用关系编码，直接忽略边的类型信息。

L2NH-V：该变体不使用多通道机制，即将通道个数设为1。

图2 展示了两个变体和完整的L2NH 在节点分类（IMDB 数据集以右边的y轴为准）任务的消融实验结果，其中横坐标表示数据集，纵坐标表示Micro-F1 指标。实验结果均表明完整的L2NH 模型的性能最好，这说明L2NH 的两个关键组成部分都对其改进性能具有积极作用。具体而言，L2NH-R 与L2NH 的比较突出了关系信息的重要性，而与LNPH-V比较则突出了用于捕捉多样化局部信息的多通道机制的有效性。从图2节点的分类结果可以看出，相较于L2NH-R，在四个数据集上，L2NH 的性能表现分别上升了1.77%、0.70%、1.75%和1.34%。与此同时，相较于L2NH-V，L2NH 的性能也表现出了上升趋势，尤其是在IMDB数据集上提升了3.28%。

图2 探究不同模块对模型性能的影响

3 结语

本文基于局部建模的方式提出了一种用于异构图表征学习方法L2NH。该方法通过建立邻居节点之间的协方差矩阵来挖掘蕴含在局部的潜在语义联系，并在此基础上提出了一种局部到点的多通道聚合方式来捕获多样化的局部信息。实验表明，L2NH 在四个真实的异构图数据集上进行节点分类的性能优于目前现有的先进的基准方法，从而证明了该方法的有效性。