APP下载

基于注意力机制的图学习方法研究

2024-09-13周安众谢丁峰

电脑知识与技术 2024年22期

摘要:深度学习已经在许多领域取得成功,人们在这一领域投入了大量的研究工作,极大地推动了图学习方法的发展。根据现有图神经网络模型的特点,首先描述了一种通用的图学习框架,以系统的方式对其进行全面概述,包括消息传递、特征聚合以及节点更新三个部分。然后,以该框架为基础引入图注意力机制,并改进消息传递方法,解决注意力机制对空间结构学习的不足。最后,我们简要概述了该框架的应用,以期为图学习方法的研究提供指引。

关键词:图学习;深度学习;注意力机制;消息传递

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)22-0035-03

开放科学(资源服务)标识码(OSID)

0 引言

现实世界场景中存在着各种各样的图数据,例如社交网络、引文数据和知识图表等。利用机器学习方法分析这些数据可以为如何利用隐藏在图中的信息提供见解。因此,有效的图学习方法可以更深入地了解数据背后的内容,从而有利于许多有用的应用,如文本分类[1]、特品推荐[2]、交通流预测[3]等。然而,图数据从非欧空间中生成,将数据表示为对象之间具有复杂关系和相互依赖性的拓扑结构,使图学习方法的计算和空间成本都很高,对现有的机器学习算法提出了重大挑战。虽然深度学习在自然语言翻译、生成和解码复杂音频信号以及从真实世界的图像和视频中推断信息方面取得了显著成功,但处理图上信息表达的方法仍处于起步阶段,部分深度卷积神经网络已被证明能有效处理图片、文本数据,卷积核的规则矩型结构却使其在处理非欧结构的图数据时受到限制,只能通过人为设计来修补已有缺陷。最近,注意力机制在深度学习领域受到关注,部分模型在图中引入该机制可以不受结构变化的影响,为图学习方法指明了一个方向,但该方法忽视了结构变化,学习不到完整的图信息。

针对以上非欧结构的图数据的特点,我们的目标是探索一个有效的图学习方法,能适应图的不同连接方式和依赖关系,并从图中学习到节点特征和结构信息。为此,本文描述了一种在图上进行监督学习的通用框架,总结了现有图神经网络模型之间的共性,并根据该框架的局限性提出了新的改进,指导我们对图学习方法的研究。

1 相关研究

在深度学习领域中,当面对图这种非欧几何结构的应用时,由于传统的卷积核无法适用于邻居节点变化的特点,可以通过将图的结构转换为矩阵形式,使其可以适应卷积神经网络的训练,但转换后的数据会一定程度损失部分信息,直到为图而专门设计的图神经网络的出现[4]。图神经网络可以分别从频域和空间域两个角度建模图数据,使该模型可以直接处理非欧结构的数据而不丢失数据间包含的相关性依赖。频域上的建模利用了图谱理论[5],在频域对图进行操作时,将空间上vcnxZ82TdGdb1rFIVymcbLaYBpOKbsKw7z2hM1UFtBI=的节点特征进行傅里叶变换,并在频域中设计了图上的卷积公式,该卷积运算消除了对数据格式的限制,且不需要对矩阵进行特征分解,使计算速度得到提升。空间域上的建模主要通过引入邻接矩阵来考虑图上的一阶局部近似[6],只考虑一阶节点降低了网络参数数量,采用堆叠的多个层来获得类似卷积神经网络中从局部到全局的效果,这一改变使得图神经网络开始得到研究人员的重视。刘欣瑜等人[7]在自然语言处理任务中,基于图神经网络和外部知识建立了自然语言推理模型,补充了语义图空间特征,进一步提高模型推理能力。由于图神经网络可以融合图结构和图特征进行学习,陈佳乐等人[8]分析了基于图神经网络的异常检测方法,提升了对非欧式空间数据进行异常检测的效果。

图卷积神经网络受到大量关注的同时,注意力机制作为自然语言处理任务中的核心技术之一也开始得到广泛运用[9],采用注意力机制的模型借鉴了人类视觉注意力原理,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,对焦点区域投入更多注意力可以获取更多目标的细节信息。深度学习中注意力机制允许模型专注于与任务最相关的部分,以此辅助做出决策。张小婉等人[10]考虑知识图谱推荐中不同实体对于用户的重要性不同,结合图神经网络与注意力机制提出了一种知识图谱推荐系统,该系统利用注意力机制区分了邻居节点的重要性。然而,大多数涉及注意力机制的模型,无法对不同的节点位置进行区分,也无法捕捉节点的结构信息[11],自然语言翻译中,会在注意力系数计算时加入位置编码来表示单词的顺序,而图中节点的顺序没有统一的表示,导致其注意力机制的计算范围只限于一阶邻域。

因此本文研究注意力机制与图学习方法的结合,从而有效利用图神经网络与注意力机制的各自优势。图神经网络的出现主要是用来解决传统卷积核不能处理非欧结构数据的缺陷,捕获实体以及它们之间的关系,从而学习空间特征。注意力机制允许模型为图中的节点分配权重,以突出显示任务相关信息最多的节点。

2 图学习基本框架

多种与图相关的神经网络可以归纳为一种消息传递神经网络(Message Passing Neural Network,MPNN) 框架。在节点分类任务上,该框架的架构如图1所示。

该框架描述了在图上对节点类别进行预测的过程,包括了消息传递、特征聚合、节点更新三个阶段。需要预测的节点A,首先找到邻居节点B、C、D、E,将它们的特征信息传递到一起进行聚合,最后与A的特征信息一起生成更新后的目标节点。其中,图可以表示为G = (V, E),[V]是图中的节点集,[E]表示边的集合,矩阵[X∈RN×d]表示节点的特征矩阵。分类任务可表示为,在给定图的输入特征矩阵X时,通过MPNN将输入转换为输出的过程。

2.1 消息传递

MPNN可以看作一种通用的框架,描述了当前大部分图神经网络的基本结构。图神经网络能够学习图中节点的特征,一般认为,相互连接的节点具有相似的特征。模型利用某种方式寻找某中心节点邻域内相互连接的邻居节点,并将它们视为相似节点,通过相似节点上具有的特征或属性来表达中心节点特征,这种寻找邻域内相似节点的过程称为消息的传递。

节点[vi]的邻居表示为[Ni],其集合定义为通过边与[vi]相连的节点[vj]的集合,记为[Ni={vj:eij∈E}]。图2展示了节点A的邻居在进行消息传递的具体过程,消息传递获取到中心节点的邻居节点特征,经过函数[f]进行特征转换并将转换后的特征传递给中心节点,[f]一般是神经网络或者某个线性变换。该过程会重复地应用于图中所有节点,以达到整个图上节点的消息传递过程。

2.2 特征聚合

在图节点分类任务中,MPNN框架遵循上述消息传递原则来获取邻居节点特征,然后通过聚合函数生成新的特征表示,聚合函数在选择上要求具有排列不变性,即邻居节点的排列方式对结果没有影响,可以取邻居节点的平均值聚合,如公式(1) 所示:

[mi=σ(W×MEAN(Xj),j∈Ni)] (1)

式中:[σ]为激活函数,W为参数矩阵,MEAN为平均聚合函数。也可以取MAX最大池化聚合,如公式(2) 所示:

[mi=MAX(σ(W×Xj+b),j∈Ni)] (2)

或者直接用神经网络聚合,如LSTM。与其他聚合方式相比,LSTM具有更大的特征表达能力,但不是排列不变的。LSTM会以顺序的方式处理输入信息,因此需要简单地将邻居节点随机排列后再进行输入,以使得LSTM适应于对无序数据集的操作。

2.3 节点更新

MPNN框架的最后一步利用聚合函数输出的新节点特征生成最终的目标节点特征。在该步骤中,中心节点不仅要利用聚合后的特征,还要利用中心节点本身的特征。通过将中心节点的特征与聚合函数输出的特征相结合来实现,结合的方法可以是拼接操作,如公式(3)所示:

[hi=σ(W×(xi||mi))] (3)

式中,||为特征的拼接,由于图神经网络可以是多层的,因此MPNN框架的消息传递、聚合和更新步骤也可以形成多层,重复以上3个步骤,以达到增强特征表达能力的作用。

3 基于注意力机制的图模型

注意力机制的优点是能够专注于输入信息中重要的部分,且已被证明可用于机器翻译、自然语言处理等任务中,其效果优于传统的卷积神经网络。本节将讨论在遵循MPNN框架原则下,设计基于注意力机制的图模型。

3.1 消息扩散

在MPNN的消息传递步骤,典型的图模型普遍只采集节点的一阶邻居节点,即在一个有限的邻域范围内传递信息。为了选择一个节点的邻居,设置一个定值,每次选择邻居的时候就是从周围的一阶邻居中均匀地采样固定个数的节点。这种局部的邻域限制了消息传递的能力,且图神经网络不仅学习节点特征,还应学习图上的空间特征,表现为节点之间的连接方式,即拓扑结构。图上这种特殊结构为图增加了更多的信息,需要在消息传递步骤进行捕获。

为了解决以上问题,需要在更大的邻域内进行消息的扩散,并且这种扩散能捕捉图的拓扑结构,而不仅仅是节点上的特征。我们可以采用多阶的邻接矩阵,其反映了图的高阶结构信息,使注意力机制应用到更远的邻居。同时,也可以采用基于随机游走的策略来对消息进行扩散[12]。如图3所示,该策略通过随机游走采样形成跟自然语言中的语料库一样的节点序列集,然后再利用注意力模型进行节点特征嵌入,为了获得高阶节点信息,可以将宽度优先搜索和深度优先搜索同时引入随机游走序列的生成过程中,不仅刻画了相对局部的结构,也包含了更高阶节点间的结构信息,使结构相似的顶点具有相似的特征表示。例如,在给定节点u的情况下,设定固定长度L的随机游走。设[ci]表示游走中的第i个节点,从[co=u]开始。第[ci]个节点的概率分布按照公式(4)生成:

[P(ci|ci-1)=πijz,if(i,j)∈E0,otherwise] (4)

式中:[πij]为节点[vi]和[vj]之间的转移概率,[z]为归一化常数。设置扩散策略的方法是基于图上边的权重[Wij]对下一个节点进行采样,即[πij=Wij](在无权图的情况下权重为1) 。这种游走的扩散策略能获取更大邻域内的节点,且转移基于边的权重,反映了节点与边之间的结构关系。

3.2 图注意力

经过图上的消息扩散后,我们可以聚合到更多的邻居节点,而在图卷积网络中,节点的邻居由邻接矩阵确定,这是一种预先设定的静态邻域结构。然而,邻居节点的影响可能会变化,应该在训练中学习比预先设定更多的信息。图注意力网络是一种基于空间的网络,在聚合邻居节点信息时,注意力机制自适应地计算邻居节点的权重。图注意力的计算定义为公式(5):

[h'i=σ(j∈NiαijWhj)] (5)

式中,[α]为注意力系数,按公式(6) 、公式(7) 计算:

[eij=a(Whi,Whj)] (6)

[αij=softmax(eij)=exp(eij)k∈Niexp(eik)] (7)

式中,[αij]为[vi]相对于[vj]的注意力系数,通过神经网络[a]拟合得到,[hi]为节点[vi]的节点特征,由上一个消息传递模块输出,通过与参数矩阵[W]相乘进行线性变换后,再由神经网络[a]计算相关性,最后利用Softmax函数得到注意力系数的得分。

3.3 应用

图神经网络在不同的任务和领域中有着广泛的应用。尽管每一类都经过专门优化,但都遵循以上 MPNN 框架,经过本文的改进,更是在一般领域有更多的应用。其中之一是计算机视觉。作为一般的通用框架,不仅能处理传统上的图像识别,在场景图生成、图分割、动作识别和许多其他方向上都可以捕捉图结构。另外,基于图的推荐系统以项目和用户为节点,具有项目与用户以及用户之间的关系,基于图的推荐系统能够利用此关系产生高质量的推荐,尤其是注意力机制能对项目及用户的重要性进行评分。而在交通流预测中,采用基于图的方法和时空神经网络能方便地建模道路上的节点关系以及时间序列特征,有助于智能交通系统有效利用资源。

4 结论

在本文中,通过探索图学习方法的改进,在 MPNN 通用学习框架的基础上,分析了消息传递中捕捉更大邻域范围和图上结构信息的方法。我们提出了多阶邻接矩阵和随机游走的扩散方式来改进消息传递,并分析了在该框架中集成注意力机制的方法,使改进后的框架能同时处理结构和特征信息。最后,给出了图神经网络在不同领域中的应用,根据不同任务所属的领域进行了介绍。

参考文献:

[1] 杨春霞,马文文,徐奔,等.融合标签信息的分层图注意力网络文本分类模型[J].计算机工程与科学,2023,45(11):2018-2026.

[2] 张秋玲,王滢溪,王建芳,等.基于双向注意力的图神经推荐算法研究[J].河南理工大学学报(自然科学版),2024,43(1):149-156.

[3] 周安众,谢丁峰.基于图注意力机制的交通流预测模型[J].软件工程,2023,26(8):48-52,62.

[4] 赵港,王千阁,姚烽,等.大规模图神经网络系统综述[J].软件学报,2022,33(1):150-170.

[5] 仝宗和,袁立宁,王洋.图卷积神经网络理论与应用[J].信息技术与信息化,2020(2):187-192.

[6] 陈可佳,杨泽宇,刘峥,等.基于邻域选择策略的图卷积网络模型[J].计算机应用,2019,39(12):3415-3419.

[7] 刘欣瑜,刘瑞芳,石航,等.基于图神经网络和语义知识的自然语言推理任务研究[J].中文信息学报,2021,35(6):122-130.

[8] 陈佳乐,陈旭,景永俊,等.图神经网络在异常检测中的应用综述[J/OL].计算机工程与应用,2024:1-20 [2024-04-23].http://kns.cnki.net/kcms/detail/11.2127.TP.20240113.1222.004.html.

[9] 王匆匆,张仰森,黄改娟.基于注意力机制与端到端的中文文本纠错方法[J].计算机应用与软件,2022,39(6):141-147.

[10] 张小婉,邓秋军,柳先辉.结合图注意力机制的知识图谱推荐算法[J].计算机科学,2023, 50(S2):464-470.

[11] ZHOU A Z,LI Y F.Structural attention network for graph[J].Applied Intelligence,2021,51(8):6255-6264.

[12] 李文举,姬倩倩,沙利业,等.基于图游走和图注意力的点云分类与分割[J].郑州大学学报(工学版),2024,45(2):33-41.

【通联编辑:唐一东】