基于双曲图注意力网络的知识图谱链路预测方法

2022-06-25陈鸿昶张建朋

电子与信息学报 2022年6期

吴铮陈鸿昶张建朋

(战略支援部队信息工程大学信息技术研究所郑州 450002)

1 引言

知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法[1]。现如今，大规模知识图谱已经成为推动实现信息检索[2]、自动问答[3]和推荐系统[4]等人工智能相关应用的重要基础。知识图谱将现实世界中的知识建模成(vh,r,vt) 三元组的形式，其中vh和vt分别表示头、尾实体，r表示实体之间的关系，例如(Beijing,capital_of, China)。虽然知识图谱的应用取得了巨大的成功，但是目前例如FreeBase, WordNet,Yago, DBpedia以及NELL等现代著名知识图谱存储的知识是稀疏的和不完整的，很多存在于真实世界中的关系在知识图谱的实体之间却是缺失的，因此需要知识图谱补全技术来提高知识图谱的完整程度和数据质量。知识图谱补全目前主要被抽象成一个链路预测问题，即预测出三元组中缺失的部分，如头实体预测 ( ?,r,vt)、尾实体预测(vh,r,?)和关系预测(vh,?,vt)，问号表示要预测的部分，而另外两个部分是已知的。

近年来，网络表示学习在特征提取方面展现出了强大的能力。许多研究者将网络表示学习迁移到知识图谱数据上，完成知识图谱中的各类任务，其中就包含基于知识表示学习的知识图谱链路预测。基于知识表示学习的知识图谱链路预测方法，大多将知识网络中的实体与实体之间的语义关系嵌入到欧式空间中连续的低维稠密向量空间中，当学习到知识图谱的欧式空间嵌入式向量后，实体和关系之间可以进行计算与推理，再利用线性模型或神经网络模型就可以高效地完成知识三元组中缺失元素的预测。尽管基于欧式空间的表示学习取得了成功，但是最近研究结果表明，欧几里德对称模型不能很好地反映复杂的数据模式，欧几里德空间里的嵌入表示不是最有意义的几何表示[5]。现实世界中的网络很多情况下表现为树形结构的无标度图，在这样的结构中，图的体积(以一个节点为中心，某个半径范围内的节点数量)以半径的指数级增长，而欧式空间中球的体积只以半径的多项式级增长，这就会造成嵌入式向量的高度失真。知识图谱是一个典型的树状分层多关系结构的图数据，知识图谱中的许多关系呈现出了实体之间明显的分层结构。大多数现有的知识图谱链路预测方法将知识图谱嵌入到欧式空间中进行表示学习，容易造成嵌入式向量的失真，而将知识图谱嵌入到双曲空间中则可能会有较明显的性能改进。此外，大多数方法孤立地分析每个知识三元组，忽视了对三元组中实体周围局部结构化信息的挖掘和利用。

针对以上问题，本文提出了一种基于双曲注意力网络的知识图谱链路预测方法(Hyperbolic Graph ATtention networks for Link Prediction in knowledge graph, HyGAT-LP)，通过聚合双曲几何对层级结构图数据的建模能力和图注意力网络对网络结构的学习能力，共同学习知识图谱上的嵌入式表示。首先设计双曲空间中的邻居融合和非线性激活的函数表达式，在每一层中用不同的可训练的曲率将欧式输入特征转化为双曲空间中的表示向量。然后计算不同邻居关系的权重，并计算对应每种关系下不同邻居实体的权重，最后综合衡量邻居实体和关系的影响，分别通过实体和关系级别的注意力机制聚合双曲空间中的邻居信息来学习和更新双曲嵌入式表示向量。多个知识图谱数据集上的实验结果表明，HyGAT-LP的性能优于目前最先进的知识图谱链路预测方法。

2 相关工作

2.1 知识表示学习

最近几年，知识图谱补全技术受到广泛关注并取得深入发展，在所有知识补全方法中，最有效的就是基于知识表示学习方法，此类方法可以在保留知识图谱内在结构的基础上，通过学习实体和关系低维向量表示，使用线性或者神经网络模型来预测知识三元组中缺失的信息[6]。众多算法模型大致可以被分为4类：(1)转移距离模型，典型的模型为TransE[7]。受词向量中平移不变性的启发，在TransE中，把关系的向量表示解释成头实体向量向尾实体向量的转移向量，把衡量知识图谱中三元组的合理性问题，转化成衡量头实体到尾实体的距离问题。后续的RotatE[8]模型在复数空间中建模，把关系当作头尾实体之间的旋转，从理论上证明能够解决对称/反对称、翻转、组合关系。(2)语义匹配模型，早期典型的模型为RESCAL[9]，核心思想是将整个知识图谱编码为一个3维张量，将关系表示成实体向量的线性变换，得分函数设计成头实体向量、关系矩阵以及尾实体向量的双线性乘积的形式。DistMult[10]通过限制关系矩阵为对角矩阵来简化和修正RESCAL模型容易过拟合的问题，但是DistMult限定所有关系对称，无法解决非对称关系。ComplEx[11]通过将实体和关系在复数域进行向量表示来扩展DistMult，实现了对非对称关系的预测，但是它不能推断组合模式。TuckER[12]通过对三元组向量的Tucker分解实现了不同关系之间多任务学习，以上语义匹配模型都可以看作TuckER模型的特例。相比较于转移距离模型，语义匹配模型通过挖掘向量化后的实体和关系的潜在语义来度量事实的可信性。(3)基于卷积神经网络(Convolutional Neural Networks, CNN)的模型，ConvE[13]和ConvKB[14]是最近两年新提出的基于CNN的知识图谱表示学习模型，ConvE通过一个2维卷积来预测链路，模型包括卷积层、全连接层和最后输出的内积层。ConvKB和ConvE类似，把每个三元组看作一个k×3的矩阵，卷积层中尺寸为1 ×3的过滤器对矩阵的每一行进行遍历，提取实体之间的全局关系。相比较于其他模型，这些模型虽然提取局部特征的效率较高，但是仍将实体和关系视为独立的元素，损坏了三元组的完整性，并且忽视了对相邻的不同三元组之间关系的考量。(4)基于图神经网络(Graph Neural Networks,GNN)的模型，典型代表为R-GCN[15](Relational Graph Convolutional Networks)，基于已知实体或关系在图中周围节点的表示，推理得到未知实体的表示，从而可以获取知识图谱中缺失实体的表示向量。此外还有RGHAT[16]模型基于图注意力网络(Graph ATtention networks, GAT)来进行链接预测和实体发现等任务。GNN模型可以处理数据之间具有复杂关系和相互依赖的图结构数据[17]。GNN模型的引入丰富了知识图谱中实体和关系的表达，尤其在得到未知实体和关系的表示方面具备一定的推理能力。

2.2 双曲空间知识表示学习

知识图谱链路预测的性能取决于模型对图数据结构和关系模式建模的契合程度。双曲空间是最近机器学习领域中十分活跃的研究热点之一，已有研究表明，在建模多关系树形层次结构的知识图谱数据时，负常数曲率空间即双曲空间要优于零曲率空间即欧式空间[18]。近年来，许多研究尝试把各种各样的层级数据嵌入到双曲空间，在嵌入向量维度更少的条件下却在下游的机器学习任务中取得了更好的效果，并在知识问答、机器翻译、图分析等应用上取得了性能上的提升。Zhang等人[19]通过双曲层级注意力网络模型Hype-HAN生成从词向量到句向量，再到最终的文档向量，然后利用生成的这些语义向量用于自动文本分类任务。Balaževic等人[20]提出的MuRP模型在双曲几何空间中学习知识图谱表示向量，通过最小化头实体向量和尾实体向量转移后的双曲距离，学习到最佳双曲嵌入式向量，但是其缺点在于它像其他转移距离模型一样无法挖掘关系中的逻辑属性，且模型曲率固定会导致准确率的丧失。针对此问题，Chami等人[21]提出ATTH模型对其进行改进，使用旋转、反射、平移变换对知识图谱中的逻辑和层次模式进行建模，取得了更佳的预测效果。

3 相关概念及定义

3.1 知识图谱链路预测

3.2 双曲几何模型

4 算法介绍

本文的目的是学习可以保存复杂逻辑关系和层次结构的双曲空间中的知识图谱表示向量，并用学到的向量通过得分函数在知识图谱上进行链路预测，还原损坏三元组中丢失的信息，从而完成知识图谱补全任务。为此，本文提出了基于双曲图注意力网络的知识图谱链路预测算法HyGAT-LP，算法总共包括3个部分：(1)欧式空间到双曲空间的映射；(2)双曲空间中的特征变换；(3)双曲空间中的邻居信息聚合。

4.1 欧式空间到双曲空间的映射

图1 欧式正切平面空间和双曲空间之间映射关系示意图

4.2 双曲空间中的特征变换

4.3 双曲空间中的邻居信息聚合

在图注意力网络GAT中，注意力机制被看作一种更具表达能力的信息融合手段。区别于图卷积神经网络(Graph Convolutional Networks, GCN)，GAT通过衡量中心节点与邻居节点的相关度区别对待不同的邻居节点，并将其作为分配权重应用到聚合邻居结构信息和属性信息的操作中，从而更加准确地刻画了中心节点，提升了模型的表达能力。在知识图谱网络中，除了邻居节点类型的多种多样之外，不同节点之间的关系类型也并非单一的。同一实体在不同的关系中也扮演了不同的角色，起到了不同的作用，并且不同关系在描述对实体时，其对实体的限定信息程度也是不同的，例如在描述美国篮球职业联赛布鲁克林“篮网队”实体时，关系“has_players”比关系“based_in_city”更具有指向性，因为一个球队的运动员可以唯一确定一支球队，但是同一个城市却有可能会有两支球队，比如篮网队所在的城市纽约还有尼克斯队。因此Hy-GAT-LP分别考虑两种层面的注意力机制，即关系注意力和节点注意力。

4.4 模型整体框架

基于以上章节对HyGAT-LP各个模块的介绍，HyGAT-LP整体框架如图2所示。

图2 HyGAT-LP模型框架图

为了进行链路预测，利用式(20)计算三元组的得分作为衡量其成立可能性的依据，

4.5 模型训练与复杂度分析

5 实验结果及分析

5.1 数据集

为了评估所提算法的有效性，本文在FB15k-237和WN18RR这2个常用的基准数据集上开展实验。数据集的统计信息如表1所示。其中ρ表示平均每一类关系的三元组数，体现了数据的稠密程度。FB15k-237数据集是知识图谱 Freebase的一个子集，包含真实世界中的事实，少部分关系具有层级特性，如part-of等，数据集稀疏(每一类关系对应的实体数量较小)，网络分层特性不明显。WN18RR数据集是知识图谱WordNet的子集，包含了单词之间的层级关系，如hypernym，has_part等，数据集稠密(每一类关系对应的实体数量较大)，具备天然的层次结构，网络分层特性明显。

表1 FB15k-237数据集和WN18RR数据集统计量信息

5.2 评价指标和参数设置

实验中使用倒数平均排序(Mean Reciprocal Rank，MRR)和Hits@1, Hits@3, Hits@10(排在前1，3，10名的有效实体的比例)作为评价指标。MRR是将排名取倒数使结果落在(0,1]之间，值越大则模型效果越好。Hits@1，Hits@3，Hits@10表示在所有的候选集中正确答案排在前1，3，10名的比例，值越大模型效果越好。将验证集上MRR最好的模型在测试集上运行来获取最终结果。

在训练阶段，共使用L= 2即两层卷积层来训练学习实体和关系的双曲嵌入式向量，多头注意力机制对应头的数量为8，卷积层中的非线性激活函数采用LeakyReLU函数，模型采用Glorot方式进行模型参数初始化，Adam优化器最小化代价函数，学习率为0.01。实体和关系的嵌入式向量维度为200，批处理大小为128，负采样数为50，模型迭代次数为500。

5.3 实验结果和分析

5.3.1 模型总体性能对比

为评估所提算法对知识图谱链路预测任务的有效性，实验选取转移距离模型TransE[7]，RotatE[8]，MuRE[20]，语义匹配模型DistMult[10]，ComplEx[11]，TuckER[12]，基于卷积神经网络的模型ConvE[13]、ConvKB[14]，基于图神经网络的模型RGHAT[16]和基于双曲空间的转移距离模型MuRP[20]、ATTH[21]共11种模型作为基准算法与本文所提HyGAT-LP模型进行对比，基准算法的实验数据参照原文献中的实验结果进行选取。

实验结果如表2所示，其中加粗的为最优结果，带下划线的为次优结果。所有对比算法所属的流形总共可以分为3类：欧式空间 R 、复数域空间C和双曲空间 B。实验结果显示，欧式空间模型中，TransE模型的向量平移在以组合关系模式占主体的稀疏数据集FB15k-237上能有效捕捉三元组的全局特征；但在对称关系模式占主体的WN18RR稠密数据集上，特别在处理复杂关系类型时，实体的嵌入式表示向量会趋向于相近，导致MRR得分较低。与转移距离模型相反，DistMult和ComplEx所使用的双线性乘法运算擅长提取实体相似性特征，在稠密数据集WN18RR上表现较好，但在稀疏数据集FB15k-237上，则难以提取足够的信息优化实体表示，MRR和 Hits@10都有明显下滑。ConvE在两个数据集的几乎所有指标上都表现出色，说明对实体和关系向量的拼接及2维转化有助于CNN提取局部模式与关系特征。ConvKB结合了CNN和TransE的平移特性，但却没有解决实体嵌入式表示向量会趋向于相近的问题，因此在WN18RR的MRR指标上同样表现出性能下滑。RotatE模型实现了推导对称/反对称、反向以及组合模式，性能相较于以上几种模型有较大提升。TuckER模型是对以上模型的统一，性能十分优秀。而RGHAT证明了基于图神经网络的模型相比较于以上几乎所有的非图神经网络模型性能更优，则体现了图卷积网络和注意力机制提取的特征比传统算法提取的特征更加丰富和准确，对知识图谱这类图结构数据的学习能力更强。

表2 FB15k-237数据集和WN18RR数据集上知识图谱链路预测结果

整体而言，在分层特性不明显的FB15k-237数据集上，基于双曲空间的模型和基于欧式空间的模型以及基于复数域空间的模型性能相当，MuRP和ATTH两种双曲空间模型与9种非双曲空间模型相比，MRR, Hits@1, Hits@3, Hits@10分别平均提升9.7%, 3.7%, 4.8%和5.5%，但是在分层特性明显的WN18RR数据集上，MRR, Hits@1, Hits@3,Hits@10分别平均提升16.2%, 14.9%, 5%和4.7%，说明双曲空间比欧式空间更适合建模知识图谱类型的树状层级多关系图数据。

本文所提的HyGAT-LP方法，综合了双曲空间嵌入式表示学习和图注意力网络两者的优势，且分层级地考虑了邻居三元组的影响，在绝大多数的评价指标上都取得了最好的结果。HyGAT-LP模型与单独基于双曲空间的模型MuRP和ATTH相比，在FB15k-237数据上，MRR, Hits@1, Hits@3,Hits@10 4种指标分别平均提升了47.1%, 88.7%,50.7%和22.9%；在WN18RR数据上，4种指标分别平均提升了7.8%, 0%, 2.9%和8.7%。相对而言，在FB15k-237数据集上提升幅度比在WN18RR数据集上提升幅度大，验证了在同样的双曲空间条件下，挖掘和利用邻居三元组信息能有效地学习不同逻辑模式的关系类型，进一步丰富双曲空间嵌入式向量包含的特征信息，从而提高链路预测的性能。

5.3.2 不同类型关系的性能度量分析

由于并非所有类型的关系都可以在实体上诱导出层级结构，因此本文研究由每类关系形成的知识图谱的图曲率ξG[24]以及层次得分(Krackhardt hierarchy score, Khs)[25]，进而分析每类关系的性能度量。图曲率是几何群论中的一个概念，用于衡量图的树形结构化程度。层次得分仅针对有向网络定义，并且测量其中存在有向路径 (x →y)而不存在(y →x) 的节点对(x,y)的比重。对于所有有向非循环图，该分数取值为1，对于圈和自环，该分数取值为0。图曲率ξG越低，层次得分Khs越高，则该图的分层特性越明显，图数据结构越趋向于树形结构。以WN18RR数据集为例，此数据集中总共有11种类型的关系，其中可以诱导出层级结构的关系有8种，另外3种语义关系不具备层次结构，每类数据的基本统计量信息如表3所示。

表3 在WN18RR数据集中每类关系的统计量信息

为了分析不同类型关系的性能度量受双曲空间和邻域三元组注意力机制的影响情况，实验比较了MuRE模型、MuRP模型和HyGAT-LP模型的每类关系的MRR指标。对比结果如图3所示。从图3可以看出，双曲空间嵌入式表示方式提升了层级关系的预测性能，而在非层级关系的预测方面，基于双曲空间和基于欧式空间的预测效果相似。HyGAT-LP模型相比较于MuRP模型而言，对非层级关系的预测效果有进一步的提升，且同时优于MuRE模型，说明如果层级信息没有在数据集中起到决定性作用，则模型的结构和深度对预测结果的影响会更加占据主导地位。

图3 WN18RR数据集上各类关系MRR指标对比图

5.3.3 知识三元组实例的性能度量分析

在WN18RR数据集中，当测试三元组分别为具备层级关系的(european_union, member_meronym, denmark)和非层级关系的(geology, derivationally_related_form, geologist)时，在已知头实体和关系的条件下预测尾实体，实验比较了MuRE模型、MuRP模型和HyGAT-LP模型对尾实体的排序情况如图4所示，其中模型每训练迭代5次，测试输出1次排序结果。从图4可以看出，随着训练迭代次数的增加，3个模型对目标尾实体预测的排名都呈逐步上涨的趋势，其中双曲空间模型对层级关系三元组的预测优于欧式空间模型，同等迭代次数条件下，双曲空间模型对尾实体的排名基本上都比欧式空间模型对尾实体的排名更加靠前，且双曲空间模型的最佳排名优于欧式空间的最佳排名。HyGAT-LP模型在3个对比模型中收敛最快，且最佳排名最靠前。对于非层级关系三元组的预测，3个模型的最佳排名都是第1名，但是HyGAT-LP模型最快收敛到最佳排名，优于其余两个对比模型。

图4 实例三元组尾实体预测排名对比图

3个模型在最后一轮训练后的预测排名前10尾实体列表如表4所示。底色加深的实体为目标实体。从表4可以看出，MuRE模型和MuRP模型都会选出与目标实体语义差别较大的实体，如层级关系中的united_states和非层级关系中的give, film和chronologize，而HyGAT-LP模型不会出现这种情况，且选出的排名靠前的尾实体与目标尾实体更加相似，与头实体和关系形成的三元组更加符合现实意义。以上实验结果也从具体个体实例层面进一步验证了HyGAT-LP模型的有效性。

表4 预测排名前10尾实体情况

6 结束语

现有基于欧式空间表示学习的知识图谱链路预测算法，仍然存在表示向量高度失真和三元组局部邻居信息利用不充分的问题。因此本文提出了Hy-GAT-LP算法，旨在学习知识图谱中实体和关系的双曲嵌入式表示，提升知识图谱链路预测的准确度，主要创新点在于设计并实现了基于双曲注意力网络模型，将多关系知识图谱嵌入到符合其所需几何特性的双曲空间，联合图注意力网络对局部结构化信息的挖掘能力，共同应对其复杂的网络结构和实体间复杂的关系。多个数据集上的实验结果表明，算法的性能稳定，与主流的基准算法相比有一定程度上的提高，特别是在树状分层特性更加明显的WN18RR数据集上优势更为明显。未来的工作包括探索将本文所提算法扩展到对话系统、自动问答系统等知识图谱领域中。此外还将探索融合球型、欧式以及双曲等不同曲率空间的注意力网络模型，从而契合各式各样结构的图数据，使得算法的适用场景更加广阔。