APP下载

融合实体邻域信息的知识图谱嵌入负采样方法

2023-03-16翟社平张宇航柏晓夏

计算机工程 2023年3期
关键词:鉴别器三元组图谱

翟社平,张宇航,柏晓夏

(1.西安邮电大学 计算机学院,西安 710121;2.陕西省网络数据分析与智能处理重点实验室,西安 710121)

0 概述

知识图谱(Knowledge Graph,KG)[1]是一种典型的多关系图,节点由不同的实体构成,边由多种类型的关系构成,通常使用三元组(头实体,关系,尾实体)进行表示。目 前,已经出现诸如YAGO[2]、Freebase[3]、WordNet[4]等大规模知识图谱,并广泛应用于信息检索[5]、智能推荐[6]等领域。虽然知识图谱中已包含大量的三元组,但由于知识的不断增加以及知识形式的多样化,使用符号表示知识图谱的三元组出现了数据稀疏、计算效率低下等问题。为了解决这些问题,人们提出了知识图谱嵌入(Knowledge Graph Embedding,KGE)技术,也称为知识表示学习(Knowledge Representation Learning,KRL)[7]。KGE 的主要思想是将知识图谱中的结构化信息映射到低维向量空间,将所有对象转化为数值向量,所有运算均定义为向量间的计算,从而进一步提升下游任务效果[8-9]。

深度神经网络因具有强大的表达能力,能够计算复杂的非线性函数,受到学者的广泛关注,KGE 模型主要通过神经网络增强特征嵌入向量的表达能力[9-10]。此外,生成对抗网络(Generative Adversarial Network,GAN)[11]也被引入以提高知识图谱表示能力,并被认为具有很大的发展潜力[12-13]。

虽然目前的KGE 模型已经具备良好的性能,但以TransE[14]为代表的多数模型仅利用知识图谱中观察到的事实进行嵌入,对于长尾实体很难准确表示。对此,有学者提出通过聚合实体邻域信息来增强知识表示。由于知识图谱具有异质性的内在属性,而该特性由关系路径[15]所决定,涉及不同的三元组,表现出复杂的语义特征,因此在聚合实体邻域信息时,基于不同的关系路径选择具有意义的语义信息能够增强模型的性能。

本文提出一种基于GAN 的知识图谱嵌入框架。构造生成器用于生成合理的负例三元组,以生成的负样本与真实三元组作为鉴别器的输入,并利用最小化损失函数优化鉴别器。与以往用于知识图谱嵌入的GAN 模型相比,本文通过不同的关系路径将每种类型的语义信息进行聚合,并分层聚合邻域信息,保留不同的特征,利用这些邻域信息丰富实体的表示,提升负样本的质量。同时,通过引入使用Wasserstein 距离的生成对抗网络,解决离散数据在训练过程中梯度消失的问题,提升知识图谱嵌入模型的收敛速度。

1 相关工作

首先定义本文使用的主要符号,表1 给出了具体的符号及其定义。

表1 符号定义Table 1 Symbol definition

近年来,知识图谱嵌入模型取得了很大的进步,现有许多方法都将实体和关系转换到一个连续的低维特征空间。本文将现有的研究成果分为3 个分支:基于翻译的模型,基于张量分解的模型,基于神经网络的模型。

1.1 基于翻译的模型

MIKOLOV 等[16]提出将词嵌入低维空间的Word2Vec 算法。受此研究启发,BORDES 等[14]将词嵌入算法中的平移不变性推广到知识图谱嵌入中,构建了TransE 模型。在TransE 中,将实体h、t与关系r分别嵌入与嵌入向量h、t、r相同的嵌入空间Rd中,向量r作为h与t之间的平移向量。对于每一个三元组(h,r,t),TransE 都遵循以下的规则:

每一个三元组事实(h,r,t)由得分函数评估其真实性,将h+r间的距离定义为l1范数或l2范数的得分函数,公式如下所示:

虽然TransE 简单高效,但在表示复杂关系时存在局限性,例如1-N、N-1、N-N 等。为了克服这一缺点,TransH 模型[17]被提出。该模型通过引入特定于关系的超平面,将实体投影到不同的超平面,以表达复杂关系。TransR 模型[18]为了区分实体和关系的差异,在不同的空间表示实体与关系,提升了模型的效果。TransD 模型[19]为每个实体-关系对构建动态映射矩阵,进一步优化了TransR 模型。

在以上模型的基础上,大量研究通过不同的方式提高模型性能。TransA 模型[20]利用自适应马氏距离进行度量,使模型能够更好地建模复杂关系。KG2E 模型[21]与TransG 模型[22]为了处理实体与关系间的不同语义,均引入了高斯分布。

1.2 基于张量分解的模型

张量分解是获取低维向量的一种有效方法,RESCAL 模型[23]是其中代表性的方法。该模型使用一个3D 二元张量X对知识图谱中三元组进行投影,Xhrt=1 表示观测到三元组,Xhrt=0 表示三元组不存在。该模式遵循的原则为:

其中:A∈Rn×d表示捕捉实体潜在语义的矩阵;Rr∈Rd×d表示与关系相关联的矩阵。根据该原则,得分函数定义为:

其中:h,t∈Rd表示实体嵌入向量;Mr表示关系r中的潜在语义。为了降低RESCAL 模型的计算复杂度,DistMult 模型[24]将Mr限制为对角矩阵,减少关系的参数量。不同于DistMult 模型中每个关系在头实体与尾实体是对称的,ComplEx 模型[25]引入复数向量空间,使得DistMult 模型能够捕获非对称关系。

1.3 基于神经网络的模型

神经网络将实体与关系的嵌入向量输入网络,经过神经网络计算后输出三元组的概率。NAM 模型[26]首先将每个实体与关系投影到嵌入空间,然后将h与r相连作为输入z0=[h;r]馈入到L+1 层,即:

其中:Ml与bl分别是第l层中的权重矩阵与偏置。利用最后一个隐藏层zl的输出与尾实体t嵌入,通过sigmoid 激活函数计算概率:

ConvKB 模型[9]通过引入卷积神经网络(Convolution Neural Network,CNN)来获取实体与关系间包含的语义信息。该模型将向量h、r、t连接为矩阵A=[h;r;t]作为输入,使用滤波器m∈R3×1在矩阵A上滑动产生局部特征映射:

其中:b表示偏置。最后将特征映射与权重向量进行点积运算。得分函数如下所示:

其中:Ω表示滤波器的集合;A*Ω表示滤波器Ω应用于矩阵A的卷积运算。

除了上述方法之外,受生成对抗网络思想及其应用的启发[11],WANG 等[12]与CAI 等[13]考虑使用GAN 对知识图谱嵌入中假的负样本进行采样,所提出的方法均使用一种知识图谱嵌入模型作为生成器构造负样本,同时利用原始的真实样本与生成的负样本训练另一种模型作为判别器,而这个鉴别器就是需要的模型。

以上知识图谱表示学习方法仅基于三元组(h,r,t),但实际上大量与知识图谱相关的弱监督信息可以有效提升模型嵌入的效率。本文提出一种弱监督信息融合框架,并利用生成对抗网络生成高质量负样本,从而提升知识图谱表示学习的性能。

2 本文模型

2.1 基本定义

定义1多头自注意力机制

定义查询向量Q∈Rn×m、键向量K∈Rn×m和 值向量V∈Rn×m的矩阵,注意力得分根据式(9)计算:

其中:W∈Rm×1,并且Q、K和V都应等于这一层的输入。

定义2图卷积神经网络

给定H(l)表示GCN 中第l层节点的特征矩阵,则前向传播可表示为:

2.2 模型整体框架

本文模型的整体框架如图1 所示。给定一个由观察到的三元组事实(h,r,t)所组成的集合,从集合中依次选取事实三元组,随机移除三元组的头或尾实体生成不完整的三元组(华为,位于,?),如图中左上角所示。生成器以不完整的三元组作为输入,并聚合不同关系路径下的实体信息,用以计算候选三元组集合中的概率分布,如图中左侧所示。选择概率最高的实体“广州”,生成最终的负例三元组(华为,位于,广州)。鉴别器以生成的负例三元组与事实三元组作为输入,利用训练好的得分函数评估三元组的真实性。

图1 本文模型总体框架Fig.1 Overall frame diagram of the proposed model

图2 给出一个实体在不同关系路径下聚合语义信息的示例(彩色效果见《计算机工程》官网HTML版),用以说明图1 中多关系路径聚合器的原理。根据不同关系将知识图谱分割为多个不同的关系路径表示{r1,r2,…,rn},在每条关系路径下融合该路径上的实体特征,不同的路径表示一种类型的语义信息,之后对关系路径分配不同的权重,将包含不同语义信息的特征聚合到实体。聚合后的实体特征能够更有效地表示知识图谱中丰富的语义信息,并为高质量负样本的生成提供基础。

如图3所示,表面反射红外的测试结果表明,当添加抗氧剂168和光稳定剂时,表面反射红外并不能明显地看出二者相应的特征峰。而当加入抗氧剂1010时,从材料表面反射红外可以明显看出在1 740 cm-1处有抗氧剂1010的CO特征吸收峰。接着又对配方3#的注塑样板在法线方向不同深度进行反射红外扫描(见图4)。可以看出,随着深度的加大,抗氧剂1010在1 740 cm-1处对应的特征吸收峰越来越小,这说明雾痕是由于注塑过程中,抗氧剂1010向制件表面扩散导致的。

图2 单个实体聚合语义信息示例Fig.2 Example of aggregating semantic information by a single entity

2.3 用于学习知识图谱嵌入的鉴别器

鉴别器的目标是通过训练得到一个能够评估三元组真实性的得分函数,对于高质量的负样本会分配一个相对较小的距离。鉴别器部分如图1 右半部分所示,包括卷积层、多关系路径聚合器以及全连接层,用于对三元组与其实体对应的关系路径信息进行建模。

对于输入的三元组(h,r,t),由一次独热编码将实体嵌入到与实体嵌入矩阵Eε×d对应的嵌入空间,将关系嵌入到与关系嵌入矩阵RR×k对应的嵌入空间,ε和R 分别代表实体与关系的数量。在本文中,实体的嵌入维度与关系的嵌入维度相同,因此可以将h、r、t进行拼接,重构为一个输入矩阵B=Reshape([h;r;t])送入2D 卷积层,通常在该层中使用过滤器ω提取有效的特征映射。在本文中卷积层采用1×1 的卷积核,特征映射的计算公式为:

其中:ωz与bz分别表示第z层的卷积核与偏置参数,将每一个特征映射拼接并重构为特征矩阵v∈R3×z,同时将特征矩阵输入丢失层正则化以加速收敛。将特征矩阵v输入多头自注意力层进一步提取三元组内部的隐含信息,此处多头自注意力层中隐含单元个数m应与特征映射数z相等。经过多头自注意力层的处理后,输入三元组的嵌入矩阵B被表示为单个向量y。

为了保证得到一个性能良好的得分函数,在鉴别器部分引入多关系路径聚合器。图2 展示了多关系路径聚合器的总体框架,由于各种类型的实体会出现在不同的特征空间中,不适合直接聚合每一个实体的邻域特征,因此提出实体级聚合,先聚合每个关系路径下的实体特征。

分别以与作为初始实体特征和关系特征,首先对基于关系路径的实体特征进行聚合,聚合公式为:

在实体级聚合之后,需要通过与实体相关的关系路径信息聚合各种类型的语义信息,因此提出关系级聚合。由于知识图谱的异构性,实体所体现的语义信息有多种类型。每个特定于语义的聚合特征只能捕获来自一方面的信息,为了聚合更全面的语义信息,需要通过不同的关系路径揭示不同的特征。对于每个关系路径同等对待,会弱化重要关系路径所聚合的语义特征。因此,采用一种基于关系的注意力机制以获取不同关系路径的重要性,然后利用该机制聚合不同类型的语义信息。

为学习不同关系路径的重要性,将|R|组实体级聚合特征作为输入,学习每个关系路径{r1,r2,…,r|R|}的权重,计算公式为:

其中:Att 表示由深度神经网络设计的注意力函数,它可以捕捉基于关系的重要性,并选择性地聚合信息特征。

为学习不同关系路径的权重,首先利用非线性变换将特定关系的特征进行变换,然后通过注意力向量p衡量特定关系特征的重要性,最后通过激活函数获得。计算公式为:

其中:W表示变换权重矩阵;b表示偏置向量。可以看出,值越大,关系路径r就越重要。

其中:d表示d维特征。聚合器与GCN 框架中使用的聚合函数类似。之后通过非线性变换将图卷积传播更新为:

其中:表示特定于实体的连接系数矩阵。至此,将一个实体所有关系路径上的邻域信息聚合完毕。

最终将三元组嵌入向量y与头、尾实体基于关系路径的邻域信息嵌入向量进行连接,得到能够通过全连接层来判别三元组(h,r,t)真实性的评估分数。评分函数D定义如下:

其中:F表示映射矩阵;Nh与Nt分别表示头实体与尾实体基于关系路径的邻域信息嵌入向量;f表示计算最终分数的向量。

2.4 高质量负样本的生成

多数的知识图谱嵌入模型均采用BORDES等[14]提出的均匀负采样方法生成负样本。该方法对事实三元组中的头或尾实体进行等概率随机替换,对模型的训练几乎没有效果。例如:(华为,位于,深圳)是一个真实有效的三元组,2 个实体间的关系为“位于”,尾实体应当是一个地点,采用均匀负采样方法生成负例三元组(华为,位于,中兴)或(华为,位于,任正非),知识图谱嵌入模型并不能很好地辨别其错误,导致参数无法更新,另一个负样本(华为,位于,广州)相比前2 个更加可靠,因为“广州”符合“位于”这一约束。

本文采用生成对抗网络对负样本进行采样,相比随机采样生成的负例三元组更加可信,同时在嵌入模型中引入实体邻域信息以更好地获取底层语义,为生成器的采样与鉴别器的鉴别提供基础。

与鉴别器部分类似,生成器部分包含2 个通道(如图1 左半部分所示):一个通道使用CNN、批处理归一化[29]与自注意力机制嵌入事实三元组;另一个通道基于不同的关系路径聚合实体特征。生成器以一个实体、一个关系与该实体基于关系路径的邻域信息聚合作为输入,缺失的实体通过生成器计算得到。因此,在最后一层使用softmax 函数计算所有损坏三元组的概率,并选择概率最高的作为最终的负样本。计算公式为:

其 中:(h',r,t')∈{(h',r,t)|h'∈ε}∪{(h,r,t')|t'∈ε};(h',r,t')是所有损坏三元组的集合;(h',r,t)和(h,r,t')分别表示替换头实体和尾实体的负三元组。

2.5 训练策略

鉴别网络D(x,ϕ)用于区分输入x是来自真实分布pr(x)还是来自生成器pθ(x)。给定一个训练样本(x,y),y={-1,1}分别表示样本来自pr(x)或pθ(x),鉴别器网络的目标函数是最小化交叉熵,目标函数如下所示:

其中:E 表示期望概率;G(z,θ)为生成网络;p(z)表示低维空间中的简单样本分布;ϕ和θ分别表示鉴别器与生成器的参数。

生成网络的目标与鉴别器相反,它会全速更新参数,使鉴别器将生成样本判定为真实样本,目标函数如下所示:

传统的GAN 主要应用于连续数据,而无法解决离散数据的问题。具体来说,GAN 通过训练完备的生成器生成合成数据,将生成数据送入鉴别器,使用计算得到的鉴别器梯度优化生成器,使合成数据更加逼真。只有当数据连续时,鉴别器才能更新梯度,而面对离散情况,其无法通过反向传播算法将梯度传播到生成器。

在数学上,将传统GAN 的生成器损耗看作生成分布pθ(x)与真实分布pr(x)间的JS 散度,而JS 散度需要2 个分布间有重叠部分才能正常应用。在自然语言处理任务中,2 个分布P、Q彼此不重叠,其JS 散度被定义为:

在此情况下,生成样本的分布与真实样本的分布不可能存在重叠,两者间的JS 散度恒为1,导致生成器的参数无法进行更新。

受Wasserstein GAN[30]引入Wasserstein 距离代替原JS 散度的启发,本文使用Wasserstein 距离解决知识图谱嵌入的梯度消失问题。对于真实分布与生成分布,它们的第一Wasserstein 距离为:

其中:Π(pr,pθ)表示所有联合分布γ(x,y)的集合,此处第一Wasserstein 距离能够估计2 个不重叠分布间的距离。利用鉴别器网络Dw进行最大化,将Wasserstein 距离近似表示为:

其中:K为Dw的利普希茨常数。为满足这一条件,采用 GULRAJANI 等[31]提出的附加损失项[||∇x Dw(x)||p-K]2。使用该方法时,随机选取一组真实样本xr与生成样本xθ,在0~1 范围内选择一个数字,之后沿xr与xθ之间的连线插值采样获得。按照此过程采样的的分布被表示为,满足利普希茨限制的鉴别器的目标函数被定义为:

生成器需要最小化Wasserstein 距离,使实际分布于生成分布尽可能重合,生成器的损失函数如下:

3 实验

在本节中,首先介绍实验所用数据集,并介绍实验的参数设置与比较方法。在此基础上建立链接预测与三元组分类任务,将模型与基线方法进行对比,并对生成器构造的负三元组进行分析,验证本文方法的合理性与有效性。

3.1 数据集

为全面地对本文模型进行评估,在链接预测任务中选用FB15K-237[32]、WN18RR[10]与WN18[33]3 个标准数据集,在三元组分类任务中选用WN11 与FB13 2 个标准数据集。上述每一个数据集中都包含大量的实体和关系,并被分为训练集、验证集和测试集。所用数据集统计信息如表2 所示,具体如下:

表2 数据集统计信息Table 2 Statistical information of dataset

1)WN18是WordNet[4]的一个子集,包含40 943个实体,具有18 种不同的关系类型。

2)FB15K-237 是FB15K[14]的一个子集,其去掉了FB15K 中的可逆关系。该子集包含14 541 个实体,具有237 个不同关系类型。

3)WN18RR 是WN18[33]的子集,同样删除了可逆关系。该子集包含40 943 个实体,具有11 种不同的关系类型。

4)WN11是WordNet[4]的一个子集,包含38 696个实体,具有11 种不同关系类型。实体代表词义,关系定义为实体间的词汇关系。

5)FB13 是Freebase[3]的一个子集,包含75 043 个实体,具有13 种不同关系类型。

3.2 对比方法

为验证模型的性能,本文选择一些典型的基线方法进行比较,比较方法如下所示:

1)TransE[14]。该方法将实体与关系统一嵌入到低维特征空间,将关系视为头尾实体间的平移向量。

2)TransR[18]。该方法将特定于关系的超平面扩展到特定于关系的空间,定义实体向量到关系空间的投影矩阵。

3)DistMult[24]。该方法通过匹配嵌入空间中的潜在语义信息计算三元组的概率。

4)ComplEX[25]。该方法将DistMult 推广到复数空间,并模拟对称与反对称关系。

5)ConvE[10]。该方法使用多层卷积神经网络捕捉实体与关系间的潜在语义信息。

6)RotatE[34]。该方法将每一个关系定义为起始实体到目标实体在复杂空间中的旋转。

7)GANKG[12]。该方法利用GAN 框架产生高质量负样本,利用策略梯度优化模型。

8)KBGAN[13]。该方法使用生成器对负样本进行采样,在GAN 框架中起到辅助鉴别器训练的作用。

9)R-GCN[35]。该方法通过改进图卷积网络,能够有效地处理高阶多关系数据。

10)A2N[36]。该方法基于GNN 模型,利用注意力机制自适应地组合实体的相关邻域信息。

11)CompGCN[37]。该方法通过构建多关系有向图,使得原始的GNN 能够同时学习实体与关系的特征。

3.3 链接预测

链接预测任务的目的是在给定一个实体和关系的情况下对缺失的部分进行预测。具体来说,任务目标是预测给定(?,r,t)中的头实体h或给定(h,r,?)中的尾实体t。

3.3.1 评估指标

对于每个测试三元组(h,r,t),使用实体集中的其他实体替换h或t,使用得分函数fr(h,t)计算其置信度,得分按降序排序。本文使用以下3 个指标作为链接预测的评估标准:

1)平均排名(Mean Rank,MR)。该指标表示正确实体排名的平均值。

2)平均倒数排名(Mean Reciprocal Rank,MRR)。该指标表示正确实体排名的平均倒排值。

3)Hits@10。该指标表示排名前10 名中正确实体的比例。

值得一提的是,MR 越低、MRR 越高且Hits@10越高,则模型性能越好。

3.3.2 参数设置

本文采用Adam[38]自适应优化方法用于模型训练,并通过网络搜索选择超参数:学习率α∈{5e-3,1e-3,5e-4,1e-4},实体与关系间的嵌入维度d∈{50,100,150},梯度惩罚系数λ∈{1,5,10,20},生成器迭代 一次鉴别器的迭代次数ndis∈{1,5,10},batch的大小m∈{32,64,128,256,512}。根据模型在验证数据集上的性能,最优参数设置如下:在FB15k-237上,{α=1e-4,d=100,λ=10,m=32};在WN18RR 上,{α=5e-4,d=100,λ=10,m=32};在WN18 上,{α=5e-4,d=100,λ=10,m=32}。

3.3.3 实验结果

表3 展示了不同模型在FB15K-237 与WN18RR数据集上关于链接预测任务的实验对比结果,其中加粗表示最优值。

由表3 可以看出:

表3 链接预测结果Table 3 Link prediction results

1)相较于只使用三元组的嵌入模型与引入附加信息的嵌入模型,本文模型在多数指标上都取得了较好的性能,验证了模型的有效性。

2)与KBGAN 等使用随机抽样的模型相比,引入一定的弱监督信息可以提升模型的性能,这主要是因为生成器能够生成质量更高的负例三元组,并且引入附加信息能够使生成器采样更加可信的事实以优化模型。在3.5 节中,将对生成器生成的负三元组进行可视化展示证明这一点。

3)与R-GCN 等聚合实体邻域信息的模型相比,本文模型由于引入GAN 框架,因此在多数指标上表现良好,可以更有效地将附加信息融入结构表示。

4)在WN18RR 数据集上,本文模型的MR、MRR与Hits@10 这3 项指标并没有显著提升,原因可能是对比模型已达到3 个指标的性能上限,因此,本文模型在WN18RR 上提升很小。

为进一步研究和分析本文模型的预测能力,将知识图谱中的各种关系分为1-to-1、1-to-N、N-to-1、N-to-N 4 类,同时使用WN18 数据集验证不同关系类别的MRR 指标,实验结果如表4 所示,其中加粗表示最优值。

表4 WN18 数据集不同关系模式下的MRR 指标对比Table 4 Comparison of MRR indexes in different relational modes of WN18 dataset

由表4 可以看出:

1)相较于基于翻译与张量分解的模型,本文模型在不同关系模式下MRR 指标均取得大幅提升,说明基于神经网络的嵌入模型更具有效性。

2)与未引入实体邻域信息的KBGAN 相比,本文模型在多项指标上取得了更好的效果,进一步说明弱监督信息的引入可以更好地建模各种类型的关系。

3)在WN18 数据集上,有超过72.2%的MRR 值大于等于0.95,这也说明本文模型对不同关系类型更敏感。

此外,为验证Wasserstein 距离的有效性,对比KBGAN 模型与本文模型在WN18RR 数据集上的训练时间,图3 分别表示在维度为50、100 和150 下的时间损耗。可以看出,相比使用策略梯度的GAN 网络,本文方法有效提升了模型的训练效率。

图3 WN18RR 数据集上每次迭代的时间Fig.3 The time of each iteration on WN18RR dataset

3.4 三元组分类

三元组分类也是一项用于评估嵌入模型性能的任务,目标是判断给定的三元组(h,r,t)是否成立,本质上是一个二分类问题。

3.4.1 评估指标

给定一个测试三元组(h,r,t),使用得分函数fr(h,t)计算其分数。若得分低于阈值则被识别为负,否则为正。本文使用准确率作为这项任务的衡量标准。

3.4.2 参数设置

与链接预测任务类似,在此依旧使用Adam 方法优化模型。三元组分类的最佳参数如下:在WN11上,{α=5e-4,d=150,λ=10,m=64};在FB13 上,{α=1e-4,d=150,λ=5,m=64}。

3.4.3 实验结果

在三元组分类实验中,为评估本文方法的适用性与有效性,去掉了原有框架中聚合实体邻域信息部分,训练一个仅使用三元组结构信息的嵌入模型,评估结果如表5 所示,其中加粗表示最优值。

由表5 可以看出:

表5 三元组分类准确率Table 5 Triplet classification accuracy %

1)在未使用聚合实体邻域信息的情况下,本文模型在三元组分类准确率上取得了良好的效果,验证了模型的有效性。

2)对于传统的基于翻译的嵌入模型(例如TransE),本文模型在WN11 与FB13 上准确率分别取得了12.5和7.6 个百分点的提升;对于新方法(例如GANKG),在WN11 与FB13 上准确率分别取得了1.8 和2.8 个百分点的提升。这些提升证明本文模型对于知识图谱嵌入是有效的。

3.5 负样本采样分析

为证明本文模型具有产生高质量负样本的能力,表6 中展示了一些由本文的生成器构造的负例三元组,其中:“*”标注代表该项为实体,实体后括号中内容表示实体类型;“/”标注代表该项为关系;标注粗体代表实体为被替换实体。

如表6 所示,在生成的高质量负样本中,被损坏的实体与真实实体在语义上是相似的,能够产生更多可信的负样本。例如:在FB15K-237 数据集中,“American Beauty”是一部电影名在获得奖项时一个团队的荣誉,因此“American football team”在语义上与被替换实体相似,国家“America”与地名“Plymouth”都用于描述地点,因此两者相似;在WN18RR 数据集中,被破坏的实体“Tell”与声音有关,而“Complain”也具有发出声音的意思,对于被破坏的三元组(Oceania,has part,Melanesia),实 体“Melanesia”与“Atlantic”均表示一个位置,两者具有相似性。这些例子证明了引入聚合实体邻域信息的生成器能够保证生成负样本的质量,与均匀随机采样方法构造的负样本相比更具可信性,同时能够优化鉴别器性能。因此,本文模型可以更有效地学习知识图谱的嵌入。

表6 负样本采样实例Table 6 Sampling instance of negative sample

4 结束语

本文提出一种融合实体邻域信息的知识图谱嵌入负采样模型。该模型通过引入附加信息丰富实体与关系间的语义相关性,生成高质量的负样本,从而提供有效的语义信息。在此基础上,使用训练完备的生成器构造更高质量的负样本,较传统的随机均匀采样相比生成的负样本更具可信性。通过链接预测和三元组分类2 个任务对模型进行评估,实验结果表明,本文模型在链接预测与三元组分类任务上较传统模型取得了显著的性能提升。在后续的研究中,将考虑融入实体对应的描述信息,进一步提高生成负样本的质量,优化知识图谱嵌入模型的性能。

猜你喜欢

鉴别器三元组图谱
基于多鉴别器生成对抗网络的时间序列生成模型
特征标三元组的本原诱导子
绘一张成长图谱
关于余挠三元组的periodic-模
卫星导航信号无模糊抗多径码相关参考波形设计技术*
补肾强身片UPLC指纹图谱
阵列天线DOA跟踪环路鉴别器性能分析
主动对接你思维的知识图谱
基于三元组的扩频码构造及其性能分析
三元组辐射场的建模与仿真