联合FOL规则的知识图谱表示学习方法

2021-02-22李冠宇

计算机工程与应用 2021年4期

刘藤，陈恒，2，李冠宇

1.大连海事大学信息科学与工程学院，辽宁大连 116026

2.大连外国语大学语言智能研究中心，辽宁大连 116044

近年来，以Freebase、WordNet和YAGO等为代表的知识图谱在问答系统、推荐系统和关系抽取等人工智能领域得到广泛应用，其强大的语义处理能力和数据互联能力为大数据提供了一种新的表达、组织管理和挖掘方式，促进了语义网的实现。知识图谱是结构化的语义知识库[1]，以符号形式描述物理世界，将概念、实体和属性值表述为节点，将关系和属性表述为边，节点通过边相互联结，构成网状的知识结构，其基本组成单位是三元组，如（周杰伦，妻子，昆凌）记录周杰伦和昆凌之间的夫妻关系。这种三元组表示尽管能够有效表示结构化数据，但底层符号特征使得知识图谱难以操作[2]，面临计算效率差和重用性差等问题。

为解决这一问题，知识图谱表示学习得到广泛关注，其主要目的是将实体和关系嵌入到低维连续向量空间，保留丰富语义信息的同时，在低维空间中高效计算实体和关系的语义联系，简化操作[2-3]。传统的知识图谱表示学习模型只关注内部的事实三元组，忽略了其他背景知识。随着研究的进行，含有丰富语义知识的外部信息被用来增强表示学习，如实体描述、关系路径和实体类型等。FOL（First-Order Logic）规则含有丰富的背景知识，可解释性强，将FOL规则与表示学习联合成为一种新的表示学习研究方向。IterE 模型[4]是一个迭代学习知识表示和FOL规则的通用框架，利用知识图谱结构信息和知识表示学习规则及其置信度，通过物化规则的方法将含有规则语义信息的新三元组及软标签融入表示输入，结合现有的表示学习算法（基模型），联合学习实体和关系的潜在语义表示。然而，该框架仅适用于基于线性假设的表示学习算法，这要求实体和关系的潜在表示分别是一维向量和矩阵形式，因此对其他将实体和关系均表示为一维向量形式的表示学习算法并不适用。同时，在融入规则时IterE仅考虑稀疏新三元组，对提高表示精度有一定限制。为此，本文改进IterE框架，将适用范围从基于线性假设的表示学习算法扩展到所有拥有三元组打分函数的表示学习算法，并进一步改变规则置信度的计算方法。同时，在融合逻辑规则时考虑稀疏三元组和普通三元组，并进一步改进新三元组软标签的计算方法。除了链路预测之外，本文还进行了预测的可解释性实验——生成解释实验。实验结果表明，本文提出的适用于各种表示学习算法的联合FOL 规则的表示学习方法，提高了基模型的预测准确性和可解释性，能够得到准确预测的同时更大概率上为预测提供更多更可靠的解释。在稀疏数据集上的链路预测表明，本文模型能够帮助提高稀疏实体的知识表示能力，并且在越稀疏的数据集中帮助越大。

1 相关工作

1.1 表示学习

表示学习面向知识图谱，在连续低维空间中学习实体和关系的分布式向量表示，可通过这些稠密低维向量高效计算实体、关系及其之间的潜在语义关联，对构建、推理知识图谱具有重要意义，并被广泛应用于知识补全、关系抽取、自动问答、实体链接等知识图谱下游应用中[2]。不同的表示学习模型基于不同的假设定义三元组打分函数，以表示其可信程度，得分越高的三元组越可能在知识图谱中存在。表1 展示了文献[5]中的部分表示学习模型打分函数，学习的最终目标即最大化知识图谱中所有三元组的可信度，以此得到实体和关系的表示。通常情况下，实体被表示为向量，关系被表示为向量、矩阵、张量等用于向量空间中的运算。面对大量的表示学习模型，本文按照是否仅使用知识库中的三元组结构信息学习表示，粗略地将其分为一般的知识表示学习模型和联合附加信息的知识表示学习模型。

一般的表示学习模型仅使用知识图谱内部的三元组进行训练，是传统意义上的表示学习模型，常见的有位移距离模型和语义匹配模型。位移距离模型基于距离定义打分函数，常见的有 TransE[6]、TransH[7]、TransR[8]模型。其中，TransE 将实体和关系表示为向量，对正确三元组(h,r,t)，假设实体和关系的向量有关系h+r=t，学习过程中希望h+r尽可能接近t。语义匹配模型基于相似性定义打分函数，常见的有DisMult[9]、ComplEx[10]、ANALOGY[11]模型。其中，ANALOGY模型将实体表示为向量，关系表示为矩阵，对正确三元组(h,r,t)，假设h能通过r的矩阵表示Mr线性映射到t，即hMr=t，学习过程中希望hMr尽可能匹配t。然而，这种仅利用知识图谱结构信息的表示学习模型，学习质量依赖数据质量，易因数据稀疏问题和倾斜问题导致性能问题，学习得到的表示预测性和普适性可能不强。同时，在训练时需要大量的三元组结构化数据，而将非结构化数据转为结构化数据所需的耗费和误差是不可忽略的。因此，联合其他信息的表示学习对提高知识表示的精度和区分能力有重要意义。

1.2 联合FOL规则的表示学习

联合附加信息的表示学习模型在训练时，不仅利用知识图谱中的三元组结构信息，而且集成了与知识相关的其他附加信息，如含有丰富背景信息的实体类型信息[12]、关系路径信息[13]、文本描述信息[14]和一阶规则信息等，这里主要介绍联合FOL规则信息的表示学习模型。

FOL规则是复杂推理模式的一种较佳表示方式，含有丰富的语义信息，因其预测准确、可解释性强等优势在知识获取和推理中应用广泛。然而，一般的表示学习模型没有考虑逻辑规则。对此，产生了联合逻辑规则和现有表示学习模型的大量工作。文献[15]通过整数线性规划的方法使用三种物理规则和一种逻辑规则预测三元组的正确性，但规则建模独立于表示学习，没有改变知识表示。文献[16]尝试在表示学习时联合建模FOL规则和表示，提出KALE 模型，但其要求一次性注入规则，忽略了表示学习和逻辑推理之间的交互，且只能处理手动创建或验证的硬规则。文献[2]提出RUGE模型，在表示学习中使用软规则，利用迭代的方式增强表示，但它基于既定的规则抽取系统AMIE+[17]。文献[4]将规则学习纳入学习系统，提出IterE模型，构造了一个迭代学习FOL规则和知识表示的框架，但其仅适用基于线性假设的表示学习算法，且在融合规则时仅考虑稀疏实体，适用性和扩展性存在挑战。

表1 部分表示学习模型的打分函数

2 准备工作

开始介绍IterE框架前，本文进行了一些准备工作，主要给出知识图谱和FOL规则的相关定义。

定义1（知识图谱）知识图谱G={E,R,T}，其中E表示实体的集合，R表示关系的集合，T={(h,r,t)|h,t∈E;r∈R}表示G中的三元组集合，h表示头实体，r表示关系，t表示尾实体。

定义2（规则学习系统）知识图谱的规则学习系统ψ(G)={(body→head,μ)}。其中body→head是FOL 规则，规则头head是R∪X∪C上的一个原子，规则体body是正、负原子的集合，X是可数变量集，C是可数常量集，包括G中的所有实体和属性值。如(x,hasParent,y)，(y,gender,Female)→(x,hasMother,y)是一个FOL规则，表示若y是x的父母且y是女性，则y是x的母亲。μ∈[0,1]是规则信度。

定义3（规则的实例）对于一个FOL 规则rule，通过G将其所有的变量赋值，就得到了rule的实例（grounding）。

定义4（规则的预测）对于rule的一个实例，如果其body三元组都在G中存在，则head三元组a是rule的一个预测，记为rule|=Ga，其含义为规则rule基于知识图谱G中三元组推出三元组a，这时的规则实例称为有效实例（Vaild Grounding）。 {a|rule|=Ga}为rule的所有预测，Grule=G∪{a|rule|=Ga}为G基于rule的扩展。

定义5（规则的支持度）对于rule的预测a，若在G中存在，则a为规则的正确预测。将规则的支持度表示为supp(rule)=|{a|rule|=Ga∧a∈G} |，它量化了所有预测中正确预测的数目。

3 IterE

给定一个G，IterE 的目标是根据现有的基于线性假设的表示学习假设，迭代交互学习知识表示和FOL规则，它的框架分为三个模块：表示学习模块、规则学习模块和规则融合模块。图1展示的是整个学习过程。

图1 IterE框架

表示学习模块用于学习实体和关系的分布式知识表示，规则学习模块使用知识表示学习FOL规则及其置信度，规则融合模块将规则知识注入表示输入。随着输入的更新，整个过程又回到表示学习。

3.1 表示学习

为将规则知识注入表示，IterE的表示学习输入I不仅包括G中原始的三元组，还包括FOL 规则推理出来的高度可能存在的新三元组：

其中，T是G中原始存在的三元组集合，Tnegative是随机替换T中三元组头实体或尾实体或关系的负例三元组集合，Taxiom是规则推断出的高度可能存在的三元组集合，l是三元组的标签。若(h,r,t)∈T,则l=1,若(h,r,t)∈Tnegative，则l=0,Taxiom和其标签获得方法具体见3.3节。

输入I，IterE通过n个输入三元组间交叉熵损失的均值计算表示学习的目标函数，并使其最小化，得到实体和关系的分布式表示。

其中，ξ(h,r,t)表示三元组打分函数。IterE 的表示学习立足于基于线性假设的表示学习模型，ξ(h,r,t)可以是任何基于线性假设的三元组打分函数。

3.2 规则学习

IterE的规则学习模块分为两部分：学习规则和计算规则置信度。其中利用G学习FOL 规则集，利用关系的表示计算规则置信度。因学习规则的输入是一个给定的G，所以FOL规则集只需要生成一次，而规则置信度却在随着表示的更新而不断更新。

学习规则时，IterE为限制搜索空间大小，参考OWL2网络本体语言中的7种对象属性表达式公理，约束要学习的规则形式，即表2中的Rule Form，设计了一种规则生成方法（算法1），基于7种给定的规则形式，结合剪枝策略通过G具体化其中的关系变量，学习FOL 规则集P，在搜索空间和高度可能规则覆盖范围之间取得良好的平衡。

表2 7种规则形式和规则结论

算法1生成FOL规则

输入：知识图谱G={E,R,T}。

输出：逻辑规则集P。

（1）遍历R中的每一个关系常量r。遍历未完成，设Pr为空，转到步骤（2）；遍历完成转到步骤（5）。

（2）用r实例化7 种规则head 三元组中的关系，生成逻辑规则 ReflexiveOP(r) 、SymmetricOP(r) 和TransitiveOP(r) 或部分逻辑规则 EquivalentOP(r′,r) 、subOP(r′,r)、inverseOP(r′,r)和 subOP(OPChain(r′,r″),r)，其中r′和r″均为关系变量。

（3）针对部分逻辑规则，实例化所有关系变量使其转为逻辑规则。具体地，通过随机选择与r有关的k个三元组 (e′,r,e″)∈T，将部分候选规则中的r′或r″替换为G中与e′或e″直接相关的关系常量。

（4）实例化步骤（1）、（2）得到的逻辑规则，选择支持度大于1的逻辑规则，加入Pr，转到步骤（1）。

（5）P={Pr},r=r1,r2,…,r|R|。

对于每一个关系r，算法1 中涉及未知变量k,k关系到生成候选规则的质量和搜索空间的大小，因此k的选择很重要，下面总结k的选择方法。

为保证算法1的质量和效率，要求选择的三元组尽可能是正确预测且尽可能少。前者，规定选择正确预测的概率大于给定阈值t（包含概率）。后者，规定k尽可能小。由此得到：

其中，N为与r相关的三元组个数，n为N中正确预测的个数。n涉及逆向推理的思想，因此n的大小未知，引入：

它量化推出r的逻辑规则axiom（或逻辑规则集）的正确预测概率，则p(r,Pr)为推出r的逻辑规则集Pr的正确预测概率，p(r,rule)为推出r的逻辑规则rule的正确预测概率，并将p(r,rule)称为推出关系r的规则rule的存在概率，存在概率越大的逻辑规则更容易选到正确预测。给定阈值p（最小存在概率），通过p替换n，进一步得到：

计算规则置信度时，IterE根据理想的线性假设三元组打分函数，得到表2中对象属性表达式公理对应的形如M1=M2的规则结论，M1和M2表示矩阵或矩阵乘积。在理性情况下，高度可能规则的M1和M2通常是非常相似的，因此IterE通过M1和M2之间的相似性估计规则置信度：

不同类型规则的μ(rule)值差异很大，将其归一化：

其中，μmax和μmin是rule所属规则形式的μ的最大值和最小值。μ(rule)∈[0,1]是规则rule的置信度，越高表示规则越有可信度。

3.3 规则融合

IterE的规则融合焦点在稀疏实体上，希望通过物化规则的方法，丰富稀疏实体相关的表示学习数据。具体地，取P中所有置信度高于给定阈值θ的规则作为有效规则集VP，实例化VP得到G中不存在的预测集合TVP={a|rule|=Ga,a∉G,rule∈VP}，抽取其中所有的稀疏新三元组（至少含有一个稀疏实体的新三元组）作为有效预测集合Taxiom={a=(h,r,t)|a∈TVP,h∈Esparsity∨t∈Esparsity}，其中Esparsity为稀疏实体集，然后计算有效预测的软标签l，将带标签的预测作为规则知识加入表示输入I。

对于实体e，通过式（8）计算它的稀疏性：

其中，freq(e)为e作为头或尾实体在G内三元组中出现的频数，freqmin和freqmax为所有实体频数的最小值和最大值。sparsity(e)∈[0,1]，越大表示实体的稀疏性越大。给定阈值θsparsity，如果sparsity(e)＞θsparsity，则把实体e判定为稀疏实体。

引入模糊逻辑T 范数[2]计算新三元组软标签，它规定逻辑表达式的真值是其组成原子真值的运算组合，与交、并、非、蕴含相关的真值运算如下：

其中，a和b是逻辑表达式，π(x)是逻辑表达式x的真值。计算标签时，IterE先将推出Taxiom的规则有效实例转化为命题形式，使用式（9）得到有效实例的真值。例如，对于推出稀疏新三元组a的规则有效实例vg:(h1,r1,t1),(h2,r2,t2)→a,化为命题形式(h1,r1,t1)∧(h2,r2,t2)⇒a,根据式（9）π(vg)=π(h1,r1,t1)π(h2,r2,t2)π(a)-π(h1,r1,t1)π(h2,r2,t2)+1。然后，通过有效实例和组成三元组的真值得到新三元组的真值，接上例IterE规定规则有效实例的真值为对应规则的置信度，组成三元组真值为三元组标签，接上例，因为组成三元组均为已知三元组，所以π(a)=μ(rule)。

另外，现实情况中不同规则的不同实例和同一规则的不同实例可能推出相同的新三元组，按上述描述新三元组将得到多个真值，为简化操作IterE 将这些带有不同标签的相同新三元组都考虑用来更新输入。

4 改进的IterE

4.1 表示学习

IterE 的表示学习立足于基于线性假设的表示学习算法，其目标函数仅适用线性三元组打分函数。为了扩大适用范围，本文假设改进的IterE 适用所有具有三元组打分函数的表示学习算法，为此改进式（2）：

其中，f(h,r,t)表示三元组的存在概率，通过打分函数ξ(h,r,t)构造：

一般来说，几乎所有的模型都具有三元组打分函数，因此式（10）几乎对所有的表示学习算法都适用。为进行实验，本文同IterE 使用了基于线性假设的表示学习算法ANALOGY[11]，其三元组打分函数为：

其中，h,t∈ℝ1×d是头、尾实体的表示，Mr∈ℝd×d是关系的表示，σ表示sigmod函数，d表示向量维数。

4.2 规则学习

在3.2 节中，IterE 的规则置信度计算方法基于表2中的规则结论，而这些规则结论由线性假设得到，仅适用基于线性假设的表示学习算法，并不符合本文“几乎适用所有表示学习算法”的设定。为此，参考文献[18]，结合统计和表示的思想给出符合本文设定的规则置信度计算方法，如算法2所示。

算法2计算规则置信度

输入：逻辑规则rule，知识图谱G，知识表示。

输出：逻辑规则的置信度μ(rule)。

（3）令μ(rule)=(1-α)μ1+αμ2，为rule的置信度，α表示权重，μ(rule)∈[0,1]。置信度越大，规则越可信。

4.3 规则融合

在3.3 节中，IterE 的规则融合仅关注知识图谱的稀疏知识，并未考虑稀疏新三元组之外的普通新三元组，对提高表示精度有一定限制。为此，本节修改软标签计算方法，将全部新三元组融入表示输入I。令有效预测集为：

计算标签时，同IterE，先将推出Taxiom的规则有效实例转化为命题形式，使用式（9）得到有效实例的真值，从而得到新三元组的真值，考虑3.3 节的例子，规定规则有效实例的真值为对应规则的置信度，不同的是本节将组成三元组真值规定为三元组存在概率。同时，考虑到稀疏实体的分布式表示往往质量较差，将组成三元组真值分情况取值。新三元组若是普通三元组，取三元组存在概率，若是稀疏三元组，取三元组标签，这种设定下稀疏新三元组软标签的计算方法跟IterE 是一样的，接上例其中T1为普通新三元组集，T2为稀疏新三元组集，Taxiom=T1∪T2。

5 实验

5.1 数据集

选取 WN18[6]、WN18RR[19]、FB15k[6]和 FB15k-237[20]数据集进行实验。WN18 和FB15k 分别是WordNet 和Freebase 的子集，FB15k-237 和 WN18RR 进一步去掉了FB15k 和WN18 中反转关系对中的一个关系及相关三元组。数据集统计情况如表3所示。

表3 数据集统计情况

另外，为检验本文模型对稀疏实体的影响，在测试和验证时使用了稀疏的数据集[4]，统计情况如表4所示，稀疏实体下限θsparsity为0.995，稀疏性大于θsparsity的实体被视为稀疏实体，Valid-s 和Test-s 仅保留了原集中至少有一个稀疏实体的三元组。

表4 稀疏数据集统计情况

5.2 实验设置

表示学习模块，使用现有的表示学习模型ANALOGY实现，并按其原始设置将负样本数设为6，关系矩阵对角线上的实数个数设为嵌入维度的一半，用均匀分布U(-0.1,0.1)初始化实体和关系向量。FOL 规则学习模块，依据文献[4]设置规则的最小存在概率p=0.5，包含概率t=0.95，据式（5），k=6。规则融合模块，为了使推出的新三元组更可靠，设置阈值θ，仅考虑置信度大于θ的高质量有效规则。此外，为每个数据集中的逻辑规则设置了一个推断稀疏新三元组数上限m，规定忽略推出稀疏新三元组个数大于m的规则，以稳定数据分布。

训练时，约定每次迭代首先进行10个epoch的表示学习更新知识表示，紧接一次FOL规则学习更新规则得分和有效规则，一次规则融合更新表示学习输入。使用网格搜索确定超参，嵌入维度d∈{100,150,200}，L1正则化权重λ∈{10-3,10-4,10-5,10-6},α∈ {0,0.1,0.2,…,1.0},θ∈{0.90,0.95},m∈{100,1 000,10 000,20 000}, 最大化验证集上的MRR（filter）指标。最终，WN18：d=200,λ=10-5,α=0.3,θ=0.95,m=20 000；FB15k：d=200,λ=10-4,α=0.3,θ=0.95,m=100；WN18RR：d=200,λ=10-5,α=0.3,θ=0.9,m=10 000；FB15k-237：d=150,λ=10-5,α=0.3,θ=0.9,m=1 000。使用Adam优化器[21]，设置初始学习率r为0.000 1。模型在FB15k-237和WN18RR 上训练迭代10次，WN18和FB15k上迭代50次。

5.3 链接预测

5.3.1 实验设计

本文的链路预测实验使用学习得到的模型预测三元组中缺失的实体，包括头实体预测(?,r,t)和尾实体预测(h,r,?)。对测试集中的每一个测试三元组(h,r,t)，用所有实体e∈E替换h（或t），根据打分函数计算它们的得分，降序排列，得到指定正确三元组(h,r,t)的头（或尾）预测排名rankh(?,r,t)（或rankt(h,r,?)），令最终预测排名为：

设计链路预测实验的目的，是与现有高质量表示学习模型对比，测试本文模型在链路预测上的准确性，进一步测试在学习知识表示上的性能。

5.3.2 评估指标

遍历所有测试三元组，采用如下指标作为评估标准：平均倒数排名（Mean Reciprocal Rank，MRR）、Hit@1、Hit@3和Hit@10，分别是正确三元组预测排名倒数的平均值和正确三元组预测排名在前N%的占比。MRR或Hit@N越高，代表模型的链路预测能力越好，表示学习性能越强。此外，考虑到实际情况中链接预测的正确实体可能包含多个，导致指定的正确三元组排名受干扰，这里采用过滤（filter）设置。不同于原始（raw）设置的实验设计，filter设置下，将从训练集、测试集和验证集中删除其余正确三元组，排除其对指定正确三元组的干扰。

5.3.3 结果与分析

选择仅使用内部三元组训练的位移距离模型TransE和语义匹配模型DistMult、ComplEx、ANALOGY以及一种联合FOL 规则的表示学习模型RUGE 在数据集WN18、FB15k和FB15k-237上进行对比，实验结果如表5～表7所示。

表5 WN18的链路预测结果

表6 FB15k的链路预测结果

表7 FB15k-237的链路预测结果

从上述结果可知，本文模型的链路预测结果在3个数据集上都优于基模型ANALOGY。这表明本文在表示学习中注入的新三元组大部分是有效的，即学习得到的规则是有效的，表明本文展示的这种联合FOL规则的方法可以更准确地预测链路，更好地学习知识表示。与其他仅使用内部三元组训练的传统表示学习模型TransE、DistMult 和 ComplEx 相比，本文模型的预测表现同样优秀。不过值得注意的是，在FB15k-237上的链路预测任务中，本文模型的表现逊于TransE模型。这是因为本文的基模型ANALOGY 本身在该数据集上的预测能力逊于TransE模型。在FB15k上对比RUGE模型，本文模型在MRR 和Hit@1 上略低于RUGE，在Hit@3和Hit@10 上略高于RUGE，整体上与之相仿。这说明相比规则影响表示的方式，两者相互影响的方式对提高表示来说同样优秀。

选择基模型ANALOGY和原模型IterE在稀疏数据集 WN18-s、WN18RR-s、FB15k-s 和 FB15k-237-s 上进行对比，实验结果如表8所示。

表8 稀疏版的链路预测结果

从表8可知，本文模型与IterE在预测稀疏实体上的结果差别不大，说明本文的规则计算方法没有降低模型性能。与ANALOGY 相比，本文模型的链路预测结果在 WN18RR-s、FB15k-237-s 及 WN18-s 和 FB15k-s 的Hit@10 上有一定提升，一定程度上说明逻辑推理对预测稀疏实体有一定帮助。另外，相比WN18-s和FB15k-s数据集，本文模型的预测结果在更稀疏的WN18RR-s和FB15k-237-s 上有更高的提升，说明本文模型对提高稀疏实体表示的帮助在越稀疏的数据集上体现得越明显。

5.4 三元组生成解释

5.4.1 实验设计

为了检验链路预测中预测三元组的可解释性，设计三元组生成解释实验，从预测的可解释性出发评估本文模型。实验中，将三元组的解释表示为从头实体到尾实体的可靠路径，通过统计路径的相似结构数量评估解释的可靠性。算法3[22]给出了一个基于知识表示的三元组生成解释算法，为三元组生成解释及相似结构。

算法3三元组生成解释算法

输入：(h,r,t)，知识图谱G，知识表示。

输出：(h,r,t)的解释集和相似结构集。

（1）初始化解释集E=∅，相似结构集S=∅。

（2）据知识表示选择与r相似的前kr个关系，放入集合Sr。

（3）据文献[22]中的6种路径类型，从r的相似关系出发，双向寻找h和t之间的路径，得到集合P={p|(h,p,t)∈G}。

（4）据知识表示选择与h相似的前ke个实体，放入集合Sh。

（5）据相似头实体寻找路径的相似结构：

5.4.2 评估指标

使用recall和avgSupport评估本文模型的生成解释能力。recall 表示测试集中可生成解释的三元组占比，avgSupport表示所有解释的平均相似结构数量。recall越大，说明模型可为越多的三元组生成解释。avgSupport越大，说明模型整体上生成的解释越可靠。

5.4.3 结果与分析

取用链路预测在FB15k上训练得到的知识表示，选择TransE、ANALOGY和本文模型在FB15k测试集上进行生成解释实验。图2展示了当ke=10 和kr=3 时的实验结果。

图2 不同表示学习模型的生成解释结果

从图2 中可以得到，针对同一个数据集，当选择10个相似实体和3个相似关系时，3个模型的recall值覆盖范围从 0.26 到 0.45，avgSupport 从 5 到 555。相比于TransE 模型，虽然 ANALOGY 模型有很高的 recall，但avgSupport却不及TransE的1/10，这说明ANALOGY 模型可以为更多三元组生成解释，但这些解释整体上可靠性不强。而相比于ANALOGY，本文模型的recall 虽略高，但avgSupport 却高出百倍，这表明加入FOL 规则可以使得ANALOGY 大大提高其预测三元组解释的可靠性。综上，从为预测三元组得到可靠解释的角度来看，本文模型可为更多的三元组生成更可靠的解释，提高了预测的可解释性。

5.5 讨论

为了与IterE 进行比较，上述实验的基模型使用了ANALOGY 模型，但实际情况中本文模型不仅对ANALOGY等基于线性假设的模型适用，而且可以用于任何有打分函数的表示学习模型。因为本文的规则置信度计算方法不再依赖于线性假设模型的关系矩阵，而是利用打分函数将知识表示封装，不再受具体的知识表示向量维度约束。在实验中发现，本文模型能够大大提高基模型的预测精度和可解释性，同时也对空间要求较高，在今后的研究中将针对这一问题继续改进。另外，本文在规则形式上使用了表2 中描述的7 种规则形式，但理论上规则长度和规则结构并不受限于此，后续也将研究改变规则结构对预测的影响。

6 结束语

为增强表示的预测精度和可解释性，本文改进了一种联合FOL 规则进行知识图谱表示学习的IterE 框架，改变规则置信度计算方法，使其适用于所有具有三元组打分函数的表示学习算法，并在融入规则时考虑注入普通三元组知识，改变软标签计算方法，增加表示学习数据以提高更多普通三元组的预测精度。在链路预测实验中，本文模型的结果高于基模型和传统表示学习模型，说明这种互助的迭代学习模式能够提高预测精度。此外，为了验证本文模型对稀疏实体的影响，在稀疏测试集上也进行了实验，结果证明规则能够帮助提高稀疏实体的表示，且在越稀疏的数据集上帮助越大。在生成解释实验中，本文模型结果高于基模型，说明加入逻辑规则能为预测三元组生成更多更可靠的解释。