基于深度强化学习的知识推理研究进展综述

2022-01-22宋浩楠孙若莹

计算机工程与应用 2022年1期

宋浩楠，赵刚，孙若莹

北京信息科技大学信息管理学院，北京 100192

近年来，随着云计算、物联网等技术的快速发展，数据规模呈现爆发式增长，如何组织和利用数据中的知识备受关注，知识图谱由此应运而生。知识图谱的概念起源于语义网[1-2]（semantic Web），Google 公司于2012 年率先提出知识图谱（knowledge graph，KG）的相关概念。KG本质上是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法[3]。知识图谱是由节点和边组成，常用事实三元组（头实体、关系、尾实体）对其进行形式化表示。将实体（头实体、尾实体）表示成图上的节点，实体之间的关联关系对应于图上节点之间的连边，实体包括客观事物和概念。

随着知识图谱研究和应用的深入，知识图谱被广泛运用于搜索引擎、问答系统和推荐系统等领域。现阶段，大批知识图谱已经涌现出来，具有代表性的通用知识图谱有Freebase[4]、DBpedia[5]、NELL[6]等，其中，国内知识图谱也得到了一定的研究和应用，例如搜狗的知立方[7]、百度知心[8]等。然而，由于构建知识图谱的源数据规模有限，尤其是一些隐含的常识性知识并不能直接获取，导致知识图谱不完整。根据West等人[9]在2014年的统计结果，在Freebase[4]中存在大量实体和关系缺失情况。知识图谱的不完整问题给实际的应用带来了很多障碍，成为人工智能进一步发展的重要制约因素。因此，将不完整的知识图谱进行补全完善成为了知识图谱研究亟待解决的问题之一。

面向知识图谱的知识推理作为解决上述问题的重要方法，引起了研究人员的广泛关注。近年来，知识图谱的研究已经取得了较大的进展，有不少关于知识图谱的综述性文献陆续发表。譬如，文献[10]对知识图谱构建技术进行了综述；文献[11]从知识表示、知识获取和知识应用三个方面进行了总结；文献[12-13]对知识表示学习技术进行了综述；文献[14-16]分别从不同角度对知识推理技术进行了综述。然而，尽管已有上述诸多知识图谱综述文献，但仍然缺乏对基于深度强化学习的知识推理研究进行系统、深入地梳理与总结的工作。为此，本文对面向知识图谱的深度强化学习知识推理的最新研究进展进行归纳总结，并展望未来发展方向和前景。

1 知识推理方法

1.1 知识推理简介

对于知识推理的基本概念，国内外诸多学者给出了许多相类似的定义。王永庆[17]认为，推理就是从实际出发，运用已有知识，按照某种策略由已获得的知识推出新的事实的思维过程。Kompridis[18]定义推理为一系列能力的集合。Tari[19]认为，知识推理为基于特定的规则和约束，从已存在的知识中获得新的知识。总的来说，知识推理本质上就是利用已经存在的知识推出未知的或者新知识的过程。

本文研究的知识推理是指通过知识推理方法来完成知识图谱补全（knowledge graph completion，KGC）工作。KGC旨在将不完整的知识图谱进行补全完善[14]，包括链接预测和事实预测两个任务，其中，链接预测是指预测三元组的缺失部分，事实预测则是判断三元组正确与否。于是，本文研究的知识推理方法的具体任务为链接预测、事实预测和以它们为基础的上层应用（如问答问题）。

1.2 知识推理相关方法

本文从不同视角对知识推理给出了详细划分，如图1 所示。官赛萍等人[14]根据推理背景的不同，将知识推理划分为传统的知识推理和面向知识图谱的知识推理。其中，传统的知识推理包括演绎推理与归纳推理、确定性推理与不确定性推理等，而面向知识图谱的知识推理被划分为单步推理和多步推理，而这两类推理方式又被分为基于规则的推理、基于分布式表示的推理、基于神经网络的推理和混合推理。吴运兵等人[20]根据知识推理过程中使用的模型和原理，将知识图谱的知识推理方法分为基于张量分解方法、基于转换方法、基于路径推理方法和其他推理方法。徐增林[21]、刘峤等人[10]将知识图谱的知识推理方法分为基于逻辑的推理与基于图的推理两种类别。漆桂林等人[22]将知识图谱的知识推理分为基于符号的推理和基于统计的推理两种类别。

图1 知识推理的方法分类Fig.1 Method classification of knowledge reasoning

综上，本文将面向知识图谱的知识推理方法划分为基于逻辑的推理，基于表示学习的推理、基于图的推理、基于神经网络的推理和基于深度强化学习的推理方法。基于逻辑的推理方法[23-31]主要是通过一阶谓词逻辑（first order logic）、描述逻辑（description logic）以及规则等推理出新的知识。该类方法的规则获取难度大，推理能力受限；基于表示学习的推理方法[32-42]主要是利用知识表示学习模型，将知识图谱中的实体和关系映射到低维向量空间，并对知识图谱的低维向量表示进行计算来实现推理。该类方法未能充分利用KG 中关系路径等信息，推理准确率尚有较大提升空间；基于图的推理方法[43-48]主要是将知识图谱中实体间的不同的关系路径作为特征，通过统计关系路径来提取特征向量，建立针对关系的分类器，从而实现实体间关系的预测。该类方法未考虑路径的可靠性计算问题，难以适用于大规模知识图谱；基于神经网络的推理方法[49-54]是基于神经网络模型来实现推理，该类方法具有更高的学习和泛化能力，可直接建模知识图谱事实元组，提高了推理的性能。

虽然基于神经网络的推理方法得到广泛重视和研究，但是该类模型的解释性缺乏仍然是迄今无法摆脱的问题。相比之下，基于逻辑的推理方法具有可解释性、高准确率等特点，但却严重依赖于逻辑规则。这些都制约着知识推理方法的发展。近年来，由于强化学习在可解释性和性能等方面的优势，使得基于强化学习的知识推理方法迅速成为研究热点。基于深度强化学习的知识推理在具备神经网络模型优势的基础上，还具备更好的可解释性，因此基于深度强化学习的知识推理模型不断涌现。随着知识图谱研究的不断深入，知识图谱应用逐渐向封闭域和开放域两个方向发展。于是，本文从封闭域推理和开放域推理两个角度，对现有推理模型的基本思路与方法进行总结分析。

2 基于深度强化学习的知识推理

2.1 面向封闭域的深度强化学习知识推理

2.1.1 DeepPath模型

Xiong 等人[55]于2017 年首次提出了基于强化学习（reinforcement learning，RL）的知识推理模型DeepPath，将知识图谱中知识推理过程转化为马尔可夫序列决策过程，以实体集合E为状态空间S、关系集合R为动作空间A，通过增量方式进行推理，即RL 智能体每次都选择最优动作以拓展其路径来实现知识图谱中的推理，如图2 所示。该模型使用知识表示学习模型TransE[32]，将知识图谱映射到低维稠密向量空间中从而得到知识的向量表示形式。为使智能体自动撤销错误的决策，完成推理任务，关系集合R由知识图谱中已存在的关系r和新添加关系r-1两部分组成，r-1是关系r的逆关系。

图2 DeepPath模型Fig.2 Model of DeepPath

该模型由外部环境和RL 系统两部分组成，外部环境为RL 智能体和知识图谱交互的环境，由知识图谱的向量表示空间构成。RL 系统主要由三部分组成，其中状态空间S中状态s(s∈S)的表示如下：

其中et表示RL智能体的当前位置，etar表示目标位置。动作空间A中动作a(a∈A)是RL 智能体在et位置时选择的下一个动作，即图中的某个边。该动作a由模型中策略网络的输出决定，其表示如下：

其中en表示下一个可能的位置，a表示RL智能体采取的动作。

奖励函数γ的设计考虑了准确性、效率和路径多样性三方面。

其中p、pi分别表示当前推理过程中发现的推理路径和历史推理过程中已发现的关系路径，F表示已发现的关系路径数量。

由于大规模知识图谱的关系数量众多，基于强化学习方法建模的动作空间规模庞大，因此该模型直接选择基于策略网络的深度强化学习来完成推理任务。策略网络由三层全连接神经网络构成，其中每个隐藏层后都添加非线性层（ReLU），使用softmax函数对输出层进行归一化处理，同时使用REINFORCE[56]方法对模型进行优化。该模型的训练过程是由基于高质量的正确路径进行有监督策略学习预训练和基于多样性奖励的策略学习再训练两个过程组成。

DeepPath 模型从图的角度首次将强化学习方法引入知识推理，思路新颖，相比于之前的推理方法，性能得到较大提升。但由于DeepPath模型简单，并且需要提供大量已知路径进行预训练，训练过程复杂，因此其推理性能存在很大提升空间。

2.1.2 MINERVA模型

随着知识图谱规模的不断增加，图中的路径数量也呈现指数增长。先前的基于路径模型的强化学习方法仅考虑了预测给定两个实体的缺失关系或评估给定三元组的真实性的问题，却不能解决更为复杂和实际的问答问题（知识推理的上层应用问题），即在已知关系和一个实体情况下，直接推理出另一个实体。针对该问题，Das等人[57]提出了MINERVA，将起始实体到目的实体之间的路径选择问题转化为序列决策问题，通过在知识图谱环境中，以输入查询为条件，RL 智能体进行交互转移，最终停留在答案实体（目标位置），从而实现端到端的查询回答。该模型不依赖于目的答案实体，具备更为强大的推理能力。为了使智能体自动撤销错误的决策和到达答案实体时停止交互转移，关系集合R由知识图谱中已存在的关系r、新添加关系r-1和关系NO-OP三部分组成，r-1是关系r的逆关系，NO-OP 是实体指向自身的关系。

由于该任务中答案实体未知，因此该模型是建立在确定性的部分观测马尔可夫决策过程上。该RL模型也是由外部环境和RL 系统两部分组成，外部环境是由知识图谱构成。RL系统主要由四部分组成，其中状态空间S中状态s(s∈S)的表示如下：

其中et表示RL智能体的当前位置，(e1q,rq)表示已知实体和关系组成的查询对，e2q表示目标位置。

观察O是部分可观察的，直观上，RL 智能体仅已知当前位置et和查询对(e1q,rq)，即：

动作空间A中动作a(a∈A)的定义与DeepPath 模型相同。

奖励函数γ仅定义了一个最终奖励，即RL 智能体在规定步长内成功到达目标位置，则系统给予智能体+1的奖励，反之奖励为0。

为了解决在大规模知识图谱中针对确定性部分观测马尔可夫决策过程的建模问题，该模型直接设计了一种依赖历史Ht的策略，其中Ht={}Ht-1,At-1,Ot是一系列观测和执行动作的组合。该模型使用基于LSTM[58]的RL 智能体将历史ht编码为连续向量ht=LSTM(ht-1,[at-1;ot])，其中at-1是t-1 时刻智能体选择的动作，ot是t时刻智能体所在的实体节点。该模型使用基于策略网络的深度强化学习来完成推理任务，策略网络由三层全连接神经网络设计而成，其中输入层为历史ht、观测ot和问答关系rq的组合，在每个隐藏层之后添加非线性层（ReLU），并使用softmax函数对输出层进行归一化处理，即：

其中W1、W2表示神经网络的权重。

为了解决策略网络的优化问题，实现最大化期望奖励的任务。该模型同样使用REINFORCE[56]方法对模型进行优化。

MINERVA 模型以查询问题为条件，利用强化学习方法引导智能体在知识图谱中找出预测路径，从而实现推理任务，解决了在已知一个实体和关系情况下的问答问题。在公开数据集的综合评估中，MINERVA 相比于之前众多先进方法具有竞争力。但该模型是基于查询的问答模型，面临着因知识缺失而导致无法获取正确答案和因错误路径引导而导致模型效果较差的问题。

2.1.3 Multi-Hop模型

基于深度强化学习知识推理方法研究中，智能体不仅会因训练数据中的错误路径引导而获得奖励，而且也会因训练数据中正确路径引导失败而丢失奖励，这些问题都将影响强化学习推理的准确率。为此，Lin 等人[59]提出了Multi-Hop，在深度强化学习方法中引入软奖励机制和智能体Action-Dropout方法，如图3所示。首先，该模型采用预训练的基于嵌入的先进模型ConvE[60]，对无法确定的正确目标进行软奖励评估，从而得到相应的替代原奖励方式的软奖励，该奖励可保证未被智能体搜索出来但正确的目标获得更高的奖励分数。其次，该模型执行Action-Dropout操作，在训练过程中，随机掩盖图中节点某些向外的边，以便实现智能体对路径的多样性探索。

图3 Multi-Hop模型Fig.3 Model of Multi-Hop

该强化学习模型主要是由以下三部分组成。

状态空间S中状态st(st∈S)的表示如下：

其中，et表示智能体t时刻所在位置，()es,rq表示初始实体和关系组成的查询对。

动作空间A中的动作的定义与DeepPath模型相同。

奖励函数R的表示如下：

其中，sT表示智能体的最终状态，eT表示智能体最终位置，f(es,rq,eT)表示该模型评估出来的软奖励。Rglobal(sT)表示推理过程中获得的奖励，其定义如下：

为了解决在大规模知识图谱中建模马尔可夫决策过程的问题，该模型设计了结合状态信息、全局信息和搜索历史信息来参数化搜索策略。知识图谱的所有实体和关系都被初始化为维度为d的低维稠密向量(e,r∈Rd)。搜索历史ht=(es,r1,e1,…,rt,et)∈H，其中H={ht} 是一系列搜索历史的集合。该模型使用基于LSTM 模块的RL 智能体将搜索历史ht进行编码，其定义如下：

其中r0是为了引出起始实体es而设计的特殊关系，ht-1和at-1分别表示t-1 时刻的搜索历史和选择的动作。

该模型使用基于策略网络的深度强化学习来完成该推理任务。策略网络定义及优化与MINERVA 模型相同。

相比于MINERVA 模型，该模型主要进行了两处改进，分别是引入软奖励机制和智能体Action-Dropout方法，解决了RL 智能体推理过程中遇到的两个问题：（1）训练数据中的错误路径引导而获得奖励；（2）训练数据中正确路径引导失败而丢失奖励，从而提高了模型的性能。

2.1.4 DIVINE模型

针对深度强化学习知识推理方法中存在的两个问题：（1）策略网络的动作空间过大，导致训练过程中策略网络难以收敛；（2）策略网络更新的奖励函数是由人工设计，并且面向于特定数据集，不仅效率低、工作量大，而且难以满足当前快速变化的知识图谱推理需求。研究者提出了一种基于生成对抗模仿学习[61]（generative adversarial imitation learnin，GAIL）的即插即用型模型框架DIVINE[62]，基于引导路径发现过程，通过模仿演示从知识图谱中自动采样来自适应地学习推理策略和奖励函数，以解决静态知识图谱推理过程中存在的问题。该框架由生成式对抗推理器和演示采样器两个模块组成。通过使用生成式对抗训练获得的演示和采样器获取的演示，训练一个包含生成器和判别器的推理器，如图4所示。经过训练，该框架可使用基于策略网络的智能体（即生成器）来发现与演示的分布相匹配的证据路径，并通过综合这些证据路径实现推理。

图4 DIVINE模型Fig.4 Model of DIVINE

该DIVINE 框架由两个模块组成，即生成式对抗推理器和演示采样器，推理器由生成器和判别器组成，生成器是RL 中的任何一个基于策略网络的智能体，而判别器是一个自适应奖励函数。具体而言，对于每一个查询关系，分别使用采样器和生成器来自动提取演示并从给定的知识图谱中生成关系路径。然后，使用判别器来评估生成的路径和演示之间的语义相似性，以更新生成器。在生成器和判别器之间经过足够的对抗训练之后，使用训练好的基于策略的智能体（即生成器）来找到与演示的分布相匹配的证据路径，并通过综合这些证据路径来进行预测。

（1）生成式对抗推理器

该模型通过生成式对抗训练从演示中学习推理器。为了鼓励智能体尽可能多地挖掘多样性证据路径，通过模仿每一个轨迹而不是每一个动作对来训练智能体，提高模型的整体性能。该模型提出了一种基于路径的GAIL 方法，通过模仿仅由关系路径组成具有路径级语义特征的演示来学习推理策略。该推理器由两部分组成，即生成器和判别器。

（2）演示采样器

为了满足模仿学习对高质量的演示需求，同时避免人工构建推理演示的低效率问题，该模型设计了一种自动采样器，在无监督、无人工干预条件下，实现从知识图谱中采样大量的高质量的推理演示。该模型使用了静态和动态两种演示采样方法采样演示，针对长尾实体无法提取足够数量演示的问题，该模型使用语义匹配的方法来探索更多演示。

在训练过程中，该模型将采样器得到的演示集合和生成器生成的路径集合输入到模型判别器中进行训练，通过最小化损失函数实现对判别器的训练。

基于生成对抗模拟学习的知识图谱推理即插即用框架DIVINE，增加了现有的基于深度强化学习推理方法自适应地学习推理策略和奖励功能，以适应快速发展的真实世界知识图谱。

2.1.5 AttnPath模型

为了解决深度强化学习知识图谱推理方法研究过程中，缺乏记忆组件和训练过程复杂的问题，研究者提出了一种基于深度强化学习的模型AttnPath[63]，该模型将长短期记忆网络（LSTM）和图注意力机制作为记忆组件，同时定义了两个指标：均值选择率（mean selection rate，MSR）和均值替换率（mean replacement rate，MRR），实现对目标关系替代路径的难易程度定量化评价，如图5所示。为了避免智能体停滞在同一实体节点，该模型引入了一种新的强化学习机制，强制智能体在每一步都进行状态转移。该模型不仅可以摆脱预训练过程，而且同其他模型相比也能达到最佳性能。

图5 AttnPath模型Fig.5 Model of AttnPath

为了定量地衡量每个关系的难度值，该模型定义了两个指标：均值选择率（MSR）和均值替换率（MRR）。其中均值选择率（MSR）表示学习关系r的难度，其定义如下：

其中τr表示所有与关系r相关的三元组，SR(h,r,t)表示对于关系r的选择率，具体定义如下：

相似地，均值替换率（MRR）的定义如下：

其中，RR(h,r,t)表示关系r的替代率，具体定义如下：

该模型使用三层神经网络训练，输出层使用Softmax函数进行归一化处理，使用REINFORCE[56]方法进行参数优化，同时使用L2 正则化、dropout、action-dropout三种方式防止过拟合。具体地，对于MSR和MRR高的关系，该模型使用多种方式指导智能体尽可能多的去发现多样性路径；反之，则使用少量的方式指导训练。

AttnPath 是一种基于深度强化学习的知识推理模型，该模型将LSTM 和图注意力机制作为记忆组件，以减轻模型的预训练，还定义了两个指标MSR和MRR来衡量关系的学习难度，并将其用于微调训练超参数，提高了训练效率。对比实验结果表明，该模型明显优于DeepPath和基于表示学习的方法。

2.2 面向开放域的深度强化学习知识推理CPL模型

为了应对知识图谱稀疏和不完整的情况，克服封闭域知识图谱中知识缺失造成模型性能受限的问题，研究者提出了一种新颖的基于强化学习面向开放域知识图谱推理的模型CPL（collaborative policy learning）[64]，该模型通过联合训练多跳图推理器和事实提取器两个协作智能体，实现开放知识图谱推理任务，如图6 所示。事实提取器中的智能体从背景语料库中生成事实三元组来实现知识图谱的动态扩充，而多跳图推理器中的智能体在基于扩充的知识图谱构建的强化学习环境中进行推理，同时该智能体在知识图谱推理过程中向事实提取器提供反馈，并指导其生成有助于模型推理的事实。由于现有模型对知识图谱推理的研究都是建立在封闭空间中，即假定知识图谱是静态的，所以无法实现对知识图谱中事实的动态添加。该模型从文本语料库向知识图谱动态添加事实增强路径查找以改善推理性能，同时基于强化学习框架设计模型，进一步提升了模型的可解释性。该模型的主要任务是已知查询对(es,rq)，通过RL 智能体在知识图谱中推理出目的实体eq。

图6 CPL模型Fig.6 Model of CPL

该模型是由图谱推理和事实提取两个智能体构成。对于图谱推理智能体而言，其目的是帮助推理器在知识图谱中进行路径发现从而完成推理。图推理器的马尔可夫决策过程被定义为如下三个部分。

状态空间S的表示如下：

其中，et是智能体当前位置，rt是连接et的前一个关系。

动作空间A的表示如下：

其中，G′表示扩充后的知识图谱，其具体定义如下：

其中G表示知识图谱中原有的三元组。C表示从文本语料库中提取的三元组。

奖励函数R的表示如下：

其中，sT表示智能体的最终状态，eT表示智能体的最终位置。

事实提取器的马尔可夫决策过程被定义为如下三个部分。

状态空间S的表示如下：

其中，bet表示文本语料库中包含当前推理位置的实体的句子集合，et表示智能体当前推理的位置。

动作空间A的表示如下：

该模型中的事实提取智能体和图谱推理智能体采用单一训练过程，即训练事实提取智能体时，冻结图谱推理智能体的相关参数，反之亦然。图推理器根据图谱提取器对知识推理任务的贡献程度向图谱提取器提供反馈。该模型使用REINFORCE[56]通过最大化期望奖励的方式，来训练模型中的两个智能体，同时定义了推理智能体和事实提取智能体两个策略网络，推理智能体的策略网络是由三层神经网络构成。

其中，σ表示softmax函数，AtR表示所有动作嵌入组成的矩阵。

事实提取智能体的策略网络定义如下：

其中，Etb是文本语料库中提取的候选句子嵌入组成的矩阵，可看作潜在状态的嵌入。AtE是所有关系嵌入组成的矩阵。

该模型使用预训练和自适应采样两种方法来增加模型的训练效率。

为了加强开放域知识图谱推理研究，研究人员提出了一种新颖的协作策略学习模型CPL，通过构建图推理器和事实提取器，实现路径推理和开放文本信息提取的策略学习。该模型不仅实现高效的可解释性推理，而且还对噪音文本进行过滤。在两个大规模数据集上的实验结果表明，该模型具有很强的竞争力。

2.3 不同方法的对比分析

本文从方法描述、方法优缺点以及使用场景对各种类型的深度强化学习知识推理方法进行对比分析，如表1所示。

表1 基于深度强化学习的知识推理典型模型汇总表Table 1 Summary of typical models of knowledge reasoning based on deep reinforcement learning

3 强化学习推理研究常用数据集及其评价指标

3.1 公开数据集

针对封闭域和开放域这两个不同领域的深度强化学习知识推理研究，相关实验中使用的数据集也分为两类，第一类为面向封闭域的公开数据集，包括FB15K-237[65]、NELL-995[55]、WN18RR[60]三种数据集。第二类为面向开放域的公开数据集，包括FB60K-NYT10（https：//github.com/thunlp/OpenNRE）和UMLS-PubMed（http：//umlsks.nlm.nih.gov/，https：//www.ncbi.nlm.nih.gov/pubmed/）两种数据集。

FB15K-237 是通过公开知识图谱Freebase 的子集FB15K创建而来，FB15K数据集共592 213个三元组，具有14 951个实体和1 345种关系。FB15K-237在FB15K训练集、测试集、验证集的基础上，进行了部分实体融合，删除了大量冗余的关系数据，是FB15K经过精简的子数据集，它包含14 505个实体，237种关系。WN18RR是从WN18创建的链接预测数据集，WN18是公共知识图谱WordNet的一个子集，WN18RR数据集包含86 835个三元组，其中包含40 945个实体和11种关系。NELL-995 是基于NELL 系统的第995 次迭代产生的数据集整理后的数据集，它包含75 492个实体，200种关系。实验数据集的统计信息如表2所示。

表2 开放域知识图谱知识推理公开数据集汇总表Table 2 Summary of public dataset for open domain knowledge graph knowledge reasoning

FB60K-NYT10数据集包括FB-60K知识库和NYT10语料库；UMLS-PubMed 数据集包含UMLS 知识库和PubMed 语料库。实验数据集的统计信息如表3 所示，其中C表示语料库，G表示知识库。

表3 封闭域知识图谱知识推理公开数据集汇总表Table 3 Summary of public dataset for closed domain knowledge graph knowledge reasoning

3.2 评价指标

对于知识推理任务的评价方式，通常是链接预测（link prediction，LP）和事实预测（fact prediction，FP）。链接预测是预测三元组中缺失的部分。事实预测是在判断三元组的正确与否。数据集一般按7∶3 的比例分为训练集和初始测试集，而测试集是由初始测试集和其生成的负样本组合而成，其中负样本是由正样本被替换尾实体生成。而实验中使用的评价指标包括：平均精度均值（mean average precision，MAP）、前k命中率指标（hits at ranksk，Hits@k）和平均倒数排名（mean reciprocal rank，MRR）三种。

3.2.1 平均精度均值（MAP）

平均精度均值（MAP）反映了模型在数据集中平均精度（average precision，AP）的平均值，是信息检索领域常用的性能评价标准，也作为知识图谱推理的评价指标。MAP的取值在[0，1]之间，其计算公式如下：

其中rank(y)和rank(y′ )分别为正样本和负样本的排名，testi为测试集，m为样本总数。

3.2.2 前k命中率指标（Hits@k）

前k命中率指标（Hits@k）表示的是所有正确样本在评分后排名进入前k以内的比例，k常用的取值1、3、10。Hits@k用测试集中排名进入前k名的三元组个数累加值除以测试集中所有三元组个数，取值范围为[0，1]。Hits@k的值越大，则表明推理算法效果越好，其计算公式如下：

其中rank(h,r,t)≤n?1:0 为判别样本排名是否进入前n以内的条件表达式，若rank(h,r,t)≤n成立表达式值为1，否则为0，count(test)表示测试集中三元组总数。

3.2.3 平均倒数排名（MRR）

平均倒数排名（MRR）反映正确样本在候选列表中的整体排名情况。MRR根据模型的评分函数对所有候选的三元组打分后，按照得分顺序，求得真实的三元组在其中评分排名的倒数的平均值，作为整体结果。MRR是将排名取倒数使结果落在[0，1]之间，MRR的值越大越靠近1表示模型效果越好，其计算公式如下：

为了更直观地认识本文介绍的各类基于深度强化学习知识推理模型，表4给出了模型对比实验中的基线模型、训练数据集和评价指标的汇总信息。

表4 基于深度强化学习的知识推理典型模型汇总表Table 4 Summary of typical models of knowledge reasoning based on deep reinforcement learning

4 总结和展望

知识推理作为知识图谱的重要组成部分，是人工智能领域的重要研究方向，不仅在深度搜索、智能问答、智能医疗、金融反欺诈等领域中有着重要的研究价值，而且也将在未来人工智能的研究中充当重要一环。近年来国内外涌现出大量的知识推理方法，取得了一定成果，但仍有不同程度的问题亟待解决。面向知识图谱的知识推理的发展经历了从简单的逻辑推理到表示学习推理，图推理，再到神经网络推理的过程。早期基于逻辑的推理方法严重依赖于推理规则，在小规模数据中，取得了较好的效果，但随着数据规模的增加，有效的推理规则的获取难度增大甚至无法获取，这便导致其发展受限；受词嵌入模型的启发，基于表示学习的推理方法迅速发展，并取得了较好的结果，但该类方法将知识推理转化为单一的向量计算，可解释性较差，同时仅使用了关系信息进行了推理，推理能力受限。基于图的推理方法，因其充分利用图的结构信息，推理效率和质量得到明显提升，更适用于大规模知识图谱推理，然而，该类问题面临的一个重要问题就是如何有效地搜索路径。基于神经网络的推理方法依靠神经网络模型更强的学习能力和泛化能力，提升了推理的性能。但随着人们对知识推理的可解释性要求日益增加，知识推理的可解释性受到了越来越多研究人员的关注。

本文对知识推理的概念、知识推理的方法、强化学习知识推理模型、公开数据集和评价指标等进行总结。具体而言，首先，按照面向知识图谱的知识推理方法所依据的原理不同，将知识推理分为基于逻辑推理、基于表示学习推理、基于图推理、基于神经网络推理和基于深度强化学习推理五大类。由于基于深度强化学习的知识推理具备良好的性能和可解释性，于是近年来该类推理方法迅速成为了研究的热点。本文从面向封闭域的深度强化学习知识推理和面向开放域的深度强化学习知识推理两个角度，对面向知识图谱的基于深度强化学习的推理方法进行了详细总结分析。此外，本文还对已有的公开数据集和评价指标进行总结。

分析近年来相关研究发现，基于强化学习知识推理方法研究还不够完善。展望未来，存在以下四个发展方向。

（1）融合逻辑方法知识推理：增强推理的可解性和性能。基于逻辑的推理方法具有满足当前知识推理高准确率和强可解释性应用需求的特点，一直以来都是推理研究及应用的热点，但该方法局限于规则获取难和数据噪音抵抗差。相反，深度强化学习推理具有挖掘推理规则和增加容错性的特点。因此，探索融合逻辑推理和深度强化学习推理方法成为了进一步增强推理可解释性和性能的可行途径。

（2）多智能体知识推理：解决更为复杂的推理任务。近几年，多智能体强化学习因具备强大的学习能力、推理能力和自组织能力，已在许多领域都得到了实际应用。随着知识图谱规模的不断增加，知识推理的复杂度也随之增大。借鉴本文介绍的DIVINE模型，可以看到将多智能体强化学习引入到知识推理中，不仅能够使用多个智能体相互协作解决复杂问题，而且还将进一步减少人工干预，提高推理性能。

（3）图神经网络知识推理：创新利用推理依据。知识图谱内含信息丰富，既有语义信息，如实体名称、关系名称、实体描述、属性信息，又包含大量的结构信息，如三元组、多元组、路径等，这些与事实三元组紧密相关的信息都可以作为推理的依据。因此，可以尝试使用图神经网络，在推理过程中充分利用实体、关系、路径等多种信息，信息量更大，推理效果更好。

（4）开放域知识推理：探索更好的开放域知识推理方法。开放域知识推理能够建立封闭世界知识图谱与开放世界知识图谱之间的通道，使得新的实体和关系以及新的知识能够更便捷地添加到知识图谱中，将其与知识推理结合能够更好地应对开放域推理问题。因此，不妨尝试借鉴CPL 模型的方法，探索通过结合开放域知识进行推理的新渠道。目前封闭域知识推理研究较为成熟，而面向开放域的知识推理研究仍存在较大空间。