APP下载

深度学习与知识推理相结合的研究综述

2022-01-22郭文忠文朝武龙洁花

计算机工程与应用 2022年1期
关键词:三元组图谱语义

张 宇,郭文忠,林 森,文朝武,龙洁花

1.北京农业智能装备技术研究中心,北京 100097

2.吉林农业大学信息技术学院,长春 130118

随着物联网、人工智能、大数据等技术的不断发展,知识数据呈指数爆炸式增长。为了可以简洁明了描述知识和建立世界万物之间的关系,并随时管理、更新及应用知识数据,知识图谱顺势而生。2012年,谷歌公司正式提出了知识图谱[1-8](knowledge graph),其本质就是一种大规模的语义网络,以图的知识表达方式形式直观表现客观世界中的实体(概念、人、事物)及其之间关系的网络化结构。比起传统的语义网络,它不仅规模巨大,而且语义丰富、质量优异、结构友好,可以支持组织网络数据,从而提供智能搜索服务的知识库。具体地,李艳茹等[1]针对传统知识图谱中知识点存储与推理方法的弊端,提出一种CRA模型,可以便捷且有效地构建和展示高中数学课程知识图谱;文献[2]利用KG的潜力来解决行业产品开发和服务创新点进行全面和彻底的讨论,对工业产品和服务中的KG开发以及提高实践适应性的定制进行了系统调查;Majid等[3]提出了一种波斯语知识图谱群体系统,该系统从从网络中爬行的无标签原始文本中提取知识;曹永强等[4]利用文献计量Citespace可视化分析软件,采用文献计量、共被引分析、引文网络结构变换、可视化等方法探究作物需水研究领域发展现状,绘制作物需水研究领域的科学合作、学科发展演化规律、潜在影响力文献或主题结构网络等知识图谱,以找出作物需水研究领域的科学合作特征、研究主题的演化规律并预测具有潜在影响力的主题和学者;孙龙龙等[5]为全面、系统、客观地反映建筑安全领域计算机视觉技术的研究成果及其不足,运用知识图谱分析工具VOSviewer 对来自WOS 数据库核心合集上的166 篇相关研究文献进行了可视化定量分析并辅以定性分析,分析了计算机视觉技术在建筑安全领域的研究现状与发展趋势;Deng等[6]定义并构建了一个专利知识图谱,以捕获专利域中关键字之间的语义信息,然后,根据专利知识图谱将专利和公司描述为加权图谱。最后,通过比较基于图表编辑距离度量的加权图谱来生成建议;Liu等[7]提出了一种基于知识图谱的生成问题回答方法,包括知识词汇构建、数据预处理和答案生成三个部分。实验结果表明,该方法在WebQA 数据集上比其他方法具有卓越的性能;龚乐君等[8]基于长链非编码核糖核酸和疾病关系的分析,对LncRNA 和疾病知识概念建模,提出一种有效的LncRNA与疾病关系的知识图谱构建方法,并通过SPARQL 查询语言和可视化技术展示知识查询的推理效果。实际上,知识图谱源于1997 年图灵奖获得者爱德华·费根鲍姆提出的“知识工程”的概念,本质上,知识图谱就是一个具有图数据库的知识库。

知识图谱由节点和边组成。节点可以是实体、抽象的概念。边可以是实体的属性、实体之间的关系。例如:中国-首都-北京,这种描述方式为三元组事实描述,其中中国为头实体,首都为关系,北京为尾实体,意思为中国的首都是北京。知识图谱正是因为其基于图结构的数据格式、二元关系为基础的描述形式、语义表达能力丰富、描述形式统一、表示方法对人类和计算机友好,所以被广泛关注和应用。

目前,面向开放领域和垂直领域构建了各种大规模知识图谱,例如Freebase[9]、Wikidata[10]、Schema.ORG[11],都是人工或者半自动方式由下到上构建,导致这些图谱中存在大量实体之间的隐含关系没有被挖掘出来或者挖掘的关系是错误关系。这些缺点限制了AI领域的应用发展。所以如何将现有知识图谱的知识补充完整成为知识图谱的炙手可热的重要问题之一。

知识补全(knowledge graph completion)[12-15]技术便是应对知识图谱中知识不完整或者知识错误问题的方法,知识推理为其中方法之一。知识推理指从已有的知识出发,通过运用各种方法对各种事物进行思考、理解、认知、分析和决策,找出其中隐含的知识,或者推断出未知知识的过程,使知识图谱逐渐完整。现在的AI领域,都可以利用深度学习,随着深度学习的的不断发展,深度学习与知识推理相结合的方法逐渐显示出强大的鲁棒性。本文通过简单介绍面向知识图谱的知识推理相关概念,归纳总结基于深度学习的是推理研究进展,并讨论了相关问题和下一步研究建议。

1 知识推理介绍

推理在科技进步和社会发展中一直扮演着重要的角色,包含了思考-认知-理解-创新到再思考-认知-理解-创新,一直是一个循环状态,也是感知世界的重要途径。知识推理[16-20]种类繁多,根据侧重点不同,可以分为很多种,详细见图1。Gilgur 等[21]认为推理是一种自上而下的逻辑推理,是指在给定的一个或多个前提的情况下,推断出一个必然成立的结论的过程。Steven 等[22]认为推理是一种自下而上的推理,指基于已有的部分观察得出一般结论的过程。孙婧婧等[23]认为推理是给定一个或多个已有观察事实并根据已有的知识推断出对已有观察最简单且最有可能的解释的过程。Yuan 等[24]认为推理有助于理解他人的意图,并有助于在符号及其参考者之间建立对应关系,将已知事物上的结论迁移到新的事物上的过程。实质上,知识推理指根据已有的知识去推断未知知识的过程。

图1 知识推理分类Fig.1 Classification of knowledge reasoning

目前研究的大多数知识图谱中,知识都是以三元组形式进行存储,所以知识推理是围绕实体和关系进行推理,主要包括实体预测,即已知头实体(h)、尾实体(t)和关系(r),预测最有可能的尾实体或头实体,使构成事实三元组;链接预测,已知两个实体,推理出关系,使之成为完整三元组。

由于分析的角度不同,有很多种推理方法。官赛萍等[25]按照推理背景的不同将知识推理分为传统知识推理和面向知识图谱的知识推理。漆桂林等[26]认为面向知识图谱的知识推理按照推理方法的不同可分为基于本体的推理、基于图结构的推理和基于深度学习的推理等。基于深度学习[27-31]的知识推理利用不同的模型建模知识图谱事实三元组,得到预测实体或预测关系的K命中率和模型的准确率、召回率,K命中率为事实三元组的评价标准。Chen 等[32]提出了一种基于LSTM 的舆论模型。通过多模态信息融合,该模型利用多源信息的互补优势来提高模型的估计性能,在猪肉价格预测任务中,取得了更好的预测效果。李晓英等[33]利用基于深度学习的不均衡文本分类方法选择不均衡文本特征将评分标准设置为文档概率相关度之差的最小值,令所选取文本特征均衡分布于多数类以及少数类中,改进文本特征的均衡性。实验结果表明,该方法可有效分类不均衡文本,分类精度高达99.5%以上。

面向知识图谱的推理主要围绕关系的推理展开,利用图谱中已有的事实或关系推断出未知的事实或关系,主要考察实体、关系与图谱结构的特征信息。但是随着数据的增长,传统的知识推理方法逐渐无法推理出正确率高的事实三元组。随着人工智能技术的发展,深度学习在大数据和计算能力的支持下焕发了惊人的能量,它的分布式表示和深层结构为知识推理提供了强大的建模功能,具有强大的学习能力,而基于深度学习的知识推理使深度学习和知识推理相互促进,以更强大的学习能力进行推理。近几年,随着深度学习的不断研究,深度学习和知识推理的结合吸引了越来越多研究者的目光,本文简介其研究进展,并说明各类推理模型的基本思路与方法。

2 基于深度学习的知识推理

基于深度学习的知识推理的主要思路是利用深度学习的分布式表示和深层架构来建模知识图谱的事实三元组。具体的,基于深度学习的知识推理依据知识的属性分为基于知识表示学习的推理、基于知识获取的推理以及基于知识计算应用的推理。

2.1 基于知识表示学习的推理

基于知识表示学习[34]的推理通过挖掘现实文本中的实体和关系信息,能够将知识组织成结构化的知识网络。利用这些丰富的结构化信息将有助于我们再知识驱动下更好地完成各种场景下的推理任务。本节介绍三种基于知识表示学习的推理,从细节到整体、从点到面依次介绍三种推理方法。其中CTransR 模型对头尾实体间的潜在关系进行聚类,并为每一个聚类的簇单独建立向量表示;PTransE 模型将知识图谱中的关系路径融入知识表示模型中;TKRL模型将实体以不同的方式投影到各自的关系空间中,但各个实体的投影矩阵可能不同,且投影矩阵的构建受到实体层次类型指导。

2.1.1 CTransR模型

在知识图谱中,很多不同的三元组在相同的关系会有一定的多样性。比如,关系“属于”可以出现在2008年奥运会举办权属于中国北京、台湾属于中国等多种情况中。为了进一步增强模型对这种复杂关系的建模能力,刘知远等[35]提出一种在TransR[36]的基础上的CTransR模型,CTransR 模型给予分段线性回归的思路,对TransR进行了进一步拓展。模型对头实体和尾实体之间可能存在的关系进行聚类,并为每一个聚类的簇单独建立向量表示。所有训练数据包含的特定关系r的实体对(h,t)将会根据(h-t)被聚类到若干组中,其中h、t为TransE[37]得到的实体嵌入。对于任意一个三元组(h,r,t),实体嵌入为h,t∈Rk,相应关系嵌入为r∈Rd,但是实体嵌入和关系嵌入的维数不一定相同,即k≠d。通过对于每个关系设置一个投影矩阵Mr∈Rk×d,它可以将实体从实体空间投影到关系空间。通过映射矩阵,将实体的投影向量定义为hr=hMr,tr=tMr。假设同一组内的实体对所表现的关系r呦相近的特征,而不同组内的关系r可能表达不同意义。因此,对每一组实体对c,CTransR 学习了一个单独的关系嵌入rc,相应的得分函数通过一下定义:

||rc-r旨在确保特定于集群的关系向量不会离原始向量太远,而α控制次约束的效果,对于任意的h,r,t,有||h||2 ≤1,||r||2 ≤1,||t||2 ≤1,||hMr||2 ≤1,||tMr||2 ≤1。

为了证明CTransR 模型的优越性,利用WN11、WN18[38]、FB13K、FB15K[39]数据集,在链接预测、三元组分类及文本关系抽取任务上进行了实验,采用两种不同的负例采样算法unif(均衡采样)和bern(基于头尾实体分布伯努利采样),最后的结果证明CTransR 模型要比TransE和TransH模型在效率和复杂度上表现更为平衡。

CTransR 模型在一对一和多对多数据中表现优异,但是在一对多和多对一种表现较差。

2.1.2 PTransE模型

TransE 模型及其扩展模型以往只考虑到了实体之间的直接关系,但在很多知识图谱中,实体之间的多步关系路径蕴含了丰富的语义信息,而关系路径的特征对进行知识表示具有重要的意义。比如,hat隐含了h和t之间的爷爷祖父关系,即(h,祖父,t)。由此刘知远等人提出了PTransE 模型,将知识图谱中的关系路径融入知识表示学习模型中。

PTransE的简易示意图如图2所示。

图2 PTransE建议示意图Fig.2 Proposed schematic diagram of PTransE

PTransE 仍是平移假设,但单个关系三元组以关系路径取代,即PTransE为关系三元组定义的得分函数考虑了实体间的多步路径信息:

其中,E(h,r,t)用直接关系三元组描述了实体与关系之间的相关性,比如TransE中定义的:

而E(h,P,t)是PTransE 模型的不同之处,它通过多步路径来描述关系层面的推理信息。因为一个实体对(h,t)在知识图谱中可能存在多个不同的关系路径,不同关系路径在体现实体间联系方面的可靠性也大不相同,所以定义E(h,P,t)为各关系路径下得分函数根据其可靠性加权平均的结果:

PTransE模型通过编码关系路径将实体和关系嵌入一个低纬空间之中,并且利用路径约束的资源分配算法和语义复合算法来表示路径。可以实现高性能的知识图谱补全(实体预测和关系预测)和文本关系抽取。但是如果不考虑知识图谱的特征,PTransE 相比于TransE是有一定劣势的,因为知识图谱的实体表示为关系预测提供了关键信息。而且在头实体多对多预测中,PTransE模型命中率只有60%。

2.1.3 TKRL模型

由于传统的知识表示方法对实体嵌入加以约束的监督仅使用知识图谱之间的关系信息,难以深入理解实体和三元组。而且实体层次类型信息具有人工定义的结构化体系,可以看作一种较为准确的先验知识。一些开放式的大规模知识图谱都维护着一套自己的实体层次类型信息。因此,刘知远等[35]提出将实体层次类型信息应用在世界知识表示学习中,他们认为特定关系下的实体有更需要突出的实体类型,而这些实体在突出不同类型时应该有不同的知识表示。例如,在图3中的实体层次类型信息样例中,会发现在效力这个关系下,姚明更应该突出篮球运动员这个类型,而休斯顿火箭队更应该突出篮球队这个类型,这些相对重要的实体在图3中以实现进行连接。所以,对于图3 中的三元组,应该由姚明在效力上的知识表示与休斯顿火箭队在篮球队上的知识表示进行交互。刘知远等人[35]提出了融合实体层次类型信息的知识表示学习模型(TKRL),它可以通过利用实体的类型信息来指导知识表示学习,使不同情景下的实体具有不同的嵌入表示。

图3 Freebase实体层次类型信息示例Fig.3 Example of Freebase entity level type information

TKRL 模型基于平移假设思想,从TKRL 的能量函数式(7)中可以看出,TKRL 模型对各个实体的投影矩阵的构建受到实体层次类型指导,因此投影矩阵可能不同。

其中,Mc为层次类型c的投影矩阵。尾实体t的投影矩阵同理可以得到。

基于加权层次编码器的模型快于基于递归层次编码器的模型,在关系类型预测中,基于RHE 的TKRL 模型表现较好,在实体预测中,基于WHE的TKRL模型表现较好。TKRL模型蕴含了丰富的信息,能够帮助建立更精确的知识表示,而且在加以软类型限制的前提下,可以进一步提高知识表示的精确度。但是当数据类型不加以限制时,TKRL模型的平均排名、一命中率、十命中率等都会下降。

2.2 基于知识获取的推理

基于知识的自动获取[41]的推理指利用实体或关系抽取的视角介绍语言知识的自动获取。本节主要以关系抽取为切入点,关系抽取指在没有标注过的文本中抽取实体间的关系,然后将实体与关系结构化为语言知识扩充到相应的知识图谱之中。本节将基于语言多样性分别介绍基于关系层次注意力机制的关系抽取的知识推理、基于对抗训练的多语言知识关系抽取的知识推理和基于跨语言词汇的义原预测的知识推理。基于关系层次注意力机制的关系抽取的知识推理根据每个实例在表达特定关系上的重要程度计算一个注意力得分;基于对抗训练的多语言知识关系抽取的知识推理能够有效使用对抗训练技术在多语言环境下学习单一语言的独特性质,同时在全局融合多种语言的共同特性,使抽取系统利用多语言语料进行更高效的知识获取;基于跨语言词汇的义原预测的知识推理旨在现有的义原知识图谱出发,更高效地为其他语言建立义原知识图谱。

2.2.1 基于关系层次注意力机制的关系抽取知识推理

图4 基于关系层次注意力机制的关系抽取模型结构Fig.4 Structure of relational extraction model based on relational hierarchical attention mechanism

为了综合利用不同层次上不同细粒度[43]的注意力特性,基于层次选择注意力机制对不同层的文本关系表示进行拼接,实例包S(h,t)的最终表示为:

最终,s(h,t)会被作为模型后续部分的输入通过一个Softmax层计算条件概率计算,即:

其中,θ是全部模型的参数,|R|是关系类型的总数量,o是神经网络的最终输出向量,表示对所有关系类型的预测分数,具体为o=Ms(h,t)+d,其中d是偏置向量,M是所有关系类型的表示矩阵。

此模型通过利用关系层次可以充分考虑到关系之间的联系,以此提供不同粒度的实例选择能力,帮助抽取长尾关系,但是提升的结果有限。且当数据比较稀疏时,它的稳定性相对较差,所以未来要着重研究如何解决长尾关系的问题。

2.2.2 基于对抗训练的多语言关系抽取的推理

由于数据的爆炸式增长,互联网信息资源多种多样,单语言场景下的关系抽取已经无法满足当前的多语言环境,而且在当前环境下基于跨语言注意力机制的关系抽取模型也无法有效抽取深层的各语言一致的语义信息和多样的结构信息,因此刘知远等[35]提出一种基于对抗训练的多语言关系抽取的推理模型(AMNRE),如图5 所示。该模型引入语言2 独立语义空间,能够有效地与语言1 独立语义空间进行对抗训练。同时引入句子编码器和多语言注意力机制,其中,AMNRE 采用神经网络得到实例的表示向量。此外,AMNRE分别利使用卷积和循环神经网络实现句子编码器,并且利用编码独立信息和跨语言信息的编码器对每种语言分别编码,有效地分开了两种信息的编码;AMNRE利用多语言注意力机制来捕捉语料中信息丰富的实例,并在语言间一致和独立的语义空间中分别利用。在多语言环境下学习单一语言的独特性质,同时在全局融合多种语言的共同特性,从而帮助抽取系统利用多言语料进行更高效的知识推理来获得更完善的知识。

图5 基于对抗训练的多语言关系抽取模型结构Fig.5 Structure of multilingual relation extraction model based on adversarial training

他们将来自不同语言的实例编码到了一个统一的一直语义空间,但是在一种不同语言的句子聚集在同一空间中的不同位置且线性可分的情况下,模型难以达到挖掘不同语言一致性信息的目标,受Ganin等[44]的齐发,AMNRE 采用对抗训练以保证来自不同语言的实例在语义空间中的嵌入得到充分的混合,以便有效地进行关系抽取。

在对抗训练中,设计一个判别器来断定特征的语言归属,结构定义如下:

其中,MLP 是一个两层的多层感知机模型。与判别器相对,AMNRE希望不同语言的句子编码器能够生成判别器难以区分的表示向量。所以,整体的对抗训练形式如下:

其中,Tj是第j种语言的所有实例集合。

AMNRE 模型还考虑到每种语言独特的语义特征可能错误地被编码到语言一致空间中,这样会对语言一致空间中特征的一致性产生较大的负面影响,所以提出一种正交约束[45]来缓解这个问题。

其中,Ij和Cj是两个特征矩阵,其行向量为第j类语言通过句子编码器EI j和EC j编码出的实例向量。||·||F是Frobenius函数。在正交约束下,语言特性和语言共性特征会被区分的十分明显。

AMNRE 模型通过将多语言蕴含的各语言的独立信息和跨语言的一致信息分别编码到不同的语义空间,并采用对抗训练机制来更深层地抽取出跨语言的语义信息,构建统一的语义空间,达到提升多语言场景下的关系抽取效果的目的。多语言数据中的信息十分丰富,可以显著增强关系抽取模型效果;AMNRE 框架中的一致语义空间是多语言数据蕴含的语言一致性信息能被更好地挖掘,并在单语言场景下的效果更好;虽然AMNRE模型是多语言的关系抽取模型,但是在真正多语言场景下的关系抽取精度是低于单语言场景下的关系抽取精度。

2.2.3 基于跨语言词汇的义原预测知识推理

基于目前没有基于义原的语言知识图谱的很多语言无法充分理解甚至利用,加上手工构建基于义原的语言知识图谱需要消耗许多语言专家的精力。而且词和义原存在语义上的差异,需要构建词与义原之间的语义表示获取它们之间的语义关联以便识别一个词在其他语言中的语义。刘知远等人[35]提出基于跨语言词汇的义原预测的知识推理模型(CLSP),定义有标注义原的语言为源语言,无标注义原的为目标语言,通过联合学习将原语言和目标语言的词嵌入到同一个语义空间,然后利用与目标语言的待推荐词语义相近的源语言中的词的义原标注信息,为目标词推荐义原。CLSP 模型主要包括三个模块:单语言的词嵌入学习、跨语言的词嵌入对齐和基于义原的词嵌入学习。模型的目标函数为:

(1)单词语表示

由于源语言和目标语言预料非平行的性质,Lmono包含两个彼此独立的单语项即:

其中,上标S和T分别表示源语言和目标语言。本章选择了Skip-gram[46]这一次表示学习模型来获得单词语嵌入。

(2)跨语言词嵌入对齐

跨语言词嵌入对齐时为了源语言和目标语言中的词可以构建统一的语义空间,所以本章使用基于种子词典和匹配[47]作为跨语言信号的方法来进行跨语言词嵌入对齐。所以,Lcross由基于种子词典的对齐Lseed和通过匹配的对齐Lmatch组成,即:

其中,λs和λm是控制两项相对权重的参数。

(3)通过种子词典对齐

种子词典项Lseed的作用是可以通过L2正则项使一个种子词典D中的翻译词对的词嵌入更加接近,即:

(4)通过匹配机制对齐

假设每个目标语言词都语某个源语言词或特殊空间次匹配,同理,每个源语言词也都与某个目标语言词或特殊空词匹配,而匹配的目的是为了彼此找到对应最合适的语言词,提升所有匹配次对的概率,其损失函数可以表达为:

(5)基于义原的词表示

基于义原[48]的词表示方法目的是通过引入源语言的语言知识图谱信息改进用于医院预测的词嵌入质量。本章主要介绍一种基于义原嵌入的词表示方法,它联合学习词嵌入和义原嵌入充分考虑到医院和词之间的复杂关系及不同义原之间的关系,并且将采用分布式向量表示的义原和词嵌入放在相同的语义空间之中,可以充分利用基于义原的语言知识图谱信息。基于义原嵌入放入方法利用义原嵌入作为正则项同时学习词嵌入和义原嵌入来学习更好的词嵌入。假设从知网中提取出源语言的词-义原矩阵MS,当MS=1 时,说明词wSs表示词被标注了义原xj;当MS=0 时,则反之。通过对MS的分解,损失函数定义为:

CLSP模型不仅考虑义原信息可以提升单词语嵌入的效果,而且在跨语言词义原预测方面也有显著的提升。但是,它可以准确预测比较普遍的义原,若遇到一些很少出现的义原是,准确率就会下降。而且人手工标准的知识图谱在标注目标词时出现的不可避免的错误也会影响模型的效果。当模型预测的目标词出现的频率很高的时候,它的词嵌入会更好,则预测的义原效果就更好。

2.3 基于知识计算应用的推理

在国内,最普遍的文献查询网址-中国知网,作为一种基于语言知识的计算应用,是一种基于义原表示学习和构建的语言知识图谱。知网中包含的丰富知识信息可以改善自然语言处理中很多下游任务,例如自然语言推理、关系预测和情感分析等。本章从语言的最小语义单位出发介绍两种方法,其中基于义原注意力机制的层次解码器架构(HDSA)采用序列到序列解码器来进行层次分类,并利用注意力机制将义原信息融入;基于义原驱动的语言模型(SDLM)则是可以利用到句子中每一个词的义原信息。

2.3.1 基于义原注意力机制的层次解码器结构推理

LIWC[49]是一个词频计数工具,依据人工标注的标签由粗到细来对词进行分类,现在已经应用到很多交叉应用领域。原始的LIWC词典是英文版的,但是近些年来,汉语已经成为世界上使用人口最多的语言,也逐渐设计出了中文版的LIWC,然而中文版的LIWC 词典中的词数却只有7 000多个[50],远远少于记载的56 008个,因此中文版LIWC词典的扩展势在必行,但是人工标注的扩展方法既耗时又费力。所以刘知远[35]等人提出一种基于义原注意力机制的层次解码器(HDSA),旨在将层次解码器使用词嵌入作为初始状态,在解码词语标签序列时使用注意力机制来整合义原信息,然后以序列生成的方式来预测词语的标签层次结构以便更好的扩展LIWC词典。

基于义原注意力机制的层次解码器的结构图,如图6所示。

图6 HDSA模型结构Fig.6 Model structure of HDSA

HDSA模型的目标函数用交叉熵来定义:

其中,eij=vTtanh(W1yi-1+W2hj) 是用来衡量某个义原嵌入hj和当前预测标签yi的相关性,v∈Ra,W1和W2是权重矩阵,a是注意力模型中隐层的维度。

采用集束搜索解决层次多标签的问题一遍对词语标签进行预测[52],而依据经验设置来一个阈值δ在只有一个词语的标签序列y满足约束lnP( )y>δ时,才将y赋值给这个词语。

HDSA 模型为了使相同的义原在不同类别下拥有不同的权重,在它每一个时间步预测词语标签时都会选择关注一个义原。在义原注意力机制的帮助下(义原提供的外部信息),HDSA 模型可以处理一词多义和词类低区分度的问题,所以也就能更准确、更容易理解地预测并扩展LIWC词典,而且HDSA还可以降低反向传播时出现的误差。但是义原有时候会产生误导,所以在以后的工作中,应该着重考虑义原之间的关系,从而可以更好地利用义原信息;并且由于低区分度的问题,HDSA可能产生区分不同类别的错误。

2.3.2 基于义原驱动的语言模型推理

现在很多自然语言技术(NLP)[43]处理中都利用到义原这一知识,但是很少有人将义原应用到神经网络模型中,虽然神经网络模型中采用的是连续性的词表示,但将离散的义原知识利用到模型中还是有帮助的。因此,刘知远等[35]提出一种基于义原驱动的语言模型推理(SDLM),旨利用句子中的每个词的可解释性好的义原信息提高语言模型的性能和可解释性,而且SDLM模型主要关注序列到序列的解码器来利用义原信息进行句子生成。

SDLM 模型利用义原信息来预测下一个词出现的概率,主要包括义原预测器、义项[53]探测器以及词探测器三部分,模型结构图如图7所示。下面简单介绍一下这三部分:

图7 SDLM模型结构Fig.7 Model structure of SDLM

(1)义原预测器

假设给定上下文w,词w包含义原ek(k∈{1,2,…,K})是独立的,然后义原预测器将将w的向量g∈RH1作为输入,因为义原是最小的语义单位,各个义原之间不存在语义重叠,所以要输出每个义原的权重。他们设计了一个以Sigmoid 函数为激活函数的义原预测器,因此,下一个词包含义原ek的概率可以表达为:

其中,vk∈RH1和bk∈R是可以训练的参数,σ(·)表示Sigmoid激活函数。

(2)义项预测器

(3)词探测器

由图7知,通过义项预测器提供的义项概率累加可以得到词的预测概率:

SDLM模型在单义词和多义词的性能有所提高,特别是多义词,并且性能随着义原数量的增加得到更大的提升。但是当义原标注的准确性很低时,模型的性能在也会随之降低。在未来的探索中,可以进一步考虑义原和词汇之间复杂的结构和关系。

2.4 其他推理方法

知识推理现在还处于新兴阶段,但已有不少学者基于不同的方面对知识图谱的推理进行研究。比如,典型的基于图结构的推理方法PRA(path ranking algorithm)[55]和CoR-PRA(constant and reversed path ranking algorithm)[56]。PRA 和CoR-PRA 都利用实体节点之间的路径当作特征从而进行链接预测推理,包括头尾实体预测和关系预测,不同的是PRA的路径是单向搜索,CoR-PRA的路径是双向搜索。还有基于规则学习的知识推理,旨快速有效地从大规模知识图谱上学习置信度较高的规则,然后精确且可解释的进行关系推理。Luis[57]将整条规则在图中构成一个闭环结构,这种规则叫霍恩规则(AMIE)。AMIE 包含增加悬挂原子、增加实例化的原子及增加闭合原子三个挖掘算子,而且在探索规则结构的过程中还引入了最低规则头覆盖过滤和即时增加规则的置信度两个剪枝策略来缩小搜索空间,然后通过SPARQL 在知识图谱上的查询对规则的质量进行评估。

3 知识推理的应用前景

典型的知识推理一般旨应用于对现有的知识图谱中的信息进行推理,然后得出新的信息以补充或更新旧的知识图谱中的知识,但是随着知识推理的深入研究,它逐渐深入到生活之中比如生活娱乐[58]、中医临床[59]、电商[60]和企业商业[61]等领域,甚至涉及到了军事领域[62]。最初设计知识图谱是为了提升搜索引擎的能力,如今随着技术的进步,知识图谱在辅助智能问答、NLP、大数据分析计算、辅助搜索、人工智能等多个方面也展现出了丰富的应用价值。比如,现在的“阿里系”“腾讯系”的一系列APP,都是通过智能搜索,然后利用知识推理排出最适合用户的消息。一些金融类的专家通过分析近几年的股票基金,然后推理出一些较为合适的、可以制造收益的选项供广大用户选择。帮助用户挑出最优的选择,然后辅助人们进行决策。

3.1 军事领域知识图谱

随着科技的迅速发展,我国要在20 世纪中叶基本实现建设信息化军队,打赢信息化战争战略目标。并且坚持以机械化为基础,信息化为主导,推进信息化与机械化相结合共同发展,实现军队火力、突击力、机动能力、防护能力和信息能力整体提高。将知识推理应用到现代信息化军队建设中有着一定的作用,例如,在红蓝军进行演习时,红军可以将蓝军的战斗地点、方式等各种信息抽取出来,然后通过推理模型的计算,可以得出蓝军进攻的下一目标排名,依此,红军可以相应作出防御,阻止蓝军顺利进攻。当然战争是瞬息万变的,没有任何机器可以准确预料到对方的下一步行动,所以知识推理只能尽可能地预测对手的下一步行动从而作出调整。

知识图谱和信息化军队的结合,可以链接作战部队、指挥部、装备库等各类作战要素,可以打通各兵种不同业务领域。而且随着军队信息化建设的深入开展,新型指挥信息系统已经成为作战指挥的基础平台。但是,通过信息系统体验,目前还停留在辅助“劳力”而不是辅助“智能”阶段,对于指挥员的态度、决策或者对抗推演等智能化较高的问题等无法给出完美的解决方法。但是,随着军事改革,构建军事领域知识图谱是必须的,因为它是军队作战指挥智能化发展的基础,是提高作战数据的辅助决策水平重要技术之一。

知识图谱与军事的相结合在情报侦察挖掘、作战指挥控制、战场态势感知和网电空间安全方面已经取得了重大突破。为充分利用知识图谱在军事方面的优势,可在深入研究以下几个方面:一是加强专业知识图谱基础技术研究,充分利用人工智能、深度学习等技术;二是加强建设知识图谱基础平台,目前知识图谱基础平台建设技术还无法有效应对超大规模实时并发响应需求,可以将云计算、物联网等技术的联合攻关,有效推动知识图谱基础平台建设能力和水平;三是拓展知识图谱在军事领域的应用,将产生巨大的军事效益。

知识图谱相关技术研究虽然已经在军事领域取得了较大进展,但仍然面临着一下问题:(1)有效军事数据的降噪问题;(2)不同结构的军事数据融合问题;(3)面向军事应用的大规模分布式知识图谱在线实时响应问题。

3.2 电商(淘宝)

目前,随着科技的进步,人们的购物方式也越来越多,很多人在家里用手机就可以进行购物,而且种类应有尽有。因此,电商的发展十分迅速,特别是我国2020年新冠病毒的蔓延,电商更是走向了巅峰。因此电商知识图谱就变得十分重要,所谓电商,它的核心内容是满足各种人需要的商品。国内著名的电商有淘宝、拼多多、京东等;国外著名的电商有亚马逊等。但是论发展程度,我国的电商虽然起步晚,无论是速度和质量远超于国外,例如淘宝,整个服务不仅有商品,还有快递服务、商品保险服务甚至智能导购服务,因为淘宝的商品知识大脑学习了大量的行业规范与国家标准,可以从公共媒体、专业社区中的信息识别出近期热词,甚至在使用阿里系的其他APP 时,通过近期浏览和大数据分析,会推荐一些关于近期浏览信息的商品,使购物者省去搜索的时间,给出最优的选择排名,辅助购物者决策。

电商的发展主要是通过大数据分析等技术从大量的商品图片、文字描述等数据中收集信息然后构建知识图谱,电商知识图谱的数据包含国内-国外数据、商业-国家数据和线上-线下等多源数据;然后通过对近期浏览或者关联APP 的历史记录中对数据分析而进行智能推理给出满足购物者的商品。通过收集数据信息和大数据分析,既可以节省消费者的时间,也可以降低电商后台操作的压力,同时也满足了消费者的需求。

这些电商类知识图谱需大量多源异构数据汇集,主要利用大规模聚集大规模实体链指、大规模层次分类等技术对商品和产品两个核心节点的知识融合,其中难度最大的是在于商品或产品的类目细分和混淆度,以及大规模训练数据的生成和降噪;电商知识图谱的实体量和成本比通用知识图谱大很多。同时,电商有利有弊,所有的电商平台都存在泄露用户信息的风险,所以电商平台需最大限度保护知识产权、消费者权益以及最重要的用户隐私。

3.3 中医临床知识图谱

中医药学在数千年的发展中积累了丰富的临床经验,已经形成了完整的知识体系,并产生了大量的文献。现在如何将临床指南、中医医案以及方剂知识等结合起来、如何挖掘整理中医临证经验和学术思想,使中医药知识服务更加智能化、个性化。知识图谱的提出可以帮助实现中医临床知识的关联、整合与可视化,促进中医临床研究,辅助中医临床决策。因此知识是图谱在中医临床领域有着广阔的应用前景。

在国内比较有知名度的有由中国中医科学院中医药信息研究所初步构建的中医临床知识图谱系统。该系统以“证、治、效”为中心,将领域专家设计的中医临床领域本体当作知识图谱的骨架,从术语系统、数据库和文本等知识源中获取名医经验、经验指南、中医医案(核心)等多种庞大的知识资源,对知识图谱内容进行自动、半自动的补充、修改等系统梳理。所里的学者们还研发了中医医案语义分析与挖掘工具,以实现医案文本预处理、分词、语义标注、医案文本浏览等功能。利用知识图谱里的各种推理模型可以依据与当前主题相关的医案、指南和知识库内容,发现他们之间的潜在联系,然后推理出各种临床规律辅助医生进行决策。

构建中医临床知识图谱,实质是一个知识抽象和归纳的过程。在整个过程中,一方面要完成知识抽取,对海量医案文本进行分析和标注从而抽取中医知识,过程繁琐且耗时;另一方面,实现知识的结构化表示,旨从医案文本到结构化知识的转化,此过程需将所有的非结构化和半结构化数据进行转化。所以,在构建中医临床知识图谱时,要考虑到各种知识之间的联系,方可进行严格的逻辑推理,所以由于这些数据的复杂性,再加入疗效这个因素,使得三者的维度过高,目前的计算机模型很难处理,只能选择验案作为作为研究方证对应关系的数据资源。

利用中医临床知识图谱,能够发现中医药概念之间的相关关系,揭示各种临床规律,从而不断完善中医临床知识体系,直接推动中医临床研究的快速发展。

4 总结和展望

近年来深度学习和知识推理发展迅速,虽然在速度和数量上表现优秀但是在发展的过程中仍然存在一定的问题。本章简要描述当前知识推理研究进展的几个至今未解决的问题,然后有提出一些建议,最后展望基于深度学习的知识推理的研究发展前景。

4.1 存在的问题

(1)知识结构问题。义原语言知识和实体关系知识大部分是以三元组的形式表示两个对象之间的关系。三元组结构直观,既能存储又能计算而且效率也高,但随着时代的发展,人类知识的结构会愈加复杂多元,比如知识包含所有发生过的事件,每个事件又至少包括时间、地点、人物、类型等基本信息,无法用一个个孤立的三元组简单表示。所以,目前的知识结构面临着结构过于简单的局限性。

(2)知识推理的数据问题。知识推理中的大规模数据集无非就是NYT(new york times)系列、FB(freebase)系列和WN(wordnet)系列等数据集。所有的推理模型无论是训练集、测试集还是验证集都是这些系列的一部分,虽然这些数据集信息量庞大且一直更新补充但是难免会出现数据质量不高且形式不统一的问题,而且基于深度学习的知识推理对噪音十分敏感,尤其在基于分布式表示与深度学习相结合的推理模型,影响颇大。所以,知识推理目前只能验证或者只符合与这些数据集,而在这些之外的数据集,效果还未知。知识推理既有对这些数据集依赖的问题,还存在内部信息质量问题。

(3)知识推理可利用信息问题。在对知识推理的研究中发现,目前大部分学者研究基于语义的推理方法,通过利用实体和关系的属性信息,只有很少一部分人利用基于义项和义原信息去研究推理方法。实际上,义原是最基本的语义单位,比如词语“apple”,主要有两个义项,一个是水果(apple),另一个是品牌(Apple),对应品牌有手机、Ipad、Macbook 等义原,可以很好地增强词的表达效果。知识图谱内存在大量能够作为实体和关系的标签的义原信息,这些义原信息是十分重要的推理依据,而这些信息尚未引起广泛重视。

(4)知识获取问题。目前现有的知识获取技术只能对应解决简单的三元组知识。如在实体关系抽取方面,将其转换为文本分类任务,将两实体出现的句子作为样例,将关系类型作为分类体系。即使是对应这种简单的三元组知识获取,依然存在不少未解决的问题,如何跨越句子边界、如何跨越语言边界以及如何跨越预定义的关系类型体系。这些问题的探索解决有助于建立更有效的知识获取技术。

4.2 未来研究方向的建议

(1)超越三元组。针对知识结构的问题,可以试着使用超越三元组,通过描述不同场景下不同抽象层次的信息,提升对更复杂的知识结构的表示、获取和计算能力。目前,解决复杂知识结构的方式还只是降解为三元组分别处理。未来,在机器学习工具的支持下,有效利用复杂知识结构和知识获取技术是值得研究的。

(2)数据集的补充。针对知识推理推理模型对现有的数据集系列的依赖性,和数据集内部存在质量问题。考虑可以根据每个行收集每个行业的数据集,所谓“术业有专攻”,本行业的数据集由本行业专家半自动完成,数据集中的实体和关系组成的三元组可以解决数据集的质量问题,也可以在一定程度上减轻推理模型对数据集的依赖性。

(3)扩大信息利用率。世界中现有大规模知识图谱中的信息内容还是十分丰富的,既包括实体、实体的属性等信息,还包括关系信息,如三元组、多元组等。再往深挖一步,还可以挖掘实体的义原信息,细粒度更细,提供的知识更具体。可以借鉴2.3.2小节的基于义原驱动的语言模型推理,在推理过程中利用到了每个词的义原信息来提高模型的可解释性和准确性。

4.3 前景展望

知识推理是结构化知识图谱存在的重要意义之一,也是可解释人工智能从数据感知到智能认知的实现途径,对NLP和补充更新知识图谱都起着重要作用。简单讲,将知识图谱当作人的大脑知识库,那么知识推理就是大脑中无数个神经元的结合,是将大脑知识库中的知识认知、过滤、思考、再认知、再过滤、在思考的循环过程,一直将某件事物的最新消息传递给人们。

目前,所有的知识推理技术只是理论研究较为快速,在应用方面要发展到成熟完美还是困难重重的。当前,研究知识推理的学者们逐年上升,取得的理论成果也颇为成功,主要包括基于规则、分布式表示学习、深度学习以及交叉混合的推理方法。目前的知识图谱尚处于起步阶段,对知识图谱的定义至今没有统一,并且在发展的过程中虽然方法众多,但是没有开元可靠的工具,阻碍知识推理的发展。目前,在知识补全方面有着较大的效果,逐渐完善知识图谱构建技术。但是知识推理的发展最终要应用到人类相关生活中,在未来对AI领域的发展起关键作用,可以在越来越多的场景下拥有着属于自己的领域。

猜你喜欢

三元组图谱语义
真实场景水下语义分割方法及数据集
中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索
特征标三元组的本原诱导子
绘一张成长图谱
语言与语义
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
“吃+NP”的语义生成机制研究