基于几何深度学习的知识图谱关键技术研究进展
2020-07-16杜博万国佳纪颖
杜博 万国佳 纪颖
摘 要:知识图谱以图的方式承载着结构化的人类知识。作为将知识整合进入人工智能系统的媒介,知识图谱的研究日益流行。知识图谱在众多人工智能相关的应用上崭露头角,例如问答系统、信息检索、自然语言处理、推荐系统等。然而,传统的深度学习不能很好地处理知识图谱这类非欧式数据。随着图神经网络的快速发展,几何深度学习成为建模非欧式数据的重要理论。本文以几何深度学习的视角,以图神经网络为重点,总结了近期基于图神经网络的知识图谱关键技术研究进展。具体地,本文总结了知识图谱中知识获取、知识表示、知识推理这三个较为核心的研究领域,并展望了未来的研究方向和前景,探讨知识图谱在航空航天军事上的潜在应用。
关键词: 知识图谱; 几何深度学习; 人工智能; 图神经网络; 知识推理
中图分类号: TJ760;TP18文献标识码:A文章编号: 1673-5048(2020)03-0001-10
0 引言
知识代表人类解决问题过程中所启发产生的思考和行为模式。将知识整合进人工智能(Artificial Intelligence)系统可以提高AI解决复杂任务的能力。 近年来,作为一种结构化人类知识的形式,知识图谱(Knowledge Graph)引起了学术界和业界的极大关注[1]。知识图谱是事实的结构化表示,由实体、关系抽象为图结构。实体可以是现实世界中的对象和抽象概念,关系表示实体之间的关系,实体的语义描述及其关系包含具有明确定义的类型和属性[2]。
图1展示了一个基于百科的
航空兵器知识图谱的例子。实体以节点的形式,被关系以有向边的形式串联成图的结构。从一个实体到另外一个实体,可以得到一条事实三元组。例如(洛克希德·马丁公司,生产,F22)。大量三元组的集合又可称为知识库(Knowledge Base)。常见的知识图谱有谷歌知识图谱[3],Freebase[4],中国Hownet等。
近年来,以CNN为代表的深度学习模型取得了巨大突破。一系列神经网络模型在人脸识别、语音识别、机器翻译、计算机视觉及图像分析[5-6]成功落地。然而,与传统的欧几里德结构式数据不同,知识图谱的数据形式是高度非欧的。图片、文字、音频等欧式数据可以以网格化的矩阵存储和表示[7-8],如图2所示。欧式数据可以利用CNN,RNN,LSTM学习数据点邻居的隐式特征,然而非欧数据却不能很好地学习。知识图谱非欧性质意味着
不存在诸如全局参数化、通用坐标系、向量空间结构或平移不变性之类的属性[9],因而传统的深度学习模型难以学习实体、关系间的几何拓扑特征。
几何深度学习(Geometric Deep Learning)[10]由图灵奖获得者LeCun在2016年提出,该理论指出
非欧数据的学习依赖于数据分布的流形学习和图结构学习。近期,图神经网络(Graph Neural Network)[11]的研究成为几何深度学习中最活跃的一支研究方向。图神经网络的核心在于实现图数据上的类似于传统深度学习的操作,例如卷积、池化等,从而实现网络结构的学习。通过层次化堆叠这些操作,深度学习模型进一步地实现了图上的节点分类、链接预测、节点聚类、排序等任务。
图神经网络可以有效地建模知识图谱,广泛地促进了大部分研究方向的发展,例如关系抽取、实体抽取、知识表示学习、知识图谱补全、知识推理等。
本文从几何深度学习的角度出发,总结近期基于图神经网络,流形学习的知识图谱技术的相关研究进展,从而展望知识图谱未来发展的趋势和挑战,并对知识图谱在航空航天军事上的潜在应用进行初步探讨。
1 概览
1.1 知识图谱发展
结构化的知识表示方法在人工智能的研究中有很长的历史。MYCIN[12]建立了基于规则的医学诊断专家系统。后来,随着Web技术的发展,这种结构化的知识也可以被资源描述框架(RDF)和Web本体语言(OWL)描述,并成为语义网的重要标准。 随后,发布了许多开放式知识库或本体,例如WordNet,DBpedia,YAGO和Freebase[4]。到2012年,谷歌首次提出了知识图谱的概念,其发展的Knowledge Vault[3]知识图谱系统特别适用于解决与实体相关的智能问答问题,由此诞生一种全新的信息检索模式。近年来,知识图谱进一步发展,研究者提出了诸多知识图谱驱动的智能问答、商品推荐、数据挖掘范式,展现了知识图谱广阔的应用前景。
1.2 符号及定义
1.2.1 知识图谱定义
知识图谱是一个有向图G=(ε, R, E),其中ε是实体构成的集合,R是关系集合,E是从头实体s指向尾实体o的边的集合,由三元组(s,r,o)描述。一个三元组也称为一个事实。知识图谱是一种多关系图,其中实体和关系均可绑定复杂的属性信息。
1.2.2 图卷积神经网络
本文主要的图卷积网络基于空域的半监督图卷积算子[13],定义如下:
Hl+1=σ(D-12A^D-12HlW)
其中: Hl指第l层的隐层表示,当l=0时,为初始输入的属性信息;A^表示加入了自环的图邻接矩阵; W表示可学习的权重矩阵。
1.2.3 知识图谱嵌入表示
1.2.4 知识图谱推理
在三个查询模式中(s, r, ?), (s, ?, o), (?, r, o)给定一个查询,知识图谱推理旨在通过一条推理链条来预测?元素。这条推理链条如e1r1e2…rkek+1。如果k=1,便是单步推理,若k>1则为多步推理。
1.2.5 本文常用符号表
本文用字母的粗體表示其对应的向量或者矩阵,例如e是实体e的对应表示向量。
1.3 知识图谱研究分类
本文重点关注知识图谱中的知识获取、知识图谱表示、知识图谱推理及补全三个核心研究领域。
2 知识获取
知识获取是构建知识图谱的第一步,指自动地从无结构或半结构化的文本、Web数据中提取到结构化的知识,存储在数据库中。涉及到的关键技术有实体抽取、关系抽取、知识加工等。
2.1 实体抽取
实体抽取又被称为命名实体识别,指在文本中标注或者提取关键的实体,例如人物、地点、组织、时间等,如图3所示。早期的实体抽取方法基于手写规则。这种方法虽然在特定领域的数据中识别准确率较高,但是需要耗费大量专家知识来人为设计有效规则。
近期实体抽取工作聚焦于数据驱动的方法,如机器学习、深度学习等。LSTM-CNN[14]通过学习字母级别和词级别的语义特征和编码匹配部分词典,进行NER任务。Lmaple等人[15]提出一种通过堆叠双向LSTM层和CRF层的神经网络结构,在主要的数据集中实现了对特征工程方法的超越。MGNER[16]集成框架具有各种粒度的实体位置检测以及基于嵌套和非重叠命名实体的基于注意力的实体分类方法。Yadav[17]在字母级别及词级别的架构基础上,加入了词缀信息的构建。
上述方法均为基于深度学习的网络构架,未考虑词义间的空间拓扑关系。将NER任务抽象为一个图的节点分类任务。根据类似思想,Cui 等人[18]提出基于GNN方法来避免中文NER任务中汉字歧义的问题。通过词典来构建图,从而对词义进行建模。这个模型可以捕捉NER过程中的非序列依赖关系。与之不同,Ding 等人[19]提出一种在地名词典上构建多有向图的方法,实现中文NER任务中有效利用地名信息。Sui 等人[20]提出协同图网络模型来利用词汇知识进行中文NER,在各数据集上达到了SOTA效果。
2.2 关系抽取
关系抽取是建立大规模知识图谱的关键任务,其作用是从大量实体标记完成的文本数据中识别实体之间的关联关系,抽取事实或者事件。通过关系抽取,文本中的实体可以被关联起来,形成知识的网络结构。早期的关系是通过语法规则和人工设计的语义规则进行抽取。这些方法与基于规则的学习方式相同,需要大量领域专家知识和脑力劳动。近期关系抽取的方法重点关注半监督、无监督及远程监督的关系抽取模型,如图4所示。Bootstrapping 方法利用大量未标记的词典和种子实例,来学习关系抽取的模式。第一个Bootstrapping 为Brin提出的DIPRE(Dual Iterative Pattern Relation Expansion)[21]。Sun 和 Grishman 提出基于主动学习的关系抽取方法LGCo-Testing[22]。Qian等人[23]提出一种双语言主动学习方法。随着深度学习的迅猛发展,早期一些基于CNN的监督学习方法被研究[24]。这些方法需要手工在词典里进行标注。随着Word2vec[25]的诞生,大量自然语言处理任务开始应用预训练词向量对文本进行建模。虽然远程监督[26]比词向量的概念早,但是正因为词向量而取得突破。Zeng 等人[27-28]先后在训练CNN网络中引入预训练词向量,Maxpooling,Piecewise Pooling实现多实例的远程关系分类。随后,一些基于Attention机制[29],RNN[30],LSTM[31],Transformer[32]的关系分类方法也被提出。
上述方法都是将文本作为一维序列数据进行建模,然而实体间的联系是多对多的关系,因此使用GNN来进行关系间的推理十分合适。近期Zhu 等人[33]提出了基于GNN的关系抽取模型GP-GNN。GP-GNN通过文本序列中的实体,构建全连接图,然后分别通过边编码模块进行关系的分类。Zhang [34]等人提出一个基于知识图谱嵌入的少样本关系抽取方法,基于GCN学习知识图谱的嵌入表示。在关系抽取过程中,语法依存树通常可以引入语法规则,从而提升模型性能,但是如果语法依存树过于复杂,则需要进行减枝。Zhang 等人[34]提出一种基于GCN学习的依存树减枝模型。
2.3 知识融合
通过实体抽取和关系抽取后得到的知识图谱,包含结构化的实体、关系、属性信息及事实。但是初步的信息抽取过程产生的知识图谱仍然存在很多冗余和错误信息。知识加工即指对知识图谱中的知识进行清理、整合,提高知识的质量,形成层次化和逻辑化的高可用性知识图谱。
2.3.1 实体链接
实体链接,又称为实体消歧,旨在将文本中出现的指代链接至具体的实体。例如,“爱因斯坦获得了1921年的诺贝尔奖”,“爱因斯坦”这个指代应该被链接到“阿尔伯特·爱因斯坦”这个实体。由于深度学习模型的优良泛化性能和避免人工特征等优势,近期的实体链接模型均基于神经网络模型。Yamada 等人[35]将词义和实体一同嵌入至连续空间中,通过判断词义和实体的相似度进行实体消歧。Gupta 等人[36]则进一步融合多元信息,由实体属性、实体类型等来学习词义的语义特征。这两种方法仅仅局部地学习词语和实体的语义特征,不能实现集体实体链接。为处理这个问题,Nguyen 等人[37]提出了基于词向量CNN编码局部语义和RNN编码全局实体共现的框架。但是基于全局模型的方法通常需要近似优化技术,例如随机游走、减枝等。这些方法不可微分,因此不能用反向传播来优化模型。然而,GCN可以全局地学习实体和词语之间的关系。由此,Cao 等人[38] 提出了基于GCN的NCEL模型,实现对实体图的编码。Xin 等人[39]进一步使用图注意力网络来集成局部和全局特征进行判别表示。
2.3.2 实体对齐
实体对齐指在多个异构知识图谱中,对齐某个实体,以融合相同或类似的知识。形式化描述为:给定两个实体集合ε1和ε2,实体对齐目标为找到一个对齐集合A={(e1, e2)∈ε1×ε2|e1≡e2}。基于嵌入的实体对齐会计算实体对的相似度,从而判定兩个实体是否等价。IPTransE [40]将所有实体映射到一个统一的空间,通过翻译模型e1+r(ε1ε2)-e2、线性转换模型M(ε1ε2)e1-e2和共享实体参数,迭代地去求解累计误差。BootEA[41]提出一个Bootstrapping方法以增量训练方式进行实体对齐。MultiKE[42]同样基于嵌入的方法,但是同时学习实体的名称和实体属性嵌入,通过设计的跨知识图谱的推理方法进行实体的对齐。
上述方法的基本思想都是基于同一个框架的跨语言知识联合学习,这需要平衡两个损失函数。如果要引入属性信息,还需要设计额外的框架,而GCN可以有效地解决这个问题。Wang 等人[43]提出利用GCN进行跨语言的知识图谱实体对齐。随后Cao 等人[44]也同样提出用GCN来进行实体对齐任务,不过他们设计的是多通道GCN,具有更好的鲁棒性。Xu 等人[45]将跨语言知识图谱的对齐任务抽象为图匹配问题,然后利用图注意力网络来构建模型。
3 知识图谱表示学习
知识图谱是一种大规模的稀疏有向图,因此如何在计算过程中对知识图谱中的要素进行合理的表示是知识计算的核心问题。传统的基于RDF,OWL语言的离散表示方式会带来数据稀疏的问题,同时计算效率较低。近期以深度学习为代表的表示学习技术在图像、语音等任务上取得突破。其核心在于利用神经网络学习数据的低维连续实值向量或矩阵。
本节重点综述近期知识图谱表示算法,并以几何深度学习的视角分析其学习过程。
3.1 基于欧式空间的嵌入表示
TransE是诸多翻译模型的鼻祖,其将实体和关系嵌入至p范数空间。给定一个事实(s,r,o),那么该模型假设头实体向量经关系向量平移后,等价于尾实体s+r≈o,因此其距离函数为
f(s,r,o)=s+r-op
通常嵌入空间为2范数空间,即欧式空间。那么实体间的距离便决定了实体之间的相似度。尽管TransE[46]是一个简单且高效的算法,但是其简单的嵌入距离函数不能表达复杂的语义关系,这让TransE在处理1-N,N-1,N-N等多对多关系时表现较差。随后,TransR[47],TransH[48]分别对其嵌入的空间做了改进。TransR认为应该将实体和关系分别嵌入至两个空间,如图5所示。用一个转移矩阵来关联两个嵌入空间,其距离函数为
3.2 基于非欧空间的嵌入表示
上节探讨了基于欧式空间的低维嵌入表示, 然而欧式空间仍然不足以表达实体和关系间复杂的关系,因此很多研究者将视线转移到了一些非欧空间的嵌入学习。
TransA [50]选择将实体和关系嵌入至马氏距离空间:
TransG [51],KG2E[52]等将实体和关系视为服从高斯分布的随机变量,以KL散度来度量随机变量的相似度。
特别地,TransG进一步考虑高斯混合模型来对关系进行建模,从而解决翻译模型中的多语义问题。
ManifoldE[53]提出基于流形学习的嵌入框架,如图6所示。该方法是一个可以将之前翻译模型点式建模的方法拓展为流形式建模,从而解决之前模型在代数系统病态的问题。該方法考虑了两个流形系统: 球形和超平面形。
TorusE[54]指出,TransE的平移相似性假设与其正则化冲突。为了解决TransE这个问题,作者将实体和关系嵌入至环面上,而环面则属于是紧李群,从而可以更加致密地表示嵌入向量,并且避免正则化。
RotatE[55]通过欧拉恒等式,提出一个酉复数,可以被视为在复数超平面上的一个旋转操作。根据这个原理,作者定义一个旋转操作将实体和关系向量嵌入至复数空间,实现对称关系、 非对称关系、 逆关系、 复合关系的建模。
3.3 线性/双线性模型
RESCAL[56]是一个较早的双线性模型,学习实体和关系的隐层特征。其得分函数定义如下:
istMult[57]是随后用对角矩阵简化了RESCAL模型,其得分函数如下:
f(s,r,o)=sTMro
此模型虽然在当时取得了较好的效果,但是却不能对非对称关系进行建模。随后HolE[58]结合了RESCAL的表达力和DistMult的简化能力,其定义了一个循环相关二元运算:
[s*o]i=∑d-1k=0[s]k·[o](k+i)mod d
其得分函数可以对非对称及对称关系进行建模:
f(s,r,o)=rT(s*o)
ComplEx[59]将实体和关系嵌入这复数空间拓展了DistMult。由于实体和关系的复数表示,该方法可以
对非关系进行建模,同时获得更好的表达力[60]。
f(s,r,o)=Re(sTdiag(r)o)
TuckER[61]提出将知识图谱视为一个张量,通过进行张量的TuckER分解,得到对实体和关系的隐层表示。作者还指出, RESCAL,DistMult,ComplEx是TuckER的特殊情形。
3.4 神经网络模型
Dong 等人[3]提出用多层感知机来学习实体和关系向量的隐式特征。其得分函数如下:
f(s,r,o)=wTtanh(M1s+M2r+M3o)
ConvE [62]利用2D CNN对拼接实体和关系向量提取特征,证明了CNN也可以学习到实体和关系之间的非线性关联特征,从而进行知识图谱补全。其得分函数为
f(s,r,o)=σ(ves(σ[Ms; Mr]·ω))W)t
随后ConvKB[63]在ConvE的基础上,引入经典翻译模型的语义平移相似性。其得分函数如下:
f(s,r,o)=concat(σ([s,r,o]·ω))·W
3.5 图神经网络模型
Welling课题组在提出GCN[13]之后,紧接着在知识图谱上提出了RGCN[64],将GCN拓展到了多关系图的学习任务上。其编码器的定义如下:
其中xli为第l层的隐层表示,N ri是节点周围的邻居节点集合。整个图卷积以消息传递机制进行实现。
RGCN使用与DistMult相同的解码器。
SACN[65]将ConvE和GCN融合起来,实现结构可感知的端到端模型。
4 知识图谱推理
知识的一个特性就是“知识+知识=新的知识”,因此基于知识图谱的推理非常重要。在许多知识图谱相关的应用中,需要基于知识图谱已有的知识,推理得到未知的知识,提高智能系统对于实体、关系间的联想预测能力。同时知识图谱的另一个重要特点是不完全性。因此,如何基于已有知识,补全知识图谱,以达到知识图谱的自我更新和演化。
4.1 传统推理方法
早期在专家系统或者知识库中进行推理是基于规则的推理。这些规则以一阶逻辑的方式进行描述。例如,在NELL[66]中,其知识推理模块基于一阶关系学习的方式。通过人工筛选的逻辑或者规则,即可进行部署用于获取、补全新的知识。Bühmann[67]提出知识库上的频繁原子模式挖掘方法。在具体知识库中查询相关匹配数据记录,根据正确性统计的得分判断新知识的真伪。Pujara[68]提出基于本体约束的分块概率软逻辑推理方法。
传统的知识推理方法主要建立在规则、统计、本体上。这些方法准确率较高,解释性也很好,但是这些方法的可计算性较差,不能端到端进行知识的推理。同时,推理规则的设计筛选依赖于专家知识。面对不同领域,或者更大规模的知识图谱时,其泛化性较差。
4.2 知识图谱单步推理
知识图谱的单步推理指基于已观测的知识,推出事实三元组中的缺失成分。例如(s,?,o)型为给定头尾实体,推理这两个实体可能存在的关系。(?,r,o)或者(s,r,?)是给定一个实体,推理可能匹配的实体。这种任务也被称为知识图谱的链接预测。
4.2.1 基于分布式表示模型
上述的知识表示模型均以链接预测的形式进行模型的评估。因此知识表示学习得到的分布式向量,可以直接进行知识推理。在分布式表示学习过程中,会定义一个得分函数f(s,r,o),用于计算给定事实存在的可能性分数:
y(s,r,o)=σ(f(s,r,o))
通常,这种对预测基于开放世界假设,即认为知识图谱中未记录的知识是不确定的。因此,其优化通常是对排序损失函数[46]进行优化:
在推理过程中,根据候选的实体或关系,计算事实的得分函数置信度,学习一个阈值来判断事实是否存在。
基于分布式表示的模型还有一个特点就是可以灵活地融合其他信息。Krompaβ[69]将实体的类型信息融入至嵌入模型中。Long [70]配合词向量方法,进行知识图谱推理。Xie [71]利用预训练的图像向量来融入实体的图像信息。这些方法都基于对额外信息的嵌入表示学习。
4.2.2 混合规则的推理模型
尽管分布式表示的推理模型的可计算性好,但是其很大程度上缺乏解释性。因此Wang 等人[72]提出以整形线性规划(ILP)的方式将逻辑规则和物理规则融入至分布式表示模型中,提高模型的可解释性。Demeester 等人[73]在关系嵌入学习中加入一阶逻辑约束作为正则项,并提出序学习概念,用于获取偏序关系的学习。具体来说,如果一个关系r1能够推出r2 , 那么让r2的关系向量的每一维比r1小。该约束可以得到全局一致的关系表示。
4.2.3 基于图神经网络的推理模型
前文提到的RGCN可以有效地学习知识图谱中实体和关系的拓扑特征。目前基于图神经网络的知识图谱推理模型均基于自编码机结构,即分为编码器和解码器。RGCN的解码器基于DistMult,定义如下:
f(s,r,o)=sTRro
SACN[65]在加权GCN的编码器的基础上,进一步扩展了编码器。其解码器为Conv-TransE结构,在解码过程中融入翻译魔性的语义平移相似性。
上述公式构成了一个核向量M(s,r)=[mc(s,r,o),…,mc(s,r,Fl-1)]。由此可以定义得分函数:
4.3 知识图谱多步推理
单步推理可以视为知识推理k=1时的情形。多步推理不仅在问答系统上扮演重要的角色,同时可以给出知识推理的过程。例如从“(梅西,效力于,巴塞罗那俱乐部,属于,西班牙甲级联赛)”这一条链条中推理得出(梅西,效力于,西班牙甲级联赛)。反之,多步推理可以通过(梅西,效力于,西班牙甲级联赛)推断(梅西,效力于,巴塞罗那俱乐部,属于,西班牙甲级联赛)的可能性。
4.3.1 基于路径的多步推理
路径指在知识图谱中遍历一条从一个实体到另外一个实体的序列。Lao[74]提出PRA算法,其利用随机游走,在多关系图上进行遍历路径模式。接着将挖掘到的路徑模式作为特征向量。利用逻辑回归进行关系分类。随后Lao[75]进一步拓展了PRA算法,提出了受限和加权随机游走的路径产生方式。Liu [76]提出了层次化的随机游走模型HiRi在大规模的知识图谱上进行学习。HiRi 中的随机游走分为两层:上层基于PRA,旨在学习全局的路径特征;下层用于抽取子图的局部特征。
4.3.2 基于分布式表示的多步推理
尽管大部分的分布式表示主要关注实现单步推理,但是通过路径约束,分布式表示也可以实现多步推理。Guu[77]将多步推理视为一个在知识图谱向量空间的组合问题。直接建模中间关系,加入实体的向量分布正则项,然后学习多步的关系模式。Lin [78]提出基于TransE的多步关系约束的PTransE。该方法认为推理路径上关系的转移为加和、 连乘等操作形式,然后将特定操作组合后的路径作为得分函数的输入,从而对多步推理的路径进行建模。
4.3.3 基于强化学习的多步推理
多步推理是一个序列决策问题,因此可以用强化学习来学习这个过程。基于策略的强化学习的智能体通过知识图谱环境之间的交互来学习推理路径[79]。DeepPath[80]是首先提出的基于强化学习的多步推理模型。但是其只能在给定两个实体的情况下去推测中间的关系链。MINERVA[81]改进了这一点,并将LSTM引入至策略函数中,用于编码序列历史信息。M-Walk[82]引入了蒙特卡罗树搜索到强化学习模型的搜索推理路径中,有效降低了路径稀疏问题,同时其历史信息由RNN来编码。Multi-Hop[83]指出强化学习过程的奖赏函数需要人为定义。为了解决这个问题,该方法提出了一个可学习的奖赏函数,从而可以自适应地调节路径的探索, 同时其还在策略选择时采用了类似Dropout的技术。
4.3.4 基于图神经网络的多步推理
图神经网络展现了对序列数据的建模能力。Xu[84]提出了基于图神经网络的序列建模方法—Graph2seq。该方法利用GCN将输入的图映射为一个向量,然后利用LSTM将隐藏表示解码为一条序列。Venkatakrishnan[85]在同期提出了Graph2seq。该方法将图表示为一条有限时间序列,通过不限制表示的维数,可以自由地扩展图的属性维数和节点维数。同时该方法是可逆的,可以实现从图到序列,也可以从序列到图。
此外,问答系统的多跳推理问题也可以基于图神经网络建模。Qiu[86]提出动态图网络(DFGN),实现基于文本的问答。该方法在文档上构建动态图网络,然后利用动态图网络进行多跳推理。
5 知识图谱的典型应用
丰富的结构化知识可以有效协助AI系统,但是如何将知识整合进面向真实需求的应用仍然是一个挑战。
5.1 自然语言理解
人类语言是由情绪表达和事实表达组成。因此知识感知的语言理解将更好地帮助AI系统理解语言的背景事实。Logan[87]提出基于知识图谱的语言模型。该方法可以学习到未出现在语料库中的词义。
ERNIE[88]利用知识图谱来增强BERT的训练效果。
5.2 问答系统
问答系统是人类和AI对话的重要组成部分,其目的在于可以根据提问做出相应回答。而知识图谱也可以理解为一个大规模的常识库,因此, 知识图谱可以简化问答的模式,即在知识图谱上进行推理。问答系统目前已经成功应用在智能客服、语音助手等业务场景,例如苹果Siri、小米公司的小爱同学等。
5.3 推荐系统
推荐系统指在电子购物过程中,服务端通过用户的喜好推荐用户的潜在购买目标。目前基于用户历史信息的协同过滤算法得到了广泛的研究,在各大电商、视频、信息流推荐中取得了巨大的经济效益。然而,推荐系统需要解决稀疏性问题和冷启动问题。将知识图谱集成为外部信息,可使推荐系统具有常识推理能力。
5.4 信息检索
在信息检索领域知识图谱起着非常重要的作用。Google公司基于其Knowledge Vault有效提高了搜索场景的准确率和交互性。当查询被输入至搜索引擎时,搜索引擎可以利用知识图谱推理得出精确回答,同时在搜索结果的右侧显示该查询的深层信息。其他类似的还有百度的中文知识图谱搜索、搜狗的知立方等。
6 研究展望
近年来,知识图谱引发了巨大的关注,大量的工作发展了知识图谱相关理论和技术。然而,目前对知识图谱研究和认知离它的愿景还有较大距离,仍有许多挑战和亟待解决的问题。
6.1 复杂推理
目前,面向知识图谱的推理已经大量启用分布式表示学习方法。用于知识表示和推理的数值计算,需要连续的向量空间来捕获实体和关系的语义。然而基于嵌入的方法在复杂的逻辑推理上仍有局限性。该类方法需要精心设计嵌入的空间来捕捉实体和关系的语义特征,这在一定程度上仍然是耗费大量专家脑力的。随着GNN的研究迅猛发展,人们对图的拓扑特征学习认识更加深入,基于图神经网络的研究会进一步发展知识图谱技术。其中所需要面对的最大问题是如何处理知识图谱的异质性。
值得进一步探讨关系路径和符号逻辑的两个方向。诸如循环关系路径编码、基于GNN的消息传递、基于增强学习的路径查找和推理等一些有前途的方法,对于处理复杂的推理有广阔的研究前景。
6.2 规模性
通用型知识图谱通常会包含海量的事实和实体。因此如何将现有的知识图谱方法推广到大规模知识图谱是这些方法能够得到应用的前提。一方面,可以从神经网络减枝、网络结构搜索等方法,改善目前的知识获取、知识推理算法; 另一方面,需要在研究新的方法时考虑知识图谱的规模性。
6.3 多源信息融合及多模态学习
知识图谱中的属性信息为异构数据,如文本、图片、音频、视频等。通过融合多种属性信息,可以弥补稀疏知识的学习问题。同时,通过多模态数据的学习,可以进一步拓展知识图谱的应用,例如从知识图谱到图片,知识图谱到视频等。
6.4 知识图谱的隐私保护
知识图谱的构建过程需要耗费大量资源,各个公司出于对数据保护的需求,很难共享构建知识图谱, 因此,如何在基于数据保护的情况下,构建跨越数据孤岛的知识图谱是值得探讨的问题。聯邦学习[89]正是解决这个问题的重要研究方向。联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,跨越数据孤岛,提升AI模型的效果。
7 知识图谱与航空军事
随着现代军事信息化的发展,在航空领域涉及到海量的军事大数据。因此,如何有效将这些军事数据进行结构化,是知识图谱在航空军事应用的核心问题。基于军事知识赋能的人工智能系统,可以有效提高军事决策的智能性和便捷性。例如,可以通过航空军事知识图谱,建立航空武器装备的百科知识图谱,或者基于航空领域知识图谱的问答系统,方便用于军事教学、航空对抗训练等; 建立基于知识图谱的航空战斗态势研判系统,可以辅助指挥员在特定场景内分析战场态势,并通过典型示例简单直观和合理的演示战场态势,协助进行多军种,复杂战场的联合作战; 还可以基于知识的目标识别和目标追踪技术,在空域、 海域、 陆域中识别重要单位。总之,在航空军事中,仍鲜有知识图谱应用的相关研究,亟需多学科交叉,填补研究空白。
8 結 束 语
随着AI技术研究的持续发展,深度学习更加关注数据的几何特征,几何深度学习应运而生。图神经网络的兴起引发广泛的研究兴趣。而知识图谱作为典型的异构图数据,在图神经网络的发展受益匪浅。本文基于几何深度学习的视角,重点关注图神经网络和低维嵌入的空间几何特征,总结了近期知识图谱关键技术中知识获取,知识表示和知识推理的重点研究。大量的研究表明图神经网络在知识图谱上有广阔的前景。然而,目前此方向的研究仍处于发展阶段,许多潜在的研究问题都值得以图神经网络的方式去探索。相信知识图谱将在未来的航空军事领域扮演重要角色。
参考文献:
[1] 徐增林,盛泳潘,贺丽荣,等. 知识图谱技术综述[J]. 电子科技大学学报,2016,45(4):589-606.
Xu Zenglin,Sheng Yongpan,He Lirong,et al.Review on Know-ledge Graph Techniques[J].Journal of University of Electronic Science and Technology of China,2016,45(4):589-606.(in Chinese)
[2] 刘峤,李杨,段宏,等. 知识图谱构建技术综述[J]. 计算机研究与发展,2016,53(3):582-600.
Liu Qiao,Li Yang,Duan Hong,et al.Knowledge Graph Construction Techniques[J].Journal of Computer Research and Development,2016,53(3): 582-600.(in Chinese)
[3] Dong X,Gabrilovich E,Heitz G,et al. Knowledge Vault:A Web- Scale Approach to Probabilistic Knowledge Fusion[C]∥Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2014:601-610.
[4] Bollacker K D,Evans C,Paritosh P,et al. Freebase:A Collaboratively Created Graph Database for Structuring Human Knowledge[C]∥ Proceedings of the ACM SIGMOD International Conference on Management of Data,2008.
[5] Wang Z,Jiang J J,Wu Y,et al. Learning Sparse and Identity-Preserved Hidden Attributes for Person Re-Identification[J]. IEEE Transactions on Image Processing,2019,29(1):2013-2025.
[6] Wang Z,Hu R M,Liang C,et al. Zero-Shot Person Re-Identification via Cross-View Consistency[J]. IEEE Transactions on Multimedia,2015,18(2):260-272.
[7] Kansal K,Subramanyam A V,Wang Z,et al. SDL:Spectrum-Disentangled Representation Learning for Visible-Infrared Person Re-Identification[J/OL]. IEEE Transactions on Circuits and Systems for Video Technology.DOI:10.1109/tcsvt.2019.2963721.
[8] Wang Z,Hu R M,Chen C,et al. Person Reidentification via Discrepancy Matrix and Matrix Metric[J]. IEEE Transactions on Cybernetics,2018,48(10):3006-3020.
[9] Zeng Z L,Wang Z X,Wang Z,et al. Illumination-Adaptive Person Re-Identification[EB/OL].(2019-05-11)[2020-03-04]. https: ∥arxiv.org/pdf/1905.04525v1.pdf.
[10] Bronstein M M,Bruna J,LeCun Y,et al. Geometric Deep Lear-ning:Going Beyond Euclidean Data[J]. IEEE Signal Processing Magazine,2017,34(4):18-42.
[11] Wu Z H,Pan S R,Chen F W,et al. A Comprehensive Survey on Graph Neural Networks[EB/OL]. (2019-12-04)[2020-03-04]. https: ∥arxiv.org/pdf/1901.00596.pdf.
[12] Shortliffe E H,Davis R,Axline S G,et al. Computer-Based Consultations in Clinical Therapeutics:Explanation and Rule Acquisition Capabilities of the MYCIN System[J]. Computers and Biomedical Research,1975,8(4):303-320.
[13] Kipf T N,Welling M. Semi-Supervised Classification with Graph Convolutional Networks[EB/OL]. (2017-02-22)[2020-03-04]. https: ∥arxiv.org/pdf/1609.02907.pdf.
[14] Chiu J P C,Nichols E. Named Entity Recognition with Bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics,2016,4:357-370.
[15] Lample G,Ballesteros M,Subramanian S,et al. Neural Architectures for Named Entity Recognition[EB/OL]. (2016-04-07)[2020-03-04]. https: ∥arxiv.org/pdf/1603.01360.pdf.
[16] Xia C Y,Zhang C W,Yang T,et al. Multi-Grained Named Entity Recognition[EB/OL]. (2019-01-20) [2020-03-04]. https: ∥arxiv.org/pdf/1906.08449.pdf.
[17] Yadav V,Sharp R,Bethard S. Deep Affix Features Improve Neural Named Entity Recognizers[C]∥Proceedings of the Seventh Joint Conference on Lexical and Computational Semantics,2018: 167-172.
[18] Gui T,Zou Y C,Zhang Q,et al. A Lexicon-Based Graph Neural Network for Chinese NER[C]∥Proceedings of the 2019 Conference on EMNLP and the 9th IJCNLP,2019.
[19] Ding R X,Xie P J,Zhang X Y,et al. A Neural Multi-Digraph Model for Chinese NER with Gazetteers[C]∥Proceedings of the 57th ACL,2019.
[20] Sui D B,Chen Y B,Liu K,et al. Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network[C]∥Proceedings of the 2019 Conference on EMNLP and the 9th IJCNLP,2019: 3830-3840.
[21] Brin S. Extracting Patterns and Relations from the World Wide Web[M]. The World Wide Web and Databases, Springer Berlin Heidelberg, 1998: 172-183.
[22] Sun A,Grishman R. Active Learning for Relation Type Extension with Local and Global Data Views[C]∥Proceedings of the 21st ACM International CIKM, 2012:1105-1112.
[23] Qian L H,Hui H T,Hu Y N,et al. Bilingual Active Learning for Relation Classification via Pseudo Parallel Corpora[C]∥ Proceedings of the 52nd ACL, 2014:582-592.
[24] Liu C Y,Sun W B,Chao W H,et al. Convolution Neural Network for Relation Extraction[C]∥International Conference on Advanced Data Mining and Applications, 2013:231-242.
[25] Mikolov T,Sutskever I,Chen K,et al. Distributed Representations of Words and Phrases and Their Compositionality[C]∥ Neural Information Processing Systems,2013:3111-3119.
[26] Riedel S,Yao L M,Mccallum A. Modeling Relations and Their Mentions without Labeled Text[C]∥Joint European Conference on Machine Learning and Knowledge Discovery in Databases,Barcelona, Spain, 2010: 148-163.
[27] Zeng D J,Liu K,Lai S W,et al. Relation Classification via Convolutional Deep Neural Network[C]∥25th International Conference on Computational linguistics, Dublin, Ireland, 2014:2335- 2344.
[28] Zeng D J,Liu K,Chen Y B,et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]∥Proceedings of the Conference on EMNLP,2015.
[29] Zhou P,Shi W,Tian J,et al. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification[C]∥Proceedings of the 54th ACL,2016: 207-212.
[30] Vu N T,Adel H,Gupta P,et al. Combining Recurrent and Convolutional Neural Networks for Relation Classification[EB/OL]. (2016-05-24) [2020-03-04]. https: ∥arxiv.org/pdf/1605.07333.pdf.
[31] Miwa M,Bansal M. End-to-End Relation Extraction Using LSTM on Sequences and Tree Structures[EB/OL]. (2016-06-08) [2020-03-04]. https: ∥arxiv.org/pdf/1601.00770.pdf.
[32] Du J H,Han J G,Way A,et al. Multi-Level Structured Self-Attentions for Distantly Supervised Relation Extraction[EB/OL]. (2018-09-03) [2020-03-04]. https: ∥arxiv.org/pdf/1809.00699.pdf.
[33] Zhu H,Lin Y K,Liu Z Y,et al. Graph Neural Networks with Generated Parameters for Relation Extraction[EB/OL]. (2019-02-02) [2020-03-04]. https: ∥arxiv.org/pdf/1902.00756.pdf.
[34] Zhang Y H,Qi P,Manning C D. Graph Convolution over Pruned Dependency Trees Improves Relation Extraction[EB/OL].(2018-09-26)[2020-03-04]. https: ∥arxiv.org/pdf/1809.10185.pdf.
[35] Yamada I,Shindo H,Takeda H,et al. Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation[C]∥Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning,2016.
[36] Gupta N,Singh S,Roth D. Entity Linking via Joint Encoding of Types,Descriptions,and Context[C]∥Proceedings of the Conference on Empirical Methods in Natural Language Processing,2017.
[37] Nguyen T H,Fauceglia N R,Muro M R,et al. Joint Learning of Local and Global Features for Entity Linking via Neural Networks[C]∥Proceedings of the 26th International Conference on Computational Linguistics,2016: 2310-2320.
[38] Cao Y X,Hou L,Li J Z,et al. Neural Collective Entity Linking[C]∥Proceedings of the 27th International Conference on Computational Linguistics,2018: 675-686.
[39] Xin K X,Hua W,Liu Y,et al. Entity Disambiguation Based on Parse Tree Neighbours on Graph Attention Network[C]∥ Proceedings of the 20th International Conference on Web Information Systems Engineering,2019: 523-537.
[55] Sun Z Q,Deng Z H,Nie J Y,et al. RotatE:Knowledge Graph Embedding by Relational Rotation in Complex Space[EB/OL]. (2019-02-26)[2020-03-04]. https: ∥arxiv.org/pdf/1902.10197.pdf.
[56] Nickel M,Tresp V,Kriegel H P. A Three-Way Model for Collective Learning on Multi-Relational Data[C]∥Proceedings of the 28th ICML,2011.
[57] Yang B S,Yih W T,He X D,et al. Embedding Entities and Relations for Learning and Inference in Knowledge Bases[EB/OL]. (2015-08-29) [2020-03-04]. https: ∥arxiv.org/pdf/1412.6575.pdf.
[58] Nickel M,Rosasco L,Poggio T. Holographic Embeddings of Knowledge Graphs[C]∥ Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence,2016: 1955-1961.
[59] Trouillon T,Welbl J,Riedel S,et al. Complex Embeddings for Simple Link Prediction[C]∥ Proceedings of the 33rd ICML,2016:2071-2080.
[60] Wan G J,Du B,Pan S R,et al. Adaptive Knowledge Subgraph Ensemble for Robust and Trustworthy Knowledge Graph Completion[J]. World Wide Web,2020, 23(1):471-490.
[61] Trouillon T,Dance C R,Gaussier ,et al. Knowledge Graph Completion via Complex Tensor Factorization[J]. Journal of Machine Learning Research,2017,18 (130): 1-38.
[62] Dettmers T,Minervini P,Stenetorp P,et al. Convolutional 2D Knowledge Graph Embeddings[C]∥ Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence,2018: 1811-1818.
[63] Nguyen D Q,Nguyen T D,Phung D. A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network[C]∥Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2018: 327-333.
[64] Schlichtkrull M,Kipf T N,Bloem P,et al. Modeling Relational Data with Graph Convolutional Networks[C]∥European Semantic Web Conference:The Semantic Web, 2018: 593-607.
[65] Shang C,Tang Y,Huang J,et al. End-to-End Structure-Aware Convolutional Networks for Knowledge Base Completion[C]∥Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence,2019: 3060-3067.
[66] Carlson A,Betteridge J,Kisiel B,et al. Toward an Architecture for Never-Ending Language Learning[C]∥ Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence,2010.
[67] Bühmann Lorenz,Lehmann Jens. Pattern Based Knowledge Base Enrichment[C]∥International Semantic Web Conference:The Semantic Web,2013:33-48.
[68] Pujara J,Miao H,Getoor L,et al. Ontology-Aware Partitioning for Knowledge Graph Identification[C] ∥Proceedings of the Workshop on Automated Knowledge Base Construction,2013: 19-24.
[69] Krompaβ D,Baier S,Tresp V. Type-Constrained Representation Learning in Knowledge Graphs[C]∥International Semantic Web Conference:The Semantic Web,2015: 640-655.
[70] Long T,Lowe R,Cheung J C K,et al. Leveraging Lexical Resources for Learning Entity Embeddings in Multi-Relational Data[EB/OL].(2016-05-18) [2020-03-04]. https: ∥arxiv.org/pdf/1605.05416v1.pdf.
[71] Xie R B,Liu Z Y,Luan H B,et al. Image-Embodied Knowledge Representation Learning[EB/OL].(2017-05-22)[2020-03-04]. https: ∥arxiv.org/pdf/1609.07028v2.pdf.
[72] Wang Q,Wang B,Guo L. Knowledge Base Completion Using Embeddings and Rules[C]∥ Proceedings of the 24th IJCAI,2015:1859-1865.
[73] Demeester T,Rocktschel T,Riedel S. Regularizing Relation Representations by First-Order Implications[C]∥ Proceedings of the 5th Workshop on Automated Knowledge Base Construction, 2016.
[74] Lao N,Cohen W W. Relational Retrieval Using a Combination of Path-Constrained Random Walks[J]. Machine Learning,2010,81(1):53-67.
[75] Lao N,Mitchell T,Cohen W W. Random Walk Inference and Learning in a Large Scale Knowledge Base[C]∥Proceedings of the Conference on EMNLP,2011:529-539.
[76] Liu Q,Jiang L Y,Han M H,et al. Hierarchical Random Walk Inference in Knowledge Graphs[C]∥Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval,2016:445-454.
[77] Guu K,Miller J,Liang P. Traversing Knowledge Graphs in Vector Space[EB/OL].(2015-08-19)[2020-03-04]. https: ∥arxiv.org/pdf/1506.01094.pdf.
[78] Lin Y K,Liu Z Y,Luan H B,et al. Modeling Relation Paths for Representation Learning of Knowledge Bases[C]∥Proceedings of the Conference on EMNLP,2015: 705-714.
[79] Wan G J,Du B,Pan S R,et al. Reinforcement Learning Based Meta-Path Discovery in Large-Scale Heterogeneous Information Networks[C]∥ The Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020.
[80] Xiong W H,Hoang T,Wang W Y. DeepPath:A Reinforcement Learning Method for Knowledge Graph Reasoning[C]∥Proceedings of the Conference on EMNLP,2017: 575-584.
[81] Das R,Dhuliawala S,Zaheer M,et al. Go for a Walk and Arrive at the Answer:Reasoning over Paths in Knowledge Bases Using Reinforcement Learning[EB/OL]. (2018-11-30) [2020-03-04]. https: ∥arxiv.org/pdf/1711.05851.pdf.
[82] Shen Y L,Chen J S,Huang P S,et al. M-Walk:Learning to Walk over Graphs Using Monte Carlo Tree Search[C]∥ Confe-rence on NeuIPS, 2018: 6786-6797.
[83] Lin X V,Socher R,Xiong C M. Multi-Hop Knowledge Graph Reasoning with Reward Shaping[C]∥Proceedings of the Confe-rence on Empirical Methods in Natural Language Processing,2018.
[84] Xu K,Wu L F,Wang Z G,et al. Graph2seq:Graph to Sequence Learning with Attention-Based Neural Networks[EB/OL].(2018-12-03)[2020-03-04]. https: ∥arxiv.org/pdf/1804.00823.pdf.
[85] Venkatakrishnan S B,Alizadeh M,Viswanath P. Graph2seq:Scalable Learning Dynamics for Graphs[EB/OL].(2018-10-09)[2020-03-04]. https: ∥arxiv.org/pdf/1802.04948.pdf.
[86] Qiu L,Xiao Y X,Qu Y R,et al. Dynamically Fused Graph Network for Multi-Hop Reasoning[C]∥Proceedings of the 57th ACL,2019: 6140-6150.
[87] Logan R,Liu N F,Peters M E,et al. Baracks Wife Hillary:Using Knowledge Graphs for Fact-Aware Language Modeling[C]∥Proceedings of the 57th ACL,2019:5962-5971.
[88] Zhang Z Y,Han X,Liu Z Y,et al. ERNIE:Enhanced Language Representation with Informative Entities[C]∥Proceedings of the 57th ACL,2019: 1441-1451.
[89] Yang Q,Liu Y,Chen T J,et al. Federated Machine Learning:Concept and Applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST),2019,10(2):1-19.
A Review of Knowledge Graph Techniques from
the View of Geometric Deep Learning
DuBo1,2*,Wan Guojia1,2,Ji Ying1,2
(1. School of Computer Science, Wuhan University, Wuhan 430072,China;
2. Artificial Intelligence Institute, Wuhan University,Wuhan430072, China)
Abstract:Knowledge Graphs carry structured human knowledge in the term of graph. As a medium for incorporating knowledge into Artificial Intelligence systems, the study of knowledge graph is becoming increasingly popular. knowledge graphs have been being emerging in many AI-related applications, such as question answering systems, information retrieval, natural language processing, recommendation systems, etc. However, the traditional deep learning approaches fail to handle non-European data such as knowledge graphs. With the rapid development of graph neural networks, geometric deep learning has become an important theory for modeling non-European data. From the perspective of geometric deep learning and focusing on graph neural networks, this paper summarizes the recent research progress on key knowledge graph techniques based on graph neural networks. Specifically, this paper summarizes the three core research fields of knowledge acquisition, knowledge representation, and knowledge reasoning on knowledge graphs, and discuss future research directions and prospects.
Key words:knowledge graph; geometric deep learning; artificial intelligence; graph neural network; knowledge reasoning
收稿日期: 2020-03-04
基金項目: 国家自然科学基金项目(61822113); 国家重点研发计划(2018YFA060550); 湖北省自然科学基金项目(2018CFA050); 湖北省科技厅重大专项(2019AEA170)
作者简介: 杜博(1986-),男,教授,博士生导师,国家自然科学基金优秀青年科学基金获得者,研究方向是人工智能、机器视觉、知识图谱。
E-mail: dubo@whu.edu.cn
引用格式: 杜博,万国佳,纪颖. 基于几何深度学习的知识图谱关键技术研究进展[ J].
航空兵器,2020, 27( 3): 1-10.
Du Bo, Wan Guojia, Ji Ying. A Review of Knowledge Graph Techniques from the View of Geometric Deep Learning[ J]. Aero Weaponry,2020, 27( 3): 1-10.( in Chinese)