APP下载

基于人工智能的知识图谱构建技术及应用

2022-05-10邓智嘉

无线电工程 2022年5期
关键词:向量实体数据库

邓智嘉

(1.中国人民解放军91776部队,北京 100161;2.复杂舰船系统仿真重点实验室,北京 100161)

0 引言

整合、归纳和学习海量互联网信息是人工智能的研究方向之一,旨在使系统通过自主学习来获得认识、分析和解决复杂问题的能力。近年来,知识图谱(Knowledge Graphs,KG)[1]由于可以图形化地显示大量结构化、半结构化和非结构化数据之间的关系引起了学术界和工业界的广泛关注。KG是一种基于图的数据结构,能将不同类型的信息连接到一个语义网络中,帮助用户快速查找和搜索所需信息。构建KG的目的是获取大量的让计算机可读的知识,让机器拥有认知能力。KG以其强大的语义处理能力和开放组织能力,已经成为人工智能与大数据时代描述现实世界中万物关联的主流技术之一,同时也是推动搜索引擎等应用智能化的关键技术,在智能搜索、知识问答和个性化推荐等领域已经有了成熟的应用案例。

KG是结构化的语义和知识库,由实体、关系和属性组成。实体是可搜索的对象,关系是实体之间的关联,属性是对实体的具体描述。通常图谱的展示会以用户搜索主题为核心,再以关系展开供用户推荐选择。

随着互联网的发展,网络数据信息爆炸式增长面临的挑战是建立有效获取信息和知识的手段,人工智能应用于大数据处理领域已成为形势所需。例如,深度学习在计算机视觉(Computer Version,CV)领域、自然语言处理(Natural Language Processing,NLP)[2]领域已经得到了成熟的应用,而KG与这些领域有着密切关联,基于KG的搜索引擎,以图形方式反馈结构化的知识,实现精确定位和深度知识获取。本文首先分析了KG的体系结构、构建步骤及核心技术;其次描述了人工智能应用于KG的方法特点;最后总结了KG相关领域应用实例,并对未来的发展方向加以展望。

1 图谱架构与核心技术

在资源描述框架(Resource Description Framework,RDF)下[3],许多知识可以用(头,关系,尾)的形式来表示,例如美军F-35战机简易KG中每个节点都作为一个实体(如图1所示),每条边作为其连接节点之间的关系,不同颜色的节点代表不同类型的实体,紫色代表装备名实体,蓝色代表装备参数,青色代表地点,红色代表机构等。

图1 美军F-35战机关系图Fig.1 Relation diagram of US F-35 fighter

KG的结构组成可以分为3个部分:知识获取与预处理、知识融合和知识应用,如图2所示。

图2 KG组成架构Fig.2 Framework of knowledge graphs

1.1 知识获取和预处理

知识获取是指如何从非结构化、半结构化以及结构化数据中获取知识。以KG为基础建立的模糊搜索或人工智能需要大量的常识性数据,并且能及时更新,该类数据源可以从网页抓取数据,例如维基百科经过长时间的协同编辑,如今已是最大的在线百科全书,这些数据通常准确且质量较高,同一词条更新频率相对较慢。Freebase[4]也是一个重要的百科数据源,其中包含超过3 900万个实体和18亿条事件,谷歌KG的建立有超过一半的数据来源于Freebase。并且通过抓取普通网页获得的数据通常以文本的形式呈现,这种半结构化的数据需要通过预处理抽取知识,但Freebase可以直接编辑实体及属性,因此不需要通过事先指定的规则便能获取知识。此外,在不同的专业领域,Web上存在各领域的垂直网站(如世界军事、体育新闻),如维基百科等各大搜索引擎通过向上述站点购买数据,以丰富其图谱在不同专业领域的知识。

数据预处理需要大量的NLP[5]技术,例如命名实体识别、关系抽取和关系融合等。NLP是研究人与计算机之间用自然语言进行有效沟通的各种理论和方法,但无论是人们日常使用的语言还是互联网中的文字型数据,都具有一定的规律性和可预测性,并且不同的人类语言有不同的语法、语序和语境,这些都是研究人员需要考虑研究的内容,但NLP的目标总是唯一,即人与计算机的有效沟通。该领域的应用众多,包括机器翻译、聊天机器人和搜索补全等;命名实体识别是自然语言处理中的重要领域,在计算机语言中,实体是一类概念的实例对象,而命名实体识别则是识别文本中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等,这使得其需要一定量的标注来辅助完成,同时也对数据的规范性有较高的要求;命名实体识别是一种序列标注问题,因此其数据标注方式也遵照序列标注问题的方式,例如,BIOES标注方式为Begin,Intermediate,End,Single,Other,每一个字都将其进行序列标注后,可以通过标注规则提取出一定的实体,如战(O)机(O)在(O)北(B-LOC)京(I-LOC)市(E-LOC)亮(O)相(O),可以识别出句子中存在一个地名实体“北京市”。所以命名实体识别的过程就是根据标注的规则,提取文本中的有效实体。但这种方法的效率有限,因为中文与英文相比没有字词之间的自动间隔,所以需要先将文本分词,然后进行实体抽取加快识别速度,这也是该领域的研究重点。此外,针对专业领域的命名实体识别,由于常识性知识较少,数据源抓取困难,传统的条件随机场(Conditional Random Field,CRF)方法在观测序列的基础上对目标序列进行建模,重点解决“序列化标注问题”,即给定的输出识别序列Y和观测序列X,通过定义条件概率P(Y|X)来描述模型。由于其计算的是全局参数最优化的问题,收敛的速度慢,抽取实体的效率不高,需要设计特定专用模型。例如,军事信息提取是获取军事信息优势的重要手段。针对军事命名实体,Wang等人[6]提出了一种基于深度学习的有监督命名实体识别方法,用于识别和提取军队、地理位置和武器等军事文本中的军事命名实体。该方法避免了人工构造特征的复杂性和军事文本分割的不准确性。利用深度神经网络(Deep Neural Networks,DNN)[7]模型对基于字符嵌入的文本特征进行自动提取,利用其多全连接层的特点能解决文本中的多特征问题,网络的层数越多在一定程度上拟合的效果越好,进而识别军事命名实体。模型先由字符嵌入层将原始文本转换为计算机可以处理的格式,即词嵌入(Word2Vec)[8],把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。Bi-LSTM原理是对嵌入后序列中每个字符进行编码,序列中每个字符作为模型每个时间步长的输入,正向LSTM的隐藏状态序列和反向LSTM的隐藏状态序列在连接处输出,形成完整的隐藏状态。随后将前向和反向的隐向量进行拼接,最后在CRF层标记输出序列。Zheng等人[9]针对中医命名实体识别方面提出了一种基于自适应损失加权的多任务序列标注模型(CRF-MT-Adapt)来解决查全率低的问题。此外,提出了一种基于机器阅读理解的命名实体识别模型(NER-MRC)来解决大跨度实体提及问题。Li等人[10]基于建筑行业各部分专有词汇构建了建筑文本数据集,提出了一种用于中文建筑领域命名实体识别的IDCNN-BI-LSTM-CRF模型。该模型使用IDCNN模型,能够更好地提取局部特征,BI-LSTM模型能够更好地提取全局特征的优点,从而提取出更精确的特征向量,实现建筑领域的文本数据挖掘和利用。在生物医学命名实体识别方面,主要工作包括识别大量生物医学文本中的相应实体,如蛋白质、基因、疾病和药物等。生物医学文本的特点是实体命名规则不规范、实体边界难以确定、大量缩写难以定义。传统机器学习方法受词典大小和规则模板有效性的限制。传统机器学习方法在实体识别上取得了一定的效果,但它们主要依赖于特征工程,且受词典大小和规则模板有效性的限制,需要耗费大量的人力和物力。Wei等人[11]提出了一种结合CNN和Bi-LSTM的BNER混合模型,CNN可共享卷积核,处理高维数据,并自动提取特征,无需任何特征工程。与以往的大多数研究不同,该模型仅采用公共的预训练单词嵌入作为输入特征,使得模型具有很高的灵活性和可移植性。同时CNN采用梯度下降算法很容易使训练结果收敛于局部最小值而非全局最小值,池化层会丢失大量有价值信息,忽略局部与整体之间关联性,为了改善CNN和Bi-LSTM各自的不足并更好地集成它们的优势,BNER混合模型采用了一种混合扩展的卷积结构,通过在不改变卷积核大小的情况下增加感受野来扩展特征捕获的范围。此外,将Bi-LSTM与注意机制相结合,目的是在获取全局信息的同时,捕捉句子中有影响的信息。

如果要建立如图1所示或更复杂的图谱,命名实体识别的作用是建立图中的圆形实体,区分各类实体颜色。

关系抽取[12]是与命名实体识别类似的信息抽取方法,通常在识别出句子中的关键实体后,需要抽取2个实体或多个实体之间的语义关系。抽取关系过程图示如图3所示。

图3 抽取关系过程图示Fig.3 Example of relation extraction

语义关系通常用于连接2个实体,并与实体一起表达文本的主要含义。在实际关系抽取中常见情况为开放式关系抽取,即需要抽取的关系集合是不确定的,抽取信息的所属领域也可能是不确定的。这是从非结构化数据中提取信息和构建KG的关键步骤。递归神经网络和卷积神经网络等关系抽取深度学习方法的性能在很大程度上取决于训练集的质量和规模。近年来,基于Transformer的BERT预训练模型在许多NLP任务中都取得了最新的成果,这是因为它可以在预训练过程中获得先验语义知识,这也使得以该类架构为基础的模型大热。预训练模型通过掩码语言模型和下一句预测模型等预训练任务,从大量未标记文本中获取先验语义知识,下游任务可以通过迁移学习从先验语义知识中获益。

关系抽取可以看作一类特殊的文本分类任务,对于预训练模型的输入,在输入序列的开头附加[CLS]符号,该符号表示用于文本分类任务。同时,[SEP]符号用于分隔2个句子。预训练模型的输入是包含实体的文本,任务是需要预测出文本中实体的关系,原始序列的实体周围附加了标记,模型框架如图4所示。

图4 预训练模型实体关系抽取Fig.4 Entity relation extraction in pre-training model

综上所述,为了适应自然语言处理中的长序列和多标签数据,DNN被率先尝试应用,其通过修改激活函数,使ReLU和Maxout代替sigmoid的方式改变了多层感知机中优化函数容易陷入局部最优解的现象,同时也解决了由于网络层数增加导致的梯度消失问题。但同时多层DNN中不同的神经元连接需要数量庞大的参数,从而导致参数膨胀;CNN[13]的应用则能有效解决参数膨胀的问题,由于任何矩阵都能作为CNN的输入,所以进行词嵌入Word2Vec后自然语言也能作为CNN的输入,随后对所有词的词向量使用不同大小的窗口进行一维卷积,用最大池化层获得最重要的影响因子。此类方法对参数数量的依赖较小,但窗口大小上的选取依靠经验,效果缺乏稳定性;此外时间顺序对于自然语言类的数据较为重要,前序时刻的语言对于后序语言有决定性的影响。DNN无法对时间序列上有变化的情况进行处理,CNN每层神经元的信号只能向上一层传播,样本的处理在各个时刻独立。IDCNN则在模型中加入更多的卷积层来获取前后文信息,同时加入Dropout层来防止参数过多造成的过拟合。而在RNN[14]中,神经元的输出可以在下一个时间段直接作用到自身,即每个神经元的输入由2部分组成,该时刻上一层神经元的输出和上一时刻自身神经元的输出,这样则能将历史信息考虑进模型,但这时也会出现时间轴信息梯度消失的问题,这意味着普通RNN无法处理长时间的序列问题;LSTM[15]通过其内部门控单元解决了长时间序列问题,其中遗忘门集合上一隐藏层状态值和当前输入通过sigmoid函数决定保留或舍弃哪些信息,以此保留前序信息,同时由于LSTM引入了多个激活函数并结合RNN所没有的求和操作,因此反向传播的过程中不容易出现梯度消失的问题;Bi-LSTM是双向的LSTM,能够编码语言从后向前的信息,例如“他唱歌很好听”这句话中好听是修饰唱歌的,Bi-LSTM能更好地捕捉双向语义;基于Transformer的模型不管当前词和其他词的空间距离有多远,包含其他词的信息不取决于距离,而是取决于二者的相关性,这是RNN类模型所不具备的对前序信息的强记忆性,同时RNN类模型是一个顺序结构,必须算出一个隐向量才能计算后一个,那么这就意味着隐向量无法同时并行计算,对计算效率有一定影响。而Transformer一次性输入整个句子的所有嵌入向量计算,不存在这个问题。也由于该类模型通过嵌入此向量的相关性进行工作,海量的数据支持便必不可少。各类模型的优劣势如表1所示。

表1 各类模型优劣势Tab.1 Advantages and disadvantages of various models

1.2 知识融合

从前文可知,知识的获取有可能来自不同的信息源,相同的实体在不同的信息源中给出的介绍和说明不尽相同,或随着时间的推进同一信息源中的知识也会有所改变,但实体本身却不会变。知识融合不是单纯地合并2个图谱,这样会导致冗余的数据与过大的计算成本,而是找到不同图谱间的等价实体。KG的建立通常需要不同来源的数据,所以知识融合是建立准确完整图谱的重要工作。

知识融合是指为了完成多个知识库的融合,将等价实体的关系和属性合并为一个实体。基本的问题是研究怎样将来自多个来源的关于同一个实体或概念的描述信息统一起来。这类挑战主要有2点:数据质量上,通常会有命名模糊、数据格式不一、同一实体的不同名称差异性;数据规模上,数据量大(并行计算)、数据种类多、不同关系所连接的同一实体等。知识融合阶段首先对知识库进行索引,然后使用相似度计算对实体进行匹配,最后得到最终的对齐结果。

基于多源知识的融合首先是分块索引,其目的是提高后续步骤的处理速度和规模。分块在知识库中有着广泛的应用,通过索引键值将知识库中的元素划分为不相交或相交的块,然后只需考虑相交块之间的匹配和融合。这种方法删除了完全不相关的块对,提高了集成效率。而分块的方法包括:以实体和属性作为索引键值分配的基本划分索引;用固定大小的滑动窗口滑动的邻居分类索引;基于谓词的实体划分方法,将具有相似谓词的实体划分到同一个块中,可以对不同块中的大量实体进行删除。

然后是匹配计算,这是实体对齐的核心内容,它可以获取多个知识库中的重叠实体,并进行后续的合并处理。主要研究方法包括:基于文本相似度的方法、基于语义词典的方法和基于图结构关系的方法等。基于文本相似度的方法是最基本的查找匹配的方法,例如,Levinstein距离计算在2个字符串之间转换所需的最小编辑操作数(替换、插入和删除)。Wagner和Fisher距离基于Levinstein距离赋予不同的编辑操作不同的权重以计算加权和来判定相似度。基于语义词典的方法主要利用外部资源知识库中丰富的信息进行匹配。常见的外部资源包括单词/词典背景知识(如WordNet)、常识背景知识(如Cyc)、实时背景知识(如搜索引擎)等。基于图结构的方法将知识库表示为节点和边都带有标签的有向图结构,并常用相似度传播算法和子图匹配来计算等价关系。

随着表征学习的发展,研究者开始转换实体、关系等为低维空间中的实值向量,并使用数学表达式直接计算相似度,而不依赖于任何文本信息。这些方法获得的特征都是数据的深层特征,代表性学习方法在知识融合方面取得了良好的效果,典型方法有嵌入学习和翻译模型。

1.3 可视化及应用

KG的本质是经过预处理后的一种特殊的图数据结构,且是一种附带标记的有向图,这种数据形式对于人类来说是更直观的知识展现形式,对机器来说也不难处理。图谱的可视化展示需要借助多类工具完成,其中图数据库是重点核心工具,图数据库作为一种非关系型数据库,特别适用于表示深度关系的数据。例如社交网络上用户之间的关系,当深度不断加大,关系型数据库的查询速度会显著降低,但图数据库由于其图数据结构的设计避免了这种缺陷。常用的图数据库包括Neo4j,FlockDB,GraphDB和HugeGraph等。其中Neo4j使用最为广泛,可直接在其服务器的继承网址创建图,其自带的Cypher语言可以直接创建节点和关系。也可用其他语言编写再调用Neo4j生成图,配合Echarts,D3.Js等工具可以设计出美观的图谱。

近年来利用KG概念而设计的应用覆盖了多个不同领域。首先是在智能搜索领域,解析用户的搜索语句,找出其中实体和关系,分析用户的真实搜索意图,再从图谱中匹配,找出答案。在智能问答领域,例如许多服务业的客服,由于用户问题的重复性偏高,即可将一系列问题和对应的答案设计成图,根据用户的问题查询出答案,即便这些问题之间在后续会有其他关系加入,也能轻易解决。案件分析方面,许多复杂的案件牵涉到许多嫌疑人和不同的事件,不同的案件之间也可能由于事件或相同嫌疑人而联系起来,利用图谱可以更加清晰地展示案件的脉络,辅助破案。

2 KG应用研究

前文介绍了Bi-LSTM+CRF的方法进行实体抽取与关系,Bi-LSTM神经网络结构模型分为2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取,将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。Bi-LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息,该模型可以预测出每一个字属于不同标签的概率,然后使用Softmax得到概率最大的标签,作为该位置的预测值。但是在预测的时候会忽略标签之间的关联性,因此Bi-LSTM+CRF在BiLSTM的输出层加上一个条件随机场CRF,使得模型可以考虑类标之间的相关性,标签之间的相关性是CRF中的转移矩阵,表示从一个状态转移到另一个状态的概率。

2.1 推荐系统

推荐系统[16-17]是人工智能领域的研究热点之一,由于其需要的数据类型复杂,数据结构深度较大,基于传统数据库和结构型数据的推荐算法面对这种类型数据时执行效率较低,查询速度较慢。而KG由于其图数据结构的数据存储特性,使得查询效率在面对复杂异构数据时表现良好,能实现可解释性推荐,演示推理过程,有助于用户采纳推荐系统生成的建议,所以将KG作为辅助信息运用到推荐系统是个理想的方法。

基于KG的推荐示例如图5所示,图谱中包含用户、电影名、演员和类型作为实体,而看过、类型、主演、出演和包含等是实体之间的关系。

图5 推荐系统案例Fig.5 Example of recommendation system

通过KG作为辅助信息,电影和用户以不同的潜在关系联系起来,有助于提高推荐的准确性。在可解释性方面,这个示例中推荐结果是“阳光灿烂的日子”和“邪不压正”,这是因为第1部电影是“太阳照常升起”的同类型电影,且有相同主演;第2部电影有与用户看过的电影相同的2位主演。

2.2 军事领域图谱构建

前文提到过关于军事领域的命名实体识别问题,此处探讨关于军事装备的KG构建方法。研究数据主要来源于互联网各大军事网站(包含武器装备)的免费文本,例如维基百科、中华网和环球网等。

在获取到文本数据后,数据预处理是构建军事装备KG的首要任务,即实体抽取、关系抽取和实体连接。利用Bi-LSTM和CRF的军事命名实体识别方法,可以从文本数据中识别军事专有名词。然后,在实体提取的基础上,利用Bi-LSTM模型结合注意力机制识别实体之间的语义关系[18]。通过实体抽取和关系抽取,可以得到形式(实体1、关系和实体2)的三元组,模型结构如图6所示。

模型的第1层是词嵌入层。在该层中利用SkipGram将文本的每个词从one-hot向量映射到低维词向量x=(x1,x2,…,xn)。词向量作为下一层Bi-LSTM的输入,该层用于提取句子特征,相比于LSTM更能捕获句中的前后文信息和语义关系。单层LSTM包含输入门、隐藏门和输出门,在t时刻下遗忘门丢弃的信息量为:

ft=σ(Wf×ht-1+Uf×xt+bf),

(1)

式中,xt为当前t时刻的输入;ht-1为上一时刻的隐藏层输出;Uf为输入信息的权重;Wf为上一时刻隐藏层信息的权重;bf为偏置。

输入门用于表示保留单元更新时保留的信息:

it=σ(Wi×ht-1+Ui×xt+bi),

(2)

(3)

(4)

式中,Ui,Wi,Uc,Wc为反向传播时需要自调节的参数;bi,bc为偏置;Ct为当前细胞状态;Ct-1为前一刻细胞状态。输出门最终决定了单层LSTM的输出向量:

ot=σ(Wo×ht-1+Uo×xt+bo),

(5)

ht=ot×tanh(ct),

(6)

模型第3层是CRF层,用于句子序列标注,能较好地解决词性标注等序列标注任务。CRF是一种基于条件概率的全局最优识别模型。该模型可以通过考虑前后文的情况来分配标注,而不是单独标记单个单词。当给定一个词向量序列x=(x1,x2,…,xn)时,H是Bi-LSTM的输出矩阵,Hi,j表示词语xi所对应标签yi的分数,随即预测序列y=(y1,y2,…,yn)的得分为:

(7)

(8)

y*=argmaxscore(x,y′),y′∈Yx,

(9)

式中,Ai,j为标签yi和yi+1之间的转移分数。通过CRF层标记得到句子中每个词语得分最高的标签。采用Bi-LSTM网络作为编码器,使用CRF解码词序列的实体标签类型。

关系抽取是以实体抽取为基础,通过关系将实体连接到网状知识结构中。它的主要任务是自动识别实体之间的语义关系,从而得到三元组。该问题可以看作是一个多分类问题。利用Bi-LSTM模型对实体对进行分类,提取实体之间的语义关联信息。考虑将注意力机制添加到Bi-LSTM的下一阶段进行关系抽取,由H等输出向量作为注意力层的输入,句子的表示由式(10)所示加权构成:

M=tanh(H),α=softmax(ωTM),r=HαT,

(10)

式中,ωT为训练后的参数向量转置矩阵,最终用于分类的句子为:

h*=tanh(r),

(11)

然后,利用softmax分类器从一个句子S的离散类集Y中预测关系标签:

(12)

(13)

此外,Dropout层可设置在前向传播期间忽略网络中的特征检测器来防止过拟合问题。知识抽取模型获取的军事知识数据统计表如表2所示。

表2 军事网站中提取的军事知识数量Tab.2 The amount of military knowledge extracted from military websites

数据存储方面,当实体和关系数据庞大或关系深度较大时,采用图数据库是最佳的数据存储选择。本文采用了Jane’s军事装备数据集对不同数据库进行了查询性能实验,该数据集有超过14万个实体以及84万条关系。首先实验不同数据库的无索引查询性能,对比在不同数量级的数据下,各类型数据库的查询速度,如表3和图7所示。可以看出,当数据量由10 000条增加到500 000条的时候,所有数据库的查询所需时间都会增加,相对来说MySQL的查询增加时间较平稳,Neo4j的查询增加时间增幅较大。

表3 查询性能指数Tab.3 Query performance index

图7 查询性能指数Fig.7 Query performance index

随后将查询深度不断加大,以此实验不同数据库的综合查询性能。查询性能指数如表4和图8所示,随着查询深度的不断加大,关系型数据库的查询成本将呈现指数级上升,原因在于每加大一次深度,对于关系型数据库都是加大规模的多表连接查询。文档类数据库由于本质是单表存储,加大深度无异于增大单表数据量,所以表现优于关系型数据库,图数据库则凭借其在处理关系方面高效的特性,展现了优越的性能。所以在KG的构建上图数据库是最佳之选。

表4 深度查询性能指数Tab.4 Deep query performance index

图8 查询性能对比Fig.8 Comparison of query performance

最短路径性能如表5和图9所示。可以看出,在不同数据量下任意顶点的最短路径,在数据量增大的情况下Neo4j的查找时间变化更加稳定。

表5 最短路径性能指数Tab.5 Shortest path performance index

图9 最短路径性能对比Fig.9 Comparison of shortest path performance

入库时间意味着批量数据导入数据库时所需要花费的时间,是数据入库性能的重要衡量指标。入库性能如表6和图10所示。可以看出,在数据量较小时,Neo4j的入库时间更优,但AllegroGraph的曲线更平滑,意味着面对大规模数据时仍然能保持高性能,所以图数据库的选择需要根据不同业务场景来决定。

表6 入库性能指数Tab.6 Inbound performance

图10 入库性能对比Fig.10 Comparison of inbound performance

3 结束语

KG作为知识的可视化集合,近年来随着知识表示学习、知识获取方法和各种知识应用的出现,引起了越来越多的研究关注。本文详细阐述了KG的概念,总结了其构造的步骤,针对每个步骤做了相应的描述以及涉及的具体的人工智能方法,介绍了这些方法的优势,同时针对KG构建的不同阶段介绍了当前在该方向上的前沿方法和相关工作。给出了KG在推荐领域和军事领域方面的应用,详细介绍了相对冷门的军事领域KG构建的流程和具体方法。

当前,KG发展还处于初级阶段,难点主要聚焦在自然语言处理领域,随着图嵌入技术的不断更新,成熟的图谱构建功能将会推进该领域在垂直应用方面的不断进步。未来,KG的应用领域更加广泛,军事领域的应用将更加深入。

猜你喜欢

向量实体数据库
向量的分解
聚焦“向量与三角”创新题
实体书店步入复兴期?
2017实体经济领军者
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
数据库
数据库
向量垂直在解析几何中的应用
数据库