领域知识图谱研究综述①

2020-06-20刘烨宸李华昱

计算机系统应用 2020年6期

刘烨宸,李华昱

(中国石油大学(华东) 计算机科学与技术学院,青岛 266580)

1 引言

知识图谱的概念要追溯到上世纪六十年代提出的一种知识表示形式-语义网络(semantic network),它由相互连接的节点和边组成,节点表示概念或对象,边表示节点与节点之间的关系.在表现形式上,语义网络和知识图谱相似,但语义网络侧重于描述概念与概念之间的关系,知识图谱侧重于描述实体与实体之间的关系[1].除了语义网络之外,语义网(semantic web)和链接数据(linked data)也为知识图谱的诞生提供了支撑.

知识图谱分为通用知识图谱与领域知识图谱两类.这两种知识图谱主要存在覆盖范围和使用方式上的差异.通用知识图谱面向通用领域,主要包含了大量的现实世界中的常识性知识,覆盖面广.领域知识图谱又称为行业知识图谱或垂直知识图谱,是面向某一特定领域的,是由该领域的专业数据构成的行业知识库,因其基于行业数据构建,有着严格而丰富的数据模式,所以对该领域知识的深度、知识准确性有着更高的要求.

本文通过介绍领域知识图谱的定义与架构,首先对领域知识图谱有个基本了解.然后以医学知识图谱的构建为例介绍信息抽取、知识融合和知识加工3 个核心技术.最后列举了几大热门领域知识图谱的现状并对知识图谱的应用做出说明.

2 领域知识图谱的定义与架构

2.1 领域知识图谱的定义

要说明什么是领域知识图谱,首先应该阐述什么是知识图谱.其实,工业界和学术界都没有对于知识图谱给出一个严格的定义.本文在这里借用“Exploiting Linked Data and Knowledge Graphs in Large Organisations”[2]这本书对知识图谱的定义:“A knowledge graph consists of a set of interconnected typed entities and their attributes.”,即知识图谱是由一些相互连接的实体以及它们的属性构成的.知识图谱是由一条条知识组成,而知识需要有其表达形式,目前主流的知识表达形式有两种:W3W 制定的资源描述框架(Resource Description Framework,RDF)和网络本体语言(Web Ontology Language,OWL).本质上,知识图谱是一种揭露实体之间关系的语义网络.但是又不同于上世纪五六十年代产生的语义网络,它之所以成为了新兴技术,其中的关键就是知识规模.知识图谱是大数据时代催生的,其规模之大决定了其效用之大.当前已经建成了多个大规模知识图谱:DBpedia,YAGO,XLORE,Freebase,Google KG 等.表1统计了部分知识图谱的数据规模.

表1 部分知识图谱规模统计

领域知识图谱(domain-specific knowledge graph)作为知识图谱的一个分支,它把知识的覆盖范围和使用方式都聚焦于某一特定领域,因此其对该领域知识的深度和精度都有很高的要求.通用知识图谱则更注重广度,强调融合更多的实体,其精确度不够高,且受概念范围的影响,很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等[3].领域知识图谱具有许多不同的数据模式以适应不同的业务场景和使用人员

表2总结了领域知识图谱和通用知识图谱在知识表示、知识获取和知识应用3 个方面的区别.

表2 通用知识图谱和领域知识图谱比较[4]

知识表示的3 个维度中比较重要的一个维度是知识粒度,知识粒度反映了基本知识单元的大小.不同领域中粒度大小往往是不相同的,也难以形成一个统一标准.在传统的知识搜索领域中,知识粒度往往是文档级别,这也就表现为搜索结果是一堆文档的罗列.而在引入知识图谱后的搜索结果可以直接给出答案的名词以及答案的相近关系,这也就是知识表示粒度细化到单个实体乃至是实体的某个属性的表现(如图1).一般来说,知识表示的细腻程度与表达能力成正比,与获取难度成反比.领域知识图谱往往要求更细的知识粒度,这也就造成了知识获取的困难.所以领域知识图谱的构建更加花费资源[4].

图1 知识图谱以文档中的实体作为知识单元

从知识获取层面看,领域知识图谱对知识质量要求更加苛刻,这是因为领域内的应用容错率更低.比如教育领域,某一知识点的错误还可能导致与其关联知识产生偏差.对质量要求苛刻自然也就需要更多的专家参与,这也是领域知识图谱准确度的保障.但重度专家参与并不意味着完全由专家建设,充分发挥专家在该领域的专业性,自动化建设与人力补充才是构建领域知识图谱的正确思路.

由于领域知识图谱知识覆盖范围较小,知识深度更深,所以知识点更加密集,这就导致领域知识图谱的推理链条更长.领域知识图谱往往是为了某一专业领域而构建的,其应用复杂度自然更复杂一些.

2.2 领域知识图谱的架构

领域知识图谱的架构分两种:一种是领域知识图谱自身的逻辑结构;另一种是领域知识图谱的构建技术(体系)架构,如图2所示.

从逻辑上看,知识图谱分为数据层和模式层.在数据层中,知识以事实为单位进行存储.事实通常以三元组的形式进行存储在图数据库中.像Neo4J、ArangoDB、OrientDB 都是当前主流的图数据库.模式层制定了数据层应该遵守的约束规范.通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象间的联系[5].知识图谱的技术(体系)架构是指其构建模式结构,通常有自底向上构建和自顶向下两种构建方式.自底向上的构建方式是直接进行数据抽取,将所得实体、关系、属性等经审核后整合到知识库中.自顶向下的构建方式先定义顶层关系本体,再将实体整合到顶层本体中.通用知识图谱为了融合更多的实体,大多采用自底向上的方式构建[6].领域知识图谱面向特定领域,对知识的质量和准确度要求苛刻,因此要求领域知识图谱具有完备的本体层模式,通常采用自顶向下和自底向上相结合的构建方式[6].

图2 领域知识图谱体系架构

3 领域知识图谱构建

随着研究热度越来越高,各类领域知识图谱迅速建设起来,不但涉及领域范围广,而且领域细分更加复杂.比如医学知识图谱就可以细化为生物医学领域知识图谱、中医学科领域知识图谱、中文疾病知识图谱乃至乳腺肿瘤知识图谱、基于甲状腺知识图谱等.虽然说领域知识图谱的构建总体遵循上文阐述的体系架构,但是具体到各行业总会产生差异.所以无法空泛地讲领域知识图谱的构建.接下来,本文将选取当前比较热门的医学领域为例,阐述领域知识图谱的构建技术.

医学领域知识图谱是由多种信息处理技术共同构建而成.通过医学信息抽取技术,可以从包含医学数据的数据源中提取出实体、实体间的关系和实体的属性等要素.通过医学知识融合技术,可以使信息抽取中提取的事实歧义性更小、冗余度更低、错误更低.但事实本身不等于知识,要想最终获取结构化、网络化的知识体系,还要进行知识加工.

3.1 医学知识表示

知识表示是医学知识图谱构建之前确定下来的一组约定,以便将知识以符号的形式存储.知识表示的选择影响着医学知识图谱这个系统在信息抽取、存储以及应用的效率[7].知识表示方法有3 类.

(1)基于符号逻辑的知识表示.该方法是早期医疗知识库使用的知识表示方法,常见的逻辑方法有时间、概率、答案集编程、时间抽象等.在文献[8]中,van der Heijden 等提出基于时态逻辑的知识表示方法来规范化具有生理背景知识的临床指南.在文献[9]中,Merhej 等提出了一种基于答案集编程(ASP)方法,该方法在处理复杂搜索问题时取得了较好的成效,不仅可以用于检测不同治疗方法的冲突,还可以检测治疗方法间的相互作用.但是基于符号逻辑的知识表示很难使用机器生成推理规则,仅仅在数据规模较小的时期使用较广,现在面对规模庞大的医学知识库建设、面对具有挑战性的临床患者数据和基因组数据时,仅作为辅助形式存在[7].

(2)使用语义网的知识表示.这种方法当前认可度比较高,使用也很广泛.文献[10]就使用语义网络技术从计算机可解释的准则中评估护理行为并检测个性化过程中的潜在矛盾,而文献[11]则使用语义网络技术通过医疗行为和治疗数据的层次结构进行推理以检测主要的替代干预措施.在文献[12]中,作者使用UMLS 尤其是其语义网络来检测临床指南中的模式.使用语义网的知识表示主要包括用于可扩展标记语言XML、描述Web 资源的资源描述框架RDF 和本体语义描述语言WOL.RDF 假定任何复杂的语义都可以通过若干个三元组的组合来表达.RDF作为一个统一且无歧义的语义定义方式,能够促进语义网不同知识的相互链接,克服了XML 必须需要足够详细的XML 解释文档才能解释语义的困难.当前在工业界大规模应用的是基于RDF 三元组的表示方法.

(3)表示学习.RDF 方法虽然得到了大规模应用,但是由于知识图谱中节点个数影响着推理的效率和难度,所以RDF 方法在应用于医学领域时会出现计算效率低等问题.表示学习可以将医学研究对象的语义信息表示为稠密低维的实数值向量.通过在低维空间中计算和推理,能有效解决数据稀疏的问题,适应了大数据环境下知识计算效率问题,更容易解决不同源的异质信息融合问题.医学知识图谱按照计算方式不同可以分为距离平移模型(translational distance model)和语义匹配模型(semantic matching model)[6].其中距离平移模型通过设计距离评估函数判断知识的合理性,平移模型的代表是Bordes 提出的TransE 模型.语义匹配模型包括单层神经网络模型(Single Layer Model,SLM)、隐因子模型(Latent Factor Model,LFM)、神经张量模型(Neural Tensor Model,NTM)、矩阵分解模型(Matrix Factorization,MF)等[6].这方面的研究有:Henriksson 等[13]证明基于电子病历中的临床事件的深度学习表示法可以对更高性能的预测模型进行后续训练.可见表示学习在知识表示方面效果不错.

3.2 医学信息抽取

医学信息抽取主要是通过人工或者自动方式从非结构化或者半结构化的数据中提取医学知识单元[7].人工抽取可以通过基于访谈或焦点小组的工具辅助方法或定性方法来获取知识.目前临床医学知识库、ICD-10和上文提到的SNOMED-CT 知识库都是采用这种方法抽取构建的.自动抽取借助可以使用机器学习(ML)或基于案例的推理(CBR)技术从医学信息源中自动提取出医学知识单元以构建知识库.采用这种方式构建的医学知识库有一体化医学语言系统 UMLS.随着机器学习和深度学习技术的发展,医学知识自动抽取的效率越来越高,但不利于自动化抽取的数据,人工抽取也是必不可少的.接下来本文将从实体抽取、关系抽取和属性抽取3 个方面介绍自动抽取技术.

3.2.1 实体抽取

实体抽取又称为命名实体识别(named entity recognition),旨在从医学信息源中识别出特定的医学实体.实体抽取是医学信息抽取中至关重要的一环.医学实体抽取主要有3 种方法.

(1)基于医学规则和医学词典的方法

早期医学实体抽取研究的主要方向是从医学信息文本中识别出疾病、症状、治疗、专家这些关键的实体信息,为后续实体关系抽取奠定基础.Friedman 等[14]开发了一种通用的自然语言处理器来识别叙事报告中的临床信息并将其映射为包含临床术语的结构化表示形式.基于医学规则和医学词典的实体抽取方法需要大量的人医学专家编写提取规则.但是这些规则往往依赖于具体语言和文本风格,这就造成了系统的可移植性不好,限制了其使用,现在这种方法逐渐被另外两种方法取代[3].但在文献[15]中,提出了一种将令牌级词典功能整合到神经模型中以进行命名实体识别的方法,使基于词典的实体抽取方法得到发展.

(2)基于机器学习与统计学算法结合的方法

机器学习诞生后,研究者尝试通过使用机器学习中的监督算法结合一些医学规则从医学数据源中提取实体.这种方法取得了不错的效果,其中最具代表性的是2010年美国国家集成生物与临床信息学研究中心(I2B2)给出的电子病历命名实体语料标注.除此之外,文献[16]中提到Azalia 使用朴素贝叶斯分类器的命名实体识别,对圣训的印度尼西亚语翻译中的名称索引.使用机器学习从带有命名实体的手动注释的语料库中学习.但是,手动注释语料库非常昂贵且费力.文献[17]中提出了一种无需任何人工注释即可用于训练临床NER 系统的新颖方法.它仅需要原始文本语料库和诸如UMLS之类的资源,即可提供命名实体及其语义类型的列表.使用这两个资源,将自动获取注释以训练机器学习方法.该方法在i2b2 2010 和SemEval 2014 的NER 共享任务数据集上进行了评估.其精度可以与过去使用人工注释进行训练的许多监督系统相媲美.

(3)基于深度学习的方法

深度学习方法是当前使用很广泛的实体抽取方法,该方法的思路是从目标数据集中将有相似上下文特征的实体进行聚类操作.这个方法的缺陷是需要使用大量的标准语料进行模型训练,当给定的实体实例较少时将面临困难.在智能医疗领域,在这个问题上取得比较好的突破的是哥伦比亚大学的Zhang CW 和腾讯的Li YL[18].他们在2018年引入了一种生成式的视角来研究关系医学实体对发现问题,旨在在最小化数据需求的同时,扩大高质量而又新颖的结构化新医学知识的规模.基于此提出了(CRVAE)模型,通过利用已标注的实体三元组在自然语言表述上的特点,将医学实体和关系输入编码器,通过训练模型,对每一种医疗关系的不同实体对进行编码,再通过解码器进行共同训练,重建实体对,最后得到未被标注的实体三元组.这种方法即使在仅有少量外部资源的情况下也能有不错的判别效果.Zhang 等的实验表明:该方法能够在降低外部资源的条件下,以92.91%的支持度生成属于某个特定医疗关系的实体三元组,其结果产生了61.93%的新样本,准确率也达到了77.17%.要正确地识别实体,形态分析(MA)是必不可少的步骤.文献[19]提出了同时执行MA 和NER 的集成神经网络模型,重新设计了MA 和NER 的执行顺序,该模型优于独立的MA 模型和独立的NER 模型,可以有效缓解流水线架构中经常发生的错误传播问题.

3.2.2 关系抽取

RDF 知识表示方式中包含(实体,关系,实体)格式的三元组,其中的关系就有关系抽取产生.医学关系抽取就是从医学数据中抽取两实体关系以实现实体间语义联结.早期的医学关系抽取方法类似于“实体抽取中基于医学规则和医学词典的方法”,通过人工构造规则和模板进行关系抽取.现阶段医学领域关系抽取方法有3 种.

(1)基于机器学习的方法

基于机器学习的方法是通过解决分类问题实现关系抽取,常用的分类方法有基于特征和基于核两种.

基于特征的方法是从文本中生成句法和语义等特征向量,分类器接受向量并判断实体对之间关系.基于核的方法是根据某种结构(比如序列、树、图、依存关系路径等)来表示实体关系,通过函数来计算对象相似度,并称这种函数为核.

基于特征分类的方法抽取效果较好、速度很快,但是选择合适的特征的会耗费许多时间和精力,而选取特征的好坏关系着关系抽取的质量.基于核的分类方法特征选取很灵活,但关系抽取速度慢,不适合大数据集的关系抽取.

(2)基于深度学习的方法

基于深度学习的关系抽取方法是目前医学关系抽取主要的方法.常见的深度学习模型有卷积神经

网络(CNN)和递归神经网络(RNN).卷积神经网络依靠卷积核获取局部特征,适用于短句子实体关系抽取;递归神经网络善于学习长期依赖特征,适合处理长句子,文献[20]中提出了一种结构块驱动的卷积神经学习的新型轻量级关系提取方法,通过在两个数据集SemEval2010 和KBP37 上的实验,证明了该方法的显着优势.

(3)基于机器学习和深度学习相结合的方法

近年来,为了充分发挥机器学习和深度学习的优势,医学专家们将两种关系抽取方法结合起来,以实现更高效的关系抽取.李智恒等设计的从化学文献中抽取化学物质致病关系的系统-CDRExtractor,就是将基于特征的分类方法和基于核的分类方法结合起来进行CID 关系抽取.该系统在BioCreative V CDR 测评任务CID 子任务提供的测试集上达到了67.72% 的F 值[21].Zhang Y 等[22]提出了一种混合模型,采用RNN和CNN 相结合的方式,实现检测和提取生物医学关系,实验结果表明,RNNs 和CNNs 在生物医学关系提取中的优势是互补的.针对处理长句子和句子中的多个实体时当前模型出现问题较多的情况,文献[23]中使用具有分段注意力和实体描述的循环神经网络,有效的克服了上述两个问题,并将F1 分数提高约3%.

属性抽取的主要任务是获取(实体,属性,属性值)类型三元组中的属性和属性值.对于医学实体,药品的规格、剂量、用法用量等都可以看作药品实体的属性.通过属性抽取建立完整的实体描述.由于实体的属性可以看成是实体和属性值之间的一种名称性关系,因此可以将实体属性的抽取问题转换为关系抽取问题.比如张元博在文献[24]中探索到属性及其属性值存在共同特征,采用基于特征的机器学习方法来实现医学实体的属性提取.

3.3 医学知识融合

医学知识融合的目的是将医学信息抽取中获得的不同来源、不同结构、不同表示方式的数据进行整合,最终将这些异构医学数据实现在同一框架下的规范表示[7],如图3所示.知识融合分为共指消解和实体消歧.

图3 不同数据转化为三元组示意图

3.3.1 共指消解

共指消解的主要目的是当多个名称对应同一实体的时候,将这些名称对应到正确的规范化的实体上,也就是解决异名同物问题.比如扑热息痛片又名泰诺林、必理通等,它们都指的是学名为对乙酰氨基酚的药物.在信息抽取完后产生了这些别名,这时候就需要共指消解技术把它们关联到对乙酰氨基酚实体上.共指消解问题可以通过把其看作聚类问题来求解.该方法以规范化的实体为中心,通过实体聚类实现规范实体与它的别名实体的匹配[25].这方面的研究有:在文献[26]中,提出了一种获取健康消费者术语并将其与标准医学术语保持一致的方法.2015年,在文献[27]中提出了结合奇异值分解和多分类器针对共指消解问题的新方法,该方法可以获得72.1 的平均准确率.

3.3.2 实体消歧

实体消歧是专门用于解决异构数据的实体产生歧义问题的技术,也就是针对同名异物问题.比如止吐药dogmatilum(舒必利,止吐灵)叫“舒宁”,而抗焦虑药oxazepam(N-去甲羟基安定)也叫“舒宁”,这种问题不加以解决会造成严重的后果.实体消歧的主要思想是聚类,基本过程如图4所示.关键在于评估实体和指标的相似度,度量实体对象与指称项之间相似度的常用的方法有4 种:空间向量模型(实体的上下文),语义模型(实体的上下文语义),社会网络模型(利用关联实体的关系构建指标网络),百科知识模型(网站超链接)[25].

图4 实体消歧的基本方法过程

近年来,实体消歧技术也与深度学习相结合.比如在文献[28]中,将实体消歧定义为分类任务,开发了一种新的基于LSTM 的体系结构,结果表明与其他方法(例如文献[29]的HAC)相比,基于RNN 对句子含义进行编码更适合于实体消歧的任务.

水是基础性自然资源和战略性经济资源。水利是国民经济和社会发展的重要基础设施和基础产业。在新的发展阶段，如何更好地发挥水利行业的支撑和保障作用，是摆在我们面前重大而紧迫的课题。

3.3.3 知识合并

知识合并的主要任务是把结构化的知识或者第三方知识库的知识整合到知识图谱中.结构化的知识符合知识规范,实用度高.第三方知识库也能为知识图谱构建提供可靠的知识来源,像WebMD、“好医生”智能医学数据库、家庭医生在线等都可以看作是第三方医学知识库,其中包含高质量、规范化的医学知识.

本文参考Mendes 等对LOD 进行知识合并的方法[30],把合并第三方知识库的流程归类为:获取知识;概念匹配;实体匹配;知识评估.其中概念匹配和实体匹配都是对第三方数据库中获得知识的概念和实体进行归一化处理,知识评估是对新获得知识一致性和准确性的检测[25].

将原有的关系数据库转化为知识图谱的知识表示也是知识合并的重要任务.在图数据库未使用之前,使用比较普遍的都是关系型数据库.W3C 的RDB2RDF小组制定了direct mapping 和R2RML 两个标准,用于将关系型数据库的数据转换为RDF 格式的数据.Direct mapping 采用直接映射的方式,实现表→类、列→属性、行→实例、单元格值→属性值的映射.Direct mapping不能将数据库的数据映射到我们自己定义的本体上,R2RML 通过自主编辑和设置映射规则解决了这个问题.从RDB 到RDF 的常用转化工具有D2RQ、SquirrelRDF、OpenLink Virtuoso 等.

3.4 医学知识加工

医学知识加工的目的是把信息抽取和知识融合中获得的知识加工成高质量的知识.知识加工包括本体构建、质量评估和知识推理3 部分[25].

3.4.1 医学本体构建

医学本体是对于医学领域之中医学概念及其相互之间关系的形式化表达.医学本体可以通过人工方法构建也可以通过数据驱动自动构建.人工方法构建的本体很适应目前大数据的形式,所以本文着重介绍下自动化的本体构建技术.

自动化构建本体的方法主要包括中心扩展法、由局部到全体、直接抽取文档构建本体等方法[31].本文将不同的本体构建方法汇总在表3.

表3 不同的本体构建方法比较[31]

就医学知识图谱的本体构建来看,目前存在一些问题:①医学领域本体的构建需要医学专家的参与,并没有实现真正的自动化,还是以半自动化为主;②医学领域本体自动化构建具体实现较少,大多数研究还是理论研究;③语言分析软件较少,不能满足现在大规模医学图谱构建的需求.目前来看本体构建技术的发展和知识图谱的发展热度不匹配,本体构建也应该尽快实现理论到实践的转换,以适应构建大规模知识图谱的需求.

3.4.2 质量评估

质量评估的主要目的是量化知识的可信度,舍弃置信度低的知识才能保证知识图谱中知识的质量[32].为了促进知识选择,应该使用系统来自动(或半自动化)用于特定目的的最佳知识的选择.这需要基于一组特定标准来评估本体质量的方法.这些标准必须是可量化的,以便系统而不是人来完成它.文献[33]研究提出并开发了一种基于符号学的分层本体度量标准套件,它可以为有效属性提供总体得分的度量,可以结合使用手动计算和自动化来计算指标,尽管只有某些指标可以完全自动化的方式计算.该文章中提到,此套件已正式确定并在由模块组成的排名系统中实现.

3.4.3 医学知识推理

知识推理是根据已有知识库,采用相关算法,实现对知识图谱的探索和挖掘.在医学知识图谱中,知识推理要有搜集数据、诊断疾病、提供治疗方法的功能.而在医学方面,病情往往因人而异,对于具体疾病的诊断往往是依靠医生的从医经验,所以医学知识推理的构建难度还是很高的.

传统的知识推理方法包括基于描述逻辑的推理、基于规则的推理、基于分布式的知识推理等,各方法的比较见表4.

表4 推理方法的比较[34]

这些方式很难满足医学大数据下的快速推理和对于增量知识和规则的快速加载,所以现在应用更为广泛的是结合人工智能技术的知识推理模型,常见的有人工神经网络模型(artificial neural netword model)、遗传算法(genetic algorithm)和反向传播网络模型(back propagation)等.文献[35]中就提出了一种表示本体,以将文献抽象数据表征为4 个知识元素(背景,目标,解决方案和发现).案例研究表明,所提出的本体模型可以用来表示嵌入在文献摘要中的知识,并且可以通过NLP 模型自动提取本体元素.所提出的框架可以增强文献计量分析,以从文献中探索更多知识,实现知识推理的功能.

无论是传统的知识推理方法还是人工智能技术的推理方法都是以知识图谱作为数据源进行推理,而图挖掘计算则是基于图论的相关算法,把知识图谱看作图,把医学实体看作节点,实体间的关系看作边,实现对图谱的探索和挖掘,更有利于解决大规模的图数据分析问题[36].基于此,Jagvaral 于2019年提出具有注意机制的CNN-BiLSTM 方法用于知识图谱基于路径的推理[37].论文中提到,他们研发的路径编码器从大型图形的路径中提取特征更有效,更是说明了应用多步推理在基于路径的推理中可能会有用.此项研究只使用一种类型来表示实体,而大多数知识图谱中的实体具有多种类型,因此,多种类型合并到路径编码中的路径推理推理还有待研究.

以上为比较具体的领域知识图谱构建流程,虽然领域知识图谱应用比较广,但目前还尚未实现自动构建,而在2018年,清华大学知识工程实验室发表一篇名为“一种准确而高效的领域知识图谱构建方法”的文章[38],介绍了一种快速构建较高质量的领域知识图谱的方法,为领域知识图谱构建提供另一种思路,该方法称为“四步法”:①领域本体构建;②众包半自动语义标注;③外源数据补全;④信息抽取.在领域知识图谱构建过程中,权衡效率和准确率,平衡自动化和人工构建,以高效地构建图谱,这是当前面临的一个很大问题.

3.5 知识图谱绘制工具

图5是以心律失常为关键词绘制的医学领域知识图谱,它展现了知识图谱力导向布局图的视图形式.

图5 医疗领域知识图谱举例

知识图谱的绘制工具可分为两大类:通用软件,如SPSS、Ucinet、PajekWordsmithTools 和GIS 等.另一类是专门用于知识图谱绘制的软件,也有许多类型,有些是针对某些特定领域,有些是个人未公开的.表5对知识图谱绘制工具做一个汇总.

表5 知识图谱绘制工具[32]

4 领域知识图谱的现状和应用

4.1 领域知识图谱的现状

随着近几年知识图谱技术的发展,知识图谱研究与落地发生了一些转向.其中一个重要变化就是领域知识图谱的建设成为主流.知识图谱技术与各行业的深度融合已经成为一个重要趋势[4].

接下来,本文对搜索、医疗、电商、社交、教育这几个热门领域规模比较大的知识图谱进行汇总,见表6.

表6 热门领域知识图谱汇总

医疗领域是当前建设很火热的领域,仅是对中文医学知识图谱的相关检索就达200 多条,大到中文疾病知识图谱,小到甲状腺知识图谱,医疗领域知识图谱的理论实践化是有原因的:(1)医疗信息化浪潮.步入信息化社会以来,医疗信息化的发展从未停歇过,从最初的医院信息系统开始,电子病历、临床智慧医疗等技术层出不穷.(2)庞大的医学数据.除医院提供的病例信息,基因学研究,蛋白组学也给医疗领域贡献了大量的数据.(3)人工智能出现后,为体量庞大的医学数据处理提供方向.知识图谱正是作为大数据到人工智能的理想桥梁.整合异构数据,建立语义关系,最重要的是知识推理,医疗知识图谱在智慧医疗的建设中起到越来越重要的作用,通过知识问答,知识推理将更好的为社会服务.所以医疗知识图谱发展迅速.与之相似,教育领域同样具有数据量大,面临信息化建设等优点,相信教育知识图谱也将会得到越来越多的关注.

4.2 领域知识图谱的应用

知识图谱作为近十年内新兴的概念,其可以将各种信息和数据整合为知识,为各研究领域提供可视化分析,各类大规模知识图谱在智能搜索、智能问答、智能推荐、情报分析等方面发挥了重要作用.

4.2.1 智能搜索

基于知识图谱的智能搜索可以直接给出知识卡片而不是给出相关的链接序列.在知识图谱的帮助下,搜索引擎可以将搜索关键词映射到知识图谱中匹配度较高的一个或一组概念上,最后以知识卡片的形式展现给用户.知识卡片可以以3 种形式展示知识[3]:①对于单一关键词的搜索,返还用户查询的实体的结构化摘要.比如搜索姚明,将给出姚明的身份介绍以及主要关系介绍;②对于问题类的搜索,知识卡片直接给出答案.比如搜索“姚明的身高是多少?”,搜索结构将是显示226.0 cm 的知识卡片;③对于模糊类的查询,将给出相关网页列表.例如搜索“姚明最近的活动有哪些?”,搜索结果是包含姚明活动的新闻网页.

4.2.2 智能问答

Gowild 狗尾草的AI 虚拟生命“琥珀虚颜”和苹果的智能语音助手Siri 都是知识图谱应用于智能问答方面的实例.智能问答是信息检索系统的一种高级形式,能够用自然语言为用户提供问题的解答或者实现人机交流.目前,语音助手研发十分火热,比如百度自然语言部开发的小度机器人,阿里巴巴人工智能实验室研发的天猫精灵,亚马逊Alexa 语音服务等都是为智能问答更加智能、准确做出地探究.

4.2.3 智能推荐

电商、教育、社交等行业都需要借助大数据行为分析进行用户画像,以指导广告投放和提高用户体验.相较于原先对关联性较差的数据进行用户行为分析,知识图谱一个天然的优势就是更突出数据之间的关系,这样就能根据知识关联关系获得更加精确的用户画像,有助于精准营销、精细化运营.除了用户画像,智能推荐还要依靠商品之间的关联提供使用建议、搭配等.

4.2.4 情报分析

江苏大学刘桂峰利用CiteSpace 软件信息可视化方法,对1990-2010年间来自Web of Science (SCIE)数据库的太赫兹技术领域研究的文献数据进行统计和可视化分析,揭示出该领域的领军人物、知识基础和研究前沿等信息[43].赵蓉英等[44]利用CiteSpace Ⅱ的爆发词探测方法绘制知识图谱,并绘制爆发词随时间演化的学科前沿发展趋势图,进而发现学科前沿.胡泽文等在文献[28]中借助通过CiteSpace Ⅱ界定了改革开放来情报学的3 个发展阶段.CiteSpace 是一款应用于科学文献中识别并显示科学发展新趋势和新动态的软件,通过它绘制知识图谱,能够发现经典文献、研究热点和研究前沿.可见知识图谱用于情报分析方面有很大的发展潜力.

除此之外,知识图谱应用于医学、教育等领域,对于建设智能医疗、智慧教育起着支撑作用.

5 结语

知识图谱从最初作为辅助Google 搜索的技术被提出,到现在很多行业都在建设自己的知识图谱,它的价值正在被慢慢挖掘出来.知识图谱不是知识的终点,但是它确实能解决很多学科领域的瓶颈问题,成为智能化建设的基石.

结合医学知识图谱的构建和发展,本文认为信息抽取技术仍是当前的研究热点,最理想的信息抽取方式是结合实体抽取、关系抽取和属性抽取三者的联合抽取,但该技术还没有典型代表.而知识推理作为知识图谱最大的亮点和功能,将其技术发展成熟还需要付出很大地努力.在人工智能还有很大发展潜力的今天,借助人工智能技术实现知识推理有很大的发展前景.知识推理不仅是智能问答、智能推荐等应用的关键技术,更是智能化建设的基石.

对于领域知识图谱的发展方向,本文倾向于领域划分更精细,领域交互更频繁的发展方向.类比于医学领域中各种疾病的知识图谱,也许教育领域会出现各种学科知识图谱,因为越精细,专业性越强,知识越准确.这也是越来越多的人主张建立企业知识图谱的原因.此外,各领域的知识图谱不该是独立存在的,领域知识图谱之间有交互,才能真正地构成知识网.

知识图谱仍在发展初期,笔者仅希望通过本文的写作,能抛砖引玉,吸引更多人了解这门技术并投入到相关的研究中来.