APP下载

知识图谱可视化查询技术综述

2020-06-18徐大为王昊奋

计算机工程 2020年6期
关键词:数据模型本体图谱

王 鑫,傅 强,王 林,徐大为,王昊奋

(1.天津大学 智能与计算学部,天津 300354; 2.天津泰凡科技有限公司,天津 300457;3.同济大学 设计创意学院,上海 200092)

0 概述

在人工智能迅速发展的背景下,知识图谱被广泛认为是许多人工智能技术和系统中的重要组成部分[1]。近年来,大量不同规模的知识图谱发布在Web网络上,得到了学术界和工业界的广泛关注。2012年5月,Google公司正式提出了知识图谱的概念[2],目的是为了增强搜索引擎的性能,提高终端用户的搜索质量及体验。在语义Web、描述逻辑和本体论等技术发展后,知识图谱旨在描述现实世界中存在的实体以及实体与实体之间的关系。知识图谱作为信息互联、知识共享网络时代的知识信息库,在智能搜索、智慧医疗、生物信息、社区推荐、网络安全等领域发挥着重要作用[3]。

目前知识图谱的主流数据模型是由万维网联盟(W3C)在语义Web上制定的标准数据模型RDF图[4]和关联数据基准委员会(LDBC)采用的属性图,以及有向标签图和异构信息网络图。目前,各领域基于上述数据模型已经建成了大量大规模知识图谱,例如百科类知识图谱DBpedia[5]、Freebase[6],生物信息知识图谱Bio2RDF[7]、UniProt[8],以及社交网络知识图谱FOAF[9]等。随着知识互联时代信息量的爆炸式增长,包含百万顶点和上亿条边的大规模知识图谱将十分常见,如何在此类知识图谱上进行查询、理解和分析将成为一项重要挑战。

知识图谱是符号主义发展的成果,而可视化技术可以将抽象的符号映射为图形元素,并基于交互逻辑帮助用户有效地理解、查询和分析大规模知识图谱。目前,国内外已有大量学者对知识图谱的可视化和可视化查询进行了研究,涉及多种可视化技术和查询模式,相关工作主要分为以下3个方面:

1)基于已有的可视技术对知识图谱进行可视化表示,帮助用户理解知识图谱[3]。此类方法主要关注于知识图谱的不同数据类型,以及领域特定知识图谱中存在的特殊形式[10]。

2)大规模知识图谱的可视化查询语言以及查询系统。随着数据规模的不断增大,如何帮助普通用户更友好地理解、查询和分析大规模知识图谱成为一项重要的挑战。针对这一问题,学者提出了基于不同数据模型的可视化查询语言QueryVOWL[11]以及VIGOR[12]等大规模知识图谱上的可视化查询分析系统。

3)知识图谱间的联合可视化查询分析。尽管已有大量大规模知识图谱发布在网络中,但是它们都具有自己独立的查询接口以及数据格式,当一个查询涉及多个数据集时,就需要进行跨数据集的联合查询。针对这一问题,学者提出了关联可视化模型LDVM[13]以及BioPW[14]等跨知识图谱的联合可视化查询工具。

文献[3]对知识图谱可视化技术进行了综述,但其主要介绍异构信息网络上的可视化技术,未涉及可视化查询语言。文献[15]对近年来基于RDF图的可视工具进行了分析总结,但未涉及属性图。文献[16]针对多刻面科学数据的可视化与可视分析技术进行了综述,但未以知识图谱作为可视对象。文献[17]则主要介绍了近年来本体可视化的典型方法并加以分类。本文针对知识图谱的数据模型、可视化技术、可视化查询语言、可视化查询系统以及领域特定知识图谱可视化技术5个方面进行介绍,并对知识图谱可视化查询研究的发展方向进行展望。

1 知识图谱的可视化技术

可视化技术自提出以来,在各领域得到了广泛的运用与发展[14],目前已有学者提出大量的可视化技术用于不同类型的数据可视化表示。本节将从知识图谱的数据类型、可视表达技术以及大规模可视化技术3个方面进行介绍。

1.1 知识图谱的数据类型

目前对知识图谱的数据类型并没有统一的严格规定,主流的知识图谱数据模型都是对一般图模型G=(V,E)的扩展形式,其中:V是顶点的集合,表示实体;E是边的集合,表示实体间的关系。下面介绍知识图谱4种主要数据类型,即RDF图、属性图、有向标签图和异构信息网络图。

RDF是W3C于1999年提出的语义Web上的资源描述框架,其通过资源、属性和字面量来描述特定网络信息。RDF图的形式化定义[4]如下:

定义1(RDF图) 设U、B和L分别代表URI、空顶点和字面量的无限集合,并且互不相交,三元组(s,p,o)∈(U∪B)×U×(U∪B∪L)称为RDF三元组,其中,s表示主语,p表示谓语,o表示宾语。RDF图G是有限个三元组(s,p,o)的集合。

属性图是LDBC采用并进行标准化的数据模型。与一般图模型相比,属性图多了一组键值对来表示顶点或边上的标签和属性信息,其形式化定义[1]如下:

定义2(属性图) 属性图G=(V,E,λ,δ),其中:1)V是顶点的集合;2)E⊆V×V是有向边的集合,如e=(v1,v2)表示从v1到v2的有向边;3)设LLab是标签集合,函数λ:(V∪E)→LLab为顶点或边赋予标签,如l∈LLab,λ(v)=l表示l是顶点v的标签;4)设PProp是属性集合,VVal是值集合,函数δ:(V∪E)×PProp→VVal为顶点或边关联属性,如p∈PProp,a∈VVal,δ(v,p)=a表示顶点v的属性p的值是a。

有向标签图在一般图模型的基础上为每个顶点添加了标签,是RDF图的一种特殊形式,其形式化定义[3]如下:

定义3(有向标签图) 有向标签图G=(V,E,L),其中:1)V是顶点的集合;2)E⊆V×V是有向边的集合;3)L是顶点上标签的集合。

异构信息网络起源于信息网络,其在一般图模型的基础上为每个顶点或边添加了一个对象或者链接类型,如果图中的类型总数大于1,则称为异构信息网络。异构信息网络图是属性图的一种特殊形式,其形式化定义[3]如下:

定义4(异构信息网络图) 异构信息网络图G=(V,E,λ),其中:1)V是顶点的集合;2)E⊆V×V是有向边的集合;3)设TType是类型集合,函数λ:(V∪E)→TType为顶点或边赋值类型。

知识图谱在一般图模型的基础上进行扩展,泛化、统一了各种图模型结构。有向标签图作为最简单的知识图谱数据类型,在一般图模型的基础上添加了标签集合。异构信息网络图在一般图模型的基础上添加了属性集合,且允许每个顶点或边的类型不止一种。RDF图是有向标签图的特殊形式,其特殊之处在于允许一个三元组中的谓语作为其他三元组的主语或宾语,反映在有向标签图中,即边亦可作为顶点。属性图模型在RDF图模型的基础上添加了属性集合,允许顶点和边内置属性信息。知识图谱没有统一的严格定义,上述4种知识图谱数据模型是针对不同数据的具体实现形式。

1.2 知识图谱的可视表达

本节主要介绍知识图谱的可视表达技术,包括基于节点-链接和基于邻接矩阵2种类型。

1.2.1 基于节点-链接的图可视技术

基于节点-链接的可视技术是图的常用表示方法,通常采用点或圆圈等可视元素表示节点,边表示节点间的链接。如图1所示,其中圆圈表示知识图谱中的实体,有向线段表示这些实体间的关系,在之后的图形渲染过程中可以利用不同的颜色或者半径表示实体的类型。

图1 节点-链接图可视化示例

文献[18]结合胡克定律和库伦定律提出了力导向布局算法,此类算法的设计思想是赋予节点-链接图中节点间的引力与斥力,节点依据引力与斥力自由移动知道所有节点间的作用力处于平衡状态。文献[19]提出的弹簧电子力模型是一种经典的力导向模型,也被称为FR模型。此外,文献[20]则提出了应力模型。

1.2.2 基于邻接矩阵的图可视技术

邻接矩阵是图论中经常用来表示图的一种方法。当使用节点-链接可视技术表示含有复杂关系的知识图谱时,边的交叉问题以及节点的重叠问题是无法避免的。邻接矩阵可以有效地规避此类问题,使数据更具可读性。节点在邻接矩阵图中通常用行向量和列向量表示,行列向量的交叉元素可反映节点间的关系,通常用来表示有无关系以及关系的权重等量化信息。图2(a)和图2(b)是同一个图的不同节点排序可视化形式,可以看出,邻接矩阵的可视化效果很大程度上受节点排序影响。目前有大量的研究关注于基于邻接矩阵的图结构挖掘。

图2 邻接矩阵图可视化示例

尽管通过邻接矩阵能够有效避免节点-链接图中的边交叉问题,但是无法直观了解图的拓扑结构,以及图中存在的隐含关系,不适用于路径匹配类的查询任务。对此,文献[21]提出混合布局的邻接矩阵可视化技术,文献[22]在邻接矩阵的基础上结合桑基图、柱状图等提出一个可交互的多视图可视化系统StratomeX,文献[23]结合树与邻接矩阵的方法实现了多变量图的可视分析系统Juniper,用于分析由论文、引文度量和学者组成的网络。

1.3 大规模知识图谱可视化技术

随着人工智能的广泛运用,知识图谱的规模随之增大。目前已有大量公开发布的知识图谱,表1展示了部分知识图谱的数据规模。

表1 部分知识图谱数据规模统计

2007年5月关联开放数据项目的提出,将独立的知识图谱通过RDF链接连接在了一起,形成了一个超大规模的知识图谱,目前包含1 239个数据集通过16 147个RDF链接进行连接。面向关联开放数据的大规模可视化技术得到了学者广泛关注。文献[13]通过在不同数据集间定义抽象层实现关联数据集间的动态可视化,并提出了关联数据可视化模型LDVM。文献[24]基于LDVM模型提出了大规模知识图谱可视化的系统架构,如图3所示,其中主要分为5个部分,分别为数据检索、图初始化、模型计算、节点布局和图形渲染。首先通过数据检索操作从知识图谱中获取数据,例如RDF三元组,然后通过不同的可视化技术,例如节点-链接图,得到二元组形式的图G=(V,E),接着运用不同的模型根据数据中蕴含的信息计算节点的大小、颜色等信息,得到G=(V′,E′),并通过不同的布局模型,如FR模型,得到G=(V″,E″),最后经过图形渲染将结果显示到用户的界面上。

图3 大规模知识图谱可视化一般步骤

数据检索的主要方式是查询操作,将在本文的第2节进行介绍,图形渲染主要是图形图像学的工作,本文不做过多阐述,详情可以参考文献[25]。

2 知识图谱的可视化查询

查询语言是对数据进行操作的重要工具,在关系数据库时代,结构化查询语言(Structured Query Language,SQL)作为数据库语言被广泛使用。由于知识图谱没有统一的数据模型,不同数据模型的知识图谱需要不同的查询语言进行数据的操作与管理。目前,主流的知识图谱数据模型是RDF图和属性图。SPARQL[26](SPARQL Protocol and RDF Query Language)是W3C制定的RDF知识图谱标准查询语言,其从语法上继承了许多SQL查询语言的优点。属性图上的查询语言主要有Cypher和Gremlin。Cypher是一种声明性图查询语言,由Neo4j公司[27]于2015年提出,其允许用户在属性图中进行高效的数据查询。Gremlin是Apache TinkerPop图计算框架提供的属性图查询语言[28],是一种图遍历语言,主要执行机制是在图中沿着有向边进行导航式游走,属于过程式查询语言。上述查询语言均属于结构化文本查询语言,需要用户进行一定的专业学习与训练才能掌握使用,对于普通用户来说友好性比较差。早在1977年,ZLOOF等人就针对SQL提出了按例查询(Query by Example,GBE)方法[29],其允许用户通过修改查询模板中的关键字构造查询,而不是使用结构化文本查询语言,可视为关系数据库时代的可视查询技术。

图4展示了知识图谱可视化查询的典型架构,其中,终端用户通过移动设备,例如智能手机、电脑等,向网络层发送查询任务请求,网络层对知识图谱进行查询处理与数据请求,上文提到的大规模知识图谱可视化的5个主要步骤都在网络层实现,最后网络层将渲染好的图形反馈到终端用户的移动设备上。本节主要介绍查询任务请求阶段中的知识图谱可视化查询语言与系统,以及本体上的可视化查询系统。

图4 知识图谱可视化查询典型架构

2.1 知识图谱可视化查询语言

目前,知识图谱的主要数据类型为RDF图和属性图,有向标签图和异构信息网络分别是前者的特殊形式。本节主要介绍这两种主要知识图谱数据类型对应的可视化查询语言。

2.1.1 基于RDF图的可视化查询语言

随着查询语言的不断发展,早期RDF图上的查询语言包括RQL[30]、RDQL[31]等,目前RDF知识图谱上的标准查询语言是W3C制定的SPARQL。SPARQL查询的基本单元是三元组模式,与RDF数据模型中的基本三元组(s,p,o)相对应,多个三元组模式可以构成基本图模式(Basic Graph Pattern,BGP)。同时,SPARQL支持多种运算符,包括FILTER、AND、LIMIT等,可将基本图模式扩展成复杂图模式(Complex Graph Pattern,CGP)。

SPARQL查询语言存在文本结构化查询语言共同的问题,即用户需要经过一定时间的专业学习来掌握查询语言的结构以及各种关键字、运算符对应的语义信息。针对这一问题,文献[32]结合GQL图查询语言思想,提出RDF图上的可视化查询语言RDF-GL[32]。RDF-GL通过矩形和有向线段的组合构成基本查询模式,并用圆形表示UNION、OPTIONAL运算符,将COUNT、LIMIT等操作符内置在矩形中。这种可视语言对用户来说并不具备良好的可学习性和可读性。

文献[11]基于SPARQL查询语言的语法与语义,结合VOWL可视化查询语言的可视元素,提出了QueryVOWL可视化查询语言。如图5所示,通过圆圈与有向线段的组合形成由三元组模式组成的复杂查询模式,图中的矩形表示RDF图中的字面量,圆圈中的数表示通过COUNT运算符得到的结果。QueryVOWL可视化查询语言的详细语法与语义参见文献[11]。

目前,多数可视化查询语言的查询模式与查询结果之间存在壁垒,当查询结果不符合用户的查询意图时,用户往往不知如何修改查询模式。文献[33]提出了知识图谱上的交互式可视化查询语言KGVis,通过将中间结果存储在查询模式中,实现了查询模式与查询结果间的双向转换,从而打破了两者间的壁垒。KGVis支持在构造查询模式的过程中进行实时数据查询,使用户可以通过查看中间结果来确保查询模式的正确性。图6展示了基于KGVis的可视化查询系统架构,用户通过可视化界面构造查询模式,系统后台自动生成相应的查询语句,通过HTTP请求相应的知识图谱Endpoint,并将结果可视化展现给用户。

图5 基于RDF图的可视化查询语言QueryVOWL

图6 基于KGVis的可视化系统架构

2.1.2 基于属性图的可视化查询语言

相比于RDF图,属性图在节点和边上内置了属性信息,被工业界图数据库广泛采用,例如著名的Neo4j图数据库,但是还没有形成统一的工业标准。目前属性图上的主流查询语言有Cypher、Gremlin、PGQL和G-CORE等。近年来,由工业界和学术界联合组成的关联数据基准委员会(LDBC)正在进行属性图数据模型以及图查询语言的标准化工作[3]。

在针对属性图的图模式匹配方面,文献[34]提出了属性图上的可视化查询语言V1,值得注意的是,V1并不与某一种特定的属性图查询语言进行绑定,如图7所示,其通过矩形和线段的组合来表示属性图上的基本图模式,利用不同的颜色区分节点的类别。由于不基于任意一种图查询语言,因此V1的语法中不包含“AND”等运算符,而是采用算术与逻辑运算符“&”“‖”“×”等。文献[34]以奇幻小说《冰与火之歌》为知识背景详细地介绍了V1丰富的表达能力,由于笔者还未了解到有基于V1的可视化查询系统,因此目前其对于用户的可学习性和可读性仍未知。文献[35]对属性图上的查询语言进行了性能测试,包括Cypher、Gremlin等。

图7 基于属性图的可视化查询语言V1

2.2 知识图谱可视化查询系统

知识图谱可视化查询系统是基于各类知识图谱数据模型设计开发的工具,用于帮助用户更好地了解和查询知识图谱。本文根据查询结构以及交互逻辑将其总结为以下3类:基于关键字的可视化查询系统,基于过滤的可视化查询系统,基于模板的可视化查询系统。

2.2.1 基于关键字的可视化查询系统

基于关键字的查询是搜索引擎中最常用的方法,用户只需要输入一个或多个关键字,系统就能根据用户输入的关键字进行检索并返回相近的查询结果。文献[36]基于关键字查询方法提出了知识图谱上基于实体元组的查询系统GQBE,图8展示了其查询架构。系统以用户输入的实体元组作为关键字,计算实体元组构成的加权隐藏最大子图,通过计算查询结果与关键字的相似度对查询结果进行排序,返回相似度较高的查询结果。该系统虽然简化了用户的输入以及对知识图谱背景知识的需求,但只能进行简单的元组模式查询,无法进行复杂的图模式查询。另一方面,用户只能输入实体作为查询的关键字,实体与实体间的关系需要通过算法进行计算。由于实体与实体间往往存在不止一种关系,因此基于关键字的可视化查询系统使用并不广泛。

图8 基于关键字的可视化查询系统GQBE

2.2.2 基于过滤的可视化查询系统

基于过滤的可视化查询又称刻面浏览,其被广泛运用于Web用户界面,例如电子商务网站。这种查询方法的特点是通过不断过滤用户的筛选条件反复细化查询结果,使最后得到的查询结果符合用户查询需求。目前已有大量学者将刻面浏览方法运用于RDF图中,文献[37]总结RDF/S数据上的刻面浏览方法并进行了比较。

文献[38]提出了基于过滤的刻面浏览查询系统Grafa,通过预先查询并存储下一步查询结果,将结果不为空的关系或属性以选项的形式供用户进行选择。如图9所示,当用户以people类型作为查询起点时,Grafa提供了多个属性,例如性别、职业、城市等,用户可以通过下拉选项框对people类型的查询结果进行过滤,以找到符合查询意图的结果。基于过滤的查询方法通常以实体或类型作为查询的起点,适用于星型查询模式[37]。

图9 基于过滤的可视化查询系统Grafa

2.2.3 基于模板的可视化查询系统

基于模板的可视化查询系统是在QBE思想上继承发展得来的,相比于基于关键字的可视化查询方法,其不需要通过算法去预测用户查询意图对应的查询模式,另一方面,也不同于基于过滤的可视化查询方法只能支持较为简单的星型查询模式。学者通过对问题的归纳总结,提出一套完善的查询模板供用户选择使用。

文献[39]结合图自动完成功能提出一种交互式可视化查询系统VISAGE,其以不同类型的节点表示不同本体的实例,利用无向边连接节点构成查询图模板,通过在知识图谱上进行子图匹配查询,将查询结果可视化给用户。尽管本体与本体间的关系较少,但当知识图谱达到一定规模时,本体的类型较为丰富,需要大量不同类型的节点用以区分。文献[12]在VISAGE的基础上提出了图查询结果的交互式可视化探索系统VIGOR,并在DBLP的共同作者知识图谱以及网络安全数据集上进行了实验。在生物信息领域中,学者通常使用网络模型来表示生物实体间的相互作用和更高级别的关联,因此,适合使用基于模板的可视化查询方法。

文献[40]提出一种在生物信息应用中使用基于模板的可视化查询框架。如图10所示,其通过矩形和有向线段的组合表示查询模式,其中,QD代表已知的实体,TD表示期望查询到的结果。图10(a)表示查询与已知疾病有共同蛋白质关联的疾病,图10(b)表示查询与已知疾病关联蛋白质有二元相互作用的蛋白质关联的疾病,图10(c)将图10(b)查询变量换为病毒,图10(d)表示查询的一个生物的表型关联的蛋白质与已知生物的表型关联的蛋白质属于同一个蛋白质家族,但不是一类蛋白质。

图10 基于模板的生物信息可视化查询示例

在SPARQL 1.1引入属性路径之后,正则路径查询(Regular Path Querie,RPQ)被广泛认为是在RDF图上进行导航式查询的主要方法。正则路径查询的目的是查找知识图谱中是否存在一组实体,且判断实体间的关系是否符合正则路径,通常用于进行模式匹配查询。由于正则路径具有一定的实际意义且构造难度较大,因此通常由学者预先进行定义,以模板的形式提供给用户进行查询。

文献[41]提出一种交互式可视化正则路径查询工具ProvRPQ。用户可以在正则路径查询的结果上进行交互式探索,通过点击边查看中间的完整路径信息。文献[42]在此基础上提出一种交互式可视化查询工具SPARQLVis,其支持关键字、过滤以及正则路径查询。文献[43]则将3D可视化技术运用在查询结果的展示中,提出一种交互式3D可视化工具KG3D。

2.3 本体的可视化查询

本体是概念及其复杂关系的形式化表示,可用于获取生物信息学和网络安全等领域的综合领域知识。在这些领域中,大型复杂的本体可以包含数十万个概念。本节针对本体数据中是否包含大量的层次关系,例如is_a和subClassOf等,将本体的可视化查询方法分成两类:基于层次结构的可视化查询和基于非层次结构的可视化查询。

2.3.1 基于层次结构的可视化查询

目前,大量的本体可视化查询方法通常侧重于本体的层次结构,文献[44]提出了Protégé,一款基于Java语言开发的本体编辑和知识获取软件,主要针对本体的层次结构进行可视化,并为多重继承复制概念,如图11所示,其中非层次结构在单独的窗口中以文本形式列出。该软件目前被广泛应用于生物医学领域。树视图和欧拉图是体现层次结构最佳的可视化模型,缩进列表作为树的一种特殊形式,能够清晰地体现本体的类名以及层次关系,但是无法表达处于同一层次关系的本体间的关系。另一方面,尽管欧拉图能够通过节点嵌套的形式体现本体的层次关系,以及通过节点的大小和节点间的距离体现实体间的关系,如以距离体现实体间的相似度,但是和树视图一样无法体现多层继承关系,并且不适合大规模的本体数据。

图11 基于层次结构的可视化查询软件Protégé

2.3.2 基于非层次结构的可视化查询

本体中不仅包含丰富的层次关系信息,而且包含大量的类、属性及实体间的复杂关联信息。针对层次结构无法有效表达此类信息的问题,文献[10]提出了一种大型本体非层次关联可视化查询系统OntoPlot。如图12所示,OntoPlot采用冰柱图[45]作为主要的可视化方法,能够有效地保留本体的主要层次结构,同时对查询结果中涉及不到的节点进行视觉压缩,从而使得查询结果能够基本处于同一层次高度,实现大规模本体数据上的非层次关联查询。

图12 基于非层次结构可视化查询系统OntoPlot

对本节介绍的7种知识图谱可视化查询技术进行分类总结,并从理论依据、表达力、可读性、可学习性、准确率等方面进行对比,如表2所示,其中主要分为两类可视化查询语言和5种可视化查询方法。对比内容包括是否具有对应的语法与语义、表达力表示查询模式能否表达复杂的查询问题、可读性表示查询模式是否容易被用户阅读和理解、可学习性表示查询方法是否容易被用户学习和理解,以及准确率表示查询结果是否符合用户的查询意图。

由表2可知:

1)可视化查询语言的表达力强于可视化查询方法,是因为可视化查询语言具有一定的理论依据以及语法。

2)在可读性与可学习性方面,可视化查询语言强于传统的文本查询语言,但弱于可视化查询方法。

3)基于关键字的查询方法对用户的输入要求低于其他方法,但是由于关键字无法有效地表达用户的查询意图,因此查询准确率较低。

4)基于过滤的查询方法能有效避免查询结果为空,适用于星型和链式查询结构,但是不支持复杂的模式查询。

5)基于模板的查询方法在可用性、可读性、可学习性以及准确率方面高于其他方法,但受限于模板的数量,用户可操作性较低。

6)由于本体中包含大量的层次关系,因此基于层次结构的查询方法能够有效地展示本体中的层次关联,并支持多重继承。

7)基于非层次结构的查询方法在尽可能保留层次结构的同时,支持对非层次关联问题的查询。

表2 知识图谱可视化查询技术对比

3 领域知识图谱可视化查询

知识图谱作为人工智能领域中实现认知智能的关键技术,被广泛运用于生物信息、智能交通、地理信息以及社交网络等方面。随着各个领域不断地形成领域知识图谱,通用可视化查询方法不能有效地针对各个领域特定问题进行描述。因此,针对领域知识图谱进行可视化查询成为一项重要的挑战。

在学术知识图谱可视化查询方面,文献[46]使用基于模板的可视化查询方法,以基于节点-链接图的可视化技术,使用力导向布局表示实体间关系的强弱,将查询结果可视化展现给用户。利用此方法,用户可以找到与自己研究方向相关的会议论文以及作者的师承关系与合作关系,从而建立自己的学术网络。

在社交网络方面,可以通过节点-链接图展示社交网络中人、地点、关系间的联系,并且用户可以通过基于过滤的可视化查询方法,迅速找到与自己具有共同爱好的人、可能感兴趣的地点或电影等[47]。文献[48]基于活动数据以及社交网络中的拓扑结构,提出一种社交朋友可视化查询系统SFViz,通过生成社交标签的层次结构帮助用户寻找潜在的朋友,并在音乐社区中进行实验。

在网络空间安全领域,计算机网络本身就是由多个节点组成的,节点间的网络连接对应于知识图谱中的边。通过融合攻击事件、漏洞路径、任务需求以及网络资产等信息,能够可视化展示网络中的实际运行状态。文献[49]基于实际网络攻击、防御和任务影响相关的网络安全模型,提出一种网络安全交互式可视化查询工具CyGraph,通过将孤立的网络数据和时间汇总在一起,以提供决策支持和态势感知,面对实际网络攻击,查询可能需要更深入地检查易受攻击的路径。

生物信息领域包含大量代谢网络、基因表达网络、基因调控网络和细胞信号转导通路等内容,由蛋白质、基因、代谢物、病毒等不同种类物质构成。文献[14]基于生物途径信息建立了可视化模型,其通过力导向布局图以及桑基布局图对查询结果进行展示,并开发了可视化系统BioPW[14]。

知识图谱的可视化查询在电商领域也得到了广泛的运用,其通过对用户浏览信息的收集,为每个用户构建一个小型知识图谱进行分析,可通过可视化查询找到用户可能感兴趣的商品,或者对商品流行趋势进行预测[50]。

此外,知识图谱的可视化查询还可运用于社会舆情的可视分析[51]、地理空间数据的可视分析[52]、电网运行状态的可视分析[53]等诸多方面。

4 未来研究方向

目前,知识图谱可视化查询的理论、方法、技术与系统均处于快速发展阶段。基于知识图谱数据规模逐渐扩大的现状,该技术的未来研究方向可归纳如下:

1)针对已有的知识图谱数据模型,设计一套统一的知识图谱可视化查询语言。目前知识图谱数据模型还尚未统一和标准化,相应的知识图谱文本查询语言也正处于开发阶段,目前还没有一套完善的可视化语法与语义作为可视化查询语言的理论基础。因此,设计一套统一的可视化查询语言,是知识图谱领域的一个重要研究方向。

2)将可视化前沿技术与知识图谱的数据模型相结合,从而更好地展示知识图谱丰富的语义信息。目前的可视化技术主要注重于数据的展示,并不能有效地表达知识图谱中蕴含的语义关联信息。因此,如何把可视化技术与知识图谱数据模型进行结合,将可视化技术最前沿的方法用于表达和查询知识图谱中丰富的语义信息,将是未来一个重要的研究方向。

3)对已有的知识图谱可视化技术进行优化,以适配领域特定知识图谱可视化查询。不同领域的知识图谱根据领域特点也具有不尽相同的图结构和语义特征,如社交网络中存在大量5连通度的子图结构[47]。因此,下一步可结合领域特定图结构以及语义特征,利用可视化技术设计基于领域特定知识图谱的图查询语言,并在此基础上开发面向领域特定知识图谱的可视化查询系统。

4)针对大规模知识图谱数据,实现大规模知识图谱的高效可视化查询。二维节点-链接图目前已经无法有效展示规模上万的知识图谱;三维可视化技术能够解决边重叠问题,但同样面临数据规模引起的可视化性能下降的问题;分页图可视化技术能够在一定程度上解决数据规模问题,但却舍弃了知识图谱的完整性。随着三维、增强现实与虚拟现实技术的不断发展,如何在有限的可视化空间,利用可视化查询技术实现大规模知识图谱上的查询与分析,是亟需解决的重要问题。

5)针对知识图谱的领域特性,实现跨领域知识图谱间的联合可视化查询。目前,大量发布在Web上的知识图谱都具有单独的查询接口以及数据格式,这使得用户需要了解不同的查询接口并进行数据格式的转换。随着知识图谱数据模型的统一与标准化,跨领域知识图谱间的联合可视化查询将成为重要的研究方向。

5 结束语

知识图谱可视化查询是通过图形图像描述知识资源及它们之间的相互联系,并在此基础上提供查询服务的一项计算机技术。本文以“知识图谱数据模型-可视化技术-知识图谱可视化查询语言-知识图谱可视化查询方法-领域知识图谱可视化查询应用”为主线,对比分析2种知识图谱可视化查询语言和5种知识图谱可视化查询方法的优缺点,对目前知识图谱上的可视化查询技术进行研究。随着知识图谱在新一代人工智能发展中发挥愈加关键的作用,大规模、跨领域知识图谱的可视化查询方法与技术将会有更广泛的需求与应用。因此,基于统一模型的知识图谱可视化查询语言、感知语义的知识图谱可视化技术、面向领域知识图谱优化的可视查询方法以及大规模知识图谱的高效可视化查询策略,将是未来知识图谱可视化查询重要的发展方向。

猜你喜欢

数据模型本体图谱
眼睛是“本体”
绘一张成长图谱
面板数据模型截面相关检验方法综述
补肾强身片UPLC指纹图谱
基于本体的机械产品工艺知识表示
主动对接你思维的知识图谱
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
专题
Care about the virtue moral education
基于数据模型的编程应用