我国知识图谱运用的研究现状与未来趋势
——基于共词分析的可视化研究
2019-10-30刘世豪
刘世豪
(渤海大学 教育科学学院,辽宁 锦州 121000)
一、引言
随着互联网技术的快速发展,研究技术也在不断的革新[1]。当前时代,网络信息呈现指数级爆炸增长,同时存在数据复杂性、结构松散性等问题,成为信息互联、数据处理的阻碍。而知识图谱则将海量的数据进行有效的组织,以可视化的方式,促进了科学研究的发展,满足了研究人员及其他用户对知识的需求。同时,知识图谱促进了搜索引擎的发展,使得目标内容对于用户的可利用性增加。知识图谱作为人工智能研究的新热点,用于解决智能检索、自动回答等应用问题[2]。本文拟通过研究知识图谱相关文献,分析其应用领域、研究现状以及未来发展趋势等。
二、知识图谱的内涵
知识图谱(Knowledge Graph)起初来源于人工智能领域,是利用三元组等将知识互相关联而形成的一类图谱。Djds[3]率先提出了引证网络,为知识图谱的概念确定奠定了基础;刘则渊、陈悦等[4]认为狭义的知识图谱定义就是人类随时间拥有的知识资源及载体;中国科学院自动化研究所的朱木易洁等人[5]指出,知识图谱本质上可以被近似看做一个语义网,是结构化的知识库;漆桂林等[6]认为知识图谱本质上就是一种叫做语义网络(semantic network)的、具有有向图的知识库。总体来说,知识图谱是在语义网的基础上发展而来,同时,随着海量的知识出现,知识图谱的规模也愈发庞大,可以较为准确的抽取、推理出相关信息,实现可传递且具有较大弹性的事实关联。
三、研究方法及数据来源
(一)共词分析法
上世纪70年代中后期,法国的文献计量学家第一次提出了共词分析法,其实质是一种内容分析方法,发展到90年代已经趋于成熟[7]。在研究领域之中,前沿热点之间并不是孤立存在的,而是并含多类相互联系的关键词;同时,不同的研究者研究点或者课题相同时,则参考或编著的文献的关键词、主题词总是基本相同的。引文耦合和共被引分析可以被用作研究出现在同一文献中的多个主题词或术语,词与词之间共现次数与关系成正相关。关键词处理的一般流程包括:提取、选定、构建共现矩阵、生成可视化图谱。
(二)本文数据来源
本文将CNKI 作为数据库,确定本次检索篇名为“知识图谱”,因本文拟研究近十年我国知识图谱研究发展的现状,故时间限定为2009年—2019年,期刊限定为CSSCI,共检索到892 篇文献,将检索到的文献作为共现分析样本,进行定量分析。
四、研究与发现
(一)词频分析
关键词本质是源于相关文献,经过处理,能反映主题的单词或术语[8]。关键词一定程度上可以为浏览者提供多篇文献标签化的定性区别,具有界定文献类型、内容、方向的作用。通过对检索的文献集合进行数据预处理,关键词共被提取1490 个,限定词频大于6 次的关键词为高频关键词,结果共计70 个;现对关键词通过筛选与去除等标准化处理,将同本次研究的主题相关度较小的词去除,合并同概念、含义的关键词,共得61 个,排名降序分别为知识图谱(668)、研究热点(152)、CiteSpace(83)、可视化(72)、可视化分析(61)、共词分析(60)、文献计量(53)等。词频统计表明知识图谱的运用主要集中在相关热点研究或可视化等领域。如表1所示。
表1 高频关键词统计(部分)
(二)高频关键词共现矩阵
将高频关键词导入Bicomb 分析软件,构建了一个61×61 的共词矩阵,如表2所示。同时,为了避免关键词共现频次大造成误差,在SPSS22.0 中采用Ochiia 系数,将共词矩阵转为相异矩阵(保留小数点后4 位),以便在进行多维尺度分析时减少误差并降低值的偏离度,如表3所示。在高频关键词相异矩阵中,关键词与关键词共现值为0,则两个关键词之间完全相关;当值为1 时,说明两者之间的距离较远,其相关性程度较低。由表2可知,研究热点、Citespace、可视化、共词分析等与知识图谱之间的距离较为接近,其相似性程度较高。这一结果同关键词词频统计分析结果类似,以知识图谱为篇名的研究性文章多聚焦于研究热点与可视化,知识图谱更多的是作为一种计量、分析、可视的工具。
表2 高频关键词共词矩阵部分
表3 高频关键词相异矩阵(部分)
(三)多维尺度分析
多维尺度分析方法本质是无监督的可视化机器学习工具。多维尺度分析,在分析、归类的基础上,将关键词之间的距离定位到二维及以上的概念空间中,且位置为特定,关键词之间的距离越近,则代表两点之间具有极高的相似性与相关性,并且可以修正聚类分析中的部分误差。
将表3的相异矩阵导入SPSS22.0 软件中,将维度降低为二维,并通过可视化结果进行分类,如图1所示。在图1中,利用封闭曲线将高频关键词划分为四部分。知识图谱的研究范围大致可以分为以下几类:(1)知识图谱文献分析类。通过知识图谱,对当前的文献或者社会网络数据进行处理,生成可视化图谱,在图谱的基础上进行理论研究;(2)利用知识图谱进行现状与趋势研究类。在当前研究的基础上,对之后相关领域的研究趋势进行较为科学的预测;(3)利用知识图谱进行热点研究类。知识图谱通常以“三元组”的形式呈现,可以清晰地观察到实体与实体之间的关系以及实体概念之间的联系,知识图谱可以被看作是计量的另一种表达方式;(4)利用知识图谱可视化研究类。在这一维度上,知识图谱通常与相关软件共现,如利用Ucinet 等可以进行中心度分析,进而为研究提供相关数据量支撑。
图1 多维尺度分析
(四)社会网络分析
Ucinet 具有强大的数据处理能力,通常用来进行社会网络分析。将高频关键词的矩阵导入软件中,生成社会网络图,在关键词社会网络关系图谱之中,其节点越大,则在网络中的地位越高,作用越明显;节点与节点之间的线则代表了相关性,如果两个方块节点之间的线段越粗,则两者越接近,相关性越高,如图2所示。将“知识图谱”这一关键词删除后,“研究热点”“CiteSpace”“共词分析”等构成了知识图谱领域的核心关键词,这一结论与上文相同。同时,知识图谱节点与研究热点节点之间的线段最粗,距离最近,这反映了当前的研究与知识图谱紧密相连。
图2 高频关键词共词网络图
现对关键词节点中心度和接近中心度进行分析。中心度可以表述网络图中的任何一点的重要性,在研究的过程中,中心度通常被用作衡量节点地位的指标。如表4所示,分析共三个维度,分别为Degree、NrmDegree、Share 等。表4为知识图谱高频关键词网络中的节点中心度,由表中的数据可知,知识图谱具有绝对核心地位,其值817 远高于其他关键词的中心度;热点及前沿的研究与知识图谱紧密结合,知识图谱不仅是研究热点、前沿的工具,也是其信息的重要载体;利用CiteSpace 生成的可视化网络图谱,是当前主流的社会网络生成和分析方法。接近中心度属于一种测度,是某一个点接近所有点的程度。接近中心度的值即路径长度的倒数,节点距离越近,中心度越高。它表示节点在多大程度上不受其他节点控制的程度[9]。本文高频关键词中心度接近性如表5所示,知识图谱(63.000)值最小,处于我国此领域研究中的核心地位,其次分别为研究热点(80.000)、CiteSpace(88.000)、科 学 知 识 图 谱(93.000)、可 视 化(93.000)等,这些关键词的Farness 相对较小,中心度较高。
表4 高频关键词节点中心度(部分)
表5 高频关键词接近中心度(部分)
五、研究结论
(一)当前知识图谱研究热点领域
上述数据表明,当前知识图谱在我国的研究领域具有重要的作用,尤其是其强大的数据处理分析与可视化功能,为研究人员的研究提供了新的方向。领域热点包括知识图谱、CiteSpace 和Ucient 等科学分析软件、可视化及可视化分析等,包括知识图谱的内容结构化。传统意义上的知识图谱最早被运用于科学研究,由于其可以清晰直观地表示出知识与知识之间的属性关系或逻辑关系,受到研究者和学者的广泛认可。早在20世纪60年代,Eugene 等人首次利用知识图谱构建了关于DNA 研究领域的科学图谱,但真正意义上的雏形则是Braun 等人[10]绘制的关于世界版图的研究图谱。通过多维尺度分析,将当前我国知识图谱研究领域分为了知识图谱文献分析类、利用知识图谱进行现状与趋势研究类四类,为研究者提供了全面、有价值的数据结果,将海量数据构建为优质的、系统化的知识网络,为其提供科学数据支撑。但当前关于知识图谱的研究现状类的文献或期刊依旧相对较少,更多的是将其作为一种计量分析的工具,研究者关注的是知识图谱的工具性而不是其本身的研究内容。
(二)知识图谱应用分析
随着互联网的快速发展,知识图谱被广泛运用于各领域的研究之中,如科学计量学、金融学、图书馆情报学、生物学、教育学等。无论是在现实生活中还是网络中,都存在着大量的实体,实体之间有着复杂的联系。为了使得各类实体之间的关系更加清晰,谷歌公司[11]在2012年首次推出了“谷歌知识图谱”,这是现代意义上的知识图谱,它包含着边与节点两部分,节点为实体,边为属性关系,其本质为语义网络(Semantic Network)。知识图谱一方面是可视化的科学分析方式,另一方面也是搜索引擎的支撑。谷歌知识图谱的推出,掀起了知识图谱高速发展的序幕,Wordnet、ConcepNet、Freebase 等相继被开发与应用,其中普林斯顿大学开发的Wordnet 是目前最典型的词典类知识库;ConceptNet 则拥有大量开放的结构化数据,通过专家外包等方式,不断地扩展知识图谱的内容。知识图谱在互联网中的应用可以极大的促进相关研究领域的发展,如信息自主搜索、个性化推荐等。
(三)知识图谱未来发展趋势
1.在学术研究中的应用更加广泛
学术研究中,作者共现、关键词社会网络、研究机构联系等都需要知识图谱的可视化帮助,研究领域中的信息再生导致新的信息不断覆盖与更新原始信息、并与原始信息相并存,大量的重复信息、累积信息都离不开知识图谱的组织、管理、挖掘与呈现。随着大数据、语义网络等技术在学术领域的运用,构建更加完整的知识图谱,更加有利于科学研究方法、现代计量学等方法与学科的综合发展。采纳新技术,将计量学的数据记录与研究环境、知识图谱构建技术相结合,将给现代科学研究的整个过程带来极大便利。
2.在人工智能领域中的地位不断提高
现代意义上的知识图谱更多的是与人工智能相融合,搜索引擎与个性化推荐系统可以为用户返回高质量信息,其技术支撑就是知识图谱的语义网,每个实体或者概念之间有着明确的关系,在知识图谱中采用协同过滤算法,利用群组智慧与专家意见,丰富以往的信息,提高了知识图谱的性能。
知识图谱对于智能问答[12]、知识推理以及推荐等具有重要的研究价值,在未来人工智能领域中的应用,将受到更多公司与高校的关注与研究。如在医药领域,可以利用实验室的数据、各文献的研究成果、众包数据等,降低其研究的成本,获取海量的高质量信息;在教育领域,知识图谱可以为学生或者教师提供学与教的指导,定义所有可能被穷尽的知识点,利用知识抽取、知识挖掘等技术,可以从多种同源异构的知识数据中获得所需信息,使信息推送更为精准;在工业制造中,知识图谱的精细化、联通性有利于为厂商提供所有关联知识,从而实现对客户的实效研究与个性化服务。
知识图谱具有知识推理功能,通过实体之间的关联规则、马尔科夫逻辑网络[13]等的知识推理,可以发现实体之间的传递性关系、互逆性关系等,发现知识中的隐含类知识,为各领域提供更加有价值的信息,知识推理机为人工智能领域中的预测提供实现的可能。