国际知识工程研究可视化分析
2017-07-17邱均平翟莉莉
邱均平 翟莉莉
[摘要]为全面了解国际知识工程领域的研究现状和发展趋势,以Web of Science数据库收录的2001—2016年知识工程领域的文献数据为研究对象,借助CiteSpaee软件,通过文献计量学和可视化方法从年代分布、期刊分布、学科分布、研究力量分布、重要文献、研究热点以及研究前沿等方面进行分析。根据上述研究,绘制知识图谱,对国际知识工程的研究现状和发展进行分析和总结,为我国知识工程研究提供参考。
[关键词]知识工程;可视化;知识图谱;CiteSpace
DOI:10.3969/j.issn.1008—0821.2017.06.024
(中图分类号]G250.252 [文献标识码]A [文章编号]1008—0821(2017)06—0148—07
“随着信息技术的迅猛发展,人们所掌握的知识呈现出爆炸性增长的趋势,为了适应知识社会的发展,更合理、有效地管理和利用知识,需要对知识本身及其活动规律展开研究,这是知识工程领域的核心研究内容”。知识工程是伴随专家系统的研究而产生的,基于专家系统DEN-DRAL的成功,美国斯坦福大学教授Feigenbaum于1977年第五届国际人工智能会议上提出了“知识工程”的概念,他指出,“知识工程是应用人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提出求解的手段”。
知识工程是计算机科学与人工智能研究的重要领域之一。知识工程的研究内容主要包括知识获取、知识表示、知识组织、管理及利用。随着知识工程的发展,已经有越来越多知识工程的方法与技术被应用到各个领域中,为各个行业的知识服务提供支持。国内外已有学者对知识工程领域进行综述研究,这些研究大多针对某一主题或应用研究领域,如Zipparo M等对5种本体合并技术和工具进行调查研究,并将其与一组通用的评估标准进行比较;La Rocca G探讨知识工程的技术基础,强调了传统知识工程系统与计算机辅助设计系统的主要差异和相似性;Jiang Hua介绍了主要的知识获取技术,比较其差异,总结应用知识获取技术获取知识的基本步骤,最后描述了知识获取技术的最新发展状况;袁国铭等从知识工程的基本概念人手,对知识获取、知识表示及知识运用进行综述研究,并指出知识管理对知识工程应用的作用;尹婵娟等从基础理论、影响因素、框架模型和方法这4个方面来分析我国知识获取研究现状;罗奕玥等介绍了知识工程的概念和发展历程,重点分析了知识工程在工业工程、教育领域、新兴应用等多个领域的主要应用。目前,国内运用计量学方法探索知识工程整體发展现状的文献尚不多见,其中赵华、邱均平等分别对知识工程领域论文进行文献计量分析,但他们的研究都局限于国内知识工程领域的发展现状,并未涉足国际。鉴于此,本文采用计量学和可视化方法,以知识图谱的形式展示国际知识工程领域的研究现状及趋势,以便相关研究人员能够更全面直观地了解国际知识工程领域的发展动态。
1数据来源与研究方法
本文数据来源于Web of Science数据库,该数据库收录了10 000多种学术期刊和超过11万个国际会议的学术文献,这些期刊和会议均经过严格遴选,因此以Web of Science数据库中知识工程研究的相关文献为数据来源,能够较为全面地展现该领域的研究现状。在Web of Science数据库中,以“Knowledge Engineering”为主题词进行检索,时间范围设置为2001—2016年,文献类型选择Article、Proceedings Paper,共得到1450条文献记录。
本文所选用的工具是由陈超美教授应用Java语言开发的可用于计量和分析文献数据的可视化软件CiteSpace。CiteSpace适合用于复杂网络分析,其绘制的知识图谱能够显示某个学科领域在一定时期内的发展动向,形成若干研究前沿领域的演进历程。本文运用计量学方法,从文献的年代分布、期刊、学科分布、研究力量分布、重要文献、研究热点及前沿等方面进行可视化展示,从而全面地展现国际知识工程研究的现状及趋势。
2知识工程研究结果分析
2.1年代分布
研究文献的时间分布,可以了解这一学科的研究水平和发展现状。图1为知识工程研究的文献年代分布。可以看出,2001~2016年间知识工程领域的发展大致可以归纳为以下3阶段:2001-2005年为成长期,论文数量基本呈稳步上升趋势,知识工程研究取得一定进展;2006-2010年为发展期,这5年的发文量达到551篇,年均发文量达到最高,说明知识工程研究发展快速,成果显著;2011-2016年为稳定期,发文量在一定范围内呈波动状态。
2.2期刊分布
对某一学科领域研究文献的来源期刊进行考察,可以进一步了解该领域文献的空间分布现状,对开展该领域文献检索及研究具有重要意义。为此,选取Cited Journal为研究对象,在CiteSpace中设置合适的阈值,运行软件得到知识工程领域的期刊共现图谱,如图2所示。表l中展示的是知识工程领域的高被引期刊。
节点的中心性是图论中的一种属性,可以衡量网络中不同位置的节点的重要性。经统计,上述高被引期刊中有7个期刊的中心性大于0.1,分别是“COMMUN ACM”、“ARTIF INTELL”、“KNOWL ENG REV”、“EXPERT SYST AP-PL”、“AI MAG”、“LECT NOTES ARTIF INT”、“DATA KNOWLENG”,其中心性依次是0.18、0.17、0.14、0.13、0.12、0.11、0.11。这表明这些期刊在知识工程研究领域占据重要地位,是知识工程研究的主要学术交流阵地,其刊载的文章具有较高的质量,并引起该领域学者的关注。
2.3学科分布
分析某一研究领域的学科分布,能够识别该领域的学科属性,扩展研究视野,促进学科间知识交流。选取Care-gory为研究对象,设置合适的阈值,运行软件得到知识工程领域的学科分布图谱,如图3所示。
由图3可知,知识工程研究主要集中于计算机科学、工程学等领域。经统计,1105篇文献属于计算机科学领域,占总体的76.21%;467篇文献属于工程学领域,占总体的32.21%。位居前5的余下3个学科依次是:运筹学与管理科学,88篇,占总体的6.07%;自动化及控制系统,71篇,占总体的4.90%;商业经济,67篇,占总体的4.62%。此外,该研究也涉及教育学、管理学、信息科学与图书馆学、电信学、医学信息学等学科领域。可见,知识工程研究与众多学科领域密不可分,具有广泛的应用领域。
2.4知识工程研究力量分布
2.4.1国家(地区)分布
研究国家分布,可以让我们了解不同国家(地区)在该领域的研究实力。选取country为研究对象,绘制知识工程研究的国家(地区)分布图谱,如图4所示。
图中的节点代表国家(地区),节点越大表示发文量越多。从发文量来看,美國在知识工程领域的发文最多,为201篇。其次是中国大陆发文193篇,位居第二。另外,知识工程领域高产的国家(地区)还包括法国(133篇)、西班牙(109篇)、英国(90篇)、德国(87篇)、加拿大(53篇)、波兰(52篇)、意大利(50篇),说明这些国家和地区较为关注知识工程领域研究,并取得一定的成果。从中心度来看,知识工程领域中心度较高的国家有英国(0.35)、荷兰(0.25)、西班牙(0.19)、意大利(0.1)等,这表明这些国家(地区)在知识工程研究领域处于主导地位。
节点间的连线表示国家(地区)之间存在合作关系,连线越粗则说明国家(地区)之间的合作越紧密。由图3可知,在知识工程领域,合作较为密切的国家(地区)主要集中于以英国、西班牙、荷兰等为主的欧洲国家(地区),中国大陆仅与澳大利亚之间有合作关系,缺少国际学术交流。
2.4.2机构分布
选取Institution为研究对象,设置合适的阈值,运行软件得到知识工程研究的机构分布图谱(见图5)。节点大小与该机构的发文量正相关,节点之间的连线代表机构之间存在合作关系。
由图5可知,知识工程领域研究机构数量众多,但机构之间的合作较为稀疏,只有较少的机构之间存在合作关系。从中心性来看,图中机构在网络图谱中的中心性均趋近0,表明机构间合作文献较少,在整个网络中的连接作用很小。从发文量来看,排名靠前的机构分别是Univ Tech-nol Troyes、Vrije Univ Amsterdam、Univ Calgary、AGH Univ Sci&Technol、Univ Granada、St Petersburg State Univ、Chinese A-cad Sci、Univ Edinburgh、Dalian Univ Technol、Chiang Mai U-niv,Univ Leipzig,Univ Newcastle,Univ Castilla La Mancha,U-niv Pittsburgh。从机构类型来看,高校及科研院所是知识工程研究的主要力量。其中在我国科研机构中,中国科学院及大连理工大学的发文量位居前列,表明这两所院校在知识工程领域具有较强的科研实力。
2.4.3作者分布
选取作者(Author)为研究对象,设置合适的阈值,运行软件得到知识工程研究的作者分布图谱,如图6所示。图中节点代表发文作者,节点大小代表作者的发文量,节点越大,表明该作者发文量越多。节点之间的连线代表作者之间存在合作关系。
由图6可知,知识工程研究领域发文量位居前10的作者分别是Tatiana Gavrilova(13篇)、Edward Szczerbicki(12篇)、Cesar Sanin(9篇)、Nada Matta(9篇)、Yingxu Wang(8篇)、Grzegorz J.Nalepa(7篇)、Carlos Toro(7篇)、Gwo-JenHwang(6篇)、Davy Monticolo(6篇)、Soeren Auer(6篇)。从合作角度看,该领域作者之间的合作相对分散,以2~5人的小团体为主。在这些作者中形成的最大的合作网络是由Edward Szczerbicki、Cesar Sanin等组成的10人网络,这些学者来自纽卡斯尔大学等研究机构,主要涉及知识表示与决策研究。从中心性来看,图中作者的中心性趋近为0,这表明网络中没有处于核心地位的作者。
2.5引文分析
文献被引频次的高低及其中心性的大小都可以反映文献的影响力和价值。通常情况下,单篇文献的被引频次越高,说明该文献在研究领域中的学术影响力越大。节点文献的中心性也体现文献在学科领域的重要程度。以Cited reference为分析对象,运用可视化软件展示知识工程研究文献的共被引图谱,如图7所示。
图7中,节点大小与该文献的引频次正相关,带有紫色光圈的节点具有较高的中心性。结合被引频次,可以认为具有高被引频次及高中心性的关键文献是该领域的重要文献。选取被引频次位居前列,且中心性均不低于0.2的文献作为知识工程领域的重要文献,共有3篇重要文献。
被引频次排在首位的是斯坦福大学知识系统实验室的GRUBER TR于1993年发表的名为“A Translation Approcah to Portable Ontology Specifications”的论文,其中心度为0.48。该文提出了本体的定义,认为本体是概念化的、明确的规范说明,同时也描述了一种用于定义本体的机制,即0n.tolingua系统,用于解决本体表示的问题。被引频次排在第二的是Studer R等人在1998年发表的“Knowledge Engi-neering:Principles and Methods”一文,其中心度为0.24。该文献描述了知识工程领域的3种建模框架,即Com-monKADS、MIKE以及PROTeGe-Ⅱ。被引频次位居第三是Schreiber GT等人于2000年出版的“Knowledge Engineering and Management:The CommonKADS Methodology”,其中心度为0.24。该著作系统阐述了CommonKADS方法,提出知识获取的工程技术路线和一套组织与任务分析工具。
由以上分析可知,该领域的重要文献主要研究的是知识工程领域所使用的主要模型与方法,侧重于知识工程领域的技术实现。
2.6研究热点分析
关键词是文章的核心和精髓,是对文章主题的高度概括,因此高频关键词常常被用来确定一个研究领域的热点问题。运用可视化软件CiteSpace绘制知识工程领域的关键词知识图谱,如图8所示。图谱中每个节点代表对应的关键词,节点越大说明关键词频次越大。
在图8展示的知识工程领域研究热点图谱中,出现频次最高的关键词是Knowledge Engineering(知识工程),频次高达506次。高频关键词反映出的知识工程领域的研究热点还包括Ontology(本体)、Systems(系统)、Knowledge Man-agement(知识管理)、Knowledge(知识)、Design(设计)、Knowledge Representation(知识表示)、Semantic Web(语义网)、Artificial Intelligence(人工智能)、Knowledge Acquisition(知识获取)、Expert System(专家系统)等。同时,从中心性角度来看,中心性大于0.1的关键词包括(Systems)系统、Knowledge Engineering(知识工程)、Knowledge(知识)、Software Engineering(软件工程)、Ontology(本体)、Semantic Web(语义Web)、Knowledge Representation(知识表示)、Knowledge Management(知识管理)、Knowledge Acquisition(知识获取)等。将高频关键词与高中心性关键词进行比较可知,两者大体上保持一致,因此,可以确定这些关键词在一定程度上能够表示知识工程研究的热点。
对热点关键词进行统计分析可知,知识工程的研究主要集中在理论研究、技术方法研究及应用研究等方面,涉及的关键词如Knowledge Engineering(知识工程)、Ontology(本体)、Knowledge Management(知识管理)、Knowledge(知识)、Knowledge Representation(知識表示)、Knowledge Acqui-sition(知识获取)、Semantic Web(语义Web)、Expert System(专家系统)等。知识是知识工程的处理对象。知识表示是研究计算机表示知识的可行性、有效性的一般方法,是把人类知识表示成计算机能处理的数据结构和系统控制结构的策略。知识获取通常是指知识从外部知识源到计算机内部的转换过程。知识获取、知识表示都是知识工程实现的关键环节,知识管理则涉及知识库的管理。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,并对该领域术语及其关系进行明确定义。语义Web是对传统Web的延伸,其所有数据都被赋予规范的含义,以便于人机合作完成数据处理任务。本体及语义Web技术的提出,为知识工程研究中知识库的构建、知识的表示等提供了新的思路。专家系统致力于使用人类专家推理的计算机模型来处理现实世界中需要专家做出解释的复杂问题,是知识工程领域的具体应用研究。
2.7研究前沿分析
对于学科前沿的追踪有利于学术共同体更好地把握学科发展的趋势以及未来研究的方向,我们可以利用CiteSpace中提供的膨胀词探索技术和算法来探测和分析学科研究前沿的变化趋势。运行CiteSpace软件,绘制该领域研究前沿领域可视化图谱,如图9所示。
由图9可知,2001年,Expert-System(专家系统)是知识工程研究的前沿领域,到2007年,Semantic-Web(语义Web)成为该领域的研究前沿,知识工程研究的发文量增多,研究热潮涌现。此外,近年来知识工程研究的前沿领域还包括Domain-Ontology(领域本体)、Machine-Learn-ing(机器学习)、Natural-Language-Processing(自然语言处理)、Knowledge-Modeling(知识建模)、Bayesian-Network(贝叶斯网络)等。可以看出,该领域研究学者们在不断探索新的技术与方法,将本体、语义网、贝叶斯网络、机器学习、自然语言处理等相关技术方法应用到知识表示、知识建模等各个环节,促进知识工程发展。
3结论
本文采用信息计量学理论和可视化方法,通过可视化软件CiteSpace,以Web of Science数据库收录的知识工程领域的相关文献为数据来源,对2001-2016年国际知识工程领域研究现状及发展规律进行可视化分析,得出以下结论:
1)在时间分布上,这一时期知识工程的研究分为3个阶段,2001-2005年为成长期,论文数量呈上升趋势,2006-2010年是发展期,年均发文量较大,2010年以后,发文量在一定范围内呈波动状态,逐渐趋于稳定阶段。
2)在期刊分布上,“COMMUN ACM”、“ARTIF IN-TELL”、“KNOWL ENG REV”、“EXPERT SYST APPL”、“AlMAG”、“LECT NOTES ARTIF INT”、“DATA KNOWL ENG”这些期刊既是该领域的高被引期刊,也是高中心性期刊。
3)在学科分布上,知识工程研究主要集中于计算机科学、工程学、运筹与管理科学、自动化与控制系统、商业经济等学科领域。
4)在研究力量分布上,该领域高产国家包括美国,中国、法国、西班牙、英国等,高校和研究院所是该领域研究的主要力量;就合作而言,部分欧洲国家合作相对密切,中国大陆国际合作较少;该领域研究机构和学者众多,但机构之间的合作较为稀疏,作者间合作以小团体为主,合作网络中没有出现处于核心位置的作者,因此有必要加强国家及机构的合作力度,促进作者间的合作研究,为学术交流构建良好的合作环境,促进知识工程学科的发展。
5)在知识工程领域,早期的研究成果被学者们广泛认可,这些文献主要涉及到知识工程领域的相关模型及方法,侧重于技术实现。
6)知识工程的研究主要集中于理论研究、技术方法及应用研究等方面,涉及的关键词有Knowledge Engiaeering(知识工程)、Ontology(本体)、Knowledge Management(知识管理)、Knowledge(知识)、Knowledge Representation(知识表示)、Knowledge Acquisition(知识获取)、Semantic Web(语义Web)、Expert System(专家系统)。
7)对知识工程领域的研究前沿进行分析,可以发现知识工程研究在不断探索新的技术和方法,前沿领域包括Se-mantic-Web(语义Web)、Domain-Ontology(领域本体)、Knowledge-Modeling(知识建模)、Bayesian-Network(贝叶斯网络)、Expert-System(专家系统)等。