语义网环境下基于本体的知识集成研究进展
2015-05-18刘小乐1马捷2
刘小乐1 马捷2
(1.天津科技大学图书馆,天津300457;2.吉林大学管理学院,吉林长春130025)
语义网环境下基于本体的知识集成研究进展
刘小乐1马捷2
(1.天津科技大学图书馆,天津300457;2.吉林大学管理学院,吉林长春130025)
〔摘要〕本文以Web of Science数据库为数据来源,利用文献计量学方法,从文献资源的著者、学科以及国家和地区分布等方面进行统计分析,探讨语义网环境下基于本体的知识集成研究进展。同时利用CiteSpace3.7.R8可视化软件对文献的引文和关键词进行可视化分析,发现热点和经典文献,为进一步的研究提供借鉴。
〔关键词〕本体;知识集成;语义网;关键词共现;文献共引 与共现知识图谱绘制步骤类似,利用CiteS-pace3.7.R8软件设置相关参数,在选择Node Types(节点类型)时选择Cited Reference(文献共被引分析)。运行程序,获得文献共被引频次表(如表3所示)和文献共被引知识图谱(如图2所示)。在图中结点代表参考文献,结点的大小能够反映文献被引频次的高低程度,结点间连线表示文献存在共被引的关系,结点间的连线越粗代表文献共被引程度越高。通过文献共被引分析,可以分析在这一学科领域的经典文献。
语义网是万维网的延伸和扩展,在语义网环境下,计算机通过语义化的信息标注对知识进行智能表达、自动处理,实现对知识的语义理解。本体是概念化形式化的说明,通过概念以及概念间的关系有效地表达不同领域间的通用知识。知识集成主要是对新的知识进行识别、处理、评估以及改造,实现新知识与原有知识之间的交互[1],促进知识组织化和结构化,使得知识能够集成发展。语义网环境下基于本体的知识集成能够解决不同网络信息资源的语义异构问题[2],通过集成不同的知识结构和不同来源的知识,为用户提供统一的知识访问接口以及智能化的知识服务。本文主要研究语义网环境下基于本体的知识集成,明确这一领域的研究进展状况,通过分析为以后的研究奠定基础。
1 数据来源和数据分析
本文采用的数据来源于美国科学情报研究所(ISI)出版的Web of Science中的SCI-EXPANDED,CCR-EXPANDED,IC数据库[3]。数据的检索策略是主题=“knowledge integration”AND主题=“ontology”,时间跨度为2003-2013年。检出的文献包括Article、Proceedings paper、Review、Editorial material、Book Chapter等类型。删除书评等非研究性文献,经过数据的筛选和精炼获得698篇文献。
1.1文献著者分析
笔者对检出的698篇文献的著者进行统计,通过统计结果分析基于本体的知识集成研究领域的著者发文数量,确定该研究领域的高产作者,从而能够实现这一领域的合作研究。同时对作者合著情况分析,了解该研究领域的合作团体,从而能够拓宽该领域研究的深度与广度。根据统计,发表2篇以上论文的著者共有358位,发表10篇论文以上的著者共有2位,均是11篇,共有6个团体作者。
1.2文献学科分析
通过分析这一领域文献的学科分布情况,能够了解该领域主要分布的学科,利用不同学科的研究方法来拓宽该研究领域,同时深化在不同学科的应用。依据统计,该领域698篇文献分布在了83个学科领域,其中发文量超过50篇的文章主要集中在计算机科学、人工智能、信息系统、软件工程、信息管理学、医学信息学、管理科学等学科领域。通过分析,语义网环境下基于本体的知识集成类研究属于计算机科学的文章较多,信息系统、软件工程、人工智能也是在计算机技术支撑下发展起来的。计算机科学技术的发展推动基于本体的知识集成研究的发展,语义网、本体的发展同时丰富了计算机科学的研究。在计算机技术支撑和语义网环境下,基于本体的知识集成模型、分类、系统、管理等分布在信息系统、软件工程、人工智能、管理科学等领域。
1.3文献国家或地区分析
通过分析文献的国家或者地区分布状况,能够帮助掌握基于本体的知识集成研究领域的科研分布情况,为该领域进行国际的科研合作提供借鉴和应用。依据统计结果,698篇文献一共分布在59个国家和地区,排名前10位的国家和地区共发表论文669篇,占发文总量的95.84%,美国、英国、西班牙、德国、中国、法国、意大利、加拿大、中国台湾、澳大利亚排在前10位。美国以193篇的论文数量排在第一位,在该领域美国的研究遥遥领先,其他国家可以借鉴其研究成果,同时与相关专家和机构进行合作,共同深化该领域的发展。英国以86篇的论文数量排名第二。中国以69篇的论文数量排名在第四,与第三名只有1篇之差,中国台湾地区以24篇论文数量排名在第九位,这样中国共有93篇相关文章,仅次于美国。虽然中国在数量上与美国有很大的差距,但也能够表明中国基于本体的知识集成研究在国际舞台上占有一定的地位。需要借鉴该领域研究前沿国家的研究成果,密切国家合作。如表1显示排名在前10位的国家和地区。
2 基于本体的知识集成研究进展分析
2.1可视化文献分析软件——CiteSpace
CiteSpace是美国德雷克塞尔大学信息科学与技术学院
表1 论文数量发表排名前10位的国家和地区
的陈超美博士开发的基于JAVA平台的文献可视化分析软件。CiteSpace利用文献间的引用关系建立节点之间的关联,通过绘制关联知识图谱来研究科学文献。利用CiteSpace可以显示某一学科或者是知识领域在一定时期的发展趋势和动向,从而形成前沿领域的演进历程[4]。CiteSpace用节点表示文献,节点的大小表示文献被引用次数,节点越大代表该文献被引用次数越多。节点间的连线表示文献之间的相互引用关系,连线的粗细代表相互引用次数,连线越粗代表文献间相互引用次数越多[5]。本文利用CiteS-pace3.7.R8版本对国内外基于本体的知识集成文献进行关键词共现和文献共引分析,绘制知识图谱分析本领域的研究热点和经典文献,为进一步的研究提供借鉴和指导。
2.2研究热点分析
2.2.1关键词共现知识图谱绘制
利用CiteSpace3.7.R8软件导入Web of Science数据库检索出的698篇文献信息,同时设置相关的参数。具体设置Time Slicing(时区分割)为2003-2013年;#Years Per Slice(单个时间分区长度)设为1年;Term Source(主题词来源)勾选Title(标题)、Abstract(摘要)、Author Keywords(著者关键词)以及Keywords Plus(扩展关键词),阈值Thresholding(c,cc,ccv)设置为(2,2,20)(4,3,20)(4,3,20);Node Types选择Keywords即关键词共现分析。通过运行程序得到关键词频次表(如表2)以及关键词共现图谱(如图1)。在图1中,1个结点代表1个关键词,结点的大小反映关键词出现的频次高低程度,结点间的连线反映关键词间的共现关系。如果结点之间的连线越粗表示两个关键词共现的频次就越高,结点的年轮结构则表示某一关键词的出现时间。
表2 关键词频次表
图1 关键词共现知识图谱
2.2.2关键词共现分析结果——研究热点领域
通过关键词频次表以及关键词共现知识图谱,可以分析基于本体的知识集成领域研究热点。通过分析,知识集成研究热点主要集中在以下几个方面:
(1)语义网环境下基于本体的知识集成模型研究
由共现关键词ontology(anthologies)-data Integrationknowledge-semantic web-model分析得出。
知识集成模型主要用来描述知识与知识、知识与过程以及知识与人之间的关系,指导如何进行知识集成[6]。知识集成模型主要分为两种:一种是基于认识论的知识集成模型,主要包括显性知识之间的集成、隐性知识之间的集成、从显性知识到隐性知识的集成、从隐性知识到显性知识的集成4种模型。具有代表性的是基于知识内容的显性知识之间的集成模型(SECⅠ模型),严格意义上说属于知识创造模型[7]。另一种是从本体论的角度出发将知识集成分为个体知识、团队知识、组织知识以及组织间的知识,在不同的层面或者是同一层面对知识进行集成,即ITOI知识集成模型[8];Reimer主要研究在语义网环境下如何从更高层次的语言着手建立知识集成模型[9];Nonaka的研究成果偏重知识创造方面的研究[10];Sabherwal研究不同类型知识的集成机制,建立了理论模型[11]。
(2)语义网环境下基于本体的知识集成工具研究
由共现关键词ontology(ontologies)-integration-knowledge-semantic web-tool得出。
信息技术的发展推动了知识集成工具的进步。语义网环境下基于本体的知识集成研究主要集中在计算机科学领域,通过分析,知识集成工具主要包括知识转化工具、知识库管理系统、知识挖掘工具以及知识集成平台等。利用知识转化工具和过滤、集体协作技术、语义网技术将隐性知识转化成显性知识;利用知识库管理系统有效的管理显性知识;利用知识挖掘工具将在数据库挖掘到的重要知识进行分析与整合;利用知识集成平台的中间件以及多媒体技术功能进行知识的表达、转化和交流,实现知识的表达、异构环境下知识的获取与重用、规则推理,从而形成知识集成系统。
(3)语义网环境下基于本体的知识集成管理
由共现关键词ontology(anthologies)-data integrationknowledge management-semantic web得出。
在知识管理领域对知识集成的研究集中在知识集成的创新、知识集成的能力、知识集成的评价以及知识集成的应用方面。语义网环境下基于本体的知识集成管理将计算机技术与知识管理理论有效结合,利用本体技术、语义网代理技术对知识集成进行创新,保证知识创新的技术成果和应用。语义网环境下,强化本体论的应用研究,通过基于本体的知识集成,可以突破原有数据库集成存在的问题和瓶颈,实现组织的知识管理。
(4)语义网环境下基于本体的知识集成系统设计
由ontology(anthologies)-integration-knowledge-semantic web-systems(system)-design得出。
知识集成是对知识的整合和优化,对隐性知识和显性知识进行交流和协作,实现知识的共享。知识集成系统解决的关键问题是如何将分散的知识整合成为统一的知识,确保知识的扩展性。语义网环境下,知识集成系统构建基于建立统一的专家知识库基础上,将显性知识和隐性知识整合成为标准的可以理解的本体知识。利用专门的转化模块,实现显性知识和隐性知识的转化,集成独立的本体知识库。异质知识源的集成成为知识集成研究的一大热点。建立知识源之间的知识互用和共享平台,表示和挖掘已有知识源中的隐性知识同时消除已有知识源的不一致性,从而准确解决问题。
2.3经典文献分析
2.3.1文献共被引知识图谱绘制
表3 文献共被引频次表
2.3.2文献共被引分析——经典文献
结合表3、图2文献图谱进行深入分析,在语义网环境下,基于本体的知识集成研究论文共同被引用的频次超过30次的有10篇,本文将共被引频次超过50次的引文作为该领域研究的经典文献(如表4所示)。Ashburner Mz在2000年发表的Gene Ontology:tool for the unification of biology
图2 文献共被引知识图谱
的文章共被引频次最高达到178次,该文章被该领域内178篇文章引用,成为经典文献。Gruber,T,R的文章是本体领域内的经典文献,共被引106次,Grube,T,R在该文章中详细系统的定义了本体的概念。通过分析经典文献可以得出该领域研究的发展历程、理论依据和技术基础,并提供了基因本体和生物医学知识集成例证,为知识集成的研究提供了有利借鉴。这些经典文献在一定程度上反映了该领域在不同阶段的研究水平。在做有关这一方面的研究时,仔细阅读这些经典文献可以更加深入的了解该领域研究的基础和侧重点,提高研究水平。
表4 经典文献列表
3 结论
本文利用CiteSpace3.7.R8文献分析软件,通过关键词共现和文献共被引分析了语义网环境下基于本体的知识集成研究进展,从文献资源的著者、学科以及国家和地区分布等方面统计分析国际上知识集成研究基本状况,分析出该领域研究集中在知识集成的模型、工具、管理以及系统构建等热点领域,分析出5篇经典文献。在研究过程中也发现了知识集成领域研究存在的问题:首先,语义网环境下基于本体的知识集成研究在集成异质知识源方面还需要构建更加高效的异构知识源平台,实现知识结构化程度和知识表示方法的统一性;其次,在实现知识系统的互操作和共享方面存在欠缺,知识的表达方式没有统一的标准;最后,知识集成的理论研究比较成熟,但是实际应用方面较少,知识集成理论和实际应用的脱节。基于本体的知识集成实践不断发展,研究人员需要运用不同的知识集成方法,不断地开发新的知识集成工具,构建基于本体的知识集成平台,解决知识集成方面存在的问题,从而真正有效地实现知识集成。
参考文献
[1]罗海飞,吴刚,杨金生.基于贝叶斯的文本分类方法[J].计算机工程与设计,2006,27(24):4746-4748.
[2]杨学明,刘柏嵩.基于本体的知识集成研究[J].情报杂志,2006,(5):63-65.
[3]杨国立.国外数字图书馆研究进展:基于关键词共现和文献共被引的可视化研究[J].图书馆杂志,2012,31(6):20-25.
[4]Chen C.CiteSpaceⅡ:Detecting and visualizing emerging wends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,52(3):359-377.
[5]张红岩.我国图书馆职业研究的实证分析[J].中国轻工教育,2012,(6):52-54.
[6]马彪.国外知识集成研究综述[J].情报理论与实践,2007, 30(1):139-144.
[7]Grant.Prospering in dynamically competitive environments:Organization capability as knowledge integration[J].Organization Science,1996,54(4):375-387.
[8]Shin M.From knowledge theory to management practice:towards an integrated approach[J].Information Processing&Management,2001,37(2):335-355.
[9]Reimer Acknowledge integration for building organization all memories[J].Eleventh Workshop on Knowledge Acuisition,Modeling and Management,1998.
[10]Nonaka I.Adynamic theory of organizational knowledge creation[J].Organization Science,1994,5(1):14-37.
[11]Sabherwal R.Integrating specific knowledge:insights from the Kennedy space center[J].IEEET transactions on Engineering Management,2005,52(3):301-315.
(本文责任编辑:孙国雷)
The Development of Knowledge Integration Based on Ontology in Semantic Web Environment
Liu Xiaole1Ma Jie2
(1.Library,Tianjin University of Science and Technology,Tianjin 300222,China;2.School of Management,Jilin University,Changchun 130025,China)
〔Abstract〕The paper analyzed the development of knowledge integration based on ontology in semantic web environment from the author,subject,national and regional distribution of literature with literature metrology and the Web of Science database as the data source.At the same time,the author made visualization analysis of literature citations and keywords with CiteS-pace3.7.R8 visualization software for finding hot and classical literature in order to provide reference for the further study.
〔Key words〕ontology;knowledge integration;semantic web;co-word;document co-citation
作者简介:刘小乐(1987-),女,助理馆员,硕士,研究方向:数字信息资源管理、知识组织,发表论文5篇。
收稿日期:2014-10-22
〔中图分类号〕G203;G252.8
〔文献标识码〕A
〔文章编号〕1008-0821(2015)01-0159-05
DOI:10.3969/j.issn.1008-0821.2015.01.031