多源文本知识融合算法分析
2018-06-21闫昱姝雷玉霞
闫昱姝 雷玉霞
摘 要:知识融合是知识管理和知识工程的重要环节,从文本中获取专业知识是人们获取新知识的首选方式。对于多源文本知识,由于作者描述的角度和侧重点不同,往往导致文本知识描述的整体性、知识粒度和精度有所差异,从而引起知识的不一致问题。为得到粒度小、精度高且完备的文本知识,提出一种基于本体的多源文本知识融合算法。利用本体概念框架将文本知识结构化,并将概念框架进行融合。实验结果表明,该算法有效解决了文本知识的不一致问题,提高了知识融合效率。
关键词:知识融合;文本知识;知识不一致;概念框架
DOI:10.11907/rjdk.172864
中图分类号:TP312
文献标识码:A 文章编号:1672-7800(2018)005-0062-03
Abstract:Knowledge fusion is an important part of knowledge management and knowledge engineering. Acquiring professional knowledge from text is the preferred way for people to acquire new knowledge. For multi-source text knowledge, different description angles and focuses of the authors, often lead to the differences in integrity of text knowledge description, knowledge granularity and precision and cause the problem inconsistent of knowledge.In order to obtain small-size, high precision and complete text knowledge, this paper proposes a multi-source text knowledge fusion algorithm based on ontology. Text knowledge are structured by ontology conceptual framework and integrated with it. Experimental results show that the presented knowledge fusion algorithm can effectively solve the problem of text knowledge inconsistency and improve the efficiency of knowledge fusion.
Key Words:knowledge fusion; text knowledge; inconsistent problem of knowledge; conceptual framework
0 引言
知识是人类社会进步的重要推动力。随着数字化、信息化时代的到来,知识来源也变得更加多样化。其中,文本知识是人类直接获取所需知识的有效途径,因此对文本知识的研究显得尤为重要[1]。知识融合是知识管理和知识工程的重要组成部分,主要研究分布式知识库系统中知识的转换、集成和融合,并产生新知识,是知识科学和信息融合的交叉学科[2]。通过融合将多源知识综合为新知识,提高知识的内涵、层次和置信度[3],从而进一步完善知识库,为人类提供基于知識的服务。目前,知识融合方法种类很多,而基于贝叶斯准则的知识融合算法、基于证据组合理论的知识融合算法应用最为广泛。由于贝叶斯决策准则具有最小的分类错误率[4],将贝叶斯理论应用于知识融合中,可将一个较大问题分解成若干个易解决的小问题,然后利用极大后验概率假设,最终得到最佳融合结果。证据组合理论D-S是由Dempster[5]于1967年提出,并于1976年由Shafer[6]进一步发展和完善的结果。D-S定义信任函数和基本概率分配,并依据最大支持度准则进行最终融合。在现代社会中,虽然人们可以从各种媒体中得到所需知识并拓展视野,但从文本中获取知识依旧是人们的第一选择。动物学是人类自然科学的重点研究方向,对同一动物的描述,由于来源不同,其内容也不尽相同。为解决该问题,本文针对多源文本知识,采用概念框架的知识表示方法,提出一种基于本体的知识融合算法。利用概念框架,将领域知识结构形象化,最大程度地实现对知识库本身的进一步挖掘,从而提供面向对象的知识服务。
1 相关工作
对于本文提出的多源文本知识融合算法,利用本体对文本知识进行处理,并选择恰当的知识表示方法将文本清晰化与结构化。
1.1 本体知识
本体是知识的一种组织方式,定义了组成某领域词汇表的基本术语及其关系,并结合这些术语和关系定义了词汇表的外延规则,反映出事物本质特征。本体与知识实例的结合构成了知识库,成为人们知识共享和重用的有效工具[7],如图1所示。
1.2 知识表示方法
知识表示是人工智能领域的一个核心问题[8]。在知识工程中,常用的知识表示方法有谓词逻辑表示法、产生式表示法、框架表示法、脚本表示法、语义网络表示法与面向对象表示法等。从知识可重用性和可共享性角度出发,基于本体的知识表示方法逐渐成为研究热点[9]。本文以基于本体的概念框架形式表示知识,使文本知识的结构脉络更加形象化。
1.3 不一致类型分析
多源文本知识存在较强的异构性,易引起知识的不一致,以下是几种常见的不一致类型:
(1)概念名称不一致。在不同来源的文本中,对同一事物的描述往往存在一定差异。例如:我国珍惜保护动物大熊猫在台湾被称为猫熊,其实是同一种生物。
(2)时间/日期不一致。本文将时间/日期的不一致类型分为两大类:古代纪年类型和近现代纪年类型,如图2所示。
(3)计量单位类型不一致。常用单位有长度单位、质量单位和时间单位,而不同文本对同一事物的测量标准不同,从而导致单位不一致的情况产生。例如:在描述身高时,既可描述为以厘米为单位,也可描述为以米为单位,均可表示同一人身高。常用单位的具体类型如图3所示。
2 融合算法
不同文本对同一概念的描述往往不同,因此需要找到一种避免由异构引起差异的方法。本文提出一种文本知识融合算法,对不同来源的文本知识进行框架处理,当所获得的概念名称相同而内容不同时,将概念属性进行融合,形成新的、完备的概念框架[10]。
3 实验分析
在查阅资料后,从百度百科[11]、维基百科[12]、互动百科[13]、《汉语大辞典》[14]、《环境科学大词典》[15]中获取关于大熊猫的介绍。F1、F2、F3、F4、F5分别表示来源于百度百科、维基百科、互动百科、汉语大辞典、环境科学大词典的5个概念框架。其属性用mi表示,m1~m13分别表示的属性为:学名、英文名称、所属类别、体色、特点、存活时间、称号、主要栖息地、野生数量、圈养数量、食物、野生寿命、圈养寿命、别名、现存数量、体长。对概念框架进行属性分析,如图4、图5及表1所示。
通过将来源于百度百科、维基百科等的大熊猫文本知识进行融合,得到融合的匹配复杂度为9.26,框架融合度为0.52,而直接两两融合的匹配复杂度为12.28,框架融合度为0.48。实验结果表明,本文提出的融合算法能够有效提高知识融合效率。
4 结语
本文首先介绍了与研究内容相关的本体知识和知识表示方法的选择,然后对知识不一致类型进行分析,提出多源文本知识融合算法,用实例验证算法的可行性和有效性,最后对实验结果进行分析。实验结果表明,本文提出的多源文本知识融合算法有效解决了文本知识的不一致问题,提高了知识融合效率。下一步工作将继续探索在概念名称不同、内容相同的情况下,如何将不同来源的文本知识更好地融合在一起。
参考文献:
[1] DENG Y, SHI W K. Experts′ knowledge fusion in model-based diagnosis based on Bayes networks [J].Journal of Systems Engineering and Electronics, 2003,14(2):25-30.
[2] 徐赐军,李爱平,刘雪梅.基于本体的知识融合框架[J].计算机辅助设计与图形学学报,2010,22(7):1230-1236.
[3] 周芳,王鹏波,韩立岩.多源知识融合处理算法[J].北京航空航天大学学报,2013,39(1):109-114.
[4] 王爽,郭军海,张艳,等.导弹目标识别的最小贝叶斯风险分类器[J].现代防御技术,2012,40(1):60-64.
[5] DEMPSTER A P. Upper and lower probabilities induced by a multivalued mapping[J]. Annals of Mathematical Statistics, 1967,38(2):325-339.
[6] SHAFER G. A mathematical theory of evidence[M].Princeton,NJ:Princeton University Press,1976.
[7] 李娜.基于本体的文本知识修正与获取[D].青岛:中国石油大学(华东),2009.
[8] 韩永花,雷玉霞,陈娟,等.多框架知识的不一致性检测及其修正算法[J].计算机工程与应用,2016,52(23):94-97.
[9] 张德海.NKI国家和地区地理知识的获取与分析[D].昆明:云南师范大学,2002.
[10] 雷玉霞,陈娟,韩永花,等.Frame知识的不一致性分析与修正[J].计算机工程与应用,2016,52(22):155-158.
[11] 百度百科[EB/OL].https:∥baike.baidu.com/item/%E5%A4%A7%E7%86%8A%E7%8C% AB/34935.
[12] 维基百科[EB/OL].https:∥zh.wikipedia.org/wiki/%E5%A4%A7%E7%86%8A%E7%8C%AB.
[13] 互动百科[EB/OL].http:∥www.baike.com/wiki/大熊猫&prd;=so_1_doc.
[14] 傅玉芳.汉语大词典 [J].辞书研究,1994(3):80-81.
[15] 《环境科学大词典》编委会.环境科學大辞典(修订版)[M].北京:中国环境科学出版社,2008.
(责任编辑:黄 健)