本体的自动构建方法
2015-03-16王盼卿
解 峥,王盼卿,彭 成
(军械工程学院 河北 石家庄 050003)
本体(ontology)原本是一个哲学概念,后来信息系统需要世界推理的模型,因此研究者在程序中利用术语“本体”来描述目标世界的信息。1995年意大利Padova大学的Guarino等人对本体的不同概念解释进行深入分析,最后得出了一个基本得到领域认同的本体概念,即“某些方面概念化的明确解释或表示”[1],虽然不是本体最终的标准定义,但是对信息系统的研究具有理论指导意义。
本体开发步骤包含:1)确定本体的领域和范围;2)考虑现有本体的复用;3)枚举本体的重要术语;4)定义类和类的层次;5)定义类的特性;6)定义属性的约束;7)生成实例。根据本体的开发步骤,传统的本体构建方法主要有骨架法、评估法、Bernaras法、METHONTOLOGY法和SENSUS法。骨架法是领域内本体构建的常用基本方法,以骨架法[2]为例,简单介绍一下本体的传统构建方法流程:1)确定本体应用的目的和范围;2)本体分析;3)本体表示;4)本体评估;5)本体建立。
本体自动构建技术,也被称作本体学习。其目标是通过与数据库的连接,实现对内部数据的自动抽取,并且转化出相应的本体。本体自动构建方法种类繁多,但是主要过程大致相同,以H.Waste方法为例:1)确定本体应用目的和范围;2)数据抽取,机器分析;3)本体表示;4)概念区分;5)本体建立。
1 本体自动构建研究现状
通过上文以看出传统的本体构建方法与本体自动构建方法在构建思路上有些相似,并没有太大不同。但是看两者构建过程中的具体操作过程(见表1),不难看出,在传统构建本体的过程中,主要以专家的经验分析和人工操作来生成本体,虽然这样构建本体的可靠性高,但是随之而来的高成本和长时间,使得构建本体的难度大大增加,因此国内外都加大了本体自动构建的研究力度。
表1 传统本体构建方法与本体自动构建方法比较Tab.1 The traditional ontology construction method compared with themethod of building ontology automatically
虽然本体自动构建虽然研究时间不是很长,但是却已经有了很多实质性的进展。通过对本体自动构建的研究,丰富了原有的知识库,改进了原有本体构建的方式方法,现在国内外已经有很多的团队对本体的自动构建和半自动构建的方法研究。
H.Waste等人根据“所需即所用”的思想,认为同一领域内的人对本领域的本体的构建也会有着不同的的理解,针对不同的应用就会有不同的本体[3]。他们于1999年左右提出了一个基于领域的初始核本体,然后再以此为基础,借助语言处理工具,机器通过寻找新的相似概念不断的扩充核本体,最终生成所需本体。这就是本体自动构建中的 “中间扩展法”,其思想值得我们学习。但是这个方法最大的问题就在于需要建立一个领域的初始核本体,这需要领域专家的介入,而且核本体的标准也很难划定。
Jean等人在2004年提出了一个通过先构建局部本体,再通过对局部本体进行本体合并,最后得出全局本体的自动构建方法[4]。其构建原理为通过抽取数据之间的概念关系,构造出局部本体,再通过计算局部本体的语义间概念相似度,抽取相同概念及概念间的关系,最终生成所需本体。这种方法主要存在的问题是抽取数据进行局部本体构建需要事先书写预定义规则,对基础信息语义间概念的区分难度比较大。
2005年前后德国的卡尔斯鲁厄大学的AIFB研究所开发的本体自动构建工具TextOnt,是一个可以从不同数据库中抽取数据源的概念及其内部关系再合并出对应本体的工具。它最大特点是可以利用机器学习功能,进行相应的实例学习,也可以对已生成的本体进行裁剪、分类、扩展和比较。他们对于本体构建的基本认识是认为本体构建主要应该通过WordNet进行自然语言理解和关联语义挖掘。正是由于是对概念之间进行分析操作,导致其主要问题是对概念的区分比较模糊,其概念间关系也不容易清晰的区分,后期需要大量的人工操作。
University Of Rome开发的领域本体的Ontolearn是一个通过统计的方法从文本中抽取术语,再借助语言分析工具,进行概念的抽取和分析,最后生成本体的工具。这种方法不同于其它方法之处就在于其基于统计的方法进行文本数据分析,再确定本体的生成,改变了传统的以专家参与的方式进行本体构建,更具有科学性和可靠性。
在国内对于中文的本体自动构建的研究也有很多,在2006年,Chang-Shing li等人依据繁体中文字典抽取词语产生相应概念,再在相应的语境下,利用模糊推理进行机器学习,但是在全局本体的构建中,仍需相应的领域专家完成[5]。中国科学院陆汝钤院士等人以知识库中的基本领域本体为基础[6],集合用户需求,采用仿生物种群进化的方法,对基础本体进行增添、重组和删减来半自动丰富已有本体。刘柏嵩等人提出针对WEB数据,借助WordNet等工具区分出语义概念和实例。2009年杨争库等人通过对国外Jean等人研究的方法进行深化,提出了依据本体间概念间的映射[7],通过书写映射规则,达到本体自动构建目的。2010年王磊等人总结国内外经验得出了根据PAT-Tree[8]进行词汇、领域特征的提取,最终基于FCA构建本体的方法。通过将以上国内外方法总结归纳得出表2,通过对表2的分析,我们更容易看出各个方法在主要环节相同和不同的地方。
表2 国内外本体自动构建的主要方法Tab.2 Them ain method of ontology autom ated building at home and abroad
2 存在的主要问题
通过表2可以看出,虽然本体自动构建研究至今也发展了十多年的时间,理论进展和实际成果也有很多,但是从本体自动构建流程图(见图1)中依然可以看出,目前本体自动构建过程还有很多问题:
1)现在研究的众多理论,大多还是要有领域专家的参与,属于半自动的成果居多,只是实现了局部的自动化。以H.Waste方法为例,需要相应领域专家先进行简单的领域分析,从中抽取主要概念及关系,然后在此基础上构建初始核本体。再将核本体进行领域内扩展,将领域内其余本体与和本体合并。但是这中间的初始核本体构建以及领域间关系的扩展依然要人工操作来完成,并未实现真正意义上的“自动”;
2)现在大多研究还是理论过程偏多,实际成果偏少,具体的自动构建流程偏少。特别是国内对于本体自动构建的研究,都集中于理论过程的讨论和简单的验证,并没有系统的完成对本体自动构建的具体实现。虽然Chang-Shing li和陆汝钤院士的本体自动构建方法已经部分应用,但是对于中文的领域内本体自动构建具体应用还是很少;
图1 本体自动构建流程图Fig.1 Ontology automated builds flowchart
3)大多数处理语义间概念关系都是借助原有语言分析软件 , 如 1995 年 的 WordNet、2003 年 的 FrameNet、2006 年 的HowNet等,新的语言分析软件缺少。语言分析软件是实现本体自动构建的核心工具之一,然而随着时代的发展,我们已经步入大数据时代,日新月异的数据和新概念成指数式增长,原有的语言分析软件的处理能力有所不足。
3 发展趋势
针对现今本体自动构建中存在的主要问题,未来本体自动构建的工作将围绕解决这些主要问题展开:
1)通过对当今世界上主流本体自动构建方法的总结可以看出,虽然本体自动构建的方法多样,形式不同,但是并没有为特殊领域提供固定的规则标准来进行选择。因此需要结合各类领域再进一步对本体自动构建方法进行分类,使得在选择本体自动构建方法时可以选取最优化的方法。
2)H.Waste在提出中间扩展法自动构建本体时就指出在自动构建初始核本体的过程中,仍然需要相应的领域专家和一定的科研人员先进行初始核本体的创建。现在不仅是H.Waste的方法,大多数本体自动构建技术中依然要依赖领域专家和科研人员进行人工的分析操作。因此杨争库等人指出随着人工智能的发展,基于统计和词汇分析能力的人工智能技术已经有了很大的进步和很广的应用,可以结合现今技术,实现本体自动构建的全自动。
3)以陆如钤院士半自动构建本体方法和Chang-Shing li的方法为例,可以看出随着本体自动构建系统理论的逐步完善,应该逐渐向实用化方向发展。设计领域内本体自动构建的框架,采取合适的自动构建技术,切实将成果应用于实际,实现对应领域内信息集成中本体的自动构建。
4)在当今互联网大数据云存储的背景下,设计全新的针对本体自动构建的在线或者固定更新的语言分析软件,实时更新社会各领域内词汇,改进现有语义间概念关系算法,提高概念区分的准确度。
4 结束语
虽然现在本体自动构建方法存在一些问题和矛盾尚未解决好,实际的成果也不是很多,但是近几年互联网大数据时代的到来,使得传统的基于本体的信息集成方法已经开始渐渐满足不了时代的需求,本体的自动构建将成为时代的必然选择。而随着本体自动构建理论的不断完善和人工智能技术的不断进步,本体自动构建方法也将会向着更自动更快捷的方向发展。
[1]冯志勇,李文杰,李晓红.本体论工程及其应用[M].北京:清华大学出版社,2007.
[2]宋佳.基于语义的装备领域信息集成框架设计与查询研究[D].石家庄:军械工程学院,2008.
[3]Cimiano P,Volker J.Text20nto a framework for ontology learning and data-driven change discovery[C]//Proceedings of the 1Oth International Conference on Applications of Natural Language to Information Svstrms,2005:227-238.
[4]Barloroush A,Shamsfard M.Hasti:a model of ontology for NLU systems [C]//Proceedings of the 7th Iranian Conference on Electrical Engineering,1999:91-98.
[5]Lee Chang-Shing,Kao Yuan-Fang,Kuo YauvHwang,et al.Automated ontologyconstruction for unstructured text documents[J].Data&Knowledge Engineering,2006,60(3):547-566.
[6]陈刚,陆汝铃,金芝.基于领域知识重用的虚拟领域本体构造[J].软件学报,2003(3):350-355.CHEN Gang,LU Ru-ling,JIN Zhi.Based on knowledge reuse in the field of virtual domain ontology construction[J].Journal of Software,2003(3):350-355.
[7]杨争库.信息集成中本体的自动构建及映射技术 [D].西安:西安电子科技大学,2009.
[8]王磊,周宽久,仇鹏.领域本体自动构建研究[J].情报学报,2010,29(1):45-52.WANG Lei,ZHOU Kuan-jiu,QIU Peng.Domain ontology automatically building research[J].Journal of Intelligence,2010,29(1):45-52.