领域本体模型构建与信息检索方法研究
2016-04-04郭维威褚洪波李晓艳田铁刚尹衍林
郭维威,褚洪波,李晓艳,刘 锋,田铁刚,尹衍林
(黑龙江工业学院,黑龙江鸡西 158100)
领域本体模型构建与信息检索方法研究
郭维威,褚洪波,李晓艳,刘锋,田铁刚,尹衍林
(黑龙江工业学院,黑龙江鸡西158100)
摘要:传统的信息检索主要是利用关键词进行匹配检测的,在信息检索过程中时常出现检索结果不全等问题。通过引入了本体论、构建本体框架,利用概念相似度的信息检索方法,从而提高信息检索的查全率和查准率。
关键词:信息检索;领域本体;概念相似度;语义距离
1 信息检索问题与本体语义Web技术
(1)传统信息检索方法的缺陷。传统的信息检索主要是利用关键词进行匹配检测的,也就是将待检测的信息分解成若干个关键词进行检索。在检索过程中这些关键词字符只能从字面上来理解其含义,而词汇的内在概念无法表示出来,所以在信息检索过程中时常会出现检索结果不全、检索结果还会出现一些用户不需要的信息;同时检索结果也很难检索到关键词背后潜藏的信息。产生上述问题的主要原因是传统的检索方法很少具有关键词语义的逻辑推理能力,而且大部分网页信息都是采用无结构或半结构的HTML和XML语言开发设计的,检索中计算机只能按照其结构类型进行解析,而不能准确理解它们的内在含义。
(2)基于本体语义Web技术。为了解决传统检索方法中存在的这种问题,学者正在研究新技术和新方法,其中比较成功的是基于本体语义Web的技术。基于本体语义web技术是在万维网的基础上进行了扩展,在检索信息中引入语义内容。该语义内容和关键词很相近,或可以代替关键词,通过语义内容检索时可以对页面信息分类理解,这样就可以有效的协助用户完成各项检索操作。基于本体语义Web的检索技术从根本上能够克服传统检索模型仅提供基于关键词检索存在的缺点,能够充分表示检索信息的内在意义,并检索出与输入信息的同义词与近义词、上位与下位等信息,从而提高了对信息检索的查全率和查准率,也提高了用户满意度。
2 本体定义及相关研究
(1)本体定义及领域本体。本体(Ontology)是“世界上客观存事物的系统地描述,即本体可以理解为存在论”,对本体的定义有很多种,其中对其普遍的定义为“本体是具有明确的共享概念化的一种形式说明”。领域本体的定义过程具有树状结构,我们通过已经定义好树状层次结构,用来描述概念与概念之间以及领域本体中的各种关系,从而进一步实现各种应用之间的资源共享。领域本体具有很好的层次结构,该结构呈树状结构显示,这种结构能够有效的支持概念之间的逻辑推理,所以领域本体在信息检索方面具有较好的应用价值。创建本体模型的工具可以选择由斯坦福大学利用Java编写开发的开放源码本体编辑器Protege,它不仅可以建立本体的模型,还可以将已经建立的模型转换为相应的文件并存储在数据库中,为以后检索操作奠定基础。
(2)研究的相关工作。基于本体语义的信息检索过程中主要考虑到文档的内部结构,可以利用集成化的、非形式化的和形式化的方法进行信息检索。使用非形式化方法进行信息检索时,主要是借助于语义空间模型,利用统计与概率分析方法为进行本体语义检索,在语义空间模型的表示下,可以通过空间向量之间的相互乘积来计算索引项和文档之间的语义关联程度,进而完成信息检索,使检索结果更全面。按照自然语言的理解领域也可以完成信息检索,其过程是首先通过深入的分析自然语言文本,然后通过分析来获取完整的、复杂的语义信息。采用这种方法描述,可以在一个领域本体的支持下,利用概念层次结构表示的语义,这种方法得到的结果的查全率和查准率都比较低。在信息检索中引入本体,将数据实现了语义描述,采用领域本体语义的信息检索能取得较好的检索效果。
3 领域本体模型的构建方法
领域本体模型构建时,首先要考虑到本体的组成部分。通常情况下,一个领域本体由以下几个方面组成,即该领域本体的层次体系、对应属性及属性的取值范围、本体层次间的语义关系、层次之间的推理规则。利用领域本体中类、关系、函数、推理规则和实例五个基础说明来描述本体结构模型。其次在建立领域本体模型时要有相应的领域专家与知识专家的共同参与,其构建过程是一个繁琐的手工过程;本体构建可以利用概念节点的有向图来表示,每个概念由对象、事件和属性三个部分组成,概念之间的关联可以利用有向图节点之间的连线来表示。构建本体时要明确本体包含的范围,还要考虑到本体以后的重用,本体建构的具体过程有5个步骤。
(1)确定领域本体覆盖范围。明确需要建立本体的目的和任务,因为研究的领域越大,所需要建立的本体就越大,因此要根据需要来限定本体的研究。
(2)对待要建立的本体进行分析。定义本体中需要的专业术语,同时确定术语的含义以及术语之间存在的相互关系,在此过程中要求有领域专家和知识专家的参与,如果对该领域了解非常全面、详细,那么所建立的领域本体也就越完善,检索时更加准确。
(3)领域本体的表示。通常情况下采用语义模型表示本体,如概念及其属性模型。
(4)领域本体建立的标准验证。本体的建立要遵循清晰性、一致性、完整性和可扩展性四个标准。清晰性是指本体中采用的术语要专业,同时没有二义性;一致性是采用的逻辑关系要一致;完整性是指领域本体中的概念及其属性的描述要完整,要包含所建立领域本体内所有概念,虽然有一定的难度,但要不断的维护和完善;可扩展性是指随着领域的不断发展可以随时引入新的本体。
(5)领域本体的建立。对符合上述标准的予以建立,否则跳转到第二步。
4 基于领域本体的信息检索方法
概念相似度的计算主要有3种方法。
(1)基于距离的相似度计算。该方法的思想是利用概念之间层次结构中的几何距离来量化的,这种计算方法依赖领域本体的基本结构,本体建构的是否严密将导致计算结果的精准度。
(2)基于信息内容的语义相似度计算。这种方法引入多个概念之间的公共信息,如果公共信息多,则说明这几个概念具有高相似性,那么其语义相似度也就越大,相反则越小。如果某个概念出现的频率很小,则认为概念的信息量就很大。
(3)基于属性的相似度计算。通常情况下判断事物之间是否具有联系时,可以利用他们之间的特征来判断,也就是利用他们具有的属性来判断其相似性。比如判断两部手机是否相似或相同,我们就可以利用其的品牌、屏幕的大小、相关配置和颜色等属性来判断,如果属性都相同,则说明两个事物相同,如果公共属性很多,则说明两者具有相似性。
参考文献
[1]王兵.本体概念的语义相似度研究[J].世界科技研究与发展,2013,(1).
[2]刘锋.一种优化的基于领域本体语义距离的概念相似度计算模型研究[J].曲阜师范大学学报,2015,(10).
[3]丁政建.一种改进的相似度计算方法[J].计算机工程,2010,(12).
The Resear
ch on the Construction of Domain Ontology Model and Information Retrieval Methods
GUO Wei-wei,CHU Hong-bo,LI Xiao-yan,LIU Feng,TIAN Tie-gang,YIN Yan-lin
(Heilongjiang University of Technology,Jixi,Heilongjiang 158100,China)
Abstract:Traditional information retrieval depends on keywords to do matching detection.Therefore,problems such as incomplete retrieval results occur a lot during the retrieval process.Through introducing the ontology,constructing ontology framework,and using the concept of similarity information retrieval methods to improve the recall ratio and precision of information retrieval.
Key words:information retrieval;domain ontology;concept similarity;semantic distance
作者简介:郭维威(1978-),女,黑龙江鸡西人,硕士研究生,副教授,主要研究方向:数据库、软件开发。
基金项目:本文系2014年黑龙江省教育厅科学技术研究项目“基于领域本体的语义web智能搜索模型的研究”的阶段成果,项目编号:12543050。
收稿日期:2015-12-11
中图分类号:TP391.3
文献标识码:A
文章编号:2095-980X(2016)01-0093-02