APP下载

面向本体的智能信息检索技术的研究

2011-02-09尹哲峰

制造业自动化 2011年4期
关键词:信息检索本体文档

尹哲峰

(延边大学,延吉 133002)

0 引言

随着计算机技术以及网络技术的快速发展,信息资源共享波及范围越来越广,信息资源量也越来越多。因此,面对如此多的信息量,如何有效定位需要的信息资源已经成为人们关注的问题。信息检索技术应运而生。

信息检索就是从信息资源库中,搜索出所需信息的过程与方法。而本体的本义是哲学方面的术语。本体具有较好的概念结构以及逻辑推理,面向本体的智能信息检索可以准确映射信息资源,提高检索效率。本文就是重点研究面向本体的智能信息检索技术。

1 相关理论概述

1.1 本体的层次化分类

本体的研究与实现是在不同层次上进行的,可以分为顶层本体、领域本体、任务本体以及应用本体四大层次,如图1所示:

图1 本体的层次化分类示意图

其中,顶层本体主要涉及到一些概念。比如:空间、时间以及行为等,这些概念与问题或者领域是独立的,而且顶层本体在一定区域内是完全共享的。领域本体是针对某一领域而对应的一些术语。任务本体主要负责任务、活动的定义。任务本体与领域本体都可以采用顶层本体中共享的术语而表述各自的术语。而应用本体是针对应用而言的,可以引用领域本体或者任务本体中的概述描述。

1.2 智能信息检索的标准

通常情况下,信息检索是通过关键词的匹配来实现的,但随着信息量的增加,这样的匹配检索技术越来越不满足需求。智能信息检索就是通过智能检索技术来实现,标准主要体现在两个方面:检索的查全率以及检索的检准率。

其中,查全率主要表示的是信息检索结果中有用信息量与用户需求信息量之间的比例,可以有效描述检索结果的遗漏情况。查准率主要表示的是检索结果中有效信息量与检索总量之间的比例关系,主要描述的是检索结果的有用性。常用的关键词匹配检索技术很难达到查全率以及查准率的全面兼顾。一个理想的智能信息检索系统应该保证最高的查全率与查准率,也就是为1的结果。

2 面向本体的智能信息检索

2.1 智能信息检索的设计思想

本文提出的面向本体的智能信息检索的设计思想如下描述:

首先,基于领域专家,根据检索体系要求,建立该领域的本体;其次,充分收集相关信息数据,根据已经建立的领域本体,将信息数据转化成规定格式,并保存至数据库;接着,从用户界面相关的检索框获取特定的检索请求,智能检索器根据本体将检索请求转化为规定的格式,并基于本体从数据库中检索出与请求条件相匹配的数据。最后,将匹配的数据结果通过定制操作,传输到用户终端加以显示。

需要注意的一点是,如果面向本体的智能信息检索系统对于推理能力没有太高的要求,那么系统中涉及到的本体可以采用概念图加以描述,并保存。信息数据也可以存储到普通的关系型数据库中,根据图匹配来实现智能信息的定位。但如果面向本体的智能信息检索系统需要较强的推理功能,那必须通过本体语言,比如:OWL等加以描述,信息数据也应该存储到知识仓库,这样就可以利用OWL之类的本体语言所具有的推理能力来完成信息定位,并保证较强的推理功能。

2.2 智能信息检索的流程

本文研究的面向本体的智能信息检索系统的框架如图2所示:

图2 面向本体的智能信息检索系统的框架示意图

根据系统框架图,下面详细研究一下智能信息检索的流程。

1)构造领域本体。智能信息检索系统的关键之处在于领域本体,因为相关的信息、文档特征、推理等都是基于领域本体的。所以,领域本体的构造需要在领域专家的指导下完成。

2)提取文档的相关特征、语义推理的处理。根据领域本体将收集的文档信息进行相关特征的提取,并进行语义方面的推理处理。传统的信息检索只是局限于索引器的索引信息提取,而且索引相关信息一般也只是通过贝叶斯或者统计方法来获取,并不能很好地体现文档之间的关联性。而本文研究的智能信息检索系统是基于领域本体,对收集的文档信息进行特征提取,并完成语义方面的推理。这样的处理步骤,不仅能够很好地表述文档的内在信息,也可以描述文档之间的关系,为后续的信息检索奠定了基础。由于语义方面的推理处理具有比较高的时间复杂度,所以可以将其中的一部分推理过程直接放在这第二阶段预先完成,这样可以有效提高在线检索的速率。

3)信息语义的编码加工。智能信息检索系统对于语义处理后的数据统一编码成XML格式,这样便于信息处理,便于高速检索。

4)将提交的查询条件进行语义化的处理。用户在使用智能信息检索系统时,首先是提交查询条件,系统会将查询条件根据领域本体进行语义化方面的处理。该语义处理针对于多个查询条件,并进一步明确各查询条件之间的关联性。

5)智能信息的检索。智能信息检索是系统的核心模块,但由于前面几个阶段已经完成了检索的许多相关工作,所以该阶段只需要将语义化处理后的查询条件与数据库中的所有信息进行对比,满足条件的信息,直接转发给定制模块即可。

6)信息的定制处理。信息的定制处理就是对系统检索出的数据进行后期的处理,比如:排序等。排序的时候,可以根据信息的相关性大小进行,这其中涉及到了排序算法,也是一个比较重要的研究内容。

2.3 文档信息数据的存储

系统的信息库必须具有特定的结构,这样才能有利于检索效率。通常情况下,Internet网络上的信息都是由HTML语言编写的,但可惜HTML并不注重结构性,只是注重各个元素的呈现,也缺少语义分析。而本文采用的是XML,因其简易性以及功能优秀性成为了替代HTML的网络语言。

XML其实只是SGML的一个子集,它能够很好地解决HTML语言不能描述内容的不足,因此XML在电子交易、银行、政府等各个领域都被广泛使用。目前,XML已经成为数据描述及交换的标准。此外,文档类型定义DTD涉及到对XML结构以及语法方面的规范定义。从逻辑意义上分析的话,可以将DTD对应的XML文档直接保存到文档表中,每个文档表中的记录都分别对应各自的XML文档,也可以通过一个固定的DTD表来对所有DTD文档进行管理。文档表与DTD表之间的关系如图3所示:

图3 文档表与DTD表之间的关系示意图

2.4 在线语义推理的技术

针对本文研究的智能信息检索系统,当终端用户通过录入一个检索词时,系统就会根据语义扩展后的信息库,进行检索满足检索词要求的信息对象。如果终端用户录入的检索词是多个,那么系统就必须进行在线语义的推理。

系统在线语义推理的检索过程主要包括:输入检索条件、检索词词性的确定、检索词关系的确定、信息检索以及返回检索结果等。当终端用户输入相关检索词后,系统会按照领域本体确定检索词对应的词性以及多个检索词间的关联性。

比如:用户的检索词是“李四 数据的挖掘”,系统就需要根据检索词明确终端用户的具体查询意图。通过领域本体来确定检索词的词性,其中“李四”表示的是一个人的人名。而“数据的挖掘”表示的是数据库范畴的概念。下一步就是确定检索词之间的关联。“李四”与“数据的挖掘”到底是什么关联呢?它们之间是write的关系或者work-in的关系。这样,系统就会给出这样的推测结果:用户终端需要查询的是有关“李四撰写的针对数据挖掘方面的文章或者专注”或者“李四参加的针对于数据挖掘相关的项目”。接着,系统在特定信息库中进行有针对性的查询,并将最终的查询结果返回到终端用户。

2.5 系统的推理算法描述

本文研究的面向本体的智能信息检索系统在检索失败的情况下,需要根据领域本体对信息描述进行一定的推理。其中就涉及到了推理算法,该算法也是智能信息检索系统中的关键部门。推理的过程其实就是一个进一步检索的过程,生成相关的结果信息。下面研究一下系统相关的在线语义推理过程所涉及到的算示。

输入部分:用户录入的N个检索词,系统的领域本体;

输出部分:N个检索词之间的查询公式;

算法部分:

Getback-result = NULL;

For ( i=1; i<= 检索词的具体数目; i++)

{

Getback-result(i) = NULL;

在系统领域本体中查询检索词对就的概念Ci;

对堆栈进行初始化操作,设置stack成为空;

For (j=1; j<=Ci和根节点之间的距离值;j++)

{

确定Ci和其他父亲节点间的路径类型Fj,其中路径是以有向边加以表示;

进行入栈操作;

Push ( stack, Fj, Ci )

}

当堆栈stack不为空的时候

Getback-result (i ) = Getback-result ( i ) *pop (stack )

Getback-result = Getback-result Getbackresult ( i );

}

Return Getback-result ( i ) }

3 结束语

在实际检索过程中,人们越来越认识到通过基于本体的语义检索的精确性以及高效性。本体在智能信息检索系统中提供了必须的元语,该元语能够生成有效的查询与资源表述,通过本体建立的领域语义,可以提供标注信息,使检索系统形成一个统一的认识。这些认识涉及到了域内以域间的概念及联系,从而提高了系统的联想能力,也为终端用户的检索提供了有意义的信息。总之,本体已经逐步成为智能信息检索系统的知识表述,是整个系统的最核心部位。

[1] 张敏,宋睿华,马少平. 基于语义关系查询扩展的文档重构方法[J]. 计算机学报, 2009,(10).

[2] 张映海,何中市. 基于关键词与语义概念结合的信息检索研究[J]. 计算机应用, 2009,(12).

[3] 李振东,费翔林. 基于概念的信息检索模型研究[J]. 南京大学学报(自然科学版), 2010,(01).

[4] Perez AG, Benjamins VR.Overview of Knowledge Sharing and Reuse Components: Ontologies and Problem-Solving Methods.Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5).2009:1-15.

[5] 李曼,王大治,杜小勇,王珊.基于领域本体的Web服务动态组合[J]. 计算机学报, 2008,(04) .

[6] 洋,易禾,杨春. 基于关键词语义扩展的检索策略[J]. 计算机应用, 2009, (06) .

猜你喜欢

信息检索本体文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
眼睛是“本体”
高职院校图书馆开设信息检索课的必要性探讨
网络环境下数字图书馆信息检索发展
Word文档 高效分合有高招
基于本体的机械产品工艺知识表示
基于神经网络的个性化信息检索模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
专题