APP下载

本体论在网络信息检索中的应用研究

2010-09-06程华道

湖北警官学院学报 2010年2期
关键词:特征词信息检索本体论

程华道

(湖北警官学院,湖北 武汉 430034)

本体论在网络信息检索中的应用研究

程华道

(湖北警官学院,湖北 武汉 430034)

现代社会信息资源的不断丰富和人们对信息需求层次的不断提高,对信息检索技术的发展提出了挑战。人们试图将各种先进的思想和方法引入信息检索领域之中,促进其理论和技术的深层次变革。由此,基于本体论的智能信息检索研究逐步成为领域热点。

本体论;网络信息检索;智能化检索

一、引言

近年来,随着网络的快速发展,人们对网络的依赖性也愈加强烈,这导致获取网络信息资源的需求不断增强。网络为人们带来了空前便捷的信息交流,但同时也为信息检索领域带来了巨大的挑战。基于图书馆分类信息检索方案的目录式搜索引擎的出现是互联网历史上的一个里程碑,但这种过于依赖人力的解决方案根本无力应对互联网上海量的数据。全文检索式搜索引擎脱离了人工,提高了搜索引擎的信息处理速度,但同时带来了另一个问题:关键词匹配技术所得到的搜索结果与用户查询意图相关度差。通用搜索引擎并未考虑用户个性化的因素,正确的结果隐藏在大量的垃圾数据中。时至今日,网络搜索引擎的信息查全率与查准率还是难如人意,难以满足市场的需求。

为了更好地解决上述问题,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就引起了国内外众多科研人员的关注。本体论(Ontology)现已被广泛应用于人工智能、计算机科学等信息系统的研究和应用,成为网络信息智能检索的最新研究热点之一。其基本原理为将信息抽象为知识,按照本体论的原理,建立知识库;将用户检索请求转换为本体论规则下的概念,在知识库中进行匹配,查找在知识含义水平上的信息,然后将检索结果返回给信息查询者。其具有良好的概念层次结构和对逻辑推理的支持,把本体融合到传统信息检索技术中去,不仅可以继承传统的概念信息检索的优点,还可以克服概念信息检索中不能对概念关系进行处理的局限性。本体论一方面可以把信息检索从基于关键词的层次提高到基于概念的层次,从而提高系统的查准率与查全率;另一方面还可以对概念的相关性进行推理,挖掘出用户的真正需求所在,从而实现智能化的信息检索。

二、本体论的概念

本体的概念起源于哲学领域。在哲学上,本体论泛指对客观世界的本体描述,是客观现实的一个抽象本质,是研究实体存在性和实体存在本质等方面的通用理论。本体论概念在被引入人工智能领域后,被赋予了更为具体的意义,但是最初人们对本体论的理解并不完善,因此它的定义也在不断的发展变化中。目前,人工智能领域的本体定义已得到比较普遍的认同:“本体是共享概念模型的明确的形式化规范说明。它包含四层含义:概念模型、显性化、形式化和共享。”“概念模型”是指通过对客观世界中一些现象的相关概念进行抽象而得到的模型,它表示的含义独立于具体的环境状态。该抽象模型类似于一个字典或术语表,一般由领域内的一组概念、公理和关系组成。“显性化”是指所使用的概念及使用这些概念的约束都有明确的定义和说明。“形式化”是指本体所包含的内容应该被计算机所理解,以便于计算机的处理。“共享”指本体中体现的是共同认可的知识,它不是某个个体私有的,而是可以被一个群体所接受的,反映的是相关领域中公认的概念集,从而实现系统间的知识共享和新系统的知识重用。共享和重用是使用本体所带来的重要优势。

总之,本体通过对概念的严格定义和概念之间的关系来确定概念的精确含义,以表示共同认可的、可共享的知识。因此把现实世界中某个应用领域抽象或概括成一组概念及概念之间的关系,构造出这个领域的本体,会使计算机对该领域的信息处理大为方便。

三、基于本体信息检索的特点

(一)解决词汇歧义

由于大量“一词多义”现象的存在,用户在提交这类关键词进行检索时,常常导致系统无法了解用户究竟是想检索哪一种含义,也就是我们通常所说的表达差异的问题,这给基于关键词的检索系统带来巨大的困难,成为长期困扰信息检索领域的一个难以解决的问题。例如在基于关键词的检索系统中,假设用户输入关键词“成本”进行检索,检索后用户可能会发现,包含有“机会成本”、“成本会计”、“成本控制”、“成本核算”、“生产成本”等关键词的网页文档都作为匹配信息进行返还,而用户检索的本意可能只是想查找关于成本控制方面的信息。

在本体论的协助下,系统可以有效地解决这一问题。当用户提交关键词进行检索时,检索系统首先对用户输入的关键词借助于领域本体论判断其所属的可能领域,如果用户输入的关键词在多个领域都有匹配,那么系统将会把匹配的各个领域的相关概念词语与定义罗列给用户,由用户据此进行相应的选择和判断。这样,一方面通过判断和选择的过程帮助用户明确其知识需求,把未意识到的或者未明确清晰表达的客观知识需求进一步显性化;另一方面用户通过明确其检索需求可以让系统确定检索词在本体论中的确切位置,从而帮助系统理解用户的检索意图,为用户提供准确的相关信息。例如,当用户输入关键词“成本”后,系统把它与本体论进行匹配,当发现关键词“成本”在多个领域都有匹配时,系统就返回内容供用户选择;接下来,用户可以据此选择出符合自己检索要求的概念词语,重新输入检索式进行二次检索。这样,利用本体论就克服了用户在提交检索需求时输入的关键词不规范的问题,使用户第二次输入的关键词与文档的索引词在语义上保持一致。

(二)智能化检索

为克服利用单一关键词进行检索时,由于检索式短小而带来的局限,在此提出了一种基于本体论的智能化检索算法。所谓进行智能化检索就是用户采用自然语言来描述检索请求,这样用户提供了检索的环境信息,增加了检索关键词的数量,帮助系统更好地理解用户的检索需求。

无论是哪一种形式的检索,最终都将产生一组概念项和逻辑关系(与、或、非)的集合,被称为用户需求概念空间。知识检索过程就是将用户需求概念空间和事实数据概念空间进行匹配的过程。但是,由于用户的使用经验不足、检索式处理方法的缺陷等原因,常常导致形成的用户需求概念空间存在各种问题,如不能真实反映用户的实际检索需求,存在不一致性和重复性、内容不够全面等问题,这些都将影响知识检索的质量。另外,有时用户输入的检索式过于简单,导致用户需求概念空间中的概念项数量太少,难以形成有效的检索。因此,为了充分理解和正确表示用户的检索需求,在对用户概念空间进行匹配之前,需要通过本体论中的各种关系对其进行优化和扩展。

假设用户的原始的概念空间为{K,Q},其中K为用户检索式中的检索概念项的集合,Q为概念项间逻辑关系的集合,则利用语言本体论对其进行优化的过程可以分为两步:

第一步:将K中的用户概念项映射为语言本体论中的概念,形成新的概念集合C;

第二步:根据语义关系和原始的逻辑关系Q,对C执行逻辑转换规则,确定新概念间的新逻辑关系,形成新的概念空间;

当K中的所有用户概念项都被映射为语言本体论中的概念后,则进行第二步,即根据集合C中各概念间的语义关系对原有的逻辑关系进行转换,形成新概念间的新的逻辑关系。概念间的语义关系包括:同义关系、上位/下位关系、半义/全义关系和反义关系。转换过程主要通过应用一套逻辑转换规则来实现,对应于C中的任意两个概念项i和j间的逻辑关系。

(三)文档分析

1.提取

网页文档特征词的抽取,我们可从以下两点进行:从标题、小标题、摘要和关键词中直接提取特征词;从正文中提取特征词。

(1)从标题、小标题、摘要和关键词中直接提取特征词。对于大多数文档而言,文档的标题、小标题是最能直接体现文章主旨的提示,因此必须对这些部分进行充分的特征词挖掘。另外科技文档中的关键词和摘要也是需要进行充分特征词挖掘的部分。一般来说,由于作者的书写习惯具有一定的稳定性,我们总能通过一定的方法获知其标题、小标题、关键词和摘要的物理位置。标题性文字通常在文档中都会采用较大的字体、单独一行或加黑等方法予以明示,而在HTML中更以Title加以标记。关键词和摘要在科技文献中通常也会采用异于正文的字体和固定的位置给予明确。

(2)从正文中提取特征词。有些词语虽然没有直接出现在标题、小标题中,但是有可能也是表达该网页文档主题的特征词之一。对于这类特征词的提取目前大多是采取基于频率统计的算法来抽取这些词语,其基本思想是:首先对一定数量的范例文档进行分析统计,得出某个特征词在各个文档中出现的相对频率集,然后在语言学家和领域专家的帮助下确定该特征词一个恰当的基本频率范围。如果某词语在所分析的源文档中出现的频率在上述基本频率范围内,那么就可以认为该词语是表达该网页文档主题的特征词之一。

2.确定所属领域

抽取了一组能够表达网页文档(标引文献)主题内容的特征词,还应该把特征词语转换为本体论中的概念词语,以明确其真正含义。我们可以通过把该网页文档的特征词与本体论中的概念及其设立的同义词进行匹配来实现这种转换。匹配的结果可能出现三种情况:

(1)抽取出的特征词与所创建的领域本体论中的任何概念及其设立的同义词都不匹配,这时,可由领域专家和本体论构建者为该特征词提供相应的领域本体论描述。

(2)该特征词语在本体论中只属于一个领域,则只要通过本体论中的同义词表,把该特征词转换为本体论中的概念词语即可。

(3)该特征词语在本体论中分属于不同的领域,即出现“一词多义”的现象,这时,我们可以借助本体论通过某种算法来确定文档所属领域。

具体的算法流程见图3-1所示。

图3-1 算法流程图

3.进行映射

明确了文档特征词所属领域,把特征词转换为本体论中的概念词语后,还需要把本体论中对应的概念词与特征词所在的网页文档(标引文献)关联起来,我们可以通过创建特征词在本体论中对应的概念词与特征词所在的网页文档的对应表,来建立网页文档与领域本体论之间的映射关系。

例如,有两个含有关键词“病毒”的网页文档,一个是指生物学领域的病毒,另一个是指计算机领域的病毒,那么通过上述方法确定了网页文档所属领域之后,我们可以通过创建对应表来建立网页文档与本体论之间的映射关系。

四、基于本体的信息检索的基本设计思想

首先,在领域专家的帮助下,建立相关领域的本体。本体的质量是知识检索的灵魂。构建的本体越完善,越能保证检索效率。确定本体的应用范围,在领域专家的帮助下,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义,这些定义应该是明确的、无二义性的,是一组描述领域内实体及其属性和行为以及实体关系的词汇、定义、公理、定理的集合。建立的本体应该具备清晰性、一致性、完整性和可扩展性。清晰性,就是本体中的术语无歧义地定义;一致性,就是术语之间关系逻辑上应一致;完整性,是指本体中的概念及其关系应是完整的,应包含该领域内所有概念,但往往很难达到,需不断完善;而可扩展性,即本体应该能够扩展,在该领域不断发展时能加入新的概念。

其次,收集信息源中的数据,并参照已建立的本体,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中。

再次,对用户检索界面获取的检索请求,检索转换器按照本体把检索请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合。

最后,检索的结果经过定制处理后,返回给用户。需要说明的是,如果检索系统不需要太强的推理能力,本体可用概念图的形式表示并存储,数据可以保存在一般的关系数据库中,采用图的匹配技术来完成信息检索。如果要求比较强的推理能力,一般需要用一种描述语言(如:Loom,Ontolingua等)表示本体,数据保存在知识库中,采用描述语言的逻辑推理能力来完成信息检索。由于本体能通过概念之间的关系来表达概念语义的能力,所以能够提高检索的查全率和查准率。

五、结语

本体作为一种新的知识组织方式,力图去解决知识的共享和重用问题,在知识越来越丰富的今天,受到了越来越多的关注,在许多方面有着广泛的应用前景。但是基于Ontology的信息检索研究目前仅仅停留在理论研究方面,在具体的实施和系统构建上还是有待加强,其中最大的原因就是Ontology理论和实践的不成熟,而且运行耗费比较大,时间周期长,这些问题还有待于进一步的解决。

[1]丁凤玲.信息检索中的本体论应用[J].现代情报,2007(3).

[2]宋曰聪,胡伟.基于本体的信息检索系统的应用研究[J].绵阳师范学院学报,2007(5).

[3]尹红丽.基于本体的个性化信息检索技术研究[J].山东轻工业学院学报,2008(2).

[4]郝嘉树,王惠临,刘耀.基于本体的跨语言信息检索模型和关键技术研究[J].情报科学,2009(2).

【责任编校:周文慧】

On Ontology Application on Network Information Retrieval

Cheng Huadao
(Hubei University of Police,Wuhan 430034,China)

Withthe enrichment oftheinformation resources inmodernsociety and theimprovement ofinformation needs of people,it challenges information retrieval technology.People try to introduce all kinds of advanced ideas and methods to the fieldof information retrieval,topromoteits theoryand technology ofdeep-rooted change.Thus,ontology-based intelligent information retrieval field of research has gradually become a hot spot.

ontology;network information retrieval;intelligent search

G25

A

1673 2391(2010)02—0115—04

20090920

程华道,男,湖北警官学院图书馆馆员。

猜你喜欢

特征词信息检索本体论
CP论题能为本体论论证提供辩护吗?
张栻的本体论建构及其体用逻辑探析
张载哲学的本体论结构与归宿
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
微电影本体论辨析
面向文本分类的特征词选取方法研究与改进
教学型大学《信息检索》公选课的设计与实施