情报检索系统模型发展研究

2017-07-21朱秋霞

科教导刊·电子版 2017年16期

关键词：信息检索粗糙集布尔

朱秋霞

摘要信息检索模型主要是对查询和文档进行相似度表示和计算的框架和方法。传统检索模型有布尔模型、概率模型、向量空间模型和模糊集模型等，现在已经发展到了新的阶段，具有坚实理论基础和明显优势的检索模型是研究的热点。

关键词信息检索检索模型

中图分类号：G354 文献标识码：A

信息检索模型是运用数学或其它的语言和工具，对信息检索的主要要素—查询和文档，及其之间的匹配程度—相似度进行表示和计算的框架和方法。它基于以下观点：文档和查询共有的词项越多，则认为这篇文档和该查询越相关。

1布尔检索模型→加权布尔检索模型→扩展布尔检索模型

布尔模型是信息检索中第一个被提出的模型，其表达提问的方式与人们的思维方式相近，人们习惯于采用此种模式进行检索查询。它侧重于结构化查询表达式，即通过AND、OR 和NOT 构造查询表达式，反映用户需求，并通过精确匹配来返回文档。布尔检索实际是通过对若干个文献集合的并、交、补运算回答用户提问的。布尔模型最显著的特点是将用户查询与文献标引进行逻辑的、而非数值的比较而获得检索结果。这种模型把复杂的检索过程简单化，将复杂的情报提问按其概念组面的逻辑关系描述出来，使机器根据事先确定的程序进行自动匹配，简化了运算。

但是，布尔逻辑式的构造不易全面反映用户的需求，匹配标准存在某些不合理的地方，检索结果不能按照用户定义的重要性排序输出。针对这些缺陷，提出加权布尔模型，通过对标引词进行加权，解决了传统布尔检索的一些缺点，比如传统布尔模型的运算符在加权布尔模型中无法使用，为解决此问题，提出了扩展布尔模型，该模型通过对标引词加权值，同时将向量检索模型与布尔检索模型融为一体，克服了传统与加权布尔逻辑模型的缺陷。其扩展规模是传统布尔检索模型完全匹配的严格性和向量模型提问的无结构性的折中，在保持布尔逻辑检索的结构式提问的同时，吸纳了模糊检索和向量检索模型的长处。

2概率模型→贝叶斯网络检索模型

概率论可以用来计算查询和文档的相关性，概率模型通过计算文档与查询相关的概率作为相似度。这就使相关性排序问题降为概率论应用问题。概率模型基于以下论点：基于一个词项分别在相关文档和不相关文档中出现的频率来估计该词项的权重。概率模型完全基于概率论，采用严格的数学理论为依据和基础来进行检索决策，具有坚实的理论基础。它的主要缺点是增加存贮和计算资源的开销、参数估计难度较大、系统的检索性能提高不明显。

贝叶斯网络检索模型是从传统的概率理论中分离出来的，以概率理论为基础，是概率检索模型的扩展。贝叶斯网络是一个带有概率注释的有向无环图，图中的点表示所要解决的问题中的变量。这种概率图模型能表示变量之间的联合概率分布，分析变量之间的相互关系，因而贝叶斯网络模型可以用来表示术语间的条件概率和概念语义，并对查询与文档间的相似度进行预测，从而实现基于语义概念的查询。尽管关于贝叶斯网的理论研究还很不完善，应用研究还处于起步阶段，但已通过不同的方式应用到了信息检索领域，随着技术的进步，贝叶斯网模型将发挥越来越重要的作用。

3向量空间模型→隐性语义检索模型→本体向量空间模型

向量空间模型是目前最为流行的信息检索模型之一。其通过使用空间的相似性来解决语义上的相似性，把文档和查询在高维空间中用向量表示出来，每一个维对应着文档集合中的一个词。

向量空间模型最显著的缺陷是基于关键词的向量空间模型无法反应术语间的语义关系，为使处理水平从离散的关键词匹配深入到概念匹配的层次上，提出了隐性语义检索（ LSI）。

LSI 可以看作是扩展的向量空间模型，其简化了计算的复杂性，但语义空间不够完整。本体为向量空间模型提供了更为丰富、详细的概念空间，涵盖了领域内的所有知识及关系。在本体的支持下，文档中语义相关的术语彼此间有了丰富的语义联系，如上下位关系，同义、近义、成员、属性等内在联系，每种关系的关联程度也不同。

在获得丰富而详细的本体的前提下，对基于本体的向量空间模型定义如下：所有的文檔组成信息对象集合D = { di | 1≤i≤M} ，M 为信息对象的总数。根据向量空间模型，每条信息di都可以用一个特征向量v（ s） =[s1，s2，…，sN]来表示。si对应于本体中的实体ei，表示某个信息对象中术语ei的权重。本体向量空间模型有着良好的前景，但由于构建完善的本体难度太大，因而基于本体的向量空间模型仅在小范围有试用，如Gene Ontology。

4模糊集检索模型→粗糙集检索模型

模糊集合理论研究的是边界不明确的集合表示，其中心思想是把隶属函数和集中的元素结合在一起。该函数的取值在区间[0，1]上，0表示不隶属于该集合，1表示完全隶属于该集合，隶属值在0 和1 之间表示集合中的边际元素。模糊集合模型被用来定义查询语词和文献之间的模糊关系。每一个查询语词定义了一个模糊集合，每个文献在相应的语词集合中有一个隶属度，取值通常小于1。

模糊检索主要是建立隶属函数，即为查询条件使用的模糊语言定制适当的函数，用于计算数据库中各记录相应字段的匹配度。合适的隶属函数则能准确把握用户的意愿，满足用户的检索需求。传统的模糊集合模型只考虑利用语词共现关系来进行模糊检索，给出了文献隶属度的计算。由于它没有考虑语词与整个查询概念的相似性，模糊程度有限。

粗糙集理论由波兰数学家Z.Pawlak 于1982 年提出，建立在分类的基础上。它将分类理解为在特定空间上的等价关系，而等价关系则构成对该空间的分类，且每个分类后的集合称为概念。模糊集和粗糙集虽然都是集合理论，但模糊集侧重集合中的元素，而粗糙集侧重于集合与集合之间。粗糙集理论应用于信息检索是利用粗糙集的上下近似函数设置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交几种匹配等级标准，提出一种扩充和优化用户查询的新方法，此方法可根据用户查询和等级匹配标准实现检索，从而得到检索结果的排序输出。基于粗糙集的检索模型目前还在研究阶段尚无大范围应用。

参考文献

[1] 孙坦，周静怡.近几年来国外信息检索模型研究进展[J].图书馆建设，2008（3）：82-85.

[2] 王娟琴.三种检索模型的比较分析研究[J].情报科学，1998（3）：225-230，260.