基于Web挖掘的个性化信息检索系统总体设计

2013-10-17王水萍

网络安全技术与应用 2013年11期

王水萍

（郑州经贸职业学院计算机系河南 460005）

1 搜索引擎的现状研究

随着Web信息成指数级的增长，传统搜索引擎能够搜索出来的网页越来越多，但这些搜索出来的网页大多都与用户请求无关，并且网页之间没有任何关系，用户需要从众多的结果中过滤出自己所要的信息，大大加重了用户的检索负担。传统的搜索引擎是通用型的搜索引擎，一般来说，不同的用户输入相同的查询请求总会返回相同的查询结果，然而，对于每一个用户来说，由于关注点不同，用户更期望得到个性化的检索结果。

搜索引擎本就是为了方便用户在网络信息中搜索有用的信息。利用个性化技术来提高搜索引擎系统的性能，主要是为了给查询用户提供较为准确的个性化搜索结果。比如，当用户用传统的搜索引擎来查询时，如果输入“苹果”，由于传统搜索引擎采用普通的排序算法排序，不同的用户输入“苹果”，搜索引擎返回的结果都是相同的。一般情况下，排在前面的网页都是一些“平板电脑”、“手机”等电子产品的页面，然而如果用户的兴趣不在于此，而是想查询苹果收购和销售方面的信息，那么相关的搜索结果就不是他们想要的。但是，当传统的搜索引擎使用了个性化检索技术后，用户的查询结果就发生了改变，这时搜索引擎系统利用用户兴趣模型来对初始的搜索结果页面集进行优化过滤，从而为用户返回个性化的查询结果，这也就是用户想要的结果。

2 WEB挖掘在信息检索领域的应用

个性化信息检索系统主要是面向广大的Internet用户，因此本文设计的该系统考虑综合了多种解决方法和个性化技术。

Web挖掘是Web技术、数据挖掘、计算机技术、信息科学的一个交叉学科，是数据挖掘在网络环境下的应用。在Web信息检索领域使用Wcb挖掘技术，目的是提高信息检索的准确率和效率，改善查询结果。其几点应用如下：

①使用Web内容挖掘中的聚类技术、文档分类技术对Web文档进行分析处理，对文档进行摘要，以改善Web文档索引的组织结构，提高检索效率。

②Wcb结构挖掘通常分析页面间的链接结构和组织结构发现重要的信息，用以改进检索的结果。

③Web使用挖掘常用的一个领域就是对服务器端用户日志进行挖掘，通过用户日志挖掘出用户的兴趣，从而获取用户的反馈信息，也可以通过对用户日志里的访问历史进行分析来发现有用的用户访问模式，为构建用户的兴趣模型提供有效的信息，利用用户兴趣模型对检索结果的过滤可以提高信息检索系统的查准率。因此，将Web挖掘技术运用到个性化信息检索系统中，能够提高信息检索的效率及准确度。

3 个性化信息检索系统体系架构设计

基于Web挖掘的个性化信息检索系统架构如图1所示。

图1 个性化信息检索系统架构

个性化信息检索系统的整个运行过程可以描述为：首先，我们利用信息搜集索引模块中的Spiders来遍历Internet自动获取收集文档信息，并通过过滤、转换技术对文档信息进行处理，提取索引项生成索引表，将索引处理过的数据放入索引数据库；接着，在处理后的数据上利用个性化模型进行相关度检测，并对搜索结果进行个性化过滤，最终用户可以搜索到符合自己兴趣的个性化结果。因为用户随着环境的变化和时间的推移会形成新的兴趣，也同样会对原来感兴趣的东西失去兴趣，用户的兴趣处于不断变化之中，所以个性化兴趣模型也需要不断更新。由此可见，我们需要及时根据用户的兴趣变化来调整个性化兴趣模型。因此，个性化兴趣模型的功能非常重要。利用智能代理能够实时跟踪监视用户行为，分析判断用户的浏览行为来及时发现用户兴趣的变化。因此，个性化兴趣模型的主要工作就是用户兴趣模块的构建和及时更新。

4 个性化信息检索系统的组成

该个性化信息检索系统为了满足不同用户个性化检索的需求，构建用户兴趣模型，采用相关反馈技术过滤掉了大量不相关文档，有效地提高了用户进行信息检索的效率。

根据图1，系统架构主要包括下面几个模块组成：信息搜集索引模块、用户兴趣建模模块、用户兴趣自动更新模块、结果过滤模块。其中的用户兴趣建模和用户兴趣自动更新模块构成了个性化模型。本系统考虑了用户个性化的需求和用户个体的差异，所以能够提供更准确更高质量的检索结果。

①信息搜集索引模块

利用Spiders来遍历Internet自动获取收集文档信息，并通过过滤、转换技术对文档信息进行处理，提取索引项生成索引表，最后将处理过的数据放入索引数据库。

②用户兴趣建模模块

本模块采用一种不需要用户干预的用户动态兴趣学习方法来生成初始的用户兴趣模型。该模块通过分析用户客户端Wcb缓存中用户浏览过的网页以及用户在网页上的行为，来提炼出用户的兴趣，生成初始化的用户兴趣描述文件。

③用户兴趣自动更新模块

用户兴趣建模模块得到的是一个初始化的用户兴趣模型，然而用户的兴趣是动态变化的，如果用户模型在检索过程中一直静态不变，那么根据此用户模型判断而做出的输出结果多半是不准确的。用户兴趣自动更新模块主要根据用户的浏览行为动态的更新用户兴趣模型。其中用户在访问过程中的行为包括了用户从上网开始到结束的所有动作，比如：用户对某个页面的访问次数、停留时间、是否保存、是否下载等，这些行为动作都能体现出用户的兴趣。本模块采用智能Agent对用户浏览网页的所有行为动作进行跟踪，深度挖掘出隐含在这些行为里的用户兴趣，并随时对用户兴趣文件进行更新，从而使用户兴趣模型得以动态更新。

用户兴趣建模模块与用户兴趣自动更新模块共同构成了个性化模型，也是本系统的重点组成部分。

④结果过滤模块

本模块主要利用文本相似度算法比较计算用户兴趣模型和每一个初始结果的相关度，然后依据用户兴趣的相关度按照由大到小的顺序返回给用户，从而使用户得到个性化的检索结果，在最大程度上满足了用户的个性化需求。

5 个性化信息检索系统的运行机制

个性化信息检索系统中各模块都实现了不同的重要功能，是该系统的核心。这些模块不但实现的功能各不相同，而且运行机制方式也不尽相同。信息搜集索引模块和用户兴趣建模模块是周期运行模块，用户兴趣自动更新模块是一个实时运行模块，结果过滤模块是按指令调用被动运行的模块。信息搜集索引模块周期运行Spiders收集网页信息，网页信息经过索引处理后放入索引数据库。用户兴趣建模模块按指定的周期执行，周期更新用户兴趣描述文件，实现用户模型的更新。用户兴趣自动更新模块实时跟踪监视用户的浏览行为，并随时挖掘用户的动作来更新用户的兴趣描述文件。结果过滤模块是只有在查询请求提交时，才会被调用并执行，是一个不定期被动运行的模块。

6 小结

本文主要研究了采用Web深度挖掘技术针对个性化信息检索系统进行总体设计。本系统的设计目的是在为不同用户提供不同的搜索结果的基础上为用户提供能够满足用户兴趣的搜索结果，它的前一个功能由个性化模块实现，后面的功能由结果过滤模块完成，结果过滤模块是对初始搜索的结果进行个性化过滤，并依据用户兴趣相关度进行排序，从而使用户得到满意的搜索结果。

[1]周迎新,方晖,李欣蔚.基于Web的数据挖掘技术研究[J].科技创新导报.2008(3):25.

[2]林培光.面向Web的个性化语义信息检索技术[M].北京：中国财政经济出版社,2009.

[3]张强.搜索引擎—网络信息检索方法[J].农业网络信息.2010(02) .