APP下载

基于智能Agent的个性化搜索引擎模型研究

2010-04-03连雁平武夷学院数学与计算机系福建武夷山354300

长江大学学报(自科版) 2010年1期
关键词:搜索引擎检索个性化

连雁平 (武夷学院数学与计算机系,福建武夷山354300)

1 搜索引擎

搜索引擎 (Search Engine)技术是近10年来随着Web应用的迅猛发展、网络信息资源的迅速增加而发展起来的,并得到广泛应用。搜索引擎是利用机器自动化的收集网络信息并有序化的一种技术,能够自动对Internet上的信息资源进行分析处理,是通过查询为用户返回匹配资源的典型的网络信息检索系统。它一般是互联网上的一个网站,主要任务是在互联网上主动搜索web服务信息并将其自动索引,索引内容存储于可供用户查询的大型数据库中。

搜索引擎的工作原理大致可以分为3个步骤[1]:①搜集信息。搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛 (spider)的自动搜索机器人程序来连上每一个网页上的超链接。②整理信息。搜索引擎整理信息的过程称为 “建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。③接受查询。用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。

随着网络用户的增加,Internet的信息日益膨胀,搜索引擎已成为人们获取网络资源信息必不可少的工具。当前Internet上的搜索引擎很多,但大部分搜索引擎存在以下几方面的不足[2]:

1)搜索引擎不能满足用户个性化兴趣需求 传统搜索引擎系统通常是一种大型的服务器程序,它要同时响应很多个用户的搜索请求,这样更多考虑的是并发性能及响应用户的效率,而提供给普通用户可以使用的个性化方式和功能却极为有限。因而用户只能被动地接受搜索引擎提供给他们的用户界面、检索方法规范、信息分类方法、对关键词的理解,而自己的文化程度、行业背景、使用习惯等不能得到充分的照顾。传统搜索引擎提供给用户的用户接口一般非常类似而又简单:一个关键词文本输入框、几个有限的逻辑运算符和可以由它们组成逻辑关系表达式的机制,用户用此来表达对所需要的文档的描述。检索工作是用户驱动的,即由用户显式地提出检索请求,系统给出响应,因此不能够根据用户个性化兴趣需求来定制检索结果。此外,传统搜索引擎系统并不具有对Web信息进行监控并在出现用户感兴趣的新信息时主动通知用户的功能。现有广泛使用的搜索引擎多数还只能提供对文本信息的查询,没有对复杂对象如视频、音频、图像等的查询方法,也没有为它们提供任何接口。

2)检索结果使用户资源迷向 传统搜索引擎所使用的全文检索如今已成为一种比较成熟的技术,它能够解决对网页细节的检索问题。从理论上说,只要一个网页上出现了某个关键词,全文检索就能采用关键词匹配把该网页查出来。但实际上对用户来说结果返回得太多了,因用户毕竟精力和时间有限,需要的有用信息只在其中占很小一部分,绝大部分检索结果都是查非所要的。

3)检索结果存在信息丢失 传统搜索引擎的搜索过程实际上是对关键词进行匹配的过程,而这个匹配却是机械式的匹配,即只是从字形上来识别匹配关键词,却不能从词所表达的具体含义上来识别匹配。

2 智能Agent

Agent技术起源于20世纪70年代的人工智能 (A rtificial Intelligence,A I)领域,20世纪80年代中后期人工智能技术与分布式计算技术相结合,出现了分布式人工智能 (Distributed A rtificial Intelligence,DAI)研究。由于DAI突破了长期以来人工智能研究进展不大的局面,因此备受人们的重视和青睐。Agent融入了主流计算机的各个领域,产生了一系列新的思路、方法和技术,各种类型的软件Agent大量用于信息处理、办公自动化、交通管理、私人助手等[3]。

Agent的基本功能就是与外界环境交互,获取信息,并对信息进行处理然后作用于环境。Agent作为一种代理,代替用户进行工作。Agent要能正确完成复杂的任务,必须能通过交流充分了解用户目的,对一些含糊的部分,Agent也能有足够的知识来理解和实现。因此,Agent必须提供一个能充分表达用户目的的机制,在许多情况下,这些目的的表达可能是含糊的或不精确的,这就需要Agent拥有一定智能和知识,使Agent能准确理解用户的真正需要。此外Agent还应知道向用户提交结果的时间、相关信息源的位置以及获得相关数据的方法。

3 多Agent系统

多Agent系统 (Multi-Agent System,MAS)是指由多个Agent组成的一个松散耦合的多Agent联邦,其成员Agent之间相互协同,相互服务,共同完成一个任务[2]。各Agent成员的活动是自治和独立的,其自身的目标和行为不受其他Agent成员的限制,它们通过竞争或者谈判的方式解决Agent的目标和行为之间的矛盾和冲突。MAS的数据和资源是分散的,每个成员Agent对于所要完成的任务拥有不完全的信息或者能力,不存在全局的控制系统,任务的执行和计算是异步的。MAS的主要研究内容是一组自治的Agent之间智能行为的协调 (Coordination)和协作 (Cooperation)[3]。这是因为单个Agent的能力通常受到其所拥有的知识、资源和视野的限制,因此有必要将多个Agent组织起来,通过Agent之间的协商、协作、谈判甚至竞争共同完成单个A gent无法胜任的任务。

4 模 型

系统的设计思想是设计一个集主动搜索和元搜索于一体的基于智能Agent的个性化搜索引擎模型,采用主动搜索和元搜索相互补充的方法提高系统的查询准确率和完整性,整个系统模型采用多Agent之间的协商、合作来完成。模型结构如图1所示。

系统分成用户Agent、查找Agent、反馈 Agent、元搜索 Agent、主动搜索 Agent、索引Agent和数据库7个部分。

1)用户Agent 用户A gent的功能主要是提供搜索信息和获取搜索反馈信息,即提供给用户良好的互操作界面。一方面实现信息引导,帮助用户确定自己需要的信息所在的范围,细化和规范查询要求,另一方面提供用户相关信息反馈窗口,记录用户对查找结果的意见。

2)查找Agent 查找A gent的功能是根据用户界面的请求实现对数据库的查找,并将查找结果反馈给用户界面。单纯的关键词匹配查找是不够的,容易造成返回结果过多或定位不准的结果。可通过关键词扩展技术扩展查找的目标,关键词扩展主要是指语义相近词的扩展,查找Agent可以根据用户提供的关键词及扩展了的近义词作多次匹配查询。当返回结果过多时,采用交互式提示界面,提示界面应是原关键词的细化,用户可以再次精确定位。当返回多项结果时,应能给用户指示出不同结果的匹配度和聚类表示,从而更好地引导用户进一步获取结果。

3)元搜索Agent 元搜索A gent是直接与信息源进行连接并获取信息的代理,可以在现有网络通信协议TCP/IP基础上实现。它根据用户偏好对用户查询词条进行扩充,合理调用各个独立的成员搜索引擎,并将扩充后的用户查询请求转化成符合所对应的独立搜索引擎语法的查询请求并发送出去,对各个独立搜索引擎所返回的信息进行分析处理以此来提高用户完成下达搜索请求的效率。

4)反馈Agent 反馈A gent和用户Agent以及数据库相连,接受并存储用户Agent的反馈意见,能对用户反馈意见进行统计分析,并能按一定的规则对索引数据库的部分信息索引进行修改。

5)主动搜索Agent 主动搜索Agent的主要功能是完成网上信息的自动获取,增加和更新中心索引数据库的内容。主动搜索Agent的目标可以是直接网络站点搜寻,也可以是借助于已有搜索引擎进行,使用后者的长处在于主动搜索Agent不必直接面向全网搜索,只需与若干引擎连接,获取已有搜索结果,在实现上得以简化,不足点在于搜索范围受搜索引擎制约。

6)索引Agent 管理系统中的本地数据库,完成各种数据表格、历史纪录的维护以及各种文档信息的统计处理、报表生成等工作。

7)数据库 数据库的建立是为了使搜索更加便捷。数据库的内容是对Internet范围某种信息的中间索引,数据库的结构同样依据相关信息的分类知识来建立,根据不同的信息内容建立分布式的数据库。

5 结 语

搜索引擎是万维网迅猛发展、信息网络资源迅速增加的产物。笔者主要阐述如何将智能Agent技术应用于搜索引擎当中,借助多Agent系统成员的相互协调合作,结合用户个性化需求特性设计个性化智能搜索引擎模型。Agent技术是近些年人工智能发展的产物之一,已经慢慢融入到主流计算机的各个领域,包括信息安全、网络技术、交通运输管理、办公自动化OA技术、电子商务等,今后将注重于智能Agent技术在电子商务系统网站中的具体应用。

[1]邓俊涛.基于多Agent协作的智能搜索引擎的研究 [D].武汉:武汉理工大学,2007.

[2]李益.基于多Agent的智能搜索引擎系统研究[D].哈尔滨:哈尔滨工程大学,2004.

[3]刘翀,曹阳.基于移动Agen t的智能搜索引擎的设计与实现 [J].计算机工程,2002,28(10):105~110.

猜你喜欢

搜索引擎检索个性化
坚持个性化的写作
新闻的个性化写作
上汽大通:C2B个性化定制未来
专利检索中“语义”的表现
网络搜索引擎亟待规范
满足群众的个性化需求
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究
国际标准检索
国际标准检索