APP下载

基于Agent的个性化元搜索引擎

2016-01-20石建国薛玉倩石彦芳

石建国 ,薛玉倩,石彦芳

(1.河北软件职业技术学院招生就业处 ,河北保定 071000 ;

2.河北软件职业技术学院软件工程系,河北保定 071000)

第一作者:石建国(1981-),男,河北永清人,河北软件职业技术学院讲师,主要从事搜索引擎、计算机智能、数据挖掘等方向的研究. E-mail:94794734@qq.com

摘 要:提出基于Agent的个性化元搜索引擎,将Agent技术与元搜索引擎技术相结合,较好地实现了搜索引擎的智能化,为用户提供了一种良好的检索解决方案.Agent具有的自主性、社会性、反应性和能动性等特性可提高系统的灵活性与智能性,可更好地根据用户行为定制个性化模型,大大提升了用户体验,查全率与查准率得到改善.

关键词:Agent;元搜索引擎;用户兴趣模型;MAS

DOI:10.3969/j.issn.1000-1565.2015.02.016

基于Agent的个性化元搜索引擎

石建国1,薛玉倩2,石彦芳2

(1.河北软件职业技术学院招生就业处 ,河北保定071000 ;

2.河北软件职业技术学院软件工程系,河北保定071000)

第一作者:石建国(1981-),男,河北永清人,河北软件职业技术学院讲师,主要从事搜索引擎、计算机智能、数据挖掘等方向的研究. E-mail:94794734@qq.com

摘要:提出基于Agent的个性化元搜索引擎,将Agent技术与元搜索引擎技术相结合,较好地实现了搜索引擎的智能化,为用户提供了一种良好的检索解决方案.Agent具有的自主性、社会性、反应性和能动性等特性可提高系统的灵活性与智能性,可更好地根据用户行为定制个性化模型,大大提升了用户体验,查全率与查准率得到改善.

关键词:Agent;元搜索引擎;用户兴趣模型;MAS

DOI:10.3969/j.issn.1000-1565.2015.02.016

收稿日期:2014-10-30

基金项目:河北省科学技术研究与发展计划项目(11227167)

中图分类号:TP391

文献标志码:志码:A

文章编号:编号:1000-1565(2015)02-0199-05

Abstract:A personal meta-search engine based on Agent was presented. Agent and meta-search engine were combined to realize intelligent search engine. The Agent’s attributes of autonomy, sociality, reactive and initiative can improve the flexibility and intelligence of the system and provide more accurate information for users according to personalized model of user behavior.

Personalized meta-search engine based on Agent

SHI Jianguo1, XUE Yuqian2, SHI Yanfang2

(1.Admissions Division, Hebei Software Institute, Baoding 071000, China;

2.Software Engineering Department, Hebei Software Institute, Baoding 071000, China)

Key words: Agent ;meta-search engine; user interest model; MAS

现在已是信息过载的时代,但现有的搜索引擎却不能满足用户对信息的需求.首先,现有独立搜索引擎其搜索范围只是Internet上全部信息的30%,甚至更低,其原因在于各独立搜索引擎都存在着一些局限性,比如百度,其对中文关键字的搜索效果就较好,而对英文关键字的搜索效果就不如 google.其次,现有各独立搜索引擎返回的搜索结果存在“千人一面”的情况,由于绝大多数输入的检索词都比较短,所表达的含义较为模糊,所以对于不同用户的相同输入返回的检索结果相同,但是不同的用户其信息需求是不同的.比如,对于输入检索词“苹果”,一些用户可能希望获得有关“水果苹果”的信息,而另外一些用户可能就希望获得“手机苹果”的信息,所以现有搜索引擎无论是从搜索个性化还是搜索数据的查全率、查准率都不能达到用户的要求.

针对现有搜索引擎存在的问题,本文提出基于Agent的个性化元搜索引擎来解决上述问题.为了解决独立搜索引擎各自存在的局限性,引入元搜索引擎概念.元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用.通过元搜索引擎可以实现一站式的搜索,用户只需一次搜索就可以看到多个独立搜索引擎的结果,较好地解决了查全率的问题.但是元搜索引擎返回的结果只是多个独立搜索引擎返回结果的罗列,并不能解决用户个性化需求和查准率的问题.人工智能领域的Agent 具有自主性、社会性、反应性和能动性,通过Agent技术来解决用户个性化需求及查准率问题.本文通过Agent技术来对用户进行个性化分析形成用户兴趣库,调用各独立搜索引擎进行搜索,并对其搜索结果进行合并、筛选、排序从而提高查准率,满足用户个性化需求.

1用户兴趣模型

1.1 用户兴趣获取

本文以隐式方式获取用户偏好,隐式获取是指以人工智能、数据挖掘、知识发现等理论为基础,对用户浏览网页的行为进行分析,从而获取用户偏好信息,并将其转化成结构化数据[1].隐式获取不打断用户的浏览行为,对用户不会带来额外的负担,并能获得大量用户偏好的信息.对于隐式获取,用户对见面的兴趣程度主要表现在3方面:用户浏览页面的时间、浏览页面期间鼠标移动的时间、鼠标点击次数.

1.2 用户兴趣模型表示

用户兴趣模型的作用不仅是对用户基本特征和偏好的简单描述,而且还应具有一定的数据结构,以面向编程的形式化语言表述.本文以向量空间模型的方式来表示用户兴趣模型.

定义1将用户兴趣表示成一个n维的特征向量

model=((I1,W1,n1,t1), (I2,W2,n2,t2), …,(In,Wn,nn,tn)),

(1)

该特征向量的每一个特征项是(Ii,Wi,ni,ti)(i=1,2,…,n)),Ii表示第i个主题特征向量,Wi表示主题的权重,ni是主题包含的文档实例个数,ti表示该主题最近一次被更新的时间.Wi由用户对包含主题网页的兴趣度决定,表示为

Wi=I(page1)I(page2)……I(pagen).

(2)

用户对页面的兴趣度由用户浏览页面的时间、浏览页面期间鼠标移动的时间、浏览页面的次数、是否保存与收藏页面来决定,表示为

I(page)=φ(c(page),v(page),m(page),s(page),b(page)),

(3)

其中c(pagei)为用户访问该页面的次数,v(pagei)为用户访问页面的时间,m(pagei)为鼠标在页面移动的时间,s(pagei)为页面被保存的次数,b(pagei)为页面被收藏的次数.对于页面如果发生保存页面与收藏页面的行为,说明用户对该页面兴趣度较高.于是定义如下:

(4)

对用户来讲,用户访问页面的频率越高,浏览页面的时间越长,鼠标在页面移动的时间越长,用户的兴趣度就越高.

(∞+β)∈[0,1],

(5)

其中s(page)为页面的大小.P为用户所访问页面的集合.

2基于Agent的个性化元搜索引擎

2.1 基于Agent的个性化元搜索引擎架构

图1 基于Agent的个性化元搜索引擎架构 Fig.1 Based personalized meta search engine architecture of agent

基于Agent的个性化元搜索引擎的架构如图1所示,其由用户兴趣库、MAS(Multi Agent System)、词汇库、主题库组成[2].MAS由用户Agent、查询Agent、检索Agent、检索合成Agent组成、兴趣挖掘Agent.主题库保存着采用TD_T方法描述的主题.

2.2 MAS(multi agent system)

MAS实现了用户兴趣的挖掘、搜索引擎的调用、搜索结果的处理、用户的交互.MAS由用户Agent、兴趣挖掘Agent、查询Agent、检索Agent、检索合成Agent组成.Agent之间通过Agent交互平台进行交互,使用ACL进行通信[3].为了适应网络环境的变化,提高运行效率,本文还引入了移动协同方式.

2.2.1用户Agent

用户Agent负责与用户进行交互,向用户提供交互界面,并将用户提交的检索需求发送给查询Agent,并由用户Agent将最终检索结果发给用户.用户Agent可5元组表示

UA(AID,RSM,K,BM,IM),

其中AID为Agent的标识,RSM为Agent接收和发送信息的机制;K为Agent的内部知识库;BM为Agent的业务机制,负责完成用户交互;IM为Agent的信息反馈机制.

2.2.2兴趣挖掘Agent

兴趣挖掘Agent为移动Agent,可以在用户允许的情况下移动到客户端通过用户日志机制对用户的浏览行为进行信息采集并生成用户查询日志,并根据用户兴趣模型分析用户偏好,将最终分析结果保存到用户兴趣库中,并根据用户偏好更新主题库与词汇库[4].用户兴趣Agent除了可以移动到客户端,还可以移动到各数据库服务器端.用户兴趣Agent 可用8元组表示

IA(AID,RSM,K, IM,RM,DM,RDM,LM),

其中AID为Agent的标识,RSM为Agent接收和发送信息的机制;K为Agent的内部知识库; IM为Agent的信息反馈机制;RM为Agent的路由机制,通过该路由机制兴趣挖掘Agent在执行分布式计算任务的过程中,能够以最优的效率来完成既定目标;DM为用户兴趣偏好分析机制,其对用户的浏览信息按照用户兴趣模型进行加工处理,并得出用户偏好.RDM数据更新机制,其完成对用户兴趣库、主题库、词汇库的数据更新操作;LM完成对用户的浏览行为进行信息采集并生成用户查询日志.

2.2.3查询Agent

查询Agent接收用户Agent发送的检索需求,首先将用户检索需求表示为q(q1,q2,q3……qn),然后将qi映射到主题树结点中,并找到上下文结点.对映射到的结点及其上下文结点根据用户兴趣库进行过滤得到最相关结点形成主题集合S(q)={s1,s2,s3……sn},然后在词汇库中找到相应的同义词及直接上下位词,从而得到主题描述集合Des_S(q),并根据调度策略安排检索Agent调用各独立搜索引擎按照主题描述集合进行相应检索.查询Agent可用8元组表示

FA(AID,RSM,K,EM,IM,FEM,UM, BM),

其中AID为Agent的标识,RSM为Agent接收和发送信息的机制;K为Agent的内部知识库,该知识库中保存着搜索引擎的调度策略,调度策略是对各独立搜索引擎搜索能力的描述; IM为Agent的信息反馈机制; FEM为查询扩展机制,其根据用户兴趣库、主题库、词汇库对用户的检索需求进行处理,得到主题描述集合,从而提高查全率;EM为搜索引擎推理机制,其根据调度策略及主题描述集合给出相应搜索引擎:UM更新机制,根据检索Agent返回的搜索引擎的变化更新搜索引擎的调度策略;BM 为Agent的业务机制,安排检索Agent调用各独立搜索引擎按照主题描述集合进行相应检索.

2.2.4检索Agent

检索Agent负责接收检索任务,根据检索任务调用相应独立搜索引擎,并负责将搜索结果返回给检索合成Agent[5].在该检索过程中由搜索引擎变化感知机制监测搜索引擎状态,当搜索引擎状态发生变化时将其变化发送给检索合成Agent,更新其搜索引擎知识库.检索Agent 可用6元组表示

UA(AID,RSM,K,BM,IM,SM),

其中AID为Agent的标识,RSM为Agent接收和发送信息的机制;K为Agent的内部知识库;BM为Agent的业务机制,负责完成独立搜索引擎的调用完成检索任务;IM为Agent信息反馈机制;SM搜索引擎变化感知机制,其监测搜索引擎状态,当搜索引擎状态发生变化时将其变化发送给检索合成Agent与查询Agent.

2.2.5检索合成Agent

检索合成Agent接收各检索Agent 返回的检索结果,并由检索结果合成机制根据搜索引擎知识库中独立搜索引擎的结果格式对其进行合成处理,然后对合成处理后的结果进行去重操作[6].最后,由排序机制对去重后的结果完成排序处理得到最终的检索结果,最终的检索结果返回给用户Agent.检索合成Agent可用7元组表示

CA(AID,RSM,K,BM,IM,CM,SM)

图2 基于Agent的个性化元搜索引擎的执行流程 Fig.2 Agent-based execution flow personalized meta-search engines

其中AID为Agent的标识,RSM为Agent接收和发送信息的机制;K为Agent的内部知识库保存搜索引擎知识库;BM为Agent的业务机制,负责完成与其他Agent进行交互;IM为Agent的信息反馈机制; CM为检索结果合成机制,根据搜索引擎知识库中独立搜索引擎的结果格式对其进行合成处理及去重;SM为排序机制,对合成、去重后的检索结果进行排序.

2.3 基于Agent的个性化元搜索引擎的执行流程

用户向用户Agent提出检索请求,用户Agent向用户提供交互界面,并将用户提交的检索需求提交给查询Agent.查询Agent接收到检索需求,对检索需求进行查询扩展处理,从而得到主题描述集合Des_S(q),并根据调度策略安排检索Agent调用各独立搜索引擎按照主题描述集合进行相应检索[7].各独立搜索引擎完成检索后,由检索Agent把检索结果返回给检索合成Agent.检索合成Agent对返回的检索结果进行合成、去重、排序操作,从而得到最终的检索结果,并将其返回给用户Agent[8].最后,由用户Agent 将最终检索结果返回给用户.具体运行流程如图2所示.

3结论

普通搜索引擎所提供的检索服务质量较低,其主要原因在于采用的是基于意图的检索方法,没有考虑用户的个性化需求.本文提出基于Agent的个性化元搜索引擎,将Agent技术与元搜索引擎技术相结合,较好地实现了搜索引擎的智能化,通过使用元搜索引擎及建立用户兴趣模型不但较好地满足了用户个性化的检索需求,而且也改善了搜索引擎的查全率及查准率.基于Agent的个性化元搜索引擎充分考虑用户智能化、个性化的需求,以Agent间的通信与协作完成相应检索任务,具有良好的扩展性及灵活性,为用户提供了一种良好的检索解决方案.

参考文献:

[1]梁茹冰, 刘琼. 移动计算环境中基于Agent技术的语义缓存一致性验证方法[J]. 计算机科学,2014,41(3):132-136.

LIANG Rubing , LIU Qiong. Method of semantic cache consistency checking in mobile computing environments based on agent technology [J]. Computer Science, 2014,41(3):132-136.

[2]危世民, 戴牡红. 多Agent协同的电子商务推荐系统模型[J]. 计算机应用,2014,34(4):1118-1121.

WEI Shimin,DAI Muhong . Multi-agent cooperative e-commerce recommender system model[J]. Journal of Computer Applications, 2014,34(4):1118-1121.

[3]曹凤雪,黄成,薛小锋. 一种基于agent的云服务组合的交互模型[J]. 计算机应用研究,2014,31(12):3804-3807.

CAO Fengxue,HUANG Cheng,XUE Xiaofeng. Interaction model of cloud service composition based on agent[J]. Application Research of Computers, 2014,31(12):3804-3807.

[4]郑力明, 李晓冬. 浅谈面向Agent的软件工程[J]. 软件,2014,35(10):51-53.

ZHENG Liming , LI xiaodong.Discussion on the agent-oriented software engineering[J]. Computer Engineering & Software, 2014,35(10):51-53.

[5]尹相权, 田晓迪,杨雪萍. 基于多Agent技术的信息共享空间虚拟空间建设研究 [J]. 图书馆学研究,2013(19):20-23.

[6]周三琦. 基于Agent网络监控系统的研究 [J]. 信息安全与技术,2014(7):105-112.

ZHOU Sanqi. The research of network monitoring system based on agent technology[J]. Information Security and Technology, 2014(7):105-112.

[7]LI Juan, KENDALL N. A multi-agent system using associate rule mining[Z]. The 2nd International Conference on Computer Engineering and Technology, Chengdu, China,2010.

[8]CAI Junjie, ZHA Zhengjun, QI Tian, et al. Semi-automatic Flickr group suggestion[Z]. Proceedings of the 17th International Multimedia Modeling Conference, Taibei,China,2011.

(责任编辑:孟素兰)