基于图书馆用户的个性化搜索引擎研究
2014-07-28王欢欢董秀锐
王欢欢 董秀锐
摘 要:图书馆用户该如何准确的找到自己所需的信息呢?当今互联网的迅速发展,大量的信息不断涌入到网络中,在如此多的信息中, “基于用户”的个性化搜索引擎成为解决上述问题的主要方法。本文主要介绍了基于用户的个性化搜索引擎的特点、发展现状及框架模型。
关键词:个性化搜索引擎; 用户行为;个性化搜索
由于互联网Internet的快速发展,网络上的信息正以指数级的速度增长。然而,只是数量上的单纯增长并不代表它能满足用户的信息要求。同时图书馆用户也面临着该如何准确、快速的寻找所需信息的问题。用户要想在海量信息中找到自己所需的信息,只能依靠于搜索引擎。目前,搜索引擎己成为发展最快、最受关注的网络服务之一。
一、传统搜索引擎的不足
超链分析是传统搜索引擎的主要排序技术,如Pagerank算法,HITS算法等等。Google采用Pagerank算法,百度使用的是超链分析技术,即通过分析链接网站的多少来评价被链接网站的质量,这样在满足用户搜索需求的同时,使用率越高的内容越被排在前面。这两种技术在本质上基本是相同的,几乎都采用“一个搜索适用所有用户”的模式,所以当不同的信息用户搜索输入相同的关键词时,搜索引擎返回的结果是相同的。这种机械性的搜索必然不能满足用户的要求。用户在大量的信息中付出大量的时间和精力却得不到自己真正的所需。即“事倍功半”。
当前,搜索引擎正经历着从“数量”向“质量”的跨越。搜索引擎面对的用户从事着不同的职业。他们在信息需求、文化知识背景、兴趣爱好各不相同。而用户需求又具有时效性,在很大程度上受到咨询时期或阶段的影响。而基于关键词的搜索,对不同用户的同一检索词返回同样的结果集,对同一用户在不同时期的同一检索词的返回结果没有考虑用户需求的变化,无法得到个性化的搜索结果。因此,传统搜索引擎不能体现用户的信息需求个性,即传统搜索引擎没有从用户出发而是从检索出发。
搜索引擎为了能让用户把最相关、最感兴趣的信息有效、快速的找到,能够解决丰富的信息资源和低效的信息获取能力之间的矛盾,个性化搜索引擎应运而生。
个性化搜索引擎(Personalized Search Engine)可以真正做到“基于用户”与“各取所需”,更加专业、更加精确地参与到每个信息用户的整个检索过程中。它可以能够根据用户的文化背景、信息偏好、检索习惯行为、检索目的、任务等,提供给每个用户自己想要的一种信息检索环境:用户有自己喜欢的检索界面,使用自己熟悉的检索方法和检索语言充分表达信息需求,在检索过程中提供针对用户的帮助信息,检索出适量的、高质量的、比较确切令人满意的查询结果;同时,个性化搜索引擎可以记录用户以往的检索行为模式,为用户在下一次搜索时提供参考。因此,个性化搜索引擎是因人而异的,“既认字也认人”,针对各种类型的用户提供相应的需求信息,通过用户使用信息的过程和行为与用户进行相互了解以掌握用户的真实意图。
二、个性化搜索服务
现在,大多数搜索引擎网站都提供用户个性化定制搜索服务,例如MyYahoo!Google等。它们都有类似的服务机制。
个性化搜索服务体现在两个方面:首先,用户可以使用关键字表达方式来表达自己的需求。其次,对于同一关键词,不同的用户可以得到不同的检索结果,以满足其不同的需求。比如输人关键字“石头”,地质方面的用户看到的是矿石方面的信息,音乐方面的用户看到的是歌手石头的信息。
此外,用户可以根据自己的需求对许多内容进行设置。如Yahoo!的My Yahoo!提供用户为自己设置起始页面的服务,并能够选择自己感兴趣的内容和经常使用的服务放在该页面。此外,也提供高级搜索服务。
用户可以使用 Google提供的“使用偏好”功能。设置习惯模式包括:在界面语言、检索语言、结果显示等方面。例如,用户需求由英文写成的网页时,就可以把检索语言选为英文,这样你所看到的检索结果就只有英文网页。此外,用户还可以根据自己的爱好兴趣在“个性化首页”创建自己的主页。
目前搜索引擎的个性化服务,虽然用户可以为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在给定页面中。但是这只是表面上的个性化,真正意义的个性化搜索引擎更应注重内容。用户满意为宗旨、双向沟通为服务方式。图书馆服务的宗旨就是最大限度的满足用户的需求。要想做好图书馆服务前提就应该了解用户的信息需求,准确的为他们提供信息服务。
三、 个性化搜索引擎的框架模型
传统的搜索引擎的最大弊端是信息检索等同于数据检索。但数据检索要求的仅仅是所需检索数据和检索结果之间的匹配,需求不同的用户输入同样的检索词,那么检索结果也一定相同。只能依靠个性化搜索引擎来解决这一问题。
个性化搜索引擎的解决方案会根据系统目标的不同而不同。个性化搜索引擎都应具备以下几个基本部分:用户接口、个性化需求分析器、检索器、索引数据库、索引器、分析器、Spider、个性化查询过滤器、用户兴趣库。个性化搜索引擎比传统的搜索引擎增加了用户兴趣库、个性化需求分析器、个性化查询过滤器三部分,其功能简述如下:
1)用户兴趣库:用户兴趣知识在个性化搜索引擎框架模型中起着决定性的作用,是重中之重。只有知道用户的兴趣,才有可能提供令其满意的服务。搜索引擎的用户行为研究主要包括用户行为的分类,用户行为的特征,用户行为之间的关系以及用户行为的收集等。用户兴趣模型不但要求客观、准确的表达用户兴趣知识,而且要具备完好的后期兴趣评估可操作性。
2)个性化需求分析器;由于用户对检索知识与技术了解的情况不同,所以输入的检索请求也是五花八门,不一定很规范。仅依靠检索词条来进行搜索,会有大量不相关的结果被检索出来。所以我们必须准确的对资源进行描述。根据用户兴趣库知识对用户查询请求进行文档的个性化分析处理,通过描述搜索资源的特点帮助搜索引擎确定用户确切所指,所以也称资源描述。资源描述与用户的描述紧密相连,必须对资源进行组织,以便于用户的检索。
3)个性化查询过滤器;个性化查询过滤主要指对检索器返回的查询结果进行个性化处理。比如根据用户兴趣词条来对返回文档打分,然后将结果排序,并设定阈值,最后输出用户真正感兴趣的文档。
总结来看,个性化搜索引擎的工作原理可以简化为以下三个步骤:
对用户的兴趣特点进行分析得出用户的个性化需求。
对文档进行分析归纳出文档的内容特点。
将用户的需要与文档的特点进行匹配。
四、结语
目前,个性化搜索引擎技术扔处于初始阶段,功能还有待完善和提高。但随着互联网发展趋势和信息用户的需求,搜索引擎必将是互联网技术发展的主流方向。真正意义的个性化搜索引擎是一种以用户满意为中心、双向沟通的主动服务。针对每一个用户的独特偏好和信息需求进行独特的针对服务,提供个性化的界面和资源集合,记录用户的检索习惯,提供个性化的帮助……它最重要、最关键的应该是理解用户的信息需求,针对不同的用戶提供他们真正需求的适量的检索结果。