基于用户行为分析的个性化搜索引擎
2013-11-14宋迎迎河南财经政法大学图书馆
宋迎迎(河南财经政法大学图书馆)
1 概述
搜索引擎是以一定的技术和策略在互联网中搜集、发现信息,并提供快速检索信息的一种工具或系统。随着网络的发展,搜索引擎已成为用户访问万维网和查找获取信息资源的重要手段之一。截至2010年6月底,搜索引擎在网民中的使用率为76.3%,用户规模达到3.2 亿人,与2009年6月相比,年增长8 589 万人,年增长率36.6%。自从百度竞价排名事件曝光以来,搜索引擎备受人们关注。从yahoo 的人工分类目录到以关键字和词为检索系统模型的第二代搜索引擎,搜索引擎的弊端日益突显。搜索引擎的目的是以最快的速度来满足用户的信息需求,但随着Internet 上的信息数量呈指数级增长,加上传统的搜索引擎使用的是通用爬虫程序,对不同查询需求、不同查询目的的用户来说,输入相同的检索词,返回的结果也是相同的,这就需要进行二次查找来筛选所需信息,耗费用户更多的时间和精力,传统搜索引擎的缺点逐渐暴露出来。为了解决丰富的信息资源和较低的信息获取能力之间的矛盾,个性化的信息检索系统应运而生。个性化搜索引擎就是在这一背景下提出来的。
个性化搜索引擎是个性化服务思想在搜索引擎中的应用。个性化搜索引擎包含两方面内容:一是提供给用户个性化的检索环境,由用户根据自己的兴趣爱好来定制检索界面,用自己熟悉喜爱的检索方法来查询信息;二是个性化信息的推送,利用各种技术及与用户使用过程的互动获取不同背景、兴趣爱好、学科领域用户的信息需求,使用户通过相同的检索词可以轻松获取符合需求的查询结果。
要实现个性化搜索,获取用户特定的需求至关重要。用户主动提交的信息需求是获取方式之一,但对于一般用户来说,除非是把有用的信息实体放在面前,否则很难有效地用语言文字清晰地表达出自己的信息需求并被系统所理解,这就给用户信息需求的提交带来了困难,也会影响到个性化搜索引擎的效果。因此,个性化搜索引擎就是利用先进的技术对用户行为进行分析研究,让搜索引擎更加深入、更加细致地参与到每个用户的整个检索过程中。深入挖掘用户的兴趣信息,实现对用户需求的准确理解,并及时了解用户需求相关信息的变化情况,从而提高搜索引擎的检索质量。
2 搜索日志的净化
对搜索引擎日志进行分析是网络搜索引擎用户行为的重要载体。日志是通过特定的工具对用户在互联网上的各种行为进行的记录,围绕搜索引擎用户进行检索时的一系列行为,系统会使用各种手段收集各种日志。然而,Web日志虽然包含了丰富的用户信息,但却是一个充满噪声的数据源。要使用相关日志进行用户行为分析,必须对各种数据进行预处理,去掉系统中不符合要求的日志信息,也就是日志数据的净化。需要净化的日志数据主要有以下几种。
2.1 访问失败的日志记录
用户访问搜索引擎检索所返回的URL 并非都是成功的,比如返回的结果可能是错误的或者禁止访问的,也可能出现访问的文件不存在、服务器内部错误等等。这种数据记录也会存在于日志中,这对于用户行为分析是没有意义的,所以应该删除掉。通过状态域中的状态码即可以进行判断。
2.2 与用户访问无关的日志记录
通常情况下,用户访问网页,由于HTTP 协议的特性,网页上包括的音频、视频、图片等各种多媒体辅助信息都会和网页文件一起下载到用户端,导致用户一个访问请求会产生许多条记录,但是对用户行为分析来说真正起作用的只有一个。因此,这些没有实际价值的日志数据也应一并删除。
3 网络用户行为分析
网络用户行为分析早在万维网建立之初就产生了,随着搜索引擎用户规模的大规模增加,用户行为进行分析日益引起人们的重视。网络用户行为分析是促进网络信息检索技术得以前进的重要基石,同时也对改进搜索引擎中发挥重要作用的各种算法起到促进作用,是网络信息检索和知识挖掘的重要研究领域之一。搜索引擎的用户行为研究主要包括用户行为的分类,用户行为的特征,用户行为之间的关系以及用户行为的收集等。典型的用户行为分析研究主要包括:用户查询需求分析、用户点击行为分析和用户浏览行为分析等。搜索引擎用户的行为是由一系列相关的动作组成。要提高个性化搜索引擎的性能,必须加强用户与搜索引擎的交互。将相关反馈技术引入个性化搜索引擎,对于研究用户的搜索目的,改善搜索结果与用户需求之间的相关度具有重要意义。相关反馈分为显示反馈和隐式反馈。显示反馈是系统根据用户最初定制的查询条件返回查询结果,由用户明确地对检索结果进行评价,以此来判读用户的搜索目的。显示反馈虽然能得到用户正确的反馈信息,但是却耗费了用户的时间和精力,有一定的局限性。隐式反馈是一种隐性的相关反馈技术,当系统返回给用户查询结果后,系统根据浏览器和服务器返回日志来判读用户的兴趣,作为进一步改进查询结果的依据。
3.1 基于用户本体的查询词扩展
用户搜索日志记录了用户与检索系统之间交互的相关信息,是用户使用检索系统时多次“回馈”结果的积累。对用户查询需求进行分析能正确理解用户查询背后的意图及用户的信息需求。本体论常以树状结构及关联的方式来表达某一领域的事物及其之间的规则和联系。作为一种能在语义和知识层次上描述概念体系的有效工具,本体的目标是获取相关领域的知识,通过对该领域知识的理解、分析,确定该领域内共同认可的词汇(或术语),并且从不同层次、不同角度的形式化模式上给出这些词汇(或术语)之间明确的关系定义。
3.1.1 提取查询扩展词,用来分析用户的背景
根据搜索日志,将有相同或类似兴趣爱好的用户搜索日志进行分类。去掉网页中经常出现的,但是对搜索没有帮助的词语(停用词),根据搜索词返回的网页作为一个网页集。对于用户每一个查询词所点击的网页集合称为点击网页集;点击网页集中网页包含的词项的集合称为词项集;抽取出来作为查询扩展候选词的词项集合称为查询扩展词。综合考虑以下几个要素来计算词项的权重:一是每一个词项在点击网页中出现的频率;二是网页中包含的词项跟用户的初始查询词相关度;三是网页集中网页包含的词项的数量;四是系统返回网页的顺序,五是用户对网页的点击顺序。
3.1.2 建立用户本体
把词项按权重降序排序之后,选取前10 个词项作为形式概念格的属性,词项所在的网页作为对象,构建概念格,利用生成的用户本体的语义关系计算新的查询词与概念格中的概念的相似度,找出相似度最大的概念进行查询词扩展。将查询扩展源输入自然语言处理技术的领域本体,提取它们之间的语义关系,词汇概念的语义关系主要包括同义关系、反义关系、上下位关系和部分关系;当新的查询词出现时,遍历用户本体,当出现新的查询词,如果存在于用户本体中,不对用户本体作任何改变,如果新的查询词不存在于用户本体中,则分析新查询词与用户本体中每个概念的语义关系;将新查询词与提取出的语义关系加入至用户本体中,更新用户本体。
3.2 用户点击、浏览行为的特征分析
点击行为是用户对系统返回的搜索结果进行浏览的相关动作,是判读搜索引擎质量高低的一个重要标志。
面对搜索引擎返回的大量检索结果,当用户浏览检索结果时,如果发现符合自己查询需要的信息,用户会马上点击该页面详细阅读,如果是非常有用的信息,一般会下载下来。但是,当用户打开页面发现和自己需要的完全不符合时,就会迅速关掉页面,时间非常短,通常不会超过十秒钟,因此,可以结合点击与否以及访问时间来判读用户的兴趣。
用户点击行为的偏见性表明,用户对搜索引擎返回的页面结果集的点击顺序在一定程度上依赖于搜索引擎返回页面的质量(包括内容相关性和排序的准确性)。由此可见,在对搜索引擎结果集的质量进行评价时应该考虑用户的质量偏见和信息偏见对用户点击行为的影响。
用户点击URL 的选择性表明,某页面被点击和浏览的次数越多,那么它的质量就越高。用户是通过搜索引擎提供的信息来判断页面质量的好坏的,这些信息包括页面的标题以及摘要的质量、在搜索结果列表中的排序位置等。由此可见,在收集用户行为信息时,这些页面信息是必不可少的,它为用户建模以及个性化排序提供了有用的数据,系统只需记录这些信息而不是整个页面的信息,提高了系统收集用户行为信息、建立用户模型与个性化排序的效率。
用户翻页行为的局部性表明,用户在浏览搜索结果集时,往往是“找到为止(找不到也为止)”,而不是“不找到绝不罢休”。由此可见,在对搜索结果集进行个性化重排序时,只需要对返回的结果集中的前几页进行排序即可,而没有必要对所有的结果进行排序。在进行个性化的缓存设计时也只需缓存前面几页的结果即可,此外,在对搜索结果的质量进行评估时,只需要考虑前面几页的查准率即可,而没有必要考虑所有结果集页面的查准率。
用户在浏览系统返回的检索结果时,大部分会采取顺序浏览的方式,选择返回结果比较靠前的网页进行点击,当用户翻滚页面时,关注度会有所下降。同时,用户浏览搜索结果时一般是找到所需的信息就结束搜索行为,而不是要找到所有的信息。因此,在对搜索结果集进行个性化重排序时,只需要对返回的结果集中的前几页进行排序即可,而没有必要对所有的结果进行排序。在进行个性化的缓存设计时也只需缓存前面几页的结果即可。
用户浏览行为的顺序性表明,用户对搜索引擎返回的页面结果集的浏览顺序往往是从上到下。由此可见,在对搜索引擎结果集的质量进行评价时应该考虑用户的浏览顺序与结果集排序顺序之间的一致性,二者越接近,则表明搜索引擎的排序准确率越高。
用户的行为特征表明,用户行为为搜索引擎系统提供了很多反映用户兴趣的信息,系统可以将这些隐式的反馈信息作为理解用户查询的背景信息需求,系统可以根据用户及时的反馈信息及时调整用户的信息需求,从用户的历史信息需求和当前信息需求中理解用户真正的信息需求,从而为用户提供更准确的个性化服务。
1 中国互联网络中心.2010年中国搜索引擎用户行为研究报告[R].2012-02-08.
2 李亭枫. 面向网络用户行为模式发现的数据挖掘技术探索[D].成都:电子科技大学,2010.
3 岑荣伟.基于用户行为分析的搜索引擎评价研究[D].北京:清华大学,2009.
4 蔺继国.基于点击数据分析的个性化搜索引擎研究[D].长沙:国防科技大学,2010.4