搜索引擎用户行为与用户满意度的关联研究

2014-02-27刘奕群马少平茹立云

中文信息学报 2014年1期

刘健，刘奕群，马少平，张敏，茹立云，张阔

(智能技术与系统国家重点实验室；清华信息科学与技术国家实验室(筹)；清华大学计算机系，北京 100084)

1 引言

随着互联网信息资源的迅猛增长，快速准确地从互联网海量数据中获取用户所需的信息资源使得搜索引擎已经成为现代生活中不可或缺的工具。据最新CNNIC中国互联网络发展状况统计报告[1]显示，截止2012年12月底，中国网民规模已达到5.64亿，其中搜索引擎用户的数量为4.51亿，使用率达到80.0%，与此同时，搜索引擎用户市场也逐渐从单一用户规模增长向用户体验提升发展。如何提高搜索引擎以用户为中心的网络检索服务质量，提高用户对搜索结果的满意程度，一直是研究界与产业界关注的重点。搜索引擎用户行为是搜索引擎以用户为中心，获取用户反馈信息的重要载体。基于用户行为分析来获取用户对搜索引擎性能评价的显性或隐性反馈信息，进而分析用户对搜索引擎的整体满意度情况以及对于单个查询结果的满意度，也因此成为搜索引擎性能评价研究的热点。

传统的基于Cranfield体系下的搜索引擎性能评价[2-4]中，查询与文档之间的相关性由于其具有可复用性以及人工标注的可靠性等优点，其评价方法直到现在仍在被使用。尽管如此，单个查询与文档对之间的相关性评判，并不能反映用户查询过程中的整体查询体验。在用户查询过程中，用户为满足自身的信息需求，可能需要进行不同的查询操作，譬如点击查询推荐、修改查询词、点击查询翻页等。为此，Jane R等人[5-8]提出了以“用户为中心”(user-centered)的搜索引擎性能评价方法，区别于传统的查询与文档对之间的相关性评判方法，以“用户为中心”的评价方法能够直接地通过用户的查询体验来评价搜索引擎的性能。2007年，Scott B H等人提出了“用户查询满意度”的概念，对其进行建模，并提出了相关的用户查询满意度评价方法。对应于“查询与文档相关性度量”，用户查询满意度研究也成为搜索引擎性能评价中另一个重要的分支。

尽管如此，以往用户满意度研究工作很少有对中文搜索引擎的用户行为与用户满意度关联关系进行深入研究的，同时也缺乏对多个搜索引擎的性能对比。前人的工作也仅限于片面行为特征分析，缺乏对用户查询/点击行为特征进行全面的分析。为此，本文设计了专门的搜索平台，在尽量不影响用户搜索体验的前提下，对用户查询/点击行为数据以及用户满意度评价情况进行收集，并在此基础上，分析用户查询满意度的分布情况以及用户行为特征与用户查询满意度之间的关联关系，比较全面、系统地揭示了“用户查询满意度”分别与用户点击行为、用户查询行为等的关联情况。本文工作的主要贡献体现在以下几个方面。

(1) 针对中文搜索引擎，详细研究了用户行为与用户满意度之间的关联关系；

(2) 对比分析了不同搜索引擎用户查询满意度的差别，整体上从用户满意度评价的角度对不同搜索引擎的性能差异进行评价；

(3) 比较全面地对不同用户查询行为(查询词长短、查询词频率、查询歧义等)、用户点击行为(点击位置、点击次数等)分别与用户查询满意度的关联关系进行分析。

本文剩余部分的内容组织如下：第2节对相关研究工作进行调研；第3节介绍用户行为数据收集情况；第4、5、6节分别从用户查询满意度分布、用户查询满意度与用户查询行为以及用户点击行为相互关系进行分析；第7节对本文工作的总结及展望。

2 相关工作概述

搜索引擎的用户行为日志记录着用户和搜索引擎进行交互时所留下的一系列操作行为信息，是研究用户查询体验，分析用户查询满意度的主要信息载体。近年来，用户行为数据中蕴含的隐性反馈信息在搜索引擎结果排序、查询推荐、查询纠错、网页质量评估、垃圾网页识别、搜索引擎性能评价等搜索引擎研究方向中具有不可替代的作用。本文主要介绍搜索引擎性能评价中用户查询满意度研究相关的工作。

用户查询满意度的概念是以用户为中心、强调用户查询体验的一种搜索引擎性能评价方式，区别于传统的查询与文档相关性度量的基于Cranfield体系的搜索引擎性能评价方式。1999年，Jane R等人[5]就提出了以用户为中心、面向整个查询任务而非单个查询的性能评价方式，除了关注查询与文档之间相关性度量的非交互式信息外，同时也将用户与搜索引擎之间的交互信息加入到整个性能评价方法当中。2002年，Amanda S等人[6]提出了搜索引擎性能评价中“有效性”(effectiveness)与“可用性”(usability)的概念，以用户为中心的搜索引擎评价方式不仅跟搜索结果本身的“有效性”(满足用户信息需求)相关，同时也跟用户与搜索引擎交互体验的“可用性”(界面的友好性等)相关。2007年，Scott B H等人[7]结合传统的查询与文档相关性度量，对用户查询满意度与相关性度量之间进行建模，并利用该模型预测用户查询过程的满意度情况。2011年，Ahmed H等人[8]，通过挖掘用户行为模式的方法，构建了面向查询任务的用户满意度模型，文章研究了大规模的用户行为模式，通过分析不同的行为模式下，用户“满意”与“不满意”的行为模式，构建了依靠用户行为来预测查询是否满意的模型。国内也有不少研究人员对搜索引擎用户满意度研究做了大量的工作，王惠等人[9]也尝试通过费耐尔(Fornell)等提出的用户满意理论模型——ACSI模型来构建搜索引擎用户满意度评价指标体系。朱彤等人[10-12]也提出了按照不同查询分类来定义不同的用户查询满意度，并通过机器学习的方法，结合用户行为日志数据对查询词层面的用户满意度进行自动评价。

3 数据采集

3.1 数据采集方法

本文通过搜索结果页面真实重现的方式，组织被试人员进行用户查询满意度实验。为分析真实搜索引擎网络用户的搜索行为，在某国内一家大型商用搜索引擎的帮助下，从连续3天的用户查询日志中，随机抽取200个查询，作为此次实验中使用的查询。为验证随机抽取的查询是否具有代表性，人工对这200个查询的查询类型按照导航与非导航查询[13]进行标注，其中导航类查询为36个，非导航类查询为164个，基本满足导航与非导航查询1∶4比例分布，进而保证了所选查询的代表性。

为保证用户行为与用户查询满意度之间的关联关系独立于搜索引擎本身的差异，本文对200个随机抽取的查询分别从两个不同搜索引擎A以及B上各自抓取了搜索结果。对应于A与B搜索的结果，实验分成两组，每组实验的200个查询平均分成4个小组，每个小组50个查询，同一个小组均由两名被试人员分别独立完成。因此，整个实验参与的被试人员为16人。这16人均来自同一个专业，拥有相同的文化程度与专业背景。

3.2 采集数据内容

为研究用户行为与用户查询满意度之间的关联关系，收集了搜索行为数据所记录的信息，其中包括时间、用户标示、查询情况、用户点击情况、查询对应的满意度情况等，数据条目和相应的说明如表1所示。

表1 用户行为信息

从表1可以看到，为了保护用户隐私，本文在采集用户行为数据时，进行了匿名化处理，并没有包括用户的IP，登录用户名等个人隐私信息。

4 用户查询满意度分析

4.1 查询满意度评价用户差异性分析

不同用户使用搜索引擎时，对整个搜索过程的满意度评价，不仅受用户自身的因素包括用户知识背景、信息处理能力、搜索结果相关程度的要求差异等影响，同时也因不同搜索引擎本身对于同一查询的内容差异、排序差异以及其他显示差异而不一致。

本文比较了8个实验小组，对于每个实验小组中的每两名用户对相同的50个查询的满意度差异情况，分别计算了用户满意度评价观测一致性系数以及用户查询满意度用户差异Cohen’s Kappa[14]系数，如表2、表3所示。

表2 用户查询满意度评价观测一致性系数

表3 用户查询满意度用户差异Cohen’s Kappa系数

表2中，用户查询满意度观测一致性系数为计算每组用户两两之间关于满意度评价一致的查询数目占总体查询数目的比例。不难发现，尽管同一实验分组编号所对应查询词是一致的，但对于不同搜索引擎A与B，各自的一致性系数也存在着明显差异。这也反应了不同用户对于不同搜索引擎的查询满意度评价中存在明显的差异。

Cohen’s Kappa系数是测量不同用户对于同一批数据进行操作之后，相互之间一致性程度的重要标尺之一。尽管表2中同一组查询的用户满意度评价观测一致性系数维持在70%左右，但从表3的结果整体分布来看，8组结果中，其中7组结果的Cohen’s Kappa值位于(0,0.4]之间，表明每组用户两两之间对于同一组查询的满意度评价情况存在明显的个体差异，这表明了同一组实验的两名不同被试人员实验结果的相互独立性，同时也表明了实验数据的可靠性。

4.2 不同搜索引擎用户查询满意度差异性分析

客观上，不同搜索引擎对于用户提交的同一查询，返回的结果文档集、文档排序以及文档显示方式等存在明显的差异。这种差异的存在，势必带来用户不同的查询体验，对用户查询满意度的评价也因此千差万别。图1显示了两个不同的搜索引擎SE A以及SE B各自总体用户查询满意度的差别。

如图1所示，对于同一批查询，分别从两个不同的搜索引擎获取查询结果，并对查询结果进行用户查询满意度的统计，对于这两个不同的搜索引擎，用户查询满意度的差别相对比较明显。对于同样的查询，不同的搜索引擎用户查询满意度并不一致，这两个搜索引擎的整体用户查询满意度只有75%，这也说明了搜索引擎对于用户查询满意度具有很大的提升空间。

图1 不同搜索引擎用户查询满意度

5 用户查询行为与用户查询满意率分析

5.1 用户查询词频度与查询满意度关联分析

对于热门查询，搜索引擎会给与更多的关注[3-4]，自然也会使查询结果的相关性更好。对于不同频度的查询词，搜索引擎反馈的结果存在差异。为研究查询词频度对用户查询满意度的影响，将查询词分为高频、中频、低频三个频度等级。其中低频查询为119个，占整个查询数目的59.5%；中频查询为46个，占整个查询数目的23%；高频查询为35个，占整个查询数目的17.5%，整体约为3∶1∶1的分布。从整个查询的独特性来说，80%的用户常用查询通常只占总体查询数目的20%，低频查询的查询词数目相对所占比例大。

本文分析了三个不同频度的查询所对应的用户查询满意度分布情况，图2显示查询频度与用户查询满意度之间的相互关系。

图2 用户查询满意度随查询词频率的变化情况

从图2显示结果，不难发现“满意”与“不满意”查询数目之比随着查询词词频的降低而降低。尽管查询词词频划分的标准存在差异，但从总体上，对于高频查询，搜索引擎返回的检索结果更容易满足用户的查询需求，查询过程越容易使用户满意，相反，对于用户输入的低频查询，搜索引擎更难获取准确相关的查询结果，因而大大降低了用户查询满意度。这种现象的出现，一方面是由于热门查询，无论从查询词本身，还是从检索结果，搜索引擎都能很好地理解用户的查询需求，并返回较好的查询结果；另一方面，查询的用户行为对搜索引擎正确答案的检索是一个正反馈的过程。因此，对于热门查询，之前用户的点击行为能够在一定程度上帮助搜索引擎将正确的结果排在更靠前的位置上，从而更好更快地满足用户的信息需求。

5.2 用户查询词歧义与查询满意度关联分析

用户在使用搜索引擎进行信息检索时，由于查询词自身简短的因素[2](通常3～4个汉字)，不可避免地导致信息需求存在歧义性。因此不同的用户在输入同一个查询词时，由于信息需求的差异导致用户对该查询的查询满意度评价存在差异。

本部分主要考察查询词歧义与用户查询满意度之间的关系，分析查询词歧义对用户查询满意度的影响情况。首先本文采用人工标注的方法、结合搜索引擎反馈的查询结果对实验中涉及的200个查询进行人工的“查询词歧义”标注。标注的结果中存在“查询词歧义”的查询词为38个，非歧义的查询词162个。共有三个标注人员进行标注，其标注结果的Cohen’s Kappa系数平均值为0.72。各个标注人员之间的标注结果，具有较好的一致性。

对于同一查询，有两名被试人员分别对其用户查询满意度进行评价，为更加清晰地认识“查询词歧义”对用户查询满意度评价的影响，本文没有剔除用户满意度评价存在差异的查询，也就是说对于这类查询，其中一名被试者评价为“满意”，而另外一名被试者评价为“不满意”。因此，本文将用户查询满意度分为三种情况： “满意”(两者均“满意”)、“不满意”(两者均“不满意”)以及“不确定”(一个“满意”，另一个“不满意”)。相关统计结果，如图3所示。

图3 查询歧义与否对用户查询满意度的影响

图3展示“查询词歧义”和用户查询满意度变化的情况，由于歧义查询本身蕴含有不同的子信息需求，不同用户的信息需求理解存在差别，使得不同用户在对检索过程是否满意进行评价时，出现更大的差异，也正如图3所示，对于“不确定”的用户满意度评价，歧义查询所占比例高出非歧义查询所占比例约15.0%。与此同时，对于非歧义查询，用户的满意百分比要高于歧义查询的满意百分比，其中歧义查询为54.6%，而非歧义查询为65.4%。图3表明查询词歧义与否对于用户查询满意度的评判存在明显的影响，对于查询需求越明确的查询，用户查询满意度越高。

6 用户点击行为与用户查询满意度分析

6.1 平均结果点击次数与查询满意度关联分析

用户根据自身信息需求，浏览查询结果，并对认为与信息需求相关的查询结果进行点击。通常情况下，用户的平均点击次数为2.0～2.5次[2]。为研究结果点击次数与用户查询满意度评价的关系，本文统计了不同平均结果点击次数下，用户查询满意度的变化情况。

通常意义上，导航类查询点击次数为1。尽管如此，因为导航类查询只占20%[13]，80%的查询为非导航类，其点击次数大于1。由图4用户查询满意度随点击次数的变化情况，本文发现，点击次数越多，用户满意查询所占的比例越低，也就是说，对于满意的查询，用户的点击次数相对较少，而点击次数越多，用户越倾向于不满意。这种现象一方面因为对于能使用户满意的查询，搜索引擎必然是能够提供较好结果列表，用户所需的点击次数较少；另一方面，用户点击次数越多，表明用户越需要花更多的代价来获取满意的结果，用户对于整个搜索过程越不满意。

图4 查询点击次数对用户查询满意度的影响

6.2 平均点击位置与查询满意度关联分析

用户点击位置的变化，在一定程度上反应用户需要花费多大的代价来满足自身的信息需求，同时也影响着用户对于用户查询满意度的评价。本节将探讨平均点击位置的变化对用户查询满意度的影响。

本文分别统计了用户评价“满意”与“不满意”的查询数目在不同平均点击位置下占整个查询数目的比例，图5统计了平均点击位置从1到7所对应的查询数目比例的分布情况。

图5 查询平均点击位置对用户查询满意度的影响

无论是对于“满意”查询还是“不满意”查询，平均点击位置越靠后，查询所占的比例越少，也和通常的“懒人原则”相符合，也就是说用户总是希望通过最少的努力获取最好的结果。从图5，本文发现，对于平均点击位置少于4时，用户“满意”查询数目所占比例要普遍高于“不满意”查询数目所占比例，而当平均点击位置大于等于4时，用户对于查询的不满意比例普遍要高于“满意”查询比例。这也说明了对于满意的查询，用户只点击了位置靠前的几个文档，而用户的点击位置越靠后，用户查询满意度越低。

7 结论

本文主要研究搜索引擎用户行为与用户查询满意度之间的关联关系，分析了不同搜索引擎用户查询满意度的差异，通过研究用户查询行为的不同特征，分析了查询词频度、查询词歧义等对用户查询满意度的影响。此外，本文从用户点击行为几个不同的群体行为特征出发，分别分析了查询点击次数以及查询点击位置等对用户查询满意度评价的影响。从上面的用户行为与用户满意度关联研究，本文发现：

(1) 不同的搜索引擎对于同一批查询，用户整体的查询满意度存在差异。与此同时，本文发现两个搜索引擎的用户满意度均只有75%左右，这也说明了搜索引擎从提高用户查询体验上，依旧还有很大的提升空间；

(2) 对于用户的查询行为，用户使用的查询词频度越高，用户越能够获得满意的查询体验，而对于越冷门查询，用户的查询满意度越低，这也说明了搜索引擎在提高冷门查询的检索性能上还需要加强；同时研究发现，搜索引擎也需要提升对歧义查询的检索性能；

(3) 对于用户的点击行为，本文发现用户点击次数越少，用户查询满意度越高，点击次数为2的用户查询满意度最高。而对于用户满意的查询，用户平均点击位置都比较靠前，对于平均点击位置大于3时，用户查询“不满意”的概率要普遍大于“满意”的概率。

用户行为是承载用户与搜索引擎查询交互行为的重要媒介，用户的查询体验直接反应在用户的交互行为数据中。本文通过专门的实验设计，利用宏观用户行为分析的方法，获得了一些有关用户行为特征与用户查询满意度的重要关联关系。由于实验用户群体背景单一性的限制，进一步改进被试人员群体背景的多样性，并通过这些重要的关联关系，构建一种自动评价用户查询满意度的方法是本文下一步工作的方向。

[1] 中国互联网络信息中心，中国互联网络发展状况统计报告(2013年1月)[DB/OL]. http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/P020130122600399530412.pdf.

[2] 马少平, 刘奕群, 刘健，等. 中文搜索引擎用户行为的演化分析[J]，中文信息学报, 2011, 25(6):90-97.

[3] 余慧佳, 刘奕群, 张敏，等. 基于大规模日志分析的网络搜索引擎用户行为研究[J]，中文信息学报, 2007, 21(1)： 109-114.

[4] 岑荣伟, 刘奕群, 张敏，等. 基于日志挖掘的搜索引擎用户行为分析[J]，中文信息学报, 2010, 24(3): 49-54.

[5] Jane R. A task-oriented non-interactive evaluation methodology for information retrieval systems. Information Retrieval[J],2000, 2(1):115-129.

[6] Amanda S. A user-centered approach to evaluating human interaction with web search engines: an exploratory. Process Manage[J], 2002, 38(3):401-406.

[7] Scott B H, Michael H. How well does result relevance predict session satisfaction[C]//Proceedings of SIGIR 2007, 2007, 24(3):567-573.

[8] Ahmed H, Yang S, Li-wei H. A task level metric for measuring web search satisfaction and its application on improving relevance estimation[C]//Proceedings of CIKM 2011, October 24-28, Glasgow, 2011： 125-134.

[9] 王惠. 搜索引擎用户满意度研究[J]，图书情报研究, 2009, 4(2):33-37.

[10] 朱彤，刘奕群，张敏，等. 基于用户行为的长查询用户满意度分析[C]. 第六届全国信息检索学术会议论文集，CCIR’10. 2010.

[11] Yiqun Liu, Junwei Miao, Min Zhang, et al. How Do Users Describe Their Information Need: Query Recommendation based on Snippet Click Model[J]， Expert Systems With Applications, 2011, 38(11): 13847-13856.

[12] Bo Zhou, Min Zhang, Shaoping Ma, et al. Log-Mining Based Query Spelling Correction for Chinese Search Engines[J], Journal of Computational Information Systems, 2009, 5(3)： 1225-1234.

[13] Broder A. A taxonomy of Web search[C]//Proceedings of SIGIR Forum 36, 2002： 3-10.

[14] Cohen’s Kappa. Wikipedia, The Free Encyclopedia[DB/OL]. http://en.wikipedia.org/wiki/Cohen’s_kappa.