基于移动互联网日志的搜索引擎用户行为研究
2014-04-14倪志豪
万 飞,赵 溪,梁 循,潘 登,倪志豪
(1.中国人民大学信息学院,北京100872;2.北京大学光华管理学院,北京100871)
1 引言
随着通信技术的进步、终端设备硬件水平的提升以及三网融合政策的逐步推进,移动互联网得到迅速发展,网络应用内容进一步增加,用户应用体验不断提高,我国由此进入移动互联网的大时代。据CNNIC第29次中国互联网络发展状况统计报告[1]显示,截至2011年12月底,中国手机网民规模达到3.56亿,占整体网民比例的69.3%,用户规模增速已超过宽带用户。
鉴于如此大规模的用户,互联网应用提供商纷纷布局移动互联网,主流应用提供商均推出了相应的WAP版本或客户端,为客户提供移动互联网服务,以移动搜索为代表的信息获取已发展为移动互联网的主流应用。当前,移动搜索引擎用户数量众多,应用门槛较低,适用范围较广。在未来竞争中,搜索结果的精确程度与个性化服务将会成为保持用户黏性的重要因素。为提高搜索准确性,移动搜索服务提供商需要挖掘用户特点和行为习惯,预测用户潜在需求,以应对市场竞争。
移动互联网搜索服务提供商每天记录大量的用户搜索数据,比如访问者唯一标志符、检索词、点击页面、访问时间等,这些数据构成了搜索引擎日志。搜索引擎日志包含很多对服务商非常有用的信息,可以反映出用户的兴趣及其行为特点,是研究搜索引擎用户行为的重要载体。本文将通过对一周内中文移动搜索引擎日志的分析,研究真实环境下移动搜索引擎用户的行为特点。
本文安排如下:第2节总结目前搜索引擎用户行为的研究现状;第3节介绍本文使用的移动互联网搜索引擎日志数据;第4节根据上述日志数据进行实证分析,分别研究移动互联网环境下用户查询行为与用户点击行为;最后进行总结和展望。
2 相关工作概述
目前,对互联网的大规模搜索引擎日志的用户行为分析已有一些研究成果,主要集中在搜索引擎用户独立查询、查询会话分析以及用户点击行为等方面,但基于移动互联网的用户行为分析相对极少。
Silverstein等(1998)对AltaVista用户检索行为进行分析,提出在一个查询会话中,用户只进行一次点击的大约占63.8%,约有35.2%的用户对于搜索词进行了完全的改变,12%的用户增加或减少了搜索词的数目[2]。Soyeon Park等(2005)选取韩国著名搜索引擎NAVER一周内的日志数据,经过会话识别、查询分类、数据预处理等操作后,对用户检索行为进行分析,结果显示同一会话中用户输入的查询倾向于彻底更换查询内容,而不是增删检索词项或修改检索词项[3]。Li Wei等(2011)统计了同一会话中检索词的个数,发现同一会话中只有一个检索词的会话占所有会话数的70.866%[4]。王继民等(2004)选取北大天网的用户日志,对用户访问时间、用户查询类型、用户查询长度、用户点击次数进行了统计分析,结论表明用户访问时间分布并不均等,多数用户只输入一个词项查询[5]。余慧佳等(2007)选取搜狗搜索引擎一个月内的查询日志,就用户查询长度、查询频度、查询会话内的查询数目、查询会话内的查询内容以及用户点击行为进行了分析,将相应特征同英文搜索引擎用户行为进行对比,发现中文搜索引擎用户使用高级检索的比例远远低于英文搜索引擎,查询重复率远高于英文搜索引擎[6]。岑荣伟等(2010)在文献[6]工作的基础上,对用户搜索需求进行区分,从查询集合中提取了导航集和色情集这两类特殊的查询集合,针对不同检索目的对上述统计特征进行分析[7]。针对以上工作中用户查询会话分析的不足,王晓春等(2011)定义了8种查询修改,在查询会话基础上分析了查询修改动作、用户点击结果数同查询修改次数之间的关系,发现查询修改动作和查询修改次数有关,而点击结果数量保持稳定[8]。张磊等(2009)对于现有的网页搜索引擎查询日志中查询会话的划分方法进行了分析和总结,提出了可以使用时间作为划分会话的一种标准[9]。马少平等(2011)基于搜狗搜索引擎2006年至2011年的搜索日志,对用户查询行为与用户点击行为进行分析,分析总结了中文搜索引擎用户行为的演化规律[10]。
而移动搜索引擎同桌面搜索引擎存在一定的差异,如用户可以不受固定终端限制,随时随地搜索信息,具有很强的时效性;移动搜索可以同定位服务相结合,为用户提供更具针对性以及精确的服务;移动搜索屏幕有限,每页显示结果数量有限。这些差异在搜索引擎的使用上造成了一些不同,因此有必要对移动搜索引擎的用户行为进行分析,帮助移动搜索算法的改进,更好地为用户服务。
3 实验数据
本文实验数据取自于某无线搜索服务提供商2011年6月1日至2011年6月7日共一周的日志记录。其中日志中每条查询记录的格式如表1所示。
表1 移动互联网网络日志的数据格式
为正确把握基于移动搜索引擎的用户行为特征,本文首先进行了数据处理,其中有以下几个问题需要说明。
(1)cookie问题。由于该无线搜索服务提供商采用cookie技术标识用户,本文假定用户不主动删除cookie,则同一用户仅拥有一个cookie,不同用户拥有不同cookie,cookie作为用户唯一标志;
(2)数据格式问题。考虑到用户的异常操作,日志文件中存在极少量异常数据,如用户cookie格式错误等,在数据处理时,本文将cookie格式有误,检索词长度大于100以及URL长度大于600的记录予以删除。
4 基于日志的用户行为研究
经过数据处理之后,我们共得到4 997 416条查询记录,其中含用户1 751 612个,非重复查询971 197个,非重复网页1 613 762个,查询会话2 317 215个。
4.1 查询词分析
4.1.1 查询词长度
查询词长度在本文中定义为用户查询词中被空格所隔开的词语或字的个数。本文从两个层面分析查询词长度:一为分词之前,即用户自主输入的用空格分开的查询词长度;二为分词之后词语个数。本文在进行用户查询词分词操作时,充分考虑了用户查询需求以及这一时间段内的热点话题,将常用名词如人名、流行词、导航网址以及游戏名称等导入分词词典,提高分词准确率。分析结果表明,分词之前查询词平均长度为1.10个词,分词之后查询词长度为3.45个词,这与文献[7]中关于互联网搜索引擎平均查询长度的分析相一致。图1显示了查询词长度和相应查询数量之间的变化情况。
图1 移动搜索引擎用户查询词长度分布
通过对图1进行分析,分词之前,用户查询词长度多为1个词,占总数的91.91%;而分词之后查询词长度为2和3的检索数目相对较多,查询词长度为1和4的检索数目相对较少,但其差距不是很大。查询词长度在5以及5以上的检索数目在分词之前数量极少,但在分词之后占了总数的23%。通过上述对比可以看到,用户往往习惯直接输入一个短语或短句进行搜索,没有自主分词行为,这一点与互联网搜索是一致的。但是,就查询词长度分布而言,查询词长度在分词之前集中在1个词,分词之后查询词长度分布比较均匀,这与互联网搜索中查询词长度同用户数目呈指数分布这一点是截然不同的。
4.1.2 查询词频度
查询词频度指的是在这一段时间内,该查询词一共被提交的次数。本文对查询次数排名前200的查询词,将其检索次数与排名绘成图2。
图2 查询频度排名与检索次数之间的关系
通过图2可以看到,查询频度排名与检索次数 之间呈幂律分布分布关系,随着查询频度排名的增加,检索次数迅速下降,少数查询出现的次数很多。这说明在搜索引擎每天处理的大量查询中,存在大量重复查询。这与文献[7]中互联网搜索引擎的查询频度分析是一致的。对相应用户查询词内容进行分析,发现用户需求集中在导航网址、生活信息、手机阅读以及应用程序下载这几个领域,且与每一时段热点密切相关。这说明移动搜索引擎服务与桌面搜索引擎相比更具有便利性,更贴近生活。
4.1.3 问题式查询
用户使用搜索引擎时存在多种检索方式,问题式查询则是用户提出问题时最直接、最简单的方式,我们统计了这部分查询的比例。按照现代汉语语言习惯以及英语语言习惯,我们收集了44个疑问词,比如“哪”、“什么”、“怎么”、“如何”等,如果用户提交的查询中使用到了某个疑问词,就认为此查询为问题式查询。统计之后,我们共得到255 375条问题式查询,占总查询数的5.11%,远远大于文献[7]中互联网搜索引擎问题式查询比例2.96%,这说明了移动搜索引擎用户检索习惯落后,检索行为相对不成熟。
4.1.4 直接输入URL作为查询词的比例
在使用移动搜索引擎时,存在一部分用户直接输入网址或网址的一部分进行检索的情况。我们综合考虑了各种手机网站域名情况,如手机域名“.mobi”,商业域名“.biz”、“.cc”等,同时考虑用户只输入URL一部分的情况,统计发现有50 590条记录是以URL作为检索词的,占总检索数目的1.01%,远远低于文献[6]中相应比例。分析其原因,我们认为由于移动设备输入法限制,英文输入较困难,而由于URL往往字符较多,增加了用户输入的难度,所以用户更倾向于输入网站名称进行检索,输入URL的情况相对较少。
4.2 查询时间分析
在分析用户检索与时间的分布关系时,考虑到工作日与节假日对用户搜索引擎使用次数存在影响,我们分别统计了每天每小时内用户检索次数,结果如图3所示。
图3 检索次数随时间变化趋势图
图3显示,不论工作日或节假日,每天21时、22时或23时是全天的最高峰,4时是全天的低谷。一天内,用户检索次数自4时开始增长,在上午10时达到第一个高峰,之后略有下降,后又缓慢增长,在12时或13时达到第二个高峰,21时、22时或23时达到全天最高峰。这同人们的生活娱乐习惯是一致的,工作日内10时是进行工作、学习的时段,节假日内10时则是人们计划娱乐的时段,这段时间人们需要检索相关信息;12时或13时是午休时段,晚21时以后为睡前休闲娱乐时段,在娱乐时间往往会需要检索相关信息。与文献[5]中互联网搜索引擎用户检索时间进行对比,发现移动搜索引擎用户访问时间集中在休闲娱乐时段。
4.3 查询会话分析
查询会话(以下简称会话)可以理解为用户在较短时间段内,针对某一特定话题而进行的有目的的查询。会话能够更集中地反映出用户在有特定目标情况下的搜索、点击行为,为研究用户行为模式提供了更为准确集中的数据基础。我们参考文献[9]关于会话划分方法的总结,结合对于数据的观察,将每一个用户30分钟内的查询定义为一个会话,认为在每一个会话中,用户围绕特定目标进行连续的操作。经过处理,除去日志中点击时间格式有错误的8 593条数据,共区分出会话2 317 215个。
4.3.1 查询数目分析
本文统计了一个会话中用户的查询次数,发现在每个会话中用户平均进行2.15次查询。
图4 会话内点击数目分布
图4显示,有58%的用户在一个会话中只进行过一次查询,这与文献[2]中63.7%的数字接近。这可能是用户通过一次查询就已经找到了令自己满意的结果,所以不再进行后续的查询。也有可能是由于用户发现使用手机的搜索并不能满足自己的需求而使用其他工具(如电脑)进行搜索。其中查询数目小于3个的占到86%。由此可以看出,大部分用户在3次查询以内找到了自己需要的结果,搜索引擎提供的结果是比较令用户满意的。同时我们发现,有1%的用户进行了10次以上的查询,说明用户对于找到自己需要的结果是比较有耐心的。
4.3.2 查询词修改方式分析
如果用户对于现有的查询词查询结果不满意,就有可能修改查询词,从而找到最适合的结果。本文中我们对于一个查询会话中用户修改查询词的方式进行了统计,如表2所示。其中,Adding方式指后一个查询词在前一个查询词的基础上增加了新的词语;Deleting方式指后一个查询词在前一个查询词的基础上减少了搜索词;Order Change方式是指后一个查询词只是改变了前一个查询词的词语排列顺序;Partly Change方式指后一个查询词语对前一个查询词中的一部分进行了改动,其余部分不变;Totally Change方式指后一个查询词较前一个查询词完全不同。
表2 一个会话内用户修改查询方式的分布
我们可以看到,增加和减少搜索词的用户大约占25%,这与文献[2]中的12%有较大的差距,有0.3%的用户只是把原来的查询词顺序进行了调整,35.7%的用户选择更换掉原有搜索词的一部分再进行搜索,即共有61%左右的用户会在原有的查询词基础上进行一定的修改再搜索,而不是完全更换为新的查询词。我们认为这可能是移动互联网用户修改搜索内容较固定终端用户更为困难的缘故(手机输入检索词成本更高)。而完全修改查询词的用户约有38.7%,与文献[2]中的英文搜索引擎结果相近,但与文献[5]中文搜索引擎结果差距较大。
4.4 用户点击行为分析
4.4.1 点击位置分布
当搜索引擎返回用户提交查询的结果集之后,用户会点击其中可能相关的结果。本文就每天用户点击位置与点击次数之间的关系进行了分析,如图5所示。
通过对用户点击位置的分析,我们发现用户点击行为与时间无关,每天点击位置与点击次数分布基本一致。具体来说,用户仅点击了1~8、10~12、22、40这14个位置,说明用户仅仅查看了返回结果的前几页位置。与互联网搜索引擎用户点击行为进行比较,用户点击位置与点击次数之间的分布存在很大差异。其中,图中的点击位置0表示用户并没有在搜索引擎返回的结果集中进行点击,这里不予以考虑。文献[7]中指出互联网搜索引擎用户点击次数与点击行为呈现幂律分布规律,而图5显示移动搜索引擎环境下该分布没有明显规律。究其原因,根据移动设备屏幕大小,搜索引擎每页返回的检索结果数为6个、7个或9个,每页底部显示5个分页结果,用户点击集中在第一页,其中搜索结果中排名第2的结果点击次数最多,第二页前几个结果也存在少量点击,这之后用户直接点击第4页或第5页的结果,而受网页传输速度或操作的限制,用户一般不会点击下一组分页结果。
图5 用户点击位置与点击次数之间的关系
4.4.2 首次点击位置分布
在有特定目的的搜索中,用户通过浏览搜索引擎反馈回的结果列表,点击浏览,这时用户的首次点击位置反映了用户在结果中最感兴趣的内容。如果这时用户无法在第一页获得自己满意的结果,则搜索引擎对于结果的排列不够优化。
图6表明,92%以上的用户的首次点击位置在1-5之间,这表明搜索引擎提供的结果是比较符合用户的期望的。
5 结论
本文中通过对某移动搜索引擎提供商2011年6月第一周日志记录的分析,对移动互联网用户行为和互联网用户行为进行了对比。结果显示,移动互联网用户的查询词平均长度为1.10个词,分词之后查询词长度为3.45个词;查询频度排名与检索次数之间呈幂律分布关系;每个会话中用户平均进行2.15次查询。这些都与互联网用户的行为基本一致。
但就其他特征来说,移动互联网用户和互联网用户的行为模式存在差异。其中在移动互联网中,问题式查询占总查询数目的5.11%,远大于互联网的2.96%;而查询词直接使用URL的比例为1.01%,低于互联网中相应的比例。在查询词修改方式的研究中,我们发现25%的用户会通过增加或减少原有的检索词以得到满意结果,这一比例远高于互联网。同时,移动互联网中用户点击位置与点击次数之间的分布与互联网存在很大差异,用户点击位置主要集中在返回结果集的前几页。结合以上与互联网用户行为的区别,我们总结出移动互联网用户的一些特点:
(1)移动搜索引擎用户相对于互联网用户检索习惯比较落后,检索行为相对不成熟;
(2)移动搜索引擎用户更倾向于减少检索词的更改,同时不喜欢搜索较长的URL;
(3)移动搜索引擎用户通常点击排名靠前的搜索结果;
(4)移动互联网用户的搜索主要集中在娱乐时段,这与移动互联网设备的娱乐性有很大的关系。
用户行为分析在网络搜索领域有极其重要的价值,同时随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验十分重要。在今后的工作中,我们将对数据进行更深层次的分析,挖掘出更有效的用户行为模式,以优化移动搜索引擎性能。
[1] 第29次中国互联网络发展状况统计报告[R].中国互联网络信息中心(CNNIC),2012.
[2] Silverstein C,Marais H,Henzinger M,et al.Analysis of A Very Large Web Search Engine Query Log[C]//Proceedings of ACM SIGIR Forum.ACM,1999,33(1):6-12.
[3] Park S,Ho L J,Jin B H.End User Searching:A Web Log Analysis of NAVER,a Korean Web Search Engine[J].Library &Information Science Research,2005,27(2):203-221.
[4] Wei L,Yan Y,Hu J,et al.Search Engine Log Based User Behavior Analysis[J].Energy Procedia,2011,13:5082-5091.
[5] 王继民,陈翀,彭波.大规模中文搜索引擎的用户日志分析[J].华南理工大学学报(自然科学版),2004,32(增刊):1-5.
[6] 余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[J].中文信息学报,2007,21(1):109-114.
[7] 岑荣伟,刘奕群,张敏,等.基于日志挖掘的搜索引擎用户行为分析[J].中文信息学报,2011,24(3):49-54.
[8] 王晓春,李生,杨沐昀,等.查询会话中的用户行为分析[J].哈尔滨工业大学学报,2011,43(5):76-79.
[9] 张磊,李亚楠,王斌,等.网页搜索引擎查询日志的Session划分研究[J].中文信息学报,2009,23(2):54-61.
[10] 马少平,刘奕群,刘健,等.中文搜索引擎用户行为的演化分析[J].中文信息学报,2011,25(6):90-97.
[11] 王倩,刘奕群,马少平,等.面向用户互联网访问日志的异常点击分析[J].中文信息学报,2010,24(3):44-48.
[12] 赖茂生,曲鹏.中文搜索引擎查询与反馈词语特征研究[J].中文信息学报,2009,23(4):41-47.