APP下载

基于日志的用户搜索行为分析

2018-01-20王淼宋子豪

电脑知识与技术 2018年31期
关键词:分词搜索引擎日志

王淼 宋子豪

摘要:该文以Sogou搜索引擎为例,对其查询日志数据库内约一个月内的两千万条查询日志进行分析,以期揭示其用户搜索行为。研究采用 Jansen提出的包含数据采集、数据处理和数据分析三阶段的分析框架,在数据分析阶段又对关键词、查询式和搜索会话这三个方面进行了分析。研究结果显示:用户输入查询式的长度度比较短,接近1.45,高频查询词中和图片相关的居多。

关键词:搜索日志;Python

中图分类号:TP311       文献标识码:A      文章编号:1009-3044(2018)31-0016-04

An Analysis of User Behavior Based on Log– A Case Study with Sogou

WANG Miao, SONG Zi-hao

(Chengdu College of University of Electronic Science and Technology of China, Chengdu 610000, China)

Abstract: Taking Sogou search engine as an example, this paper analyzes 20 million query logs in its query log database within about one month in order to reveal its user search behavior. The research adopts Jansen's analysis framework which includes three stages of data acquisition, data processing and data analysis. In the data analysis stage, it analyzes the three aspects of keywords, query and search session. The results show that the length of user input query is relatively short, approaching 1.45, and most of the high-frequency query words are related to pictures.

Key words: Search Log; Python

1 引言

随着互联网的高速发展,搜索引擎已成为人们生活中的必需品[1]。搜索引擎获取信息方便,抓取能力强大,抓取内容已经覆盖了全网百分之二十左右的网页。Google(谷歌)的网页覆盖量有60亿左右,百度也达到10亿。Google被誉为互联网最伟大的公司,百度成为中国第二大互联网公司,这都宣告着搜索时代的大发展,搜索引擎给在互联网遨游的人们带来了巨大的方便。

为了提高搜索准确度,为用户提供个性化推荐等目的,每个搜索引擎在使用过程中都会记录用户的使用行为、点击情况、搜索历史等。这部分信息就是日志,日志中存储了用户输入的查询式、查询时间、查询IP、操作系统和浏览器信息等等,其目的是了解用户的使用行为。在本篇研究中,基于Jansen[2]的研究框架,重点分析日志数据中的关键词、查询式。其中关键词部分(英文中用空格隔开的单个词,中文中分词之后的单个词)的分析重点是高频关键词,因为高频查询词在一定程度上可以反映出频繁查询的话题,搜索引擎可以建立缓存,加快查询速度,提升用户体验。查询式部分(用户输入的完整查询词)的分析重点分析查询式长度、高频查询式等等。高频查询式可以帮助搜索引擎锁定热门搜索领域,而查询式长度的分析可以帮助搜索引擎了解用户输入习惯,便于引擎为用户提供自动补全服务。

搜索引擎的普及,使得本课题的研究具有一定的社会意义。本课题的研究可以帮助搜索引擎了解用户使用行为,从而不断优化和完善搜索引擎,主要变现在以下几个方面,(1)拉新,新用户的加入可以增加搜索引擎的点击量。(2)转化,对于特定类型网站,例如电商,注重订单转化率也可以通过日志分析来进行研究。(3)促活,通过日志中反映出来的用户行为,不断优化产品本身,从而用户更经常使用我们的产品。(4)留存,日志分析也可以幫助我们提前发现可能流失用户,降低用户的流失率。(5)变现,发现潜在高价值用户,提高销售效率,实现增收。

2 文献综述

针对通用网络搜索引擎的用户基本行为研究始于H?lscher对德文搜索引擎Fireball的日志分析,该研究主要关注查询式结构[3]。紧随其后的是Silverstein等的Alta Vista研究和Jansen等的Excite研究,关键词、查询式、搜索会话三个层次在基于这两个搜索引擎的日志分析中得以不同程度的体现,并且带来了较为相似的结果[4][5]。这些早期的开拓性研究揭示了搜索引擎发展初期的用户行为特征,其中普遍存在的特征包括:查询式长度很短、布尔逻辑算符使用比例很低、查询式改进不太常见、且查看结果页面数量很少。此外,AltaVista研究还发现高度相关的关键词通常都是固定搭配短语的组成部分,Excite研究则显示关键词使用频率呈高度偏态分布,搜索主题呈现出多样化特点,其中与性相关的主题较为突出。

几年后Jansen等再次采集并分析了AltaVista的日志数据,通过对比以上的AltaVista研究反映出用户搜索行为的变化[6]:会话和查询式长度都有所增加,表明用户与系统之间的交互增强;尽管交互频率增长,但是大多数的搜索会话时长都不超过5分钟;高频关键词所占的比例不足1%,说明用户的信息需求变得更为广泛。

在搜索日志分析方法论确立的同时,Jansen和Spink对9项搜索引擎日志研究的结果进行了元分析(Meta-analysis),这些研究开展的时间差距长达5年,其中涉及来自美国和欧洲的5个搜索引擎[7]。他们对比了这些研究所报告的搜索会话长度和查询式长度,发现各搜索引擎差别不大,且未随时间发生明显变化。然而在查询式复杂度和结果页面查看这两个方面趋势较为明显,即查询式高级算符的使用增加了,而针对每个查询式查看结果页面的数量减少了,同时美国搜索引擎的用户比欧洲搜索引擎的用户更常使用算符。查询式主题分析表明,人名、地名、事件、商业、旅游、就业、经济等相关主题的查询式所占比例稳步提升。

随后Jansen等将目光转向了元搜索引擎(Metasearch engines)[8],这种新型的搜索系统帮助用户同时搜索多个来源搜索引擎,增强了结果的多样性和相关度,避免了冗余操作。该研究分析了Dogpile元搜索引擎的日志数据,结果显示其用户的搜索行为与普通搜索用户相比表现出更强的交互性,他们的查询式更长,而搜索会话时长却更短,半数以上的会话不到一分钟,不过元搜索所涉及的主题范围与普通搜索类似。

相对于元搜索,多媒体搜索(主要包括图片、音频和视频搜索)受到了更多关注,但基于不同搜索引擎的日志分析研究所得到结论却大不相同。在Excite中,多媒体查询式长度比非多媒体查询式更长,其中音频查询式比图片或视频查询式更多[9]。而在AltaVista中,多媒体搜索比一般的文字性搜索要更加复杂,用户与搜索引擎之间的交互更明显,表现为更长的查询式和会话、更多的点进,但是查询式算符的使用率仍然较低[10]。在Dogpile中,图片搜索是多媒体搜索最主要的类型,多媒体搜索会话的时长很短,使用到的关键词很少[11]。此外有一项图片搜索日志分析研究发现,描述性的和专题性的查询式比较普遍,布尔逻辑算符的使用很频繁,但并不是太有效,以至于用户需要改进查询式,而改进策略却显得不太成熟,大多都是试验性质的[12]。

以上所提及的搜索引擎,除Fireball外均为英文搜索引擎。在非英文搜索引擎研究中,基于中文搜索引擎Timway的日志分析非常具有代表性,因为除了常见的搜索会话、查询式、主题分析外,该研究还引入了针对中文的字符分析。分析所得到的会话长度与英文搜索引擎研究结果相当,但是中文查询式所包含字符的个数远高于英文查询式所包含关键词的个数,而整个数据集中的独立中文字符却远少于英文查询式中独立关键词,这些差别可能来自中英文词汇构成方式的不同。中文查询式中布尔逻辑算符的使用很少见,这可能与中文是表意文字有关[13]。另一项大规模的非英文搜索引擎研究分析了韩文搜索引擎NAVER的日志数据。该研究结果显示用户在搜索时比较被动,很少会去更改系统的默认搜索设置;用户的搜索行为也很简单,查询式很短,查看的结果页面很少,不常使用高级搜索功能;在改进查询式的时候,他们往往不会在原有查询式的基础上增加或删除关键词,而是改成完全不同的查询式[14]。在2015年,姜婷婷等人对武汉大学OPAC系统的日志进行分析,研究结果发现,查询式长度接近2.9。高频查询在数学、经济学、管理学领域较多。一个搜索会话持续时间平均是10分钟。在搜索会话长度方面,中文和非中文有较大不同[15]。

3 关键技术(中文分词)

3.1 中文分词的困难

中文语句不同于英文语句,英文的每个单词之间有标点符号分割,中文的单词和单词之间是连接在一起的。中文单个字没有意义,只有和相邻的字组成词汇时,才有意义[4]。例如语句:

中国是一个伟大的国家,中国共产党是一个伟大的政党。

每个字表达的含义没有意义,只有组合成词汇,才能理解其中的含义。中文博大精深,不同的字有不同的组合方式,在不同的语境下,词的长度也不一样。人类能够快速地分析出这句话所包含的词:

中国 是 一个 伟大 的 国家 中国共产党 是 一个 伟大 的 政党

两句话中的中国,在前一句中是单独一个词,在后一句中要和之后的共产党组成一个词。

3.2 中英文混合日志

针对包含中文的日志,比如:

message:登录成功

其中冒号是中文冒号,配置的分词字符是空格。如果只采用分词符号的方式分词,那么得到的词有:

message:登录成功

无法单独搜索登录或成功,只有完整的输入message:登录成功才能搜索到日志。那么对于我们搜集日志中的信息并不能全面,后期对于数据的统计也是不全的。

3.3 智能化中文分詞

为了解决中文的分词问题,我们引入了智能化的分词算法,如图1所示:

3.4中文搜索效果

为了更方便地展示出智能化的分词系统,图2为分词系统中的中文搜索效果图。

4 结果分析

4.1 日志结构

本文采用的搜索引擎日志来源于Sogou实验室公布的搜索日志,日志原始格式为filter格式,数据大约为2千万条,部分原始数据如图3所示。用于分析的搜狗日志由一系列查询需求组成,表1展示了这些字段的内容和实例。

我们可以从第一行从左往右一次分析,第一条日志记录表示:在00:00:00时刻用户 2982199073774412 查询了“360安全卫士”,该网址在返回中的排名为8,用户在所有结果选中点击了第三个,该网址为:download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html。

利用用户点击结果页面的信息我们能得到用户的点击习惯,而通过查询词、用户点击页面的点击流,可以分析提取出用户提交查询式的特征,例如长短、频度等等。本研究主要是建立在对大量的用户需求特征进行统计的基础上进行的宏观分析,目的是找寻用户需求中的热点、词频分布规律、查询行为特点等,进而对搜索引擎的系统结构和算法设计提出改进意见。

4.2 查询式分析

本次使用的日志是Sogou实验室公开的31天所有的查询日志。其中非空查询共计20021205个,含重复查询共1960174个。对于用户输入的关键词进行统计分析发现,纯英文字符查询次数为2382654,中英文混合查询次数为1527013,其余全部为中文查询,次数为16111538。各类型占比如图4所示:

根据统计结果,纯中文查询占比度最高且比例为百分之八十,目前对于Sogou搜索引擎,用户输入的查询式还是以中文为主。在英文的查询中,大多数是某些名称的缩写,或者是某些品牌的英文名称,例如:HTML、Sony、Nokia等。

4.3 基于分词的查询长度

查询的长度主要是指用户提交的查询字符串中包含几个词或词(空格分隔),由于英文语言的特征,单词和单词之间需要用空格分开,所以获取字符串中词语的个数比较容易。分析结果显示,查询长度不超过3个词的查询占查询总数的95.23%,平均长度是1.45个字,这意味着用户输入的查询通常比较短。平均长度短于Craig Silverstein等人分析的文本查询长度的2.35个字。这表明中文搜索引擎的用户需求信息较少,需要更多的用户需求分析和体验才能更准确地返回用户请求的信息[4]。

但是,对于中文,用户在书写字符串时并不会将关键词用空格隔开。因此,统计英文的分析的方式是不合适中文的,为了消减这样的差异,本文首先对用户输入的字符串进行预处理,然后使用基于Python的jieba库对其进行分词,最后再进行统计分析,使其和第一次的统计分析进行对比。得到了如表2所示:

从表2可以看出,分词之后的统计结果与分词之前存在较大差异。分词前平均长度不超过3个字的查询占总查询书的95.2%,平均长度为1.45个字。而分词之后,长度不超过3个字的查询占查询总数的82.81%,平均长度也变为2.25个字,与英文搜索研究结果中的平均查询长度2.35非常接近。数据分析的结果也验证了将中文分词技术引入查询字符串长度分析的必要性。后面对数据的统计分析一致采用分词后的数据进行统计分析。

4.4 查询的频度

查询的频度是指在所有网络搜索日志中,该查询一共被提交过多少次。对于出现次数最多的前120个查询,我们将其出现次數及排名绘成图5所示:

从图中可以看出,很多高频查询词出现了很多次,分析结果显示超过100次的查询总数为14234次,占非重复次数总数的1.2%,但其总的出现次数为20054210,占查询总数的将近70%。这表明每天由搜索引擎接收到的查询中,很多都会重复,并且一小部分查询就可以解决大部分用户的需求。如果搜索引擎可以通过特定方式提高少数频繁出现的查询式的查询质量,则可以提高整体搜索引擎的搜索质量。同时也说明在搜索引擎设计中引入缓存机制或人为干预的必要性。并且在查询术语(用户提交的查询中的单个单词或单词由空格分隔)的统计中,发现出现次数最多的12个术语(全部大于250,000个术语),有50%的查询与图片有关,这表明人们对图片信息的需求正在增加。因此,搜索引擎应该关注与图片搜索有关的相关功能。

4.5 中文分词对rank的影响

不同用户群体搜索时展现的用户行为特征是不同的。例如,有的用户习惯点击搜索引擎返回的第一页结果,有的用户习惯提交包含英语的查询,有的用户习惯使用高级搜索,有的用户习惯直接输入URL地址作为查询词等等。

在搜索引擎的设计中,考虑搜索结果的排名对用户的搜索过程至关重要。而搜索引擎中采取的各种排序算法各有优缺点,到底哪一种才是能更好满足用户需求的,不能一概而论。本文分析出的用户搜索点击行为,统计得出的结论对搜索引擎的设计有很好的指导意义。

中文分词可以减少句子的歧义。我们从搜索日志中抽取了一个随机样本,用中文关键字提取1,000个搜索词,排序值小于或等于10,分割关键词之后,将这些关键词用于搜索,分析对其分词之后对排名的影响。

第一次实验的结果显示,1000个搜索记录的排名值为4.6,分词后的平均值为4.5。这与我们分析的结果有所偏差。为了进一步解释,我们又进行了三次,结果显示在表3中。

从表格中我们可以看到,分词对搜索结果排名的影响非常小,这与我们的预期有所偏差。分析原因,可能有以下几点 :

· 分词工具的问题。 使用基于Python的jieba库。分词不准确可能是一个原因。

· 搜索引擎采用的排序算法问题。搜索引擎可能对页面或标题采用简单的关键字匹配方法,导致分词是否对搜索结果排名没有太大影响。如果后续可以引入语义分析的方法,那么搜索结果的排序准确性将得到进一步提高。

5 讨论与总结

本篇文章分析了搜狗搜索引擎在一个月内的真实查询日志。结果显示,对于85%的查询,用户只查看搜索引擎返回结果的第一页。对于中文搜索,用户表现出的行为与英文搜索用户有一些不同。例如,中文搜索用户只有0.73%使用高级搜索功能,而英文用户提交的查询中有20%会使用高级搜索功能,表明中文搜索用户更关注搜索引擎的便利性和简洁性。另外,中文搜索用户提交的查询重复频率比英文搜索用户高得多。即在少数几个查询中出现的查询总数占查询总数的大部分。这表明在中文搜索算法中使用缓存机制和人为干预是十分必要的。这些结果都体现了中文搜索用户的行为特征,分析结果对提高中文搜索算法和评估标准起着重要指导作用。

搜索引擎中的技术和方法在不断改进,但无论如何,最终目标是向用户呈现最符合他们需求的结果,日志可以一定程度上反映用户的行为习惯和需求,因此分析搜索日志非常重要。

参考文献:

[1]第41次中国互联网网络发展状况统计报告,中国互联网信息中心(CNNIC),2018年1月

[2]Jansen B J.Understanding user-web interactions via web analytics[J].Synthesis Lectures on Information Concepts, Retrieval, and Services,2009,1(1):1-102

[3]H?lscher C. How Internet experts search for information on the Web[C]// Proceedings of the World Conference of the World Wide Web, Internet, and Intranet, 1998.

[4]Silverstein C, Henzinger M, Marais H, Moricz M. Analysis of a very large Web search engine query log[J]. SIGIR Forum, 1999, 33(1):6–12.

[5]Jansen B J, Spink A, Saracevic T. Real life, real users, and real needs: A study and analysis of user queries on the web[J]. Information Processing & Management, 2000, 36(2):207-227.

[6]Jansen B J, Spink A, Pedersen J. A temporal comparison of AltaVista Web searching[J]. Journal of the American Society for Information Science and Technology, 2005, 56(6):559-570.

[7]Jansen B J, Spink A. How are we searching the World Wide Web? A comparison of nine search engine transaction logs[J]. Information Processing & Management, 2006, 42(1):248-263.

[8]Jansen B J, Spink A, Koshman S. Web searcher interaction with the Dogpile. com metasearch engine[J]. Journal of the American Society for Information Science and Technology, 2007, 58(5):744-755.

[9]Ozmutlu S, Spink A, Ozmutlu H C. Multimedia Web searching trends: 1997–2001[J]. Information Processing & Management, 2003, 39(4):611-621.

[10]Jansen B J, Spink A, Pedersen J O. The Effect of Specialized Multimedia Collections on Web Searching[J]. Journal of Web Engineering, 2004, 3(3-4):182-199.

[11]Tjondronegoro D, Spink A, Jansen B J. A study and comparison of multimedia Web searching: 1997–2006[J]. Journal of the American Society for Information Science and Technology, 2009, 60(9):1756-1768.

[12]J?rgensen C, J?rgensen P. Image querying by image professionals[J]. Journal of the American Society for Information Science and Technology, 2005, 56(12):1346-1359.

[13]Chau M, Fang X, Yang C C. Web searching in Chinese: A study of a search engine in Hong Kong[J]. Journal of the American Society for Information Science and Technology, 2007, 58(7):1044-1054.

[14]Park S, Ho Lee J, Jin Bae H. End user searching: A Web log analysis of NAVER, a Korean Web search engine[J]. Library & Information Science Research, 2005, 27(2):203-221.

[15]姜婷婷,王淼,高慧琴. OPAC系統用户搜索行为日志分析——以武汉大学图书馆为例[J].图书情报知识,2015(5):46-56

猜你喜欢

分词搜索引擎日志
一名老党员的工作日志
分词在英语教学中的妙用
扶贫日志
游学日志
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
一种基于粗集和SVM的Web日志挖掘模型
论英语不定式和-ing分词的语义传承