数据驱动的信息行为研究的回顾与展望
2018-05-04李月琳章小童
李月琳 章小童
(南开大学商学院信息资源管理系,天津,300071)
1 引言
信息行为研究是情报学的主要研究领域之一。对人类信息行为的关注可以追溯到1849年递交到英国国会的一份关于图书馆的效用及读者阅读行为的报告[ 1]。虽然该报告并非严谨的学术研究,但也可由此窥见信息行为研究的悠久历史。
信息行为研究是一个不断演进的过程,早期的研究主要关注读者的阅读行为和习惯[ 2]及公共图书馆的使用[ 3],其目的在于改善图书馆的服务。随着社会的发展,信息行为研究的内容不断丰富,学者们的关注点从用户对单一信息源的使用转移到对不同信息渠道和信息源的使用行为研究上;相关研究的视角也不断多元化,从用户信息搜寻、信息搜索、信息偶遇、信息保留、信息组织等不同方面开展了一系列研究;研究方法上,较多地使用了问卷调查、访谈、用户日记等传统的社会科学研究方法[ 4]。随着信息技术的发展和广泛应用,互联网已成为信息快速传播的重要平台,数字图书馆、移动图书馆、搜索引擎、门户网站、社交媒体等信息资源均依托互联网成为了用户的主要信息来源之一。这些变革也同时引领信息行为研究进入了新的时代。其中重要的变化之一便是用户在系统和网络上留下的“痕迹”,即他们与系统交互的事务日志(transactionlog)成为信息行为研究重要的数据来源。日志数据客观地记录了用户与系统的交互行为,此类记录规模大、更新快、类型多样,对信息行为特征、模式的研究具有重要价值。对各类搜索引擎、信息检索系统以及各类信息服务系统的用户交互过程的日志数据挖掘,可以帮助我们研究和分析用户信息行为规律,包括信息行为习惯、信息行为偏好、信息需求等,从而加深对信息用户的了解,为信息系统的优化提供借鉴,帮助信息系统构建更为精准的、个性化的信息搜索与获取服务[ 5]。区别于传统的信息行为研究,也同时呼应大数据时代的信息行为研究的发展,我们将此类研究称之为“数据驱动”的信息行为研究。
相较于传统的信息行为研究,数据驱动的信息行为研究更多地关注用户与各类信息系统平台及信息本身自然交互过程中留下来的 “痕迹”,这些“痕迹”数据是外在的、非介入性的、且客观的,它为用户信息行为模式的识别、用户行为偏好的揭示、用户需求内容的解读提供了新的研究思路和途径。文章将聚焦于日志数据驱动的信息行为研究,通过回顾已有的研究,揭示当前此类研究的主题、特征,分析此类研究的优势和局限性,并探讨未来的发展方向。
2 文献来源及主题识别
为尽可能涵盖相关文献,我们检索了CNKI、万方、维普、WebofScience、GoogleScholar、百度学术及其他相关数据库,共获得56篇中文文献及115篇英文文献,以此作为文章分析的基础。借助Ucinet与NetDraw软件工具对国内外文献的关键词进行聚类分析,以识别出已有研究中的相关主题,结果分别如图1和图2所示。图1表明,国内该领域的研究还没有形成明显的核心主题,但显示了2种研究路径:①基于网络搜索引擎日志数据的用户信息行为研究,以用户行为分析、搜索引擎、计算机应用、中文信息处理、用户行为、点击信息分析、网络信息检索、Web日志挖掘、日志分析、搜索日志、移动搜索等关键词组成的词群为标识。 ②基于数字图书馆系统用户行为日志分析的信息行为研究, 以OPAC、图书馆、搜索行为、高校用户、日志挖掘、信息行为、非移动图书馆、移动图书馆、用户检索行为等关键词为标识。由此可见,Web搜索引擎日志分析和数字图书馆系统日志分析是当前国内研究的两大主题。这些研究以发现用户信息需求及揭示用户搜索行为、浏览行为、点击行为、查询行为、访问路径、网页深度、搜索策略、浏览兴趣路径等行为特征与模式为目的,从而实现改进和优化各类信息系统包括搜索引擎、数字图书馆系统等的性能,包括用户个性化、界面友好性等等。然而,部分关键词如虚拟社区、网络舆情、微博等关键词也显示了数据驱动的用户信息行为研究的新方向——社交媒体用户信息行为研究。
图2显示的国外相关研究的主题相对明显,且具有较为明晰的研究热点。其中,最大的关键词群包括userunderstanding、documentunderstanding、queryunderstanding、monitoring、experimentation、informationseeking、intentmining、web、search、informationsearching等关键词,表明基于日志数据挖掘的研究主要关注用户、文献获取、交互、搜寻等主题。此外,不同的聚类显示数据驱动的信息行为研究集中在不同的情境,包括数字图书馆、网络及社交媒体,如subjectcomparisons、searchprocess、informationseeking、e-journals、searchtactics、e-resource、searchlogmining等关键词表征了数字图书馆环境下(包括图书馆的OPAC系统及各类电子资源)的用户信息行为研究是主要的研究对象;以weblogmining、sessionidentification、logindex、pathextraction、referrerheuristics等关键词表征的基于网络日志数据挖掘的用户行为研究;以datamining、diabetes、termanalysis、socialmedia、internetloganalysis、informationseeking等关键词为表征的基于互联网日志分析的社交媒体用户信息行为研究、健康信息行为研究等。总之,相较于国内的相关研究,国外学者们的研究内容及情境更为具体,其研究内容和用户行为数据来源类别划分更为细致,更多是从微观层面研究用户在某一特定信息系统中的行为特征,并基于研究结果,对不同信息系统的优化提出建议。
图1 国内数据驱动的信息行为相关研究的主题结构
图2 外文文献数据驱动的信息行为相关研究的主题结构
可见,无论是国内还是国外,数字驱动的信息行为研究大致可归纳为3个方面:数字图书馆用户的信息行为研究、Web搜索引擎用户信息行为研究及社交媒体用户信息行为研究。
数据驱动的用户行为研究最早可以追溯到20世纪60年代。1981—1983年,OCLC(OnlineComputerLibraryCenter)对OPAC(onlinepublicaccesscatalogs)检索系统进行了研究,使用了事务日志分析和焦点小组访谈,分析了系统的使用情况和用户的感知易用性,并将这些研究发现应用到系统的优化中。这一较早期的研究为用户信息行为研究提供了日志数据分析的新思路和新方法。随着Web技术的不断发展,以OPAC系统为代表的数字图书馆系统和网络搜索引擎逐渐成为人们搜寻和获取信息的主要来源,起始于OPAC系统的用户行为日志挖掘方法被应用到了Web搜索引擎用户行为分析中,为搜索引擎的服务优化提供了重要的方法和工具。随着Web2.0时代社交媒体的盛行,用户常使用Twitter、Facebook、微博、微信以及虚拟社区进行信息交流与分享,这些用户的信息行为也逐渐受到关注,而日志数据的分析为其提供了重要的方法和路径。可见,数据驱动的信息行为研究是随着信息技术、网络技术的发展而不断演进的:从以OPAC系统为代表的数字图书馆系统到Web搜索引擎再到Web2.0时代的社交媒体(如图3所示)。以下结合主题识别的结果,从这三个方面回顾并展望数据驱动的信息行为研究。
图3 数据驱动的用户信息行为研究的发展
3 数字图书馆用户信息行为研究
该领域较早地开始使用大规模用户日志数据分析用户的信息行为特征,并评价系统易用性,以优化系统设计[ 6]。相关研究表明,用户搜索日志主要包括两类:搜索查询日志和点击流日志[ 7-8],这些日志数据是分析用户使用行为和评价系统服务质量的重要基础。
早在1999年,研究图书馆协会(AssociationofResearchLibraries,ARL)就启动了一个统计分析电子资源使用的研究项目,经过长达6个月的流量捕获,获得了72个用户的15500个会话记录和1300000个系统页面,据此分析了用户的结构特征,包括背景、知识结构、年龄结构等[ 9]。随着研究的不断深入和发展,用户日志数据分析已经被广泛应用于OPAC系统的用户搜索行为研究中,它可以对大规模的用户交互行为特征及模式进行分析。如Mahoui与Cunningham以及Jones等就通过分析2个数字图书馆系统的日志数据,研究了用户查询语句的复杂度问题,发现大多数的查询式复杂度都很低,而且大部分用户倾向于系统默认设置,而不是根据自己的需求进行重新设定[ 10-11];在Mahoui与Cunningham的后续研究中通过对会话日志和查询日志的分析,发现只有少数搜索是通过引文和文献搜索查询开始的,并主要以数字图书馆系统主搜索页面为起点。此项研究表明了基于大规模日志数据分析的用户行为研究虽不能像直接调查用户那样深入回答“用户的搜索行为为何如此”的问题,但它的方法优势和功能也是大部分定性研究或调查研究所不能媲美的[ 12]。其后,Assadi等基于日志数据对数字图书馆系统的用户多样性进行了分析,并识别了不同的用户群体[ 13]。Koch等基于230万Renardus用户的使用日志数据,分析了用户的行为特征,发现大多数用户有主题明确的浏览行为[ 14]。Hopfgartner等通过分析用户大规模日志文件,提取了影像检索系统界面的用户模型[ 15];在此基础上,Christel等通过事务日志数据分析了数字影像图书馆用户行为,发现用户在第一个会话中输入的查询词往往是不准确的[ 15]。而Chen等人则通过网络日志的分析研究了在线数字图书馆的儿童图书阅读行为[ 16]。以上研究表明,基于日志数据的挖掘可回答信息行为研究关注的不同问题,有助于理解用户行为特征,揭示用户的行为模式。
国内研究成果也较为丰富。如任立肖基于图书馆web网络日志数据的分析,比较研究了高校图书馆、公共图书馆和科研图书馆的用户信息行为差别,研究表明用户的信息需求、信息行为频次、信息行为目的、信息行为时间偏好等方面均存在显著差异[ 17]。其后,王泽贤等人则进行了基于ILASIIOPAC系统访问日志的用户行为建模研究[ 18];而马骅使用数据挖掘方法对用户信息行为日志进行了分析, 提出了数据挖掘在OPAC系统用户行为研究的发展方向和前景[ 19]。随着OPAC系统不断优化和使用,相关研究更是不断深化发展,如黄崑等基于OPAC的用户查询日志数据对其提问调整模式进行了研究[ 20];姜婷婷等人通过对武汉大学图书馆OPAC系统为期18天的用户搜索日志分析,发现用户所输入的查询式较短,高频率查询词主要集中在数学、社会学、管理学、经济学等学科领域,而且中文与非中文会话时长有较大差异[ 21];其后,该研究团队基于用户日志数据进一步研究了访问武汉大学图书馆OPAC系统的用户搜寻路径[ 22]。此外,朱玲与聂华通过构建产生和记录数字图书馆用户搜索日志的中间平台获取大量日志数据,从检索方式、查询词优化、查询语言、查询长度、分面点击行为等方面分析了数字图书馆系统用户的搜索行为[ 23];王建冬与王继民则基于对大型期刊数据库的用户查询日志分析,研究了不同高校用户的查询词长度分布、特殊检索比例分布、访问时间分布以及检索策略分布[ 24];王伟则基于数据挖掘技术,整合分析图书馆信息咨询记录、图书流通记录、Web日志数据等多类型数据,构建了用户行为偏好模型及分析体系[ 25]。可见,日志数据分析能从多方面揭示数字图书馆用户的信息行为特征和模式。
此外,该方法也是移动图书馆用户行为研究的主要研究方法之一。吴丹和董晶根据某高校移动图书馆的用户日志数据分析了移动图书馆用户查询式的关联性、查询式主题分布、查询重构模式等问题,研究发现查询式间内容关联较弱,直线模式和重复模式是最为常用的查询重构模式,用户的查询主题具有较强的连续性[ 26]。他们还以高校图书馆OPAC系统日志数据为分析基础,对移动图书馆与非移动图书馆用户后续点击行为、用户检索点进行了比较研究[ 27-28]。其后,吴丹等通过对大学生15天的手机日志的挖掘分析,研究了大学生移动会话、APP交互与查询式间的关系,以及信息搜索主题、时间与APP类型间的关系[ 29],他们的一系列研究为国内数据驱动的信息行为研究的理论、方法等提供了重要参考,推动了相关研究的进一步发展。
4 Web搜索引擎用户信息行为分析
该领域的研究始于20世纪90年代,早期的研究数据主要来源于Lycos、Excite、Inktomi等系统[ 30-31]。如Jansen等就基于Excite系统的18113位用户提交的51473个查询,从会话、查询式、术语词等方面对用户网络信息查询行为的特征、偏好等进行了分析[ 32]。随着互联网技术的发展,特别是以Google、Yahoo!为代表的商业搜索引擎的巨大成功,越来越多的学者被吸引到Web搜索引擎的用户行为日志分析中。以下从用户的信息需求识别与表达、用户信息搜寻行为、搜寻结果组织结构与呈现3个方面综述基于日志数据分析的Web搜索引擎用户信息行为研究。
(1)信息需求识别与表达
通过对Web搜索引擎用户行为日志数据的挖掘,能在用户搜索信息时对其进行查询推荐、查询扩展[ 9],帮助用户更快、更精确地识别和表达自己的需求,从而支持其完成信息搜寻任务。Chuang等以台湾地区两个常用搜索引擎Dreamer与GAIS的用户查询日志数据为基础,构建了实时更新的主题词表,帮助用户识别检索意图,为用户自动推荐相关检索词或术语[ 33]。其后,一些学者对Chuang等人提出的方法进行了优化[ 34-35],进一步提升了用户查询日志数据分析在帮助用户精确识别信息需求上的作用。Anick基于AltaVista的用户日志分析了用户与系统的交互行为,并以用户的文档点击数据作为相关性反馈的基础[ 36],帮助用户重构查询式。Zhang与Nasraoui基于中文搜索引擎日志评价了单个会话中查询式的覆盖范围和推荐范围,为进一步优化查询推荐功能提供了建议[ 37-38]。王浩等对Web中文用户的查询行为也进行了研究,发现中文用户查询词的输入存在特定规律[ 39];而陈红涛等基于对中文搜索引擎用户搜索日志的分析,指出搜索过程中历史搜索词再使用是大概率事件,充分利用历史搜索词是帮助用户构建查询式的重要手段[ 40];岑荣伟等基于web日志数据,对用户搜索信息过程中不同类型的查询集合进行了分析,对查询类型进行分类可以为用户提供更多查询式参考[ 41]。
除了查询推荐外,查询扩展也是帮助用户更精确地表达其信息需求的重要方式,查询扩展主要通过分析搜索日志数据,计算查询术语与文档术语间相关关系,从而对用户输入的查询术语进行自动扩展。Cui等、Shi和Yang基于用户与系统累积交互日志数据,计算查询术语与文档描述术语间的相关关系,使用户在无需输入足够长的查询词的情况下就能满足其查询需求,其中,用户的累积交互数据不仅仅来源于用户自己,还来源于其他具有相似需求的用户的会话日志数据[ 42-45]。而White等则采用伪相关反馈的方法对用户查询术语进行扩展,以满足用户信息需求[ 46]。有研究发现,用户较多地使用日常用词进行信息检索而很少思考如何用专业术语来表达,于是,学者们提出基于用户日志数据分析的查询式重构的方式来帮助用户修正查询式[ 47]。另外,跨语言查询扩展也是帮助用户更好地识别和表达信息需求的重要手段[ 48-50]。近年来,在Web用户搜索日志的研究中,一些学者希望通过结合用户搜索反馈数据来提高搜索引擎的质量,如通过分析搜索日志中的查询词、点击的映射关系等,发现相似查询,用于向用户推荐查询术语或扩展查询范围[ 42,51-52]。
(2)用户信息搜索行为
基于大规模日志分析的研究不仅可以帮助识别和表达用户信息需求,还可以帮助更好地理解用户与信息系统间的交互行为,从而在用户搜索过程中提供必要的帮助,以提高其信息搜索效率。Srikant与Yang发现用户在当前站点无法找到所需要的信息时,会选择回溯或返回的策略,为了避免页面回溯或返回造成信息搜索过程的中断而分散用户的注意力,他们建议在当前页面设置一个通向用户目标页面的链接,以帮助用户更好地获取所需信息[ 53]。Teevan等发现用户在近期会话中曾使用的查询式是分析和预测用户将要获取信息的重要指标[ 7],他们还进一步对阻碍信息再检索的影响因素进行了分析[ 8,54]。而Smyth等、Freyne等、Smyth和Balfe基于用户重复使用的查询体现了用户的选择倾向或信息偏好的假设,提出了基于用户搜索日志分析的协同查询[ 55-57]。郭岩等人通过对web访问日志的挖掘,也发现日志数据中蕴含着稳定的用户兴趣和偏好,可以帮助用户在信息搜寻过程中快速定位其所需的信息[ 58]。
用户信息搜索过程中主题会随着时间的变化而变化,理解用户查询的时间变化规律和特征是系统提供有效信息服务需要关注的重要问题。Beitzel等基于美国在线搜索引擎(AmericanOnlinesearchengine)为期7天的大规模用户查询日志分析,研究了查询日志的纵向时间变化特征[ 59-61];而Sun等则从查询日志中抽取时间系列数据,以分析查询之间的因果联系[ 62],这些研究均在时间的维度,以用户行为数据为基础,探究了用户信息搜索行为特征。还有学者基于Web搜索引擎日志数据,对用户在信息搜索过程中的点击路径[ 63]、查询词使用特点[ 64]、停留时间等[ 65]进行了深入的剖析,并建立了用户搜索行为过程模型。
随着移动互联网的普及和发展,移动端的Web搜索引擎用户信息行为研究也得到了越来越多的关注[ 66]。另外,有研究者提出,在借助用户网络日志数据分析用户信息搜索行为时,需要注意一个问题:很多信息搜索行为是由计算机程序完成的,如爬虫软件,这些日志数据对于分析用户行为是没有意义的,这成为Web搜索引擎用户信息行为研究的一个障碍,也是基于日志数据分析的信息搜索行为研究需要解决的问题[ 67]。
(3)搜索结果的组织与呈现
信息搜索结果的组织和呈现主要涉及到基于用户反馈的相关文档重排序、基于情境因素的结果呈现、基于查询类型的查询结果重组织[ 9]。Miller等将日志数据整合到用户反馈邻接矩阵中,提出了使用权重输入(UsageWeightedInput)算法,此算法能从一定程度上个性化地呈现用户的搜索结果。其后,White等则从用户的显性相关反馈和隐性相关反馈的数据中分析查询结果的相关程度,并对匹配结果进行再组织、再排序[ 68-69]。然而,当搜索结果由于查询主题模糊而呈现出多样性时,基于日志数据相关性计算的重组织、重排序方法则无法达到用户的预期效果,此时更好的处理方法是对搜索结果进行分类,类与类间并列排序,类内则仍按照相关性计算排序,这样用户则可以很容易找到自己感兴趣的相关信息。Wang与Zhai基于这样的分类思想,让系统先通过用户搜索日志来学习用户不同方面的兴趣,然后将检索结果按这些不同的兴趣进行分类,基于MSN搜索日志数据集的实验证明了这一策略的有效性。用户信息搜索情境因素也是影响搜索结果组织与呈现的重要因素。Jones和Diaz从日志数据中定位用户的时间和空间位置,从而分析用户信息搜索时的情境,并根据分析结果对信息搜索结果进行重排序[ 70]。当然,查询类型信息也可以被用来重新组织信息搜索结果,如Maslov等人提出了一种提取新闻中与最近发生、正在发生或即将发生的现实生活事件有关的搜索结果的方法,通过对RussianYandexNewsservice用户行为日志数据的研究,他们发现与新闻有关的查询同一般Web搜索查询相比,其长度分布具有较大差异[ 71]。Sekine与Suzuki还研究了命名实体(NamedEntity)查询特征,如人物、位置、组织等类型的信息查询,通过查询日志可分辨出其不同查询类型的特性,并根据相应的用户查询信息的特征进行搜索结果的再组织和呈现[ 72]。
可见,用户日志数据的分析在Web环境下具有多样性,既可服务于用户信息需求的识别、查询式的扩展,也可揭示用户行为特征、规律,帮助搜索结果的再组织和重构,在提升系统性能,改善用户服务方面发挥了积极的作用。
5 社交媒体用户信息行为数据分析
社交媒体是Web2.0时代的产物,它与数字图书馆系统、Web搜索引擎有着本质区别,最大特点体现在“社交”方面,即用户之间的知识分享、情感交流。社交媒体用户的信息行为更多的表现形式不是搜寻或搜索,而是内容生成、信息分享、情感交流。随着用户生成内容的累积,社交媒体信息已成为重要的信息资源。社交媒体上的海量信息是伴随着用户对社会热点问题的反应而产生的,这些大规模数据信息是社会现象分析、社会舆情分析、用户行为分析的重要数据来源[ 73]。随着社交媒体日益发展,社交媒体用户的信息行为研究也备受关注。关于社交网站、微信、微博、论坛、博客、播客等社交媒体用户的信息行为研究取得了一定的研究成果。基于大数据分析的社交媒体用户信息行为研究可总结为以下3个方面:一般使用行为、信息获取与利用、群体互动行为[ 74]。
(1)一般使用行为
一般使用行为是指以单个用户为考察单元的社交媒体行为活动,这些行为活动是用户在社交媒体上的行为方式。Benevenuto等基于对用户HTTP请求数量数据的分析,发现不同社交媒体用户的一般使用行为主要有:个人资料与朋友、照片、剪切簿、社区、搜索、私信、评论、登录等[ 75]。Gyarmati等对Tagged、Bebo、Netlog、MySpace等社交媒体80000个用户的行为数据分析,发现用户社交媒体的使用时间符合韦伯分布,用户线上会话时间服从幂律分布[ 76]。夏雨禾则基于“新浪微博”中438篇博文的分析,将微博用户分为:微博达人、人气草根、普通草根、媒体微博等4个类型,并分析了不同用户的行为特征[ 77]。王仁武与袁毅通过对网络社区的海量Web日志数据的分析,研究了用户在社区内访问路径的行为特征[ 78]。邱林等人则以用户情感为研究视角,以142名微博用户一个月内发表的微博内容作为分析对象,发现外向型用户更倾向于正向情感表达[ 79]。肖强与朱庆华也基于微博用户产生的海量数据进行研究,将微博用户分为6个不同类型:退出用户、潜在活跃用户、活跃用户、潜在忠实用户、忠实用户以及边缘用户,他们发现忠实用户和潜在忠实用户在信息流动上的控制力较大,能够快速获取或发布信息[ 80]。其他研究中还将用户位置信息[ 81]、用户人格特质[ 82]、用户人口统计学[ 83]与社交媒体信息行为数据进行关联分析,构建了不同的用户行为预测模型。另有学者通过对用户的在线点播时间[ 84]、微博博文发布时间[ 85]、在线游戏时间[ 86]等社交媒体信息行为的时间分布进行了分析,发现在传统环境下用户行为服从泊松分布,而在社交媒体环境下,行为的发生间隔分布呈现出明显的幂律分布特征,且具有“长尾效应”。
(2)内容获取与利用行为
社交媒体已成为用户分享信息的重要平台,同时用户也通过关注、搜索、浏览、收藏等行为方式对社交媒体的信息内容进行获取和利用,有研究者将这些信息行为称作是社交媒体信息消费行为,并将其分为主动性消费和被动性消费行为[ 74]。Fabrício等通过对Orkut系统用户的点击流数据进行分析,发现社交媒体用户在获取信息的过程中大部分用户主要采取浏览的策略[ 87]。Zwol则从时间、空间、社交三个维度对Flickr系统的用户访问日志进行分析,具体分析了用户浏览行为发生的时间、地点、动机等问题[ 88]。浏览是用户信息获取的首要方式,其次是搜索和提问[ 89]。当前,社交媒体已经提供了较强大的内容搜索功能,以帮助用户获取信息;同时,用户也常利用媒体的社交性发布自己的问题,等待“朋友圈”为其提供答案,以满足自己的信息需求。如Vosecky等对微博用户发布的个性化信息问题进行了研究,基于数据分析,构造了主题模型与语言模型的双层模型[ 90];Younus等也使用了语言模型对用户信息内容获取与利用行为进行建模,试图给微博个性化搜索问题提供解决方案[ 91]。
(3)信息互动行为
互动是社交媒体用户信息行为的重要特性,这种信息互动行为带来更多的是网络信息的传播、扩散,涉及到网络舆情探测问题和商业推广问题,本文仅对用户间信息互动行为本身规律和特性的相关研究进行梳理,对于诸如商业广告投放、舆情控制问题不作过多阐述。Marlow等、Huberman等基于对Facebook和Twitter日志数据的分析,将用户间信息互动关系定义为:双向连接关系、单向连接关系以及保持连接关系[ 92];而Aral等基于对Facebook中近130万用户的信息行为数据与信息内容的分析发现,具有相似兴趣爱好的用户更容易互相转发信息[ 93]。Romero等对用户相互转发时间与概率的关系进行了研究,发现大多数社交媒体信息发布后,在内容被转发次数为2—4/小时时,该信息被转发的概率将达到最大值,随后该内容被关注的概率便呈下降趋势[ 94]。Oulasvirta等对微博用户信息发布频率与用户粉丝量的关系进行了研究,并阐释了粉丝互动及反馈与微博用户信息分享持续性间的相关关系[ 95]。平亮等则以新浪微博明星用户为研究对象,构建了微博用户间“关注”与“被关注”的网络拓扑关系,基于社会网络分析,揭示了该微博社交网络及信息互动特征[ 96]。王晓光也以新浪微博用户为研究对象,基于对3000篇微博博文的挖掘,揭示了微博的一般结构、信息互动或扩散的一般特征,此研究还发现关注数、粉丝数、博文数量之间存在着显著正相关关系[ 97]。赵文兵等以财经微博为例,基于用户博文数量、被关注数量、关注他人数量的分析,探讨了微博用户的分类问题[ 98]。刘宇则通过大规模社交媒体用户行为数据的分析,揭示了用户间信息互动的网络结构特征及用户影响力特征[ 99]。总之,用户的信息互动行为研究主要分布在信息互动行为类型、信息内容选择、用户信息互动网络特征分析等方面,以社交媒体生成内容、用户行为记录等大规模的结构化、非结构化、半结构化数据为主,揭示了社交媒体用户信息互动行为的特征。
6 讨论与展望
综上,数据驱动的研究无疑已成为信息行为研究领域异军突起的一个重要分支,自上世纪60年代发端、经历了70、80年代的草创时期,90年代中期之后蓬勃发展。互联网技术的迅速普及为该领域的研究带来了新的机遇,研究方法日益走向成熟。Jansen曾详述基于事务日志分析的研究方法、过程、优势及局限性[ 100],从方法论上为该领域的研究提供了保障,也为该领域进一步走向成熟奠定了基础。进入21世纪,虚拟社区、社交媒体等Web2.0产品,吸引了大量的用户,同时也留下了宝贵的日志数据,从而推动用户信息行为研究进入大数据时代。
借助非介入性研究方法,数据驱动的信息行为研究克服了传统研究方法由于研究样本(用户)的主观观点,及可能无意或有意地偏离真实情境所带来的研究结果偏差的弊端,提供了一种基于更为真实、客观的日志数据,以揭示用户信息行为的研究路径。用户日志数据为信息行为研究提供了更为客观、真实、大规模的研究数据,这些数据来源于用户与系统的自然交互,既是用户真实信息行为的表现,也是用户真实信息需求的客观表达,用户信息行为没有受到外界的“入侵”和干扰。通过这种形式获取的大规模、异构的数据,为信息行为研究提供了充分的原材料[ 100],其研究结果更客观、更具有代表性。此外,相较于日志数据分析,传统的研究方法(如观察法、访谈法、问卷调查法)往往因为时间和资源的限制而无法获取大规模的样本,数据形式也相对单一,妨碍了用户信息行为研究的进一步拓展。日志数据的利用则克服了小样本数据的局限性,提供了大规模的样本,并借助各种数据分析方法,对其进行挖掘,从中发现用户行为特征、模式、路径,这是传统的研究方法所无法比拟的。可见,日志数据分析方法突破了信息行为研究长期以来仅依靠传统的社会科学研究方法、样本始终偏小的束缚,帮助我们更全面、真实地了解用户的信息行为。而且,随着社交媒体的广泛使用,实现了对网络上海量的、异质的用户行为“痕迹”数据的收集与分析,从而可以更及时、准确地揭示用户的信息需求和行为特征,实现传统研究方法无法企及的目标[ 100]。
然而,数据驱动的信息行为研究的局限性也十分明显。首先,用户行为日志ID字段记录的是访问服务器或本地客户端的IP地址,而一个IP地址极有可能被多个用户分享使用,表现出的行为特征可能会存在较大差异,在用户行为日志数据分析过程中无法对这样的数据进行识别或剔除,而是把同一IP地址的不同用户的信息行为当作是同一个用户的信息行为特征来分析,导致结果偏差。要解决这一问题,则需要使用用户的cookie文件,而cookie文件涉及用户个人隐私,此问题的解决还需进一步的探索。其次,用户行为日志数据具有不完整性,是使用非介入性方法在自然情境中收集到的,数据项目中无法包含用户的人口统计学信息、外界环境信息;而且,由于缓存(cache)文件的存在,部分用户重复的查寻行为无法被完整记录,导致误差,从而限制了日志分析方法的效用。第三,用户行为日志分析无法回答用户信息行为动机及其影响因素的问题。用户行为日志数据是对用户外在搜索行为的客观反映,无法还原用户信息搜寻情境与情感体验,对于用户的知识背景、认知、心理、情感等方面的内在影响因素的相关数据无法获取[ 28],若想深入分析用户信息行为动机及其影响因素还需借助其他方法,如问卷调查法、深度访谈、观察法、实验法等[ 21]。最后,数据驱动的信息行为研究的重要基础是用户日志数据,因而,数据的来源和数据的质量是核心的问题。然而,如何获得高质量的数据依然是制约该研究领域的问题。
基于以上的分析及整合综述的相关内容,我们认为该领域未来的发展将着重体现在以下方面:
(1)移动情境下的用户信息行为
随着网络技术、信息技术的不断发展,人们的生活方式随之改变,网络用户行为活动将逐渐向智能移动终端转移,移动终端也日渐成为用户信息获取、沟通和娱乐的重要活动平台[ 29]。用户信息行为研究作为情报学、计算机科学等关注的重要领域,在移动情境下有了新的特点和特性。一些学者已开始了移动用户信息搜索行为的研究,如Kamvar等[ 101-103]、Baeza-Yates等[ 104]、Yi等[ 105]、Church等[ 106]就对Yahoo!、谷歌等搜索引擎移动用户的信息搜索行为进行了研究,主要分析了用户信息需求、查询式的构建、搜索主题、搜索情境等行为特征。研究发现,传统PC环境下的信息行为研究成果已经很难解释移动互联网环境下用户信息行为的特征,特别是移动APP的广泛使用,移动互联网生态圈也逐渐形成并成熟,“移动”成为用户与信息系统交互的日常情境,移动端的信息行为问题也成为了学者们关注的焦点。作为信息行为研究的重要方法,用户日志数据分析也已经延伸到移动端用户的信息行为分析。而移动用户的搜索行为多发生在碎片时间,且其信息需求随地域的变化而变化[ 107],如何获取这些数据,又如何利用大数据分析方法或工具挖掘这些数据中隐藏的信息行为规律,从而改善移动搜索系统的性能,以提高移动信息服务的个性化、智能化,是有待进一步研究的问题[ 108]。
(2)社交媒体用户信息行为与大数据挖掘
近年来,基于数据的社交媒体用户信息行为研究也越来越受到计算机科学、情报学、公共安全管理等学科领域的关注。随着社交媒体向纵深发展,其用户体量越来越大,用户信息行为复杂度也越来越高,传统的用户信息行为研究的外延和内涵均得到了新的发展。此外,更多研究还聚焦于用户的发布、转发、关注、@、回复与评论等行为,这些行为包含的网络关系以及产生的交互内容,如粉丝关注度、意见领袖、话题关联、知识、情感等,已经成为当前极具价值的研究热点[ 109]。已有研究从身份识别、社群检测、用户影响力计算、用户关系强度计算、信息传播、影响力最大化、特征提取与选择、话题事件挖掘、多媒体数据分析、情感分析等方面展开[ 110],这些研究主要基于用户在社交媒体上自然产生的行为“痕迹”大数据,相关研究成果也较为丰富,但在数据分析和用户行为理解上还有较多需要解决的问题和需要应对的挑战,例如:如何对信息行为大数据进行语义分析和理解?用户异构信息行为数据如何融合分析?社交媒体用户群体信息行为如何分析与挖掘?等等,均是国内外社交媒体用户信息行为研究必须面对的挑战,也是未来数据驱动的信息行为研究的重要课题。
(3)融合日志分析与传统研究方法的信息行为研究
如前所述,数据驱动的信息行为研究可避免用户在接受调查的过程中受到外部环境的影响而不能自然地表达真正的事实、想法和情感,即常说的观察者效应、霍桑效应等问题。这种非介入性研究能更准确地回答“用户做了什么”、“如何做”的问题,但难以对不同用户行为影响因素(如知识背景、认知心理、心智模型等等)以及用户信息行为内在机理进行深入研究。因而,这还需要介入性研究方法,如问卷调查、深度访谈、参与观察、实验等,弥补仅仅基于日志数据的不足。可见,数据驱动的非介入性用户信息行为研究是传统介入性信息行为研究的有益补充。前者是借力科学技术进步、信息系统的广泛应用以及大数据时代发展而诞生的新方法,代表了一种新的研究理念、思路和研究路径,它的特点在于其被分析的行为数据体量大、用户行为不受干扰;后者的优势则在于能深入探究用户信息行为深层次的影响因素或内在机理,两种研究路径具有明显的互补性,形成信息行为研究的“双轮驱动”机制,如图4所示。因而,不管是传统的介入性信息行为研究,还是日益发展成熟的数据驱动的非介入性信息行为研究,都是当下用户信息行为研究的重要组成部分,两者的优势互补将使得用户信息行为研究领域随着日新月异的信息技术的发展而进入一个崭新的时代。
图4 信息行为研究的介入性研究与非介入性研究的“双轮驱动”
(4)数据挖掘技术在日志数据分析中的应用与深化发展
数据驱动的信息行为研究之所以备受青睐,主要是因为它以大规模的用户行为数据为基础,能够极大程度地反映用户自然情境下的信息行为特征[ 9]。然而,用户日志数据具有大数据的属性,它的4V(Volume、Velocity、Variety、Value)特性向信息行为研究提出了新的挑战。如何获取到大规模、异质性的用户行为数据,如何组织、管理这些数据,又如何对其进行合理有效的分析,是数据驱动的信息行为研究未来需要关注的重要问题。针对此问题,吴凯、苏新宁等曾引入大数据思维和云计算模式,对大数据时代的用户信息行为研究的行为理论、分布式数据挖掘以及数据可视化分析等关键问题进行了阐释和分析[ 111],并指出数据挖掘技术的发展与应用水平一定程度上决定着数据驱动的用户信息行为研究能“走多远”和“飞多高”。已有研究中,数据挖掘技术的引介和应用已初见成效,如统计分析法、建模分析与预测、序列模式分析、关联规则分析、聚类分析[ 100]等数据挖掘技术在分析用户信息行为特征、识别用户行为模式、揭示用户信息偏好以及如何构建和优化个性化信息系统等问题上展现出较强的优越性[ 40,112-114]。随着个性化信息检索的深入发展以及社交媒体用户行为的社会化、日常化,社会网络分析、文本挖掘、语义分析、机器学习等较为高级的数据挖掘技术也开始被引入到用户行为数据的分析中,但其深度和宽度还不够。随着时间的推移,各种用户信息行为数据的累积量呈指数级增长,这些数据对信息行为研究来说极具价值,而数据挖掘技术毫无疑问将发挥重要的作用,其应用与深化也将是一个极具挑战性的焦点问题。
7 结语
本文基于大数据时代背景下用户信息行为研究的新发展,对日臻成熟的数据驱动的信息行为研究进行了较为全面的考察。从宏观视角分析了该领域的研究主题,对基于日志数据的信息行为研究进行了较为系统的阐述。研究发现,已有研究主要分布在数字图书馆系统用户信息行为研究、Web搜索引擎用户信息行为研究、社交媒体用户信息行为研究三大方面。根据已有研究成果和时代发展趋势,可以预见移动情境下的用户信息行为研究、社交媒体用户信息行为研究是未来最有发展前景的两个领域。此外,随着大数据技术的不断发展和成熟,数据驱动的信息行为研究领域也必将获得更多的方法支持,从而进一步完善该领域的方法体系。当然,由于基于用户行为日志数据分析的非介入性研究方法存在一定的局限性,加之未来用户信息行为日渐复杂,需要介入性研究方法与非介入性研究方法相互补充、支持,才能更有效和全面地揭示用户信息行为的全貌,同时构建新的社会和技术环境下的信息行为研究新范式。
[1]CaseDO,GivenLM.Lookingforinformation:Asurveyofresearchoninformationseeking,needs,andbehavior[M].Bingley:EmeraldGroupPublishingLimited,2016:41-42.
[2]WilsonTD.Informationneedsanduses:Fiftyyearsofprogress[EB/OL]. [2018-04-25].https://www.researchgate.net/publication/246471766_Information_needs_and_uses_Fifty_years_of_progress.
[3]BerelsonB.Thelibrary’spublic[M].NewYork:ColumbiaUniversityPress,1949.
[4]CaseDO,GivenLM.Lookingforinformation:Asurveyofresearchoninformationseeking,needs,andbehavior[M].Bingley:EmeraldGroupPublishingLimited,2016:247-257.
[5] 应璇,孙济庆.面向大数据的用户检索行为研究[J].情报杂志,2014,33(02):140-143,176.
[6]TolleJE.Transactionloganalysis:Onlinecatalogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,1983:147-160.
[7]TeevanJ,AdarE,JonesR,etal.Historyrepeatsitself:RepeatqueriesinYahoo'slogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2006:703-704.
[8]TeevanJ,PottsMAS,PottsMAS,etal.Informationre-retrieval:RepeatqueriesinYahoo'slogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2007:151-158.
[9]AgostiM,CrivellariF,NunzioGMD.Webloganalysis:Areviewofadecadeofstudiesaboutinformationacquisition,inspectionandinterpretationofuserinteraction[J].DataMining&KnowledgeDiscovery,2012,24(3):663-696.
[10]MahouiM,CunninghamSJ.Acomparativetransactionloganalysisoftwocomputingcollections[EB/OL].[2018-03-16].https://researchcommons.waikato.ac.nz/bitstream/handle/10289/1028/uow-cs-wp-2000-12.pdf;jsessionid=87347051C5BCA7C2346B2E51881887BD?sequence=1.
[11]JonesS,CunninghamSJ,McnabR,etal.Atransactionloganalysisofadigitallibrary[J].InternationalJournalonDigitalLibraries,2000,3(2):152-169.
[12]MahouiM,CunninghamSJ.Searchbehaviorinaresearch-orienteddigitallibrary[C]//EuropeanConferenceonResearchandAdvancedTechnologyforDigitalLibraries.Springer-Verlag,2001:13-24.
[13]AssadiH,BeauvisageT,LupoviciC,etal.UsersandusesofonlinedigitallibrariesinFrance[EB/OL].[2018-03-14].http://xueshu.baidu.com/s?wd=paperuri%3A%28f343a33f5c8170f69c36fe3b5797b07f%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Bjsessionid%3D4CD62CC012EF9D9F49DAC6C9F261CA3E%3Fdoi%3D10.1.1.63.9982%26rep%3Drep1%26type%3Dpdf&ie=utf-8&sc_us=4179971989666836086.
[14]KochT,ArdoA,GolubK.BrowsingandsearchingbehaviorintheRenardusWebservice:Astudybasedonloganalysis[C]//IEEEConferenceonDigitalLibraries.IEEE,2004:378.
[15]HopfgartnerF,UrrutyT,VillaR,etal.Exploitinglogfilesinvideoretrieval[C]//ACM/IEEE-CSJointConferenceonDigitalLibraries.ACM,2008:454-454.
[16]ChenR,RoseA,BedersonBB.Howpeoplereadbooksonline:Miningandvisualizingweblogsforuseinformation[C]//EuropeanConferenceonResearchandAdvancedTechnologyforDigitalLibraries.Springer-Verlag,2009:364-369.
[17] 任立肖.基于Web日志的三大类型图书馆用户信息行为比较研究[J].图书情报知识,2006(6):28-32.
[18] 王泽贤, 李美红.ILASIIOPAC系统访问日志建模初探[J].图书情报工作,2010,54(7):119-122.
[19] 马骅. 数据挖掘在OPAC中的发展应用分析[J].新世纪图书馆,2011(11):75-77.
[20] 黄崑,张路路,钟村,等.基于OPAC日志的高校图书馆用户提问调整模式研究——以北京师范大学图书馆为例[J].图书情报工作,2015,59(23):51-58.
[21] 姜婷婷,王淼,高慧琴.OPAC系统用户搜索行为日志分析——以武汉大学图书馆为例[J]. 图书情报知识,2015(5):46-56.
[22] 姜婷婷,陈舜昌,高慧琴.大学图书馆OPAC系统用户信息搜寻路径的可视化分析[J].大学图书馆学报,2017,35(1):63-71.
[23] 朱玲,聂华.通过日志挖掘研究图书馆资源发现服务用户的搜索行为[J].现代图书情报技术,2011,27(12):74-78.
[24] 王建冬,王继民.基于日志挖掘的高校用户期刊数据库检索行为研究[J].北京大学学报(自然科学版),2012,48(1):29-36.
[25] 王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012,30(03):391-394,418.
[26] 吴丹,董晶.移动图书馆用户查询式构造行为分析[J].图书情报工作,2016,60(18):6-13.
[27] 吴丹,金鑫,王林琳.移动图书馆与非移动图书馆用户后续点击行为比较分析[J].图书情报工作,2016,60(18):27-34.
[28] 吴丹,毕仁敏.移动图书馆与非移动图书馆用户检索点比较分析[J].图书情报工作,2016,60(18):21-26.
[29] 吴丹,梁少博,唐源.APP交互视角下的大学生移动搜索行为研究[J].中国图书馆学报,2017,43(3):72-86.
[30]CockburnA,JonesS.Whichwaynow?AnalysingandeasinginadequaciesinWWWnavigation[J].InternationalJournalofHuman-ComputerStudies,1996,45(1):105-129.
[31]TauscherL,GreenbergS.Howpeoplerevisitwebpages:Empiricalfindingsandimplicationsforthedesignofhistorysystems[J].InternationalJournalofHuman-ComputerStudies,1997,47(1):97-137.
[32]JansenBJ,SpinkA,SaracevicT.Reallife,realusers,andrealneeds:Astudyandanalysisofuserqueriesontheweb[J].InformationProcessing&Management,2000,36(02):207-227.
[33]ChuangSL,PuHT,LuWH,ChienLF.Auto-constructionofalivethesaurusfromsearchtermlogsforinteractivewebsearch[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2000:334-336.
[34]PuHT,ChuangSL,YangC.Subjectcategorizationofquerytermsforexploringwebusers'searchinterests[J].JournaloftheAmericanSocietyforInformationScience&Technology,2002,53(08):617-630.
[35]ChuangSL,ChienLF.Automaticquerytaxonomygenerationforinformationretrievalapplications[J].OnlineInformationReview,2003,27(04):243-255.
[36]ParikhJ,KapurS.Unity:Relevancefeedbackusinguserquerylogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2006:689-690.
[37]ZhangZ,NasraouiO.Miningsearchenginequerylogsforqueryrecommendation[C]//InternationalConferenceonWorldWideWeb.ACM,2006:1039-1040.
[38]ZhangZ,NasraouiO.Miningsearchenginequerylogsforsocialfiltering-basedqueryrecommendation[J].AppliedSoftComputingJournal,2008,8(04):1326-1334.
[39] 王浩,姚长利,郭琳,等.基于中文搜索引擎网络信息用户行为研究[J].计算机应用研究,2009,26(12):4665-4668.
[40] 陈红涛,杨放春,陈磊.基于大规模中文搜索引擎的搜索日志挖掘[J].计算机应用研究,2008,25(6):1663-1665.
[41] 岑荣伟,刘奕群,张敏,等.基于日志挖掘的搜索引擎用户行为分析[J].中文信息学报,2010,24(3):49-54.
[42]CuiH,WenJR,NieJY,etal.Probabilisticqueryexpansionusingquerylogs[C]//InternationalConferenceonWorldWideWeb.ACM,2002:325-332.
[43]CuiH,WenJR,NieJY,etal.Queryexpansionbymininguserlogs[J].IEEETransactionsonKnowledge&DataEngineering,2003,15(04):829-839.
[44]ShiX,YangCC.Miningrelatedqueriesfromsearchenginequerylogs[C]//InternationalConferenceonWorldWideWeb.ACM,2006:943-944.
[45]ShiX,YangCC.MiningrelatedqueriesfromWebsearchenginequerylogsusinganimprovedassociationruleminingmodel[J].JournaloftheAmericanSocietyforInformationScience&Technology,2007,58(12):1871-1883.
[46]WhiteRW,ClarkeCLA,CucerzanS.Comparingquerylogsandpseudo-relevancefeedbackforweb-searchqueryrefinement[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2007:831-832.
[47]JonesR,BartzK,SubasicP,etal.AutomaticallygeneratingrelatedqueriesinJapanese[J].LanguageResources&Evaluation,2006,40(3-4):219-232.
[48]GaoW,NiuC,NieJY,etal.Cross-lingualquerysuggestionusingquerylogsofdifferentlanguages[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2007:463-470.
[49]HuR,ChenW,BaiP,etal.Webquerytranslationviaweblogmining[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2008:749-750.
[50]WangJH,TengJW,LuWH,etal.ExploitingtheWebasthemultilingualcorpusforunknownquerytranslation[J].JournaloftheAssociationforInformationScience&Technology,2006,57(5):660-670.
[51]ChanWS,LeungWT,LeeDL.Clusteringsearchenginequerylogcontainingnoisyclickthroughs[C]//InternationalSymposiumonApplicationsandtheInternet.IEEE,2004:305-308.
[52]Baeza-YatesR,HurtadoC,MendozaM.Queryrecommendationusingquerylogsinsearchengines[J].LectureNotesinComputerScience,2004,3268:588-596.
[53]SrikantR,YangY.Miningweblogstoimprovewebsiteorganization[C]//InternationalConferenceonWorldWideWeb.ACM,2001:430-437.
[54]TeevanJ.Howpeoplerecall,recognize,andreusesearchresults[J].ACMTransactionsonInformationSystems,2008,26(4):1-27.
[55]SmythB,BalfeE,FreyneJ,etal.Exploitingqueryrepetitionandregularityinanadaptivecommunity-basedwebsearchengine[J].UserModelingandUser-AdaptedInteraction,2004,14(5):383-423.
[56]FreyneJ,SmythB,CoyleM,etal.Furtherexperimentsoncollaborativerankingincommunity-basedwebsearch[J].ArtificialIntelligenceReview,2004,21(3-4):229-252.
[57]SmythB,BalfeE.Anonymouspersonalizationincollaborativewebsearch[J].InformationRetrieval,2006,9(2):165-190.
[58] 郭岩,白硕,杨志峰,等.网络日志规模分析和用户兴趣挖掘[J].计算机学报,2005,28(9):1483-1496.
[59]BeitzelSM,JensenEC,ChowdhuryA,etal.Hourlyanalysisofaverylargetopicallycategorizedwebquerylog[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2004:321-328.
[60]BeitzelSM,JensenEC,ChowdhuryA,etal.TemporalanalysisofaverylargetopicallycategorizedWebquerylog[J].JournaloftheAmericanSocietyforInformationScience&Technology,2007,58(2):166-178.
[61]BeitzelSM,JensenEC,LewisDD,etal.AutomaticclassificationofWebqueriesusingverylargeunlabeledquerylogs[J].ACMTransactionsonInformationSystems,2007,25(2):9.
[62]SunY,XieK,LiuN,etal.Causalrelationofqueriesfromtemporallogs[EB/OL]. [2018-03-14].http://wwwconference.org/www2007/posters/poster936.pdf.
[63] 刘颖,彭赓,吕本富,等.基于Web日志的用户访问路径提取与分析[J].情报学报,2009,28(4):548-556.
[64] 董志安,吕学强.基于百度搜索日志的用户行为分析[J].计算机应用与软件,2013,30(7):17-20.
[65] 郭俊霞,高城,许南山,等.基于网页浏览日志的用户行为分析[J].计算机科学,2014,41(3):110-115.
[66] 万飞,赵溪,梁循,等.基于移动互联网日志的搜索引擎用户行为研究[J].中文信息学报,2014,28(2):144-150.
[67]BuzikashviliN.Anexploratoryweblogstudyofmultitasking[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2006:623-624.
[68]WhiteRW,RuthvenI,JoseJM.Theuseofimplicitevidenceforrelevancefeedbackinwebretrieval[EB/OL].[2018-03-14].http://xueshu.baidu.com/s?wd=paperuri%3A%288d5cb5d5f5635f2c8626885665616d24%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseer.ist.psu.edu%2Fviewdoc%2Fdownload%3Bjsessionid%3D3A78BA05B98FBB10C5383F3E4D3EF4B2%3Fdoi%3D10.1.1.117.755%26rep%3Drep1%26type%3Dpdf&ie=utf-8&sc_us=6393836002647640879.
[69]WhiteRW,RuthvenI,JoseJM,etal.Evaluatingimplicitfeedbackmodelsusingsearchersimulations[J].ACMTransactionsonInformationSystems,2005,23(3):325-361.
[70]JonesR,DiazF.Temporalprofilesofqueries[J].ACMTransactionsonInformationSystems,2007,25(3):1-32.
[71]BraslavskiP,BraslavskiP,BraslavskiP,etal.Extractingnews-relatedqueriesfromwebquerylog[C]//InternationalConferenceonWorldWideWeb.ACM,2006:931-932.
[72]SekineS,SuzukiH.Acquiringontologicalknowledgefromquerylogs[C]//InternationalConferenceonWorldWideWeb.ACM,2007:1223-1224.
[73] 费洪晓,伍泽全,刘一环,等.社交网络用户行为挖掘研究进展与展望[J].计算技术与自动化,2016,35(2):74-80.
[74] 杨善林,王佳佳,代宝,等.在线社交网络用户行为研究现状与展望[J].中国科学院院刊,2015,30(2):200-215.
[75]BenevenutoF,RodriguesT,ChaM,etal.Characterizingusernavigationandinteractionsinonlinesocialnetworks[J].InformationSciences,2012,195(13):1-24.
[76]GyarmatiL,TrinhTA.Measuringuserbehaviorinonlinesocialnetworks[J].IEEENetwork,2010,24(5):26-31.
[77] 夏雨禾.微博互动的结构与机制——基于对新浪微博的实证研究[J].新闻与传播研究,2010,18(4):60-69,110-111.
[78] 王仁武,袁毅.基于社区Web日志挖掘的用户行为实证研究[J].图书馆论坛,2011,31(4):100-102.
[79]QiuL,LinH,RamsayJ,etal.Youarewhatyoutweet:PersonalityexpressionandperceptiononTwitter[J].JournalofResearchinPersonality,2012,46(6):710-718.
[80] 肖强,朱庆华.微博用户行为特征及类型研究[J].情报科学,2013,31(12):69-74.
[81]GaoH,TangJ,HuX,etal.Modelingtemporaleffectsofhumanmobilebehavioronlocation-basedsocialnetworks[C]//ACMInternationalConferenceonConferenceonInformationandKnowledgeManagement.ACM,2013:1673-1678.
[82]ParkG,SchwartzHA,EichstaedtJC,etal.Automaticpersonalityassessmentthroughsocialmedialanguage[J].JournalofPersonalityandSocialPsychology,2015,108(6):934.
[83]SchwartzHA,EichstaedtJC,KernML,etal.Personality,gender,andageinthelanguageofsocialmedia:Theopen-vocabularyapproach[J].PlosOne,2013,8(9):e73791.
[84]ZhouT,KietHAT,KimBJ,etal.Roleofactivityinhumandynamics[EB/OL].[2018-03-14].http://doc.rero.ch/record/10604/files/zhou_rah.pdf.
[85]YanQ,WuL,ZhengL,etal.Socialnetworkbasedmicrobloguserbehavioranalysis[J].PhysicaAStatisticalMechanics&ItsApplications,2013,392(7):1712-1723.
[86]GrabowskiA,KruszewskaN,KosińskiRA.Dynamicphenomenaandhumanactivityinanartificialsociety[EB/OL].[2018-03-20].https://www.researchgate.net/publication/24173254_Dynamic_phenomena_and_human_activity_in_an_artificial_society.
[87]BenevenutoF,RodriguesT,ChaM,etal.Characterizinguserbehaviorinonlinesocialnetworks[C]//ACMSIGCOMMConferenceonInternetMeasurement.ACM,2009:49-62.
[88]ZwolRV.Flickr:WhoisLooking?[EB/OL].[2018-03-20].https://www.researchgate.net/publication/4309881_Flickr_Who_is_Looking.
[89]MorrisMR,TeevanJ,PanovichK.Acomparisonofinformationseekingusingsearchenginesandsocialnetworks[C]//InternationalConferenceonWeblogsandSocialMedia.DBLP,2010:613-617.
[90]VoseckyJ,LeungKW-T,NgW.CollaborativepersonalizedTwittersearchwithtopic-languagemodels[C]//InternationalACMSIGIRConferenceonResearch&DevelopmentinInformationRetrieval.ACM,2014:53-62.
[91]YounusA,O’RiordanC,PasiG.Alanguagemodelingapproachtopersonalizedsearchbasedonusers’microblogbehavior[C]//EuropeanConferenceonIRResearchonAdvancesinInformationRetrieval.Springer-Verlag,2014:727-732.
[92]HubermanBA,RomeroDM,WuF.Socialnetworksthatmatter:Twitterunderthemicroscope[J].SocialScienceElectronicPublishing,2009,14(1):2009:1-9.
[93]AralS,WalkerD.Identifyinginfluentialandsusceptiblemembersofsocialnetworks[J].Science,2012,337(6092):337-341.
[94]RomeroDM,MeederB,KleinbergJ.Differencesinthemechanicsofinformationdiffusionacrosstopics:Idioms,politicalhashtags,andcomplexcontagionontwitter[C]//InternationalConferenceonWorldWideWeb.DBLP,2011:695-704.
[95]OulasvirtaA,LehtonenE,KurvinenE,etal.Makingtheordinaryvisibleinmicroblogs[J].Personal&UbiquitousComputing,2010,14(3):237-249.
[96] 平亮,宗利永.基于社会网络中心性分析的微博信息传播研究——以Sina微博为例[J].图书情报知识,2010(6):92-97.
[97] 王晓光.微博客用户行为特征与关系特征实证分析——以"新浪微博"为例[J].图书情报工作,2010,54(14):66-70.
[98] 赵文兵,朱庆华,吴克文,等.微博客用户特性及动机分析——以和讯财经微博为例[J].现代图书情报技术,2011(2):69-75.
[99] 刘宇.基于社交网络用户特征的数据挖掘研究[J].电脑与电信,2014(11):47-48.
[100]JansenBJ.Searchloganalysis:Whatitis,what'sbeendone,howtodoit[J].Library&InformationScienceResearch,2006,28(3):407-432.
[101]KamvarM,BalujaS.Alargescalestudyofwirelesssearchbehavior:Googlemobilesearch[C]//SIGCHIConferenceonHumanFactorsinComputingSystems.ACM,2006:701-709.
[102]KamvarM,BalujaS.Decipheringtrendsinmobilesearch[J].Computer,2007,40(8):58-62.
[103]KamvarM,KellarM,PatelR,etal.Computersandiphonesandmobilephones,ohmy!:Alogs-basedcomparisonofsearchusersondifferentdevices[C]//InternationalConferenceonWorldWideWeb.ACM,2009:801-810.
[104]Baeza-YatesR,DupretG,VelascoJ.AstudyofmobilesearchqueriesinJapan[EB/OL]. [2018-03-14].https://www.researchgate.net/publication/248518707_A_Study_of_Mobile_Search_Queries_in_Japan.
[105]YiJ,MaghoulF,PedersenJ.Decipheringmobilesearchpatterns:AstudyofYahoo!mobilesearchqueries[C]//InternationalConferenceonWorldWideWeb.ACM,2008:257-266.
[106]ChurchK,SmythB,BradleyK,etal.AlargescalestudyofEuropeanmobilesearchbehaviour[C]//ConferenceonHuman-ComputerInteractionwithMobileDevicesandServices.DBLP,2008:13-22.
[107] 王继民,李雷明子,孟凡,等.基于用户日志的移动搜索行为分析[J].图书情报工作,2013,57(19):102-106.
[108] 王继民,李雷明子,郑玉凤.基于日志挖掘的移动搜索用户行为研究综述[J].情报理论与实践,2014,37(3):134-139.
[109]BudakC,AgrawalD,AbbadiA.Limitingthespreadofmisinformationinsocialnetworks[C]//InternationalConferenceonWorldWideWeb.ACM,2011:665-674.
[110] 杜治娟,王硕,王秋月,等.社会媒体大数据分析研究综述[J].计算机科学与探索,2017,11(1):1-23.
[111] 吴恺,苏新宁,邓三鸿.大数据、云计算与用户行为分析[J].数字图书馆论坛,2013(6):19-23.
[112] 杨文峰,李星.网络搜索引擎的用户查询分析[J].计算机工程,2001,27(6):20-21.
[113]LinJ,WilburWJ.ModelingactionsofpubMeduserswithN-gramlanguagemodels[J].InformationRetrieval,2009,12(4):487-503.
[114] 王继民,彭波.搜索引擎用户访问量模型[J].计算机工程与应用,2004,40(25):9-11.