在线内容早期传播的影响因素研究
2013-04-29胡开远王少剑
胡开远 王少剑
摘要:随着信息技术快速发展和新媒体的兴起,海量互联网用户对信息的贡献和传播使得在线内容展现出了前所未有的繁荣;然而,在线内容中的大多数在发布后不久便淡出了人们的视线,只有少数内容能够持续传播并成为网络热点,其中的原因尚有待研究和解释。以信息分享和在线内容传播相关理论为基础,通过访谈关注微博新闻消息的用户,识别影响内容早期传播的因素,并抓取相应传播数据进行验证,结果表明,在线内容的初期传播与内容的信息质量有关,同时受发布时在线用户活跃度影响。
关键词:在线内容;早期传播;信息分享;微博
中图分类号:F062.9 文献标识码:A 文章编号:1003-3890(2013)05-0085-05
一、引言
随着信息技术的快速发展,以社会化媒体为代表的新型互联网应用不断诞生和繁荣,从最早的博客、播客、维基一直到最近流行的社交网络、微博客,不同的互联网服务平台上累积了庞大的用户基础。据iUserTracker最新的调查显示①,截至2012年5月,社区交友服务覆盖人数超4亿,渗透率达80%,其中,微博及SNS的覆盖人数最多,微博覆盖人数约为2.7亿人,SNS覆盖人数约为2.6亿人。借助这些平台,用户持续不断地发布和传播着各种各样的信息,使得互联网在线内容呈现出欣欣向荣的景象。
在繁荣的背后,可以关注到在线内容特有的现象:少数内容在短期内获得了大量的关注和传播而成为热点,而大多数内容则人气平庸,在诞生后不久便退出了人们的视线。这一现象,在具有协同过滤(collaborative filtering)功能特性的社会化媒体中显得尤为突出:用户往往只关注和传播自身感兴趣的人发布的内容,从而形成基于兴趣的关注链条,当内容符合用户群体的兴趣时将得以沿着链条持续传播,否则将很快停止传播并消退。这使得在线内容的传播成为了包括企业组织和政府机构在内的许多社会化媒体用户所关注的问题,因为准确而实时的在线内容流行度预测一方面使得企业能够通过对内容访问的定价和广告投放实现收益的最大化(Lerman和Hogg,2010)[1],另一方面有助于政府把握和掌控网络舆情,积极回应民众通过网络渠道的诉求并治理传播中的有害信息。
尽管对在线内容的流行度(popularity)和网络热点的研究提出了不少能实时发现热门话题的算法和模型,然而对于特定在线内容是否能够成为热点的问题则有待进一步的研究探索。基于此,本研究首先对国内外有关研究进行介绍和评述,然后以新闻微博帐号为研究对象,采用用户访谈与历史数据抓取与分析相结合的方式,探索并验证在线内容早期传播的影响因素。
二、相关研究评述
在国外,在线内容流行度的预测已经受到学者们的关注。Wu和Huberman(2007)通过分析digg.com上近100万人的互动情况,确定数千个新故事的关注的增长和消退,并验证了一个用于预测故事生命周期的动力学和统计分布的理论模型[2];Saha和Sindhwani(2012)提出了一个基于文本内容的在线非负矩阵因子分解框架,用于预测即将产生的热点主题,并且取得良好效果[3]。
在国内,不少学者也提出了不同的网络热点探索和发现方法,如刘星星等(2008)面向互联网新闻设计了热点事件发现系统,能够根据大规模数据自动发现特定时期内的热点事件[4];基于已有的热点挖掘和舆情分析技术,吴方照(2012)实现了一个完整的网络热点话题挖掘与分析系统,能够确保获取的热点话题的时效性[5]。这些研究的特点在于基于一定的算法构建模型,然后通过网站的宏观历史数据对模型进行验证,并且能够用于新热点的发掘和预测。然而,这些模型无法用于对具体内容的传播以及流行度的预测,而对于具体的用户而言,更关心的往往是特定的内容(通常是用户自身发布的内容)能否获得广泛传播并成为热点。要回答这一问题,首先需要理解在线内容传播的过程。
在线内容的传播通常可以分为早期传播和长期传播两个阶段。在早期传播阶段,内容的传播主要受到哈罗德·拉斯韦尔提出的传播“5W”(Who says what in which channel to who with what effect)模式,即内容发布者、内容本身、传播媒体(渠道)、内容接收者以及传播效果的影响,因为在这一阶段,内容往往只是传播至发布源的直接关注者,二次传播尚未开始;而长期传播,则受到包括协同过滤机制在内的许多其他因素的影响:一方面,一些内容的接收者进一步也成为内容的分发者,因而后来的内容接收者将可能感受到多个层次的内容来源(Sundar,2007)[6];另一方面,媒体对多次传播的内容提供了多样化的线索,这些线索能够帮助用户评估内容,从而也会影响内容的进一步传播,如在新浪微博中,已被用户大量讨论的话题会成为热门话题,从而出现在首页右侧的热门话题榜中,进一步引发了其他用户的关注和讨论。
尽管内容的长期传播机制十分复杂,然而多个研究表明,内容的早期传播情况对长期传播有良好的预测能力。例如,Szabo和Huberman(2010)的研究表明,在线内容的长期流行度(popularity)可以通过早期的用户访问量来预测,其误差不高于10%[7];Lerman和Hogg(2010)指出,尽管大量因素在影响内容传播的先验预测,但基于早期内容出现的用户反应能够预测内容未来的流行度[1]。因此,部分学者将研究重点放在了在线内容的早期传播上,并探索出了一些可能影响用户分享内容的意愿并最终影响内容流行度的因素,如发布者(来源)的可信度(Ha和Ahn,2011)[8]、内容质量(Agarwal等,2008)[9]、接收者对内容质量、风险的感知和信任(厉钟灵,2012)[10]、用户的动机(Marett和Joshi,2009)[11]以及对在线社区的参与度(Chang和Chuang,2011)[12]等。这些研究的特点在于回归到微观的传播行为中,基于对个体用户行为意愿的研究得出结论,所采用的模型的因变量往往是用户对内容的分享或转发意愿而非实际的早期传播效果,因而有待在实际的传播情境中进行验证。
综上所述,本研究将从内容发布者的实践出发,重点关注与内容发布相关的因素对早期传播的影响。
三、研究设计
(一)研究对象的选取
本研究选取了目前国内最为流行的一类社会化媒体中的内容传播,即微博中的消息转发作为具体的研究对象。微博(micro-blogging,又称微博客)作为继博客、视频网站、社交网络和维基以后出现的一种新型社会化媒体,其特点在于信息技术的集成化与信息传播的社会化,它一方面允许用户通过多种渠道随时在上面发布文本、图片、链接和地理位置,另一方面允许用户关注并分享自身感兴趣的内容,具有信息发布门槛低、信息传播速度快和信息收发干预难的特点(刘渊,2011)[13]。这些特点结合微博庞大的用户基础,使得微博多次在国内外重大公共事件中发挥重大作用,如国外的2009年的伊朗绿色革命、2011年日本东北地方太平洋近海地震以及国内的2011年“7·23”甬温线特别重大铁路交通事故等。由于具备较强的媒体影响力,不少企业乃至于政府均试图利用微博成为自身信息发布及宣传、营销的渠道。因此,选取微博作为具体的研究对象,有助于增强本研究对现实的指导意义。
进一步地,本研究选取了新浪微博中的“头条新闻”帐号(http://weibo.com/breakingnews)作为研究对象。选择这一帐号的理由包括:该帐号为新浪微博官方运营的帐号,与其他富有话题性和争议性的消息发布者相比,普通用户对该帐号的认知和信任一致性较强。该帐号拥有超过1 600万的关注用户,有助于降低单个关注者对内容传播的影响,使得该帐号所发布的内容的流行度更能视作海量用户传播行为的结果,否则,内容传播可能高度依赖个别具有较大影响力的关注者的转发,从而不利于对影响因素的研究。该帐号所发布的消息均为新闻消息,内容具有较强的同质性,有助于控制用户对消息类型的偏好对传播的影响。该帐号7天24小时实时发布新闻消息,有助于研究在不同时段发布内容是否对传播造成影响。
(二)研究变量的选取
内容的信息质量影响了用户对信息的使用(Nicolaou和McKnight,2006[14];厉钟灵,2012[10]),在具体的研究中,学者通常用感知信息质量(perceived information quality,PIQ),即用户对其信息期望和实际信息产出之间的差距的感受来测量实际的信息质量(Bailey和Pearson,1983)[15]。根据这一定义,对于同样的内容,不同用户可能由于具有不同的期望而产生不同的感知;当内容本身有差异时,由于不同的学者在不同的研究中发展出了不同的PIQ框架,因此对PIQ的测量可能缺乏信度,因为此时无法区分所测量到的PIQ差异到底是来自内容的不同,还是来自用户之间的感知差异。不过,根据双重加工理论,如精细加工可能性模型(ELM)和启发式-系统模型(HSM),以及以此为基础的一系列研究,用户可能会依赖于一些简单的、易于判断的线索来对内容进行判断(Petty和Cacioppo,1986[16];Chaiken,1980[17];Sundar,2007[6])。例如,用户可能会认为图片有助于帮助说明事实,因为比起文本内容来说,图片更难伪造,因此对于附带图片的内容,用户可能有更高的感知信息质量;消息的长度可能会给人以论述更为详细、完善的感觉,从而具有更高的质量;附带链接的内容,能够予用户以旁征博引、引经据典的感受,使得用户感到发布者客观、严谨的态度,从而对其发布的内容有更高的感知质量(Ha和Ahn,2012)[8];等等。与内容本身内在的质量相比,这些与内容高度相关的、客观的内容线索一方面能够影响用户对信息质量的感知,从而可能影响了用户转发消息的意愿;另一方面则是易于观察和测量的客观因素,能够提高研究的信度。
为探索可能影响用户转发意愿的影响因素,本研究基于前人的研究,对“头条新闻”帐号所发布的消息进行观察分析,整理出可能影响用户转发的因素。由于“头条新闻”帐号在自身发布消息的同时也会转发其他帐号所发布的消息,对于这些消息,用户可能在对消息来源的感知上产生不可控制的差异,因此本研究排除了这部分转发的消息,只考虑该帐号原创发布的消息。这些消息的基本特点如下:新闻内容在一开始先以“[]”符号给出新闻标题,然后通过一段不超过160字的文本对新闻内容进行摘要描述,然后附上详细的新闻链接,部分新闻消息还附上了图片。鉴于所有的新闻都附有链接,因此本研究只选取新闻消息的长度以及新闻消息是否附带图片这两个变量,作为测量新闻消息的信息质量的变量。
由于信息质量与具体的应用情境有关(Eppler和Wittig,2000[18]),为了进一步确认在微博的情境下,所选取的变量是否确实影响了用户对信息质量的感知,本研究设计了相应的访谈提纲,并且邀请“头条新闻”帐号的关注者和消息转发者进行访谈。访谈提纲具体如下:
(1)你是“头条新闻”帐号的关注者吗?
(2)你曾经转发过“头条新闻”帐号发布的原创消息吗?如有,请指出你最近转发的一条消息。
(3)你通常通过何种渠道看到并转发“头条新闻”帐号发布的:a.在自己微博首页上看到原消息 b.看到他人转发后自己再进行转发c.其它,请说明__
(4)你是否认同更详尽的新闻更有价值/有说服力/质量更高?请探讨你的看法。
(5)你是否会查看新闻消息附带的图片?你是否认同附带图片的新闻更有价值/有说服力/质量更高?请探讨你的看法。
(6)你的微博首页上显示的最早一条消息与最新一条消息相差__分钟。
(7)请描述你访问微博的习惯和频率。
(8)收集人口统计数据,包括性别、年龄、学历、职业等。
本研究共向9位微博用户发出了访谈邀请,其中7位做出了回应,6位最终完成了所有问题。6位受访者的人口统计数据如表1。
6名受访者均为“头条新闻”帐号的关注者,并且至少通过自身微博首页看到并转发过一条该帐号原创发布的新闻消息;其中5位受访者认同更详细的消息更有价值的观点,除了FLR认为“短的消息便于用户快速理解和接收,可能更利于传播”;尽管只有2名受访者会点开新闻附带的图片,但所有受访者均认同附带图片的新闻会更有说服力。
此外,由于本研究关注的是内容的早期传播,而微博的内容呈现采用的是将关注者发布的消息按照发布时间的倒序呈现在用户微博首页的“时间线”机制,因此在用户访问微博首页的时刻,过早的消息可能会从首页消失,用户只有通过翻页或点进发布者页面才能看到。由于不同媒体的早期传播持续时间不同(Szabo和Huberman,2010[7]),本研究首先统计了用户首页所呈现的消息的时间范围:6名受访者微博首页上最早一条消息与最新一条消息平均相差10分钟,因此本研究假定,“头条新闻”帐号发布新闻消息后的10分钟内属于早期传播阶段,在这一阶段发生的消息转发绝大部分均为帐号关注者直接从自身微博首页中关注到所发布的消息(而非通过他人的转发)的行为。
最后,根据“时间线”机制,在内容发布的时间点,有多少关注者正在使用微博,将对消息的早期传播有重要影响。本研究通过了解受访者的微博使用习惯,发现在一天当中的几个时间段(下文简称“黄金时段”)里,用户访问的频率较高,具体为:8:30-10:00;11:30-14:00;16:30-18:00;22:00-23:00。此外,对于上班族的受访者,周末的访问习惯与工作日有所差异。
根据访谈结果,本研究建立了如下的多元回归模型:
TMR=β0+β1L+β2P+β3W+β2G+μ
其中TMR代表消息在发布后10分钟内的转发次数,L代表消息的长度;P、W和G为虚变量,P代表消息是否附带图片(0—无,1—有);W代表消息发布日是否为周末(0—否,1—是);G代表消息发布时间是否处于黄金时段(0—否,1—是)。
四、数据收集及处理
本研究通过新浪微博开放平台,对“头条新闻”帐号的发布和传播数据进行抓取。新浪微博开放平台是基于新浪微博系统的信息获取和发布平台,被广泛用于各类基于微博的网页端、电脑客户端以及移动客户端应用的开发。该平台提供了丰富的访问接口以供开发者使用。本研究采用了Python脚本语言与SQLite3数据库,基于新浪微博开放平台提供的Python软件开发工具包构建数据抓取程序,收集了“头条新闻”自2012年12月2日0时至2013年1月19日24时期间所原创发布的1113新闻消息,以及这些消息在发布后10分钟内的234283条转发消息。
抓取完成后,研究人员利用SQL语句对数据库中的数据进行了整理和合并,形成回归模型所使用的数据。在这1 113条微博数据中,10分钟内的最少和最多转发数分别为0次和2 193次,平均被转发210.50次;最短和最长的消息分别为74字和198字,平均为144.85字;其中425条消息附带图片,282条消息发布于周末,351条消息发布于黄金时段。
最后,本模型利用SPSS 17.0中的多元线性回归功能,对数据进行回归分析。由于模型中包含控制变量W和G,因此回归时采用ENTER方法,使得所有自变量均包含在模型当中。对回归方程拟合优度的检验结果显示,调整后的可决系数R2为0.63;方程总体显著性F=19.744(p<0.001),表明回归模型在0.1%的水平上显著。对自变量的显著性检验结果如表2:
结果表明,在微博新闻消息的早期传播阶段:(1)消息中的平均每个字能贡献1次转发,显示用户更加青睐详尽的消息;(2)附带图片的消息平均能增加约55次转发,这表明“图文并茂”确实能够帮助内容的传播;(3)发布时间是否位于黄金时段对传播的影响较为显著,一方面表明10分钟的早期传播假定具有其合理性,另一方面与用户访谈结果相吻合;而是否位于周末则不太显著,其原因可能在于使用微博已经成为人们日常生活的重要一环,许多人不区分工作日和周末来使用微博;也可能在于和其他类型的消息不同,头条新闻是随时发生并随时播报的,因此人们对其的关注并没有显著的工作日和周末的区分。
五、结语
本文以微博为例,通过用户访谈与真实历史访问数据分析相结合的方式,对可能影响在线内容早期传播的因素进行了探索和验证,结论表明内容翔实、图文并茂的内容更受用户的青睐,从而能够取得更好的早期传播效果乃至于最终的传播效果;此外,尽管包括社会化媒体在内的许多互联网应用的用户均有着自发形成关注关系并自发对内容进行传播分享的特点,但在在线内容极大丰富、旧内容快速被新内容取代并占领用户视线的大背景下,对用户使用习惯和使用偏好进行了解,从而选择合适的时机和方式发布内容,能够增加内容呈现在用户面前的概率,有效避免内容尚未被用户接收就已经成为历史的问题。
本研究的局限性在于:对媒体平台、发布者和消息类型进行了限定,研究的外部效度有待进一步提高;在信息质量的测量上,未能采用更加深入的方式,如文本挖掘分析等方法提取内生的信息质量,未来研究可以在这一方向上进行深化。
注释:
①资料来源:iResearch—2011-2012年中国SNS和微博用户行为研究报告。
参考文献:
[1]LERMAN K,HOGG T. Using a Model of Social Dynamics to Predict Popularity of News; Proceedings of the 19th International Conference on World Wide Web,F,2010 [C]. ACM.
[2]WU F,HUBERMAN B A. Novelty and collective attention[J]. Proceedings of the National Academy of Sciences,2007,104(45):17599-601.
[3]SAHA A,SINDHWANI V. Learning evolving and emerging topics in social media:a dynamic nmf approach with temporal regularization[M]. Proceedings of the fifth ACM international conference on Web search and data mining. Seattle,Washington,USA; ACM. 2012:693-702.
[4]刘星星,等.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6).
[5]吴方照. 网络热点话题的挖掘与分析[J].2012,
[6]SUNDAR S S. The MAIN Model:A Heuristic Approach to Understanding Technology Effects on Credibility[J]. The John D and Catherine T MacArthur Foundation Series on Digital Media and Learning,2007:73-100.
[7]SZABO G,HUBERMAN B A. Predicting the Popularity of Online Content[J]. Communications of the ACM,2010,53(8).
[8]HA S,AHN J. Why Are You Sharing Others' Tweets?:The Impact of Argument Quality and Source Credibility on Information Sharing Behavior[M]. ICIS 2011 Proceedings. 2011.
[9]AGARWAL N,LIU H,TANG L,et al. Identifying the influential bloggers in a community; proceedings of the Proceedings of the international conference on Web search and web data mining,F,2008[C]. ACM.
[10]厉钟灵.微博用户转发意愿研究[D].杭州:浙江大学,2012.
[11]MARETT K,JOSHI K D. The Decision to Share Information and Rumors:Examining the Role of Motivation in an Online Discussion Forum[J]. Communications of the Association for Information Systems,2009,24(1):47-68.
[12]CHANG H H,CHUANG S-S. Social capital and individual motivations on knowledge sharing:Participant involvement as a moderator[J]. Information & Management,2011,48(1):9-18.
[13]刘渊.微博的技术特征及其现实挑战[N].光明日报,2011-09-07.
[14]NICOLAOU A I,MCKNIGHT D H. Perceived Information Quality in Data Exchanges:Effects on Risk,Trust,and Intention to Use[J]. Information Systems Research,2006,17(4):332-51.
[15]BAILEY J E,PEARSON S W. Development of a Tool for Measuring and Analyzing Computer User Aatisfaction [J]. Management Science,1983,29(5):
[16]PETTY R E,CACIOPPO J T. The Elaboration Likelihood Model of Persuasion[M].LEONARD B. Advances in Experimental Social Psychology. Academic Press. 1986:123-205.
[17]CHAIKEN S. Heuristic versus systematic information processing and the use of source versus message cues in persuasion[J]. Journal of Personality and Social Psychology,1980,39(5):752-66.
[18]EPPLER M J,WITTIG D. Conceptualizing Information Quality:A Review of Information Quality Frameworks from the Last Ten Years; proceedings of the Proceedings of the 2000 Conference on Information Quality,F,2000[C].
责任编辑、校对:马彦丽
Research on Influencing Factors of Online Contents' Early Spread
——Taking Micro-blogging as an Example
Hu Kaiyuan, Wang Shaojian
(School of Management, Zhejiang University, Hangzhou 310000, China)
Abstract: The rapid development of IT and rise up of new media has enabled mass user to publish and spread information, which makes online contents flourishing. Only few of these contents, however, could reach continually spread, with others appear and fade rapidly. To explore the mechanism of online content spread, this research proposed interviews of micro-blogging user and analysis of data from a news publishing account of micro-blogging based on theories of communication and information sharing to identify determinants of early spread of online content. The results show that the initial propagation, information quality and content of online content is concerned, at the same time by publishing online user activity influence.
Key words: Online content; Early spread; Information sharing; Micro-blogging