微博用户的信息发布行为模式实证研究
2015-12-14于晶刘臣
于晶++刘臣
〔摘要〕本文利用新浪微博数据,从微博发布行为的时间间隔分布、周期性与波动性,以及记忆性与爆发性等方面出发,对微博用户的行为特征进行实证研究和分析。实验结果表明微博信息发布行为的时间间隔分布具有幂律特征。在此基础上,我们还发现微博用户的分布行为表现出明显的周期性与波动性,同时还具有强记忆弱阵发的特性。研究结果在控制网络谣言,促进微博营销等领域具有一定的指导意义和实际价值。
〔关键词〕行为模式;微博用户;时间统计;周期与波动;记忆与阵发;实证研究
DOI:10.3969/j.issn.1008-0821.2015.10.010
〔中图分类号〕TP3934〔文献标识码〕A〔文章编号〕1008-0821(2015)10-0049-06
Empirical Study on Micro-blog Users Behavior
Patterns of Information DistributionYu Jing1Liu Chen2
(1.East China Normal University,Shanghai 200241,China;
2.University of Shanghai for Science and Technology,Shanghai 200093,China)
〔Abstract〕The paper analyzed the behavior characteristics of Micro-blog users for empirical research,by using the datasets from Micro-blog users time interval distribution,periodic outbreaks and volatility,memory and features from several aspects.The experimental results showed that Micro-blog time interval distribution of information release behavior has the characteristics of power law.Then,the paper also found that the distribution of Micro-blog users behavior showed obvious periodicity and volatility,and it also has the characteristics of strong memory weak fits at the same time.The results of the study on the network rumor control,word of mouth marketing,and other fields had a certain guiding significance and practical value.
〔Key words〕behavior patterns;micro-blog users;temporal statistics;periodic and volatility;memory and paroxysmal;empirical study
随着在线社交网络应用(Online Social Networks)的迅速发展,互联网在信息扩散中的作用已经不再是对平面媒体的简单替代,而是彻底颠覆了传统的信息传播方式。在线社交网络中信息传播的最重要特征是社会化、对等化,用户生产内容(UGC)成为扩散信息的最主要组成部分。微博作为在线社交网络最主要的形式之一,以其巨大的用户数量、便捷的信息发布和传播方式,对人类的社会生活带来了重要的影响,在重大突发事件的形成、新型电子商务中产品的扩散中都有重要的作用。对微博用户行为模式的研究在信息扩散、社会化商务等领域都有着重要的理论意义和应用价值。
对诸如微博等的在线社交网络中信息传播研究的一种重要的方式,是将用户看作网络节点,信息通过用户的扩散行为沿他们之间的连接在复杂的网络结构中扩散。早期对复杂网络中传播动态的研究主要侧重于将传统的SIS、SIR模型迁移到网络结构之中,研究网络结构对信息传播的范围、重要因素的参数等的影响[1-3]。其中,最重要的发现是高度异质网络中,传统模型中大范围扩散的阈值不再存在[4-5]。之后,学者们发现不仅仅是网络结构,网络中用户自身的行为特征对信息传播的过程也有着重要的影响。例如,现实中用户会根据自身的兴趣切断或建立新的连接关系,网络结构与传播动态在用户行为的影响之下,成为一种共演化的动态过程[6-8],用户的行为意识所构成的网络与传播所依赖的网络甚至构成一种多层的网络结构[9]。最新的研究表明,网络中用户行为的动态对传播动态的阈值产生明显的影响[10]。用户行为模式已经成为复杂网络中传播动态研究的一个重要的热点领域[11-12]。
在传统的人类行为研究中,大多数学者用泊松过程来描述人类行为,假定人们的相继行为发生的时间间隔分布是均匀的。在2005年,Barabási[13]通过对实际的电子邮件发送与回复等人类邮件通信行为的时间间隔进行统计分析,发现人类的这类行为中存在长时间的静默和短时间的爆发,这些行为均不能用泊松过程来刻画。在此基础上,研究者通过在对记录人类通讯、工作和娱乐等行为的海量数据集的分析中,发现很多人类行为的时间统计特性普遍存在非泊松特性,在进一步研究中发现这些行为所对应的间隔时间分布存在一定的胖尾特征,可以用幂律分布更好地拟合[14-15]。在国内的研究中,周涛等[16]通过分析在线电影网站Netflix的公开数据集,发现所有用户的电影点播时间间隔分布服从指数为-208的幂律分布,并在此基础上探究了人类的行为模式以及与个体活动性之间的关系。此外,洪伟等[17]在人类通讯数据集中发现短消息的时间间隔分布存在多种无标度特性,也可以用幂函数很好的描述。endprint
以上研究都是以个体作为研究对象来探究人类的行为规律。但是,Zhao[18]指出人类的行为不仅受到自身的兴趣爱好的驱使,还受到周围的人群和组织意识等因素的影响,而在微博平台中,微博用户通过建立关注和粉丝关系构成群体关系网络,从而来获取和转发信息。同时,每一条微博信息的发布,转发和评论的时间都被清晰地记录,为分析用户的行为特性提供间接的证据,可以作为人类行为时间统计的有益补充。张赛[19]通过研究微博平台的海量数据,从而探究微博个体用户在信息传播过程的特征和规律。在此基础上,Yan等[20]通过对微博用户行为信息的进一步研究,提出了一个由兴趣和社会身份驱动的人类行为动力学模型,研究结果表明用户的社会角色驱动着兴趣的变化,从而影响人类的转发和评论行为。
以上关于人类行为偏离泊松过程的研究大都集中于针对事件发生的时间间隔的统计,但是人类的行为是高度复杂的,用户的行为不仅仅体现在时间间隔上。事件发生的频次和概率、事件周期性与波动性以及记忆与爆发等特性也能够反映出人类行为的某种特性。因此,本文利用新浪微博数据集,从微博用户发微博时间间隔的分布、周期性与波动性、记忆性与爆发特性等几个方面,对微博用户的行为特征进行研究和分析。
2015年10月第35卷第10期现?代?情?报Journal of Modern InformationOct,2015Vol35No102015年10月第35卷第10期微博用户的信息发布行为模式实证研究Oct,2015Vol35No101微博数据的获取与处理
新浪微博是目前国内最大、最具影响力和代表性的在线社交平台,拥有大规模的微博用户数据。同时,新浪微博的数据应用API(Appplication Programming Interface)是为第三方应用开发而提供的免费接口,微博用户可以利用Open API获取新浪微博信息传播的详细数据:用户发布微博的时间,用户发布微博的内容,用户发布微博的位置,用户的好友粉丝,用户动态交互状态等一系列含有时间标签的数据。
本文选取新浪微博的实际用户作为研究对象,利用新浪微博的API接口,在2015年4月收集了不同微博用户在这个月内发表的共计1 042 574条微博的完整数据,从而研究微博用户的行为模式。同时,借助于复杂网络和人类行为动力学理论知识,在时间统计方面对微博用户的发布、转发、评论等行为模式进行深入的分析和探究。在数据分析过程中,采用Python编程语言对微博数据集进行处理和分析,绘制出相应的数据散点图,并再采用最小二乘法或高斯定理对图形进行拟合,拟合后曲线的斜率即为数据的幂指数。
2微博用户的发布行为统计分析
在微博平台中,微博用户可以看作不同的节点,由于相同的兴趣和爱好,不同用户之间通过关注(Follow)行为从而产生联系,形成复杂的群体与网络。在网络中获取信息之后,微博用户的行为包括4种:忽略、点赞、评论和扩散(转发此条微博和发布新微博)。前3种行为都无法继续微博信息在网络中的传播,只有用户完成微博发布行为后,信息才会通过微博用户的扩散行为并沿们之间的连接在复杂的网络和群体中继续传播和扩散。在微博信息的传播过程中,微博用户的行为往往更加真实的反映群体中人类在网络信息传播中的规律和特性。比如在同一事件中微博用户的微博发布行为的统计能够反映用户在信息传播中的活跃程度,用户相继行为的时间间隔反映微博用户对某一事件的兴趣和关注程度。
21微博信息的统计分析
图1实验描述了数据集中微博用户与其发布微博信息数量在双对数坐标系之间的关系。坐标横轴表示用户的数量,坐标纵轴表示用户发布微博的频次。从图1可以看出,用户微博信息的统计分布在双对数坐标轴中具有明显的胖尾特征,且近似服从指数为184的幂律分布。在图中数据的胖尾部分,大多数的用户发布微博的频次较低,表明这类微博用户的活跃度并不高,在这段时间内发布微博的数量少,更多的是被动的获取和接受微博信息。与此同时,例如企业公众号、明星、大V等类型少量的微博用户,在短时间内发布了大量的微博信息。表明此类微博用户的活跃度非常高,对网络中微博信息的传播具有一定的促进作用。
图1用户发布微博信息的统计
22微博发布的时间间隔分布
为了进一步探讨微博用户在网络信息传播过程中的规律和特性,实验22统计了大量微博信息发布的时间和数量,并且把微博用户连续两次发布微博的时间定义为时间间隔τ,精确度设为天。如图2所示,微博用户发布微博的时间间隔可以用幂函数很好的拟合,在τ∈[0,14]时,群集数据幂函数的斜率slope=22,当τ>14时幂函数的slope=25。这表明在微博数据集中,连续发布两条微博的间隔时间小于2周的用户数量非常少,但这类用户在信息传播过程中表现十分活跃,发布了大量的微博信息。与此同时,大多数的微博用户发布两条微博的时间间隔大于两周,表现出了明显的幂律尾部特征。
图2所有用户发布微博的时间间隔分布
通过对图2实验的分析研究,发现微博群体行动的时间间隔分布具有幂律函数特性,那么微博个体的行为是否也服从幂律分布呢?因此,本文接下来将探究微博个体行为的特征。我们选取数据集中的3组不同的微博用户数据,通过研究单个用户微博发布行为的时间间隔与出现频次之间的关系,来分析微博个体用户行为的规律。首先,把微博发布的时间间隔与行为频次都取对数,然后,采用Numpy中的线性代数模块Linalg计算两者的相关系数(Correlation Coefficient t)。在图3(a)、3(b)和3(c)中,对于不同微博用户个体,发布微博行为的时间间隔与微博发布行为的关系差异很大,两者的关系既存在正相关,也存在负相关。
在图3(d)、3(c)和3(f)中,当时间间隔的精确度设为小时(hour)和分钟(min)时,微博发布行为的时间间隔与微博发布行为的频次仍具有胖尾特征,可以用幂函数很好的刻画。表明时间精确度并不是影响图中数据胖尾特征的关键性因素。endprint
3微博发布行为的周期性与波动性
网络用户在访问互联网的频率具有明显的周期性和波动性[21],那么微博用户在社交网络中的发布行为是否也具有一定的周期性和波动性。因此,我们对数据集中部分用户在单位时间内发布微博的数量进行统计分析,从而区分不同微博用户的活跃度。微博用户在单位时间内发出微博的频次越高,表明微博用户的活跃性越高。图4中,坐标横轴的分辨率为小时,纵轴表示发布微博的数量。从图中可以看出,用户发布微博数量随时间变化的曲线具有明显的波动性和周期性,24h内微博发布数量的变化规律很相似,且发布行为的低谷出现在每天的凌晨之后。
为了研究用户的活跃性是否是导致人类行为产生幂律时间间隔分布的原因,文献[22]提出新的时间间隔的定义来分析这个问题:个体产生相继行为的时间间隔内,统计其他个体发出的行为总数来度量时间间隔长度,并把这个行为总数定义为相对时间间隔。我们将此方法应用在微博平台之中,在该定义下,微博平台活跃性很低的时段中的1个小时要远远低于微博平台活跃性很高的时段中的1个小时。与图2实验相比,图5中相对时间间隔的幂律分布特征仍然存在,且坐标横轴相对间隔时间的数值更大,幂指数slope的数值也发生了改变。如果幂律分布仅仅来自周期和波动,那么在这种相对时间间隔的系统中,图中幂律特征会消失。而在图5中,微博群体幂律分布的时间间隔特征依然存在。因此,微博群体中幂律特征的出现并不能完全用周期和波动解释。
4微博发布行为的记忆与爆发
在微博信息的传播过程中,往往存在一部分微博信息在极短的时间内爆发性增长,而后快速消亡的情况。例如最近的“成都男司机暴打女司机事件”曝光后,在短时间内引发了微博用户的广泛关注与讨论,相关的微博更是铺天盖地而来。但2周之后,与之相关的微博发布量越来越少,最后出现很长时间的沉默和空白期。类似很多事件都图3用户个体发布微博的时间间隔分布
图4微博用户活跃性随时间的变化规律
图5所有用户发布微博的相对时间间隔分布
会在较短时间内密集发生,然后又出现很长的空档期,我们这种情况称为微博发布行为的阵发性。从时间间隔分布来看,阵发性很强的行为大部分的时间间隔都小于平均时间间隔,但是会出现非常大的时间间隔。本文采用文献[23]提出的指标来刻画微博发布行为阵发性:
B=στ-mτστ+mτ(1)
公式(1)中,στ和mτ分别表示微博发布行为的标准差和平均值,B的取值范围介于[-1,1]。
除了阵发性特征外,微博发布行为还存在记忆性特征。长时间的间隔之后紧接着的时间间隔也较长的概率大,同时短时间的间隔之后容易跟着一个短的时间间隔。如果把所有的时间间隔按照发生前后排成一个序列,这个序列一共有nτ个元素,制定前nτ-1个元素为序列1,后nτ-1元素为序列2,这两个序列的皮尔逊系数(Pearson)就可以衡量该序列的记忆性。
M=1nτ-1∑nτ-1i=1(σi-m1)(σi+1-m2)σ1σ2(2)
公式(2)中,m1和m2分别为序列1序列2的均值,σ1和σ2为两个序列的标准差。M>0表明记忆效应的存在。
我们采用指标(1)和(2)衡量微博发布行为的阵发性与积极性。如图6所示,微博数据集上的用户发布行为更接近坐标纵轴,描述了用户强阵发弱记忆的行为特性。除此之外,红色圆点表示所有微博用户记忆性和阵发性的平均值,表明用户行为的记忆性与阵发性的平均值不一定能反映全面用户的行为特性。
图6所有用户发布微博的相对时间间隔的记忆性与阵发性
在图6中,微博个体行为的时间间隔的B-M图中节点分布十分广阔,表明微博个体的记忆性与阵发性可能差异很大。为了进一步分析微博个体的记忆性和阵发性,图7实验在微博数据集中选取具有代表性微博个体进行分析。从图中可以明显看出。不同微博用户的B-M图分布虽然差异较大,但不同的用户都表现出了强阵发、弱记忆的特性。
5结论
在线社交网络中人类的行为广泛存在着幂律分布,同时人类行为是高度复杂的。用户的行为规律不仅仅体现在时间间隔上,还能表现在事件发生的频次和概率、事件周期性与波动性以及记忆与爆发等特性。本文利用新浪微博数据集,对微博用户的行为特征与规律进行实证研究。首先通过对微博信息发布行为的时间间隔进行统计分析,发现微博发布行为的时间间隔分布具有幂律特征。同时,根据这个时间间隔可以区分微博用户的活跃程度。其次,微博发布行为具有明显的周期性与波动性,并在进一步研究中发现,微博发布行为的周期与波动,并不是导致用户发布微博的时间间隔分布服从幂律分布的原因。此外,实验结果表明了微博发布行为的强记忆弱阵发特性。图7不同用户微博发布行为的记忆性与阵发性
本文对微博用户行为模式的实证探究,分析了微博用户行为的部分规律与特性,能够为控制网络谣言传播、促进信息传播、网络营销等领域具有一定理论支持和指导价值。
但是,本研究仍有不足之处:由于微博巨大的数据量及获取的难度,本文仅收集了1个月的微博数据集,有限的微博信息数据是否具有完全反映微博用户的行为规律还需要更大数据量的支持。在进一步的研究中,需要在更大数据量的情况下考虑网络的结构、信息传播的机制等对微博用户的行为特征和规律进行更深入的研究。
参考文献
[1]RPastor-Satorras,AVespignani.Epide mic spreading in scale-free networks[J].Phys.Rev.Lett,2001,86:3200-3203.
[2]RPastor-Satorras,AVespignani.Epide mic dynamics and endemic states in complex networks[J].Phys.Rev.E,2001,63:066117.endprint
[3]RPastor-Satorras,AVespignani.Epide mic dynamics in finite size scale-free net works[J].Phys.Rev.E,2002,65:035108.
[4]MBogun,RPastor-Satorras,AVespi gnani.Absence of epidemic threshold in scale-free networks with degree correlate ons[J].Phys.Rev.Lett,2003,90:028701.
[5]YMoreno,JBGoómez,AFPacheco.Epidemic incidence in correlated complex networks[J].Phys.Rev.E,2003,68:035103.
[6]DZanette,SRisau-Gusmn.Infection spreading in a population with evolving cont-acts[J].JBiol.Phys,2008,34(1-2):135-148.
[7]LBShaw,IBSchwartz.Fluctuating epidemics on adaptive networks[J].Phys.Rev.E,2008,77:066101.
[8]JZhou,GXiao,SACheong,XFu,LWong,SMa,THCheng.Epidemic reemerg-ence in adaptive complex networks[J].Phys.Rev.E,2012,85:036107.
[9]SBoccaletti,GBianconi,RCriado,CdelGenio,JGmez-Gardees,MRomance,ISendia-Nadal,ZWang,MZanin.The structu re and dynamics of multilayer networks[J].Phy s.Rep,2014,544(1):1-122.
[10]Chen Liu,Li-xin Zhou,Chong-jun Fan,Liang-an Huo,Zhan-wei Tian.Activity of nod es reshapes the critical threshold of spread ing dynamics in complex networks[J].Physica A,2015,43:269-278.
[11]SLiu,NPerra,MKarsai,AVespig nani.Controlling contagion processes in activi ty driven networks[J].Phys.Rev.Lett,2014,112:118702.
[12]ARizzo,MFrasca,MPorfiri.Effect of individual behavior on epidemic spreading in activity-driven networks[J].Phys.Rev.E,2014,90:042801.
[13]A L Barabási.The Origin of Bursts and Heavy Tails in Human Dynamics[J].Nature,2005,435:207-211.
[14]Tao Zhou,Xiao-Pu Han,Bing-Hong Wang.Towards the understanding of human dynamics[DB/OL].http:∥arxiv.org/abs/0801.1389,2008-01-02.
[15]Ye Wu,Chao-song Zhou,Mao-ying Chen,et al.Huamn comment dynamics in on-line social system[J].Physica A,2012,91:101-112.
[16]周涛.在线电影点播的人类动力学模式[J].复杂系统与复杂性科学,2008,5(1):1.
[17]Wei Hong,Xiao-pu Han,Tao Zhou et al.Chin.Phys.Lett,2009,26:028902.
[18]Zhi-Dan Zhao,Zimo Yang,Zike Zhang et al.Emergence of scaling in human-intere st dynamics[J].Scientific Report,2013,(3):3472.
[19]张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析[J].西安交通大学学报,2013,47(2):124-130.
[20]Qiang Yan,Lan-li Yi,Lian-ren Wu.Human Dynamic Model Co-driven by Interest and Social Identity in the Microblog Comm unity[J].Physica A,2012,391:1540-1545.
[21]B Gonclaves,J J Ramasco.Human dyna mecs revwaled through Web analytics[J].Phys Rev E,2008,78(2):026123.
[22]Tao Zhou,Zhi-ding Zhao,Zi-mo Yang,et al.Relative clock verifies endogen ous bursts of human dynamics[J],2012,97(1):18006.
[23]A L Barabási.Burstiness and memory in complex system[J].Europhys Lett,2008,81(4):48002.
(本文责任编辑:孙国雷)endprint