流感疫情出现后微博网民行为实证研究①
2015-04-01栗丽兵董荣胜
栗丽兵,董荣胜
(桂林电子科技大学 计算机科学与工程学院,广西 桂林 541004)
人类很早就汲取着社会网络的力量[1],Facebook、Twitter、Sina微博等在线社交应用的陆续出现和不断壮大,积攒了海量的用户活动数据。基于微博数据的实证研究发现,许多好友之间并不存在经常性的网络互动(如微博转发行为),而且网络互动行为也不仅局限于好友之间。有时互动网民之间根本不存在任何显性的好友关系(如微博空间中的“关注”关系),但真实发生的互动行为确实体现了他们在某些观点或喜好上的一致性和相互间的认同感,这可能隐藏着一个巨大的合作网络[2-3]。现存在2种方法来刻画这一现象:1)通过为传统关系模型中节点和边添加的属性来区分节点间是否存在实际的微博转发行为[4];2)通过多层网络拓扑将用户社交关系和信息互动过程中的用户合作关系分别记录在维数相同且相互独立的一组邻接矩阵中[5]。但这2种方法无法清晰地刻画用户的重复参与行为,而且数据结构的改动导致社会网络分析的测量参数需要重新设计。
鉴于此,本研究构建了上述网民特征的微博信息流(Weibo information flow,简称WIF)模型,并以2010年7月至2013年8月期间新浪微博用户谈论流感疫情的数据为对象,分别从用户间的好友关系和用户间博文转发关系2个角度对疫情信息的扩散网络的拓扑特征进行测量。
1 数据规模和WIF模型
1.1 数据规模
数据集为新浪微博空间的网民数据,按主题不同分为3个子数据集,即回忆2009年H1N1疫情的数据集、谈论普通流感的数据集和谈论2013年4月爆发的H7N9疫情的数据集。数据采集采用内嵌新浪微博APIs的Python爬虫程序完成,最终得到的新浪微博数据集见表1。
表1 新浪微博数据集Tab.1 The Sina-Weibo dataset
1.2 WIF模型
为实现微博空间信息扩散过程的形式化描述,构建了一个4元组形式的WIF模型。对于“信息流”一词的使用约定:如果用户B转发了用户A的博文T,那么博文T包含的信息便由用户A流向了用户B。该WIF模型共涉及3类实体(博主、博文、博文转发树)和1类合作关系(博文转发关系),即:F=〈SU,ST,SR,SRT〉。其中:SU为微博用户组成的集合;ST为博文组成的集合;SR为博文转发行为组成的集合;SRT为博文转发树组成的集合。
1.2.1 博主U∈SU的结构定义
U=〈g,p,l,fo,fr,Nt〉,其中:g=0/1,0表示男性,1表示女性;p∈P,记录博主所在城市,P为新浪微博的地区编码集;l∈{lzh-cn,lzh-tw,lzh-hk,len},lzh-cn、lzh-tw、lzh-hk、len分别代表大陆简体中文、台湾繁体中文、香港繁体中文、英文,反映了用户的文化背景;fo⊆SU,表示关注博主的用户;fr⊆SU,表示博主关注的用户;Nt∈N,表示博主发布的博文数量,其中N={0,1,2,…}。
1.2.2 博文T∈ST的结构定义
T=〈b,u,Nr,Δ,m,to〉,其中:b=0/1,0表示T为原创博文,1表示T为转发博文;u∈SU,表示当前T的博主;Nr∈N,表示当前T被转发的次数;Δ为日期类型数值,表示T创建的时间;m为文本类型数据,表示T的内容;to∈T,当b=0时取“null”,当b=1时表示当前转发博文所在转发树的原创博文。
1.2.3 转发行为R∈SR的结构定义
R=〈ts,tr,d,c〉,其中:ts∈{t|(t∈ST)∧(t.Nr>0)},表示被转发的博文,因为可能存在多层转发,所以ts可能是原创博文,也可能是转发博文;tr∈{t|(t∈ST)∧(t.b=1)},表示对博文tr进行转发操作后生成的转发博文;d∈N+,表示tr在对应原创博文转发树中所处的深度,其中N+={1 ,2,3,…}。约定当ts.b=0时d=1,后续R根据转发关系依次加1;c∈{1,2,3,4,5},标记3种不同关系的微博用户之间产生的5类转发行为。
3类用户关系和5类转发信息流结构如图1所示。图1(a)为微博空间的3类用户关系:由单向线段连接的2个用户之间存在社会关系为微博平台的“关注”功能产生的单向友好关系,终端节点为被关注者,起始节点为关注者;由双向线段连接的2个用户均“关注”了对方,称为“互粉用户”或“互惠用户”。虚线连接的2个用户均未“关注”对方,称为“陌生人”。因为微博空间的信息扩散有明确的方向性,图1(a)中3类用户关系的组合便会出现5类信息流,图1(b)~(f)为由参数R.c区分的5类信息流,弧形虚线代表用户间博文转发过程的信息流向。式(1)~(5)为5类博文转发模式对应的逻辑关系。
图1 3类用户关系和5类转发信息流结构Fig. Three types of user relationships and five types of information cascade patterns
1.2.4 转发树TR∈SRT结构定义
TR=〈To,RS,RS*,N〉,其中:To∈{t|(t∈ST)∧(t.b=0)}为转发树的根节点位置的原创博文;Tr*⊆{t|(t∈ST)∧(t.b=1)∧(t.to=T)}为用户转发to时产生的转发博文集合;RS*⊆{R|(R∈SR)∧(R.tr∈Tr*)}为由转发树中节点间的边组成的集合;N=(To.Nr+1)为当前转发树的节点数量。
2 信息扩散网络提取及其拓扑结构测量
依据TRTS数据,对所有转发节点深度统计发现,直接转发原创博文且未得到其他用户继续转发的转发行为大于总转发量的三分之一。鉴于网络水军的盛行,在提取用户合作网络时剔除了此类转发行为。
2.1 信息扩散网络提取
微博信息流实例如图2所示,其由16条微博信息(3条原创博文和13条转发博文)和12名微博用户组成。其中:图2(a)为博文转发流,节点表示博文,边表示转发关系;图2(b)为用户社交网络,节点表示用户,边表示“关注”关系。
图2 微博信息流实例Fig.2 An example of Weibo information flow
按照WIF结构定义,图2的微博信息流实例的形式化描述为:
其 中:to1=〈0,u5,0,-,-,null〉;to2=〈0,u9,3,-,-,null〉;to3=〈0,u1,10,-,-,null〉;tr1=〈1,u10,1,-,-,to2〉;tr2=〈1,u4,0,-,-,to2〉;tr3=〈1,u11,0,-,-,to2〉;tr4=〈1,u2,2,-,-,to3〉;tr5=〈1,u2,5,-,-,to3〉;tr6=〈1,u12,0,-,-,to3〉;tr7=〈1,u3,1,-,-,to3〉;tr8=〈1,u6,1,-,-,to3〉;tr9=〈1,u7,2,-,-,to3〉;tr10=〈1,u7,0,-,-,to3〉;tr11=〈1,u6,0,-,-,to3〉;tr12=〈1,u8,0,-,-,to3〉;tr13=〈1,u3,0,-,-,to3〉。
其中:R1=〈to2,tr1,1,1〉;R2=〈to2,tr2,1,4〉;R3=〈tr1,tr3,2,4〉;R4=〈to3,tr4,1,3〉;R5=〈to3,tr5,1,3〉;R6=〈to3,tr6,1,4〉;R7=〈tr4,tr7,2,3〉;R8=〈tr5,tr8,2,2〉;R9=〈tr5,tr9,2,4〉;R10=〈tr7,tr10,3,4〉,R11=〈tr8,tr11,3,5〉;R12=〈tr9,tr12,3,4〉;R13=〈tr9,tr13,3,4〉。
其中:TR1=〈to1,null,null,1〉;TR2=〈to2,{tr1,tr2,tr3},{R1,R2,R3},4〉;TR3=〈to3,{tr4,tr5,tr6,tr7,tr8,tr9,tr10,tr11,tr12,tr13},{R4,R5,R6,R7,R8,R9,R10,R11,R12,R13},11〉。
目前大多基于好友关系的用户社会关系网络(online friends social network,简称OFSN)如图2(b)所示,节点表示用户、边表示用户之间的社会关系网络[6-9]。相比这些单纯的关系网络,实际信息互动的用户群体的社会网络结构包含更丰富的内容。
基于好友关系的转发合作网络(friendship-based reposting cooperation network,简称FRCN)如图3(a)所示。网络中节点代表用户,有向边代表存在实际转发合作行为的用户的关注关系,其提取过程是一个对OFSN中所有边的遍历过程,仅满足式(6)逻辑条件的用户对(Ui,Uj)的边被保留。
图3 微博信息扩散网络Fig.3 Weibo message spread participant networks
陌生用户间的转发合作网络(stranger reposting cooperation network,简称SRCN)如图3(b)所示。节点表示用户,有向边表示博文信息不存在关注关系的陌生用户之间的转发流向,其提取过程是一个对R中所有c=4的转发行为的遍历过程,只要用户对(Uk,Ul)满足式(7)的逻辑条件,便会在Uk、Ul的节点间添加一条由Uk指向Ul的有向边。
最 终,FRCN包 含343 742个 节 点、514 334条边,最大联通分量包含291 061个节点;SRCN包含164 453个节点、143 790条边,最大联通分量包含69 598个节点。
2.2 信息扩散网络拓扑结构测量
FRCN、SRCN和HFS[8]网络的拓扑属性如表2所示。从表2可以看出:
1)微博空间的互动群体比社区论坛的用户群更松散。FRCN和SRCN的网络密度非常低,可见不管是依赖好友关系的消息推荐还是完全靠话题热度的消息推荐,最终产生的实际响应群体不存在任何组织性,即共同参与流感疫情讨论的微博用户群是一个独立的松散团体,他们完全是自愿加入的。
2)FRCN和SRCN均属于无标度网络。FRCN和SRCN中节点的入度和出度的频率分布均服从幂率特性,即少数用户发表的微博总能得到大家的响应,而大多数用户发表的微博影响力极其有限。对于无标度现象,Barabasi认为其源于优先连接习惯[10],对应到微博转发的讨论背景,人们会优先转发那些已经得到大量用户转发的博文。虽然还无法验证这种假设的正确性,但无论在相互认识的好友圈,还是在完全由陌生人因共同兴趣组成的临时性群体内,信息大范围快速传播的实现离不开Hub节点。
3)FRCN和SRCN均具有小世界特性。从刻画用户好友圈重合程度的聚类系数可以看出,FRCN和SRCN中相邻用户各自朋友圈的重合程度并不高。同时,平均度、特征路径长度和网络直径的结果显示:虽然FRCN和SRCN的平均度略低于HFS网络,但未影响用户间社会距离。对于完全由陌生用户因共同话题涌现的SRCN,用户的平均相邻用户数不足2个,但微博信息从一位用户扩散到另一位用户的平均距离小于3,最远距离仅为16。由此可见,微博转发行为的传染性比社区论坛中的回帖行为低一个数量级,多数用户的相邻用户数量非常有限,但存在一条相当短的路径可让微博信息从一个用户扩散到另一个用户。
表2 FRCN、SRCN和HFS网络拓扑属性Tab.2 The topological properties of FRCN,SRCN and HFS
3 结束语
以新浪微博用户在2010年7月至2013年8月期间谈论流感疫情的历史记录为对象,分别从微博转发流结构和用户合作模式对新浪微博空间信息扩散网络的拓扑结构进行测量。社会网络的拓扑结构通常涉及2个问题:1)在结构层面的连通性——谁和谁相连;2)在行为层面的连通性——每个个体的行为对系统中其他个体都有隐含的后果。本研究提供了一种可以研究联系强度的语言,可以描述在线社会活动是如何分布在不同类型的连接上的,特别是如何分布在不同强度的连接上的。在线社交中成千上万的好友有多少会经常联系,通常存在好友关系的用户被视为同质关系,微博用户群的好友关系背后是否有可能存在结构失衡现象,即结构平衡问题,需要进一步研究。
[1]Watts D.A twenty-first century science[J].Nature,2007,445(7127):489-489.
[2]Huberman B,Romero D,Wu F.Social networks that matter:twitter under the microscope[J].First Monday,2008,14(1):2317.
[3]Lam S,Riedl J.Are our online"friends"really friends?[J].Computer,2012,45(1):91-93.
[4]Guille A,Hacid H,Favre C.Predicting the temporal dynamics of information diffusion in social networks[J].arXiv,2013:1302.5235.
[5]Mucha P,Richardson T,Macon K,et al.Community structure in time-dependent,multi-scale,and multiplex networks[J].Science,2010,328(5980):876-878.
[6]Fu Feng,Liu Lianghuan,Wang Long.Empirical analysis of online social networks in the age of Web 2.0[J].Physica A:Statistical Mechanics and its Applications,2008,387(2):675-684.
[7]Wang Feiyue,Zeng Daniel,Hendler J A,et al.A study of the human flesh search engine:crowd-powered expansion of online knowledge[J].Computer,2010,43(8):45-53.
[8]Zhang Qingpeng,Wang Feiyue,Zeng Daniel,et al.Understanding crowd-powered search groups:a social network perspective[J].PLOS ONE,2012,7(6):e39749.
[9]樊鹏翼,王晖,姜志宏,等.微博网络测量研究[J].计算机研究与发展,2012,49(4):691-699.
[10]Barabasi A.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.