个人微博用户网络的节点中心性研究
2015-06-23苏树清
杨 凯, 张 宁, 苏树清
(上海理工大学管理学院,上海 200093)
个人微博用户网络的节点中心性研究
杨 凯, 张 宁, 苏树清
(上海理工大学管理学院,上海 200093)
以新浪个人微博用户为研究对象,建立了一个“关注”与“被关注”的有向网络.将节点度、紧密度、介数和K-壳4个社会网络指标应用到微博有向网络,研究了个人微博用户网络中节点的中心性,得到网络中重要性用户,分析了他们在信息传播中的作用和在网络中所表现出来的特性,体现出该用户的兴趣爱好.研究了社会网络指标与度之间的相关性,体现出网络各指标之间的关系.研究结果有助于识别个人微博用户网络的关键节点,进而分析信息在个人微博用户网络中的传播.
微博用户网络;节点中心性;度中心性;介数中心性;紧密度中心性;K-壳
在线社会网络的兴起与发展,如Facebook[1]、Twitter[2]、人人网[3]和新浪微博[4]等,为人们提供了紧密联系、展现自我和信息共享的工具与渠道.微博有信息及时分享与快捷获取的特点,使得微博成为热点事件产生和谈论的重要场所.例如4·20雅安地震,微博成了很重要的信息传播渠道.微博平台中每天会有成千上万的信息在传播,有些信息只会在小范围内传播,而少部分公众很关注的信息传播范围会很广,所以一些微博用户就成了信息主导者或者影响力用户.这些用户往往对热点事件和时事事件进行传播与发表个人看法,引导信息在网络中传播.因此,研究微博用户与用户之间所构成的微博网络的结构特性,发现核心用户是非常必要和有意义的.
将微博用户看成节点,用户间的关注关系代表连边,就构成微博用户关系网络.国内外学者用复杂网络[5-6]的理论对此网络的结构特性和用户影响力等[7-8]作了大量研究.Freeman[9]总结了3类社会关系网中用于衡量“节点中心程度”的指标:度、介数和紧密度.按照Freeman的解释,度指的是节点i的度数,就是有多少个点与i直接相连,其描述的是i在传播活动中的活跃性;介数指的是i占据网络上随机选择的两节点之间捷径的程度,代表着控制信息流通的能力;紧密度通过计算i到网络上所有其它点最短距离的和得到,可以看作代表i独立有效地进行传播的能力.苑卫国等[10]对新浪双向“关注”网络通过节点度、紧密度、介数和K-壳4个网络中心指标进行了实证分析,基于SIR模型[11]分析节点的信息传播影响力.平亮等[12]用社会网络分析方法,分别从点度中心性、中间中心性和接近中心性3个方面对微博用户社会网络的节点中心性进行了实证研究.何黎等[13]根据微博用户之间关系的紧密度来构建小社区,从而发现小社区的特性和核心用户,通过计算社区每个成员的点度中心性来判断核心用户.
本文搜集了个人新浪微博用户的实际数据,从一个用户出发,构建了一个个人微博用户关系网络.通过分析4个社会网络节点中心性指标,研究了该微博网络的节点中心性.通过分析各指标如何刻画网络的结构性质,得出了网络关键节点及这些节点所代表的用户在微博网络中的作用和对信息传播的影响.这个以个人为中心的网络即“星型网络”,其在网络结构和信息传播等方面与其它网络的对比研究可参考文献[14].本文所得结论与该网络构建的特殊性及用户个人兴趣爱好有很大关系.根据个人微博用户网络中的关键节点为用户推荐感兴趣的用户,这一方法为个人微博推荐算法提供了另一种思路,为信息的有效传播及挖掘个人信息提供了理论依据.
1 节点中心性指标
1.1 节点度中心性
所谓“节点中心度”[15],指的是节点的度数,节点i在网络中的中心地位,即一个节点的度越大就意味着这个节点越重要,适用于对局部网络节点的中心地位和影响力进行刻画.在有向网络中,每个点的度数可分为入度和出度.
1.2 介数中心性
节点的介数[16]定义为网络中节点对最短路径中经过节点i的个数占所有最短路径数的比例.用表示从节点s到节点t所有最短路径经过节点i的最短路径的数目;nst表示从节点s到节点t的最短路径的数目,则节点i的介数中心性为
根据介数中心性定义,处于网络中心位置的节点是信息在网络上传输时负载最重的节点,也就是经过此点的最短路径条数最多的节点.在微博网络中,介数越高说明该用户处在许多社交网络的最短路径上,可以认为该用户具有重要的地位.
1.3 紧密度中心性
紧密度中心性[10]是刻画节点通过网络到达其它节点难易程度的指标,相比节点度指标更能反映网络的全局结构.节点的紧密度越高,则离其它节点越近,传播信息时难度越低,所需借助的节点越少,反之亦然.节点i的紧密度中心性为
式中,dxy表示节点y到节点x的最短路径距离;n表示网络节点总数;n-1表示最大可能的邻居节点数.在微博网络中,紧密度分为出紧密度与入紧密度,分别表示网络中的该节点到达其它节点和其它节点到达该节点的难易程度.
1.4 K-壳与K-核
在给定的无向网络中,如果把网络中所有度值为1的节点及与这些节点相连的边都去掉,网络中可能又会出现一些新的度值为1的节点;再把这些节点及其相连的边去掉,重复这种操作,直至网络中不再有度值为1的节点为止;把所有这些去除的节点以及它们之间的连边称为网络的1-壳(1-shell);以此类推,就可以得到网络的K-壳[15].网络的K-壳给出了网络中节点重要性的一种粗粒化的划分.在微博网络中,K-壳分为出K-壳和入K-壳,即网络中分别以出度和入度为基准去除节点,剩下的就是出K-壳和入K-壳.节点核数中最大的值为网络的核数(k-coremax).利用K-壳的概念可以将网络的核心分离出来,得到网络中最外层或最里层的节点,从而加以分析.
2 个人微博用户网络的实证分析
2.1 数据收集与网络构建
社会网络分析按照研究对象的不同可分为两种基本类型:自我中心网络(ego-centered networks)分析和整体网络(whole networks)分析.自我中心网络是从个体的角度来界定社会网络,以特定的用户为研究中心,只考虑与该用户相关的联系,以此来研究个体行为如何受到其人际网络关系的影响,本文研究节点中心性时就选择了自我为中心的网络进行研究.整体网络关注的焦点是网络整体,即一个社会体系中角色关系的综合结构或群体中不同角色的关系结构[17].
本文在研究新浪微博时,抽取了一个普通活跃用户(用户名为“foreveryoung快乐”,记为用户A),以这个用户为节点出发,搜集到2013年5月4日与该用户有直接关联的用户(他的关注与粉丝,用户名后加v的用户是新浪认证用户)数据.以用户作为节点,他们之间的“关注”与“被关注”关系作为边建立一个用户A关注和用户A的粉丝之间的有向网络.该网络以用户A为中心,其网络特性跟用户A的兴趣爱好有很大关系.本文搜集到共392个节点与6 846条边,网络基本属性如表1所示.从表1所描述的平均群聚系数、直径和平均路径长度,可以看出该网络符合小世界网络特征.利用这些数据对个人微博用户网络的节点中心性和用户影响力进行研究.该网络是由一个用户出发所构成的“星型网络”,由于网络结构的特殊性,与新浪微博用户整体网络有着明显的不同.本文与平亮等[12]构造的“名人”微博网络从信息传播等方面作了相应对比分析,可以得出这些指标在分析网络特性时具有相似的结论.
表1 网络的基本属性Tab.1 Properties of the network
本文利用pajek软件分别将4个社会网络中心性指标计算出来,加以分析.将前3个指标计算出来的值按大小排序,列出了网络中前20位用户(见下页表2),根据表中的结果分析该微博网络的性质.
2.2 点度中心性分析
微博网络中节点的度中心性代表了在用户传播活动中的活跃性.微博网络中,点度中心性分为入度中心性与出度中心性.出度中心性显示了用户关注程度和用户的兴趣或社交范围,当然不排除一些用户的关注不是个人兴趣.从表2可以看出该网络的一些特殊性.网络以用户A作为中枢节点搜取数据,用户A的出度最大为375,与其他用户差距很大.网络中95.7%的用户为用户A关注的用户,从中可以看出用户A的兴趣及关注焦点.出度排在前面的用户,他们一般是搜集信息、关注其他用户的最新动态或者社交范围较广的用户,都是一些机构网站或者是信息获取型用户,表明这些用户收集信息的能力很强,也体现了这些用户与用户A的共同关注程度.对于个人微博用户网络,这是局部信息获取的情况.而考虑整个微博用户网络,出度大的节点所代表的用户获取信息的能力较强,能及时获取信息,然后根据情况将信息传播出去,有效地让信息在整个网络中传播.
入度中心性体现了该用户受欢迎的程度,从一定程度上体现了在网络中的影响力和信息传播能力.从表中可以看出入度排在前几名的基本都是娱乐明星,他们的动态信息得到了很多用户的关注.当他们发布一条信息后,该信息可以在网络中迅速散播,是主要的信息传播者.这些节点所代表的用户发表个人看法会引起其他用户的注意,是信息的传播动力,而这些用户也体现出微博用户A的兴趣与关注焦点,更利于用户A获得自己感兴趣的信息.平亮等构造的微博网络中也得出:入度比较高的用户在网络信息传播过程中拥有很大的权利,他们发布的信息有更多人注意.入度比较大说明这些用户拥有很多的粉丝,在信息传播中为关注的焦点,在整个网络中可以起到主导信息传播的作用,即一些学者称为网络节点的“权力中心”或“意见领袖”.
2.3 介数中心性分析
微博网络中的介数中心性,体现出信息传播过程中用户控制信息流通的能力.从表2可以看出,前3位用户的介数比较大,说明这3位用户在该网络中起到重要的信息枢纽作用.在个人微博用户网络中,前几位除了一些名人明星和新闻媒体外,还有一些教育机构,体现出了教育在该网络中的重要性.在该微博网络中,信息传输时这些节点信息流最大,即经过这些用户的最短路径条数最多,表明这些用户控制信息的能力很强,即他们得到一条信息后是否传播将会影响到该信息在网络中的传播,从而可以看出这些用户在该网络上的重要性.平亮等也得出介数较大的用户能够在很大程度上控制信息的流动.相比整个微博用户网络,介数较大的用户可能为连接两个或者多个社区的hub节点,在整个网络中对信息传播起到关键作用.
表2 用户的社会网络分析指标值Tab.2 Analysis index value of users’social networks
2.4 紧密度中心性分析
紧密度中心性体现了用户与网络中其他用户的接近程度,说明了用户独立有效地进行传播信息的能力.在微博网络中分为入紧密度和出紧密度.入紧密度为网络中其它节点到该节点的距离,刻画了该用户散布信息的能力.出紧密度,一个节点到网络中其它节点的距离,刻画了该节点收集、读取信息的能力.从表2可以得知,该网络的紧密度比较高,前几位都在50%左右,体现出该网络联系较为紧密.入紧密度较大的用户基本都是名人明星和新闻媒体,说明在网络中其他用户对这类用户比较关注,达到该用户的距离很小,所以这些用户的信息传播很快.而出紧密度不大相同,排在第一位的用户出紧密度明显要比其他用户大很多,这恰恰是这个网络的特殊性,体现了用户A连接其他用户的紧密性.排在前面的基本都是普通用户,与用户A有很多共同的关注,说明这些用户的兴趣与关注焦点与A有相同之处,其中大部分都是用户A的真实朋友.这些用户在网络中到达其他用户的距离很短,说明获取信息能力较强.与平亮构造的微博网络对比来看,接近中心性靠前的更容易获取信息,不易受人控制,独立性强.对于整个微博网络而言,入紧密度高的用户能够在整个网络中散布信息,让其他用户很快得到信息;出紧密度高的用户,对整个网络的信息获取能力较强,能很快得知网络中的信息.
当然在整个微博用户网络中也存在与信息发布者的关系不那么紧密的节点——弱关系节点,是处于网络外围的节点.他们的出度与入度相对较小,紧密度也很小,在网络中处于边缘,活跃度和影响力相对较小,信息只能在较小的范围内传播.但是,他们对信息的呼应以及由此形成的次级传播,对于信息传播也有重要意义.如果一条信息能够激起很多弱关系节点的响应,那么,信息传播的效果也会得到提高.从某种意义上说,弱关系节点的认同度对于信息传播的范围起着更重要的作用.
2.5 K-壳中心性分析
网络中一些节点往往能表现出很好的群聚效应,它们在网络中联系紧密,并且处在网络的核心位置,是网络信息传播的关键节点.从另一个角度看,如何把基于度值的节点重要性排序方法加以推广,可引入一种粗粒化的节点重要性分类方法,即K-壳分解方法,利用K-壳的概念将用户网络的核心分离出来,加以分析.微博网络的K-壳分解分为入K-壳分解和出K-壳分解.入K-壳是在去除节点时以入度为标准,从而得到该网络最大入K-壳为13-壳;同理最大出K-壳为14-壳.最大壳网络如图1所示.
图1 网络中的最大出K-壳与入K-壳Fig.1 Maximum out-K-shell and in-K-shell in the network
从图1可以看出,该网络的出K-壳用户要明显多于入K-壳用户,说明该网络中用户侧重于信息的获取和对具有影响力用户的关注.从图1(a)可知,入K-壳体现了网络的入度核心节点,即其他用户关注该用户的程度,这些节点基本都是娱乐明星或者是大家关注的焦点.相关研究表明,具有相同特质的节点更容易相连,从另一方面也说明用户A的兴趣在于娱乐.这些用户在网络中是信息的主要获取节点,在网络中处于核心位置.从图1(b)观察出K-壳网络,不难发现除了娱乐明星外,多了很多机构及与用户A有共同兴趣爱好的用户,而这些用户是为了获取更多自己感兴趣的信息或关注自己感兴趣的其他用户.从图1也可以看出其他用户的兴趣所在,体现出微博用户网络也存在社团结构,用户间彼此关注形成一个群体,而对于群体外的用户关注很少.
2.6 社会网络指标与度之间的相关性
为进一步了解各指标间的关系,探究网络属性间的相关性,本文采用Spearman秩相关系数[11]计算,利用SPSS软件得出以下结果,如表3所示.
从表3不难发现:出度、入度与介数具有较强的相关性,都大于70%,即出度大或者入度大,节点的介数变大的可能性也比较大.反映到微博网络中,如
表3 社会网络指标间的相关系数Tab.3 Correlation coefficients between social network indicators
果粉丝数很多,关注度很高,则在网络中控制信息的能力可能会变强.进一步,对于介数来说,入度比出度相关性更大一些,说明入度更能影响该用户控制信息的能力.对于出度与出K-壳、入度与入K-壳、入度与入紧密度、入紧密度与入K-壳之间的相关性都很高,相关系数高达92.83%和93.86%,说明它们之间有着很大的关联.比如入度与入紧密度之间的关系,随着入度的增加,在该网络中其他用户到达该用户的距离就会缩小,入紧密度就增加.反而,出度与出紧密度、介数与出紧密度、出紧密度与出K-壳间相关性却很小,都不到50%.按照上述理论,出度增加,出紧密度也应增加.考虑到实际情况,在微博网络中存在着一些社团结构,即实际的朋友圈子,在圈子内部关注特别紧密,然而与圈子外联系却很少.比如明星社团,他们彼此之间关注很多,然而对于社团外的关注就明显减少.受这一因素的影响,一用户出度可能很大,可他到达圈外用户的距离不一定减小,所以出紧密度也就不会增加.
3 结束语
本文的研究对象是自我为中心的网络,搜集个人微博用户的关系数据,研究了个人微博网络的节点中心性及网络中用户的影响力.从点度中心性、介数中心性、紧密度中心性、K-壳中心性,分析了个人微博用户网络的节点中心性,分别得到了中心性用户.分析每个指标下用户在信息传播中的作用及该用户的兴趣所在,得知该网络的一些特殊性质.然后计算出了社会网络指标与度的相关系数,从中体现出各指标之间的相互关系,更加清楚地识别网络结构.本文主要从静态方面考虑了用户的影响力,而用户的实时动态体现了网络中用户的活跃性,是用户动态影响力的体现,因此网络的动态节点中心性有待进一步研究.
[1] Ellison N B,Steinfield C,Lampe C.The benefits of Facebook“friends”:social capital and college students’use of online social network sites[J]. Journal of Computer-Mediated Communication,2007, 12(4):1143-1168.
[2] Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media?[C]∥Proceedings of the 19th International Conference on World Wide Web. New York:ACM,2010:591-600.
[3] Fu F,Chen X,Liu L,et al.Social dilemmas in an online social network:the structure and evolution of cooperation[J].Physics Letters A,2007,371(1):58 -64.
[4] 杨凯,张宁.微博用户关系网络的结构研究与聚类分析[J].复杂系统与复杂性科学,2013,10(2):37-43.
[5] 荣莉莉,郭天柱,王建伟.复杂网络节点中心性[J].上海理工大学学报,2008,30(3):227-230.
[6] 狄增如.系统科学视角下的复杂网络研究[J].上海理工大学学报,2011,33(2):111-116.
[7] 于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,1:96-102.
[8] 原福永,冯静,符茜茜.微博用户的影响力指数模型[J].现代图书情报技术,2012(6):60-64.
[9] Freeman L C.Centrality in social networks conceptual clarification[J].Social Networks,1979,1(3):215 -239.
[10] 苑卫国,刘云,程军军,等.微博双向“关注”网络节点中心性及传播影响力的分析[J].物理学报,2013,62 (3):038901.
[11] Hethcote H W.The mathematics of infectious diseases [J].SIAM Review,2000,42(4):599-653.
[12] 平亮,宗利永.基于社会网络中心性分析的微博信息传播研究——以Sina微博为例[J].图书情报知识, 2010(6):92-97.
[13] 何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].情报理论与实践,2011,34(11):121-125.
[14] 杨凯.在线社会网络的结构、节点中心性和用户影响力研究[D].上海:上海理工大学,2014.
[15] 汪小帆,李翔,陈关荣.网络科学导论[M].北京:高等教育出版社,2012.
[16] Barthelemy M.Betweenness centrality in large complex networks[J].The European Physical Journal B-Condensed Matter and Complex Systems,2004,38 (2):163-168.
[17] 刘军.社会网络分析导论[M].北京:社会科学文献出版社,2004.
(编辑:丁红艺)
Node Centrality on Individual Microblog User Networ k
YANGKai, ZHANGNing, SUShuqing
(Business School,University of Shanghai for Science and Technology,Shanghai 200093,China)
A following and followed directed network was established based on Sina individual microblog.By analyzing social network centrality indicators applied to the microblog directed network,such as the node degree,closeness,betweenness and K-shell,the node centrality of the network was found.The results point out the important users and their roles in dissemination of information.Besides,the characteristics of the users on the microblog network were analyzed in order to reflect the personal interests and hobbies.The correlation between the social networks index and the degree of network was studied to reflect the relationship among the indicators.The results will help us to identify individual key nodes,and then analyze the information dissemination on individual microblog user network.
microblog user network;node centrality;degree centrality;betweenness centrality; closeness centrality;K-shell
N 949
A
1007-6735(2015)01-0043-06
10.13255/j.cnki.jusst.2015.01.008
2013-10-28
国家自然科学基金资助项目(70971089);上海市一流学科建设资助项目(XTKX2012);上海市研究生创新基金资助项目(JWCXSL1202)
杨 凯(1987-),男,硕士研究生.研究方向:复杂网络、在线社会网络分析.E-mail:yang_kai_2008@163.com
张 宁(1956-),女,教授.研究方向:复杂网络.E-mail:zhangning@usst.edu.cn