微博用户关系网络的结构研究与聚类分析
2013-12-19杨凯,张宁
杨 凯,张 宁
(上海理工大学管理学院,上海200093)
0 引言
随着互联网2.0技术的发展和计算机网络的普及,在线社会网络已成为人们生活工作中不可或缺的工具。各种在线社交网站如雨后春笋般涌现,一般交友网(如聚友网和脸谱网)、在线图片分享网(如Flickr)、朋友社交网(如校内网和雅虎360)、商务人士关系网(如若邻网)和职业人士社交网(如天际网)等等[1]。国内外对在线社会网络的研究更是如火如荼。如Ravi Kuma等[2]研究了Flickr和雅虎360两个在线社会网络,按照节点的连通性分布将网络分成了3个部分,提出了动态属性的概念和一个简单的网络增长模型,分别给出了两个网络的动态属性和网络中3个部分的结构演化。Alan Mislove等[3]对4个在线网络进行了拓扑特性研究,4个在线网络都满足无标度特性、小世界特性,用户网络节点的入度和出度相匹配。汪小帆等[4]对大型在线职业人士社交网——若邻网进行了研究,研究表明该网络具有小世界特性、高群聚系数,网络结构具有层次化和社团性。同时研究了该在线网络的结构演化,网络牵制控制等。
微博是近几年继博客之后新兴的社交平台,基于复杂网络理论,国内外对微博用户关系网络的结构已经做出了一些成果。国外HaewoonKwak等[5]对Twitter进行了实证研究,研究显示用户网络的粉丝分布非幂律,网络的有效直径很短,并且互惠指数很小。用粉丝数和PageRank算法对具有影响力的用户进行了分析,两个方法的结果很相似。AkshayJava等[6]给出了Twitter用户的增长率,研究了Twitter社会网络的拓扑结构和地理位置分布,用户利用微博主要是谈论日常活动或者搜寻分享信息。尹书华[7]以新浪、腾讯、搜狐三大微博注册用户为研究对象,根据用户之间的关注关系构建了复杂网络,分别给出了该网络的度分布、平均群聚系数以及平均路径长度等统计特征,得出微博用户关系网络具有无标度特性以及小世界效应。樊鹏翼等[8]对新浪微博也作了实证研究,结果显示新浪微博用户关系网络有小世界、无标度和同类混合模式等特点,并且用户关系网络的出度和入度具有弱相关性,相关性仅为0.033。郭正彪等[9]研究了新浪微博用户怎样连接形成微博关系网络,将微博用户分成两类(普通用户和认证用户),这两类不同的用户明显有不同的网络属性。研究表明微博用户关系网络是个信息驱动网络而不是关系驱动网络。对于用户兴趣,张宁等[10-11]研究了用户浏览网络日志的兴趣,找出群体兴趣网络的特殊性质及其自身的演化规律。而微博用户的兴趣时刻影响着微博用户关系网络的结构。
在线社会网络最大的特点在于它的动态性,网络无时无刻不在变化,这给研究带来了一定的困难。在研究在线社会网络的一些属性时不能局限于一个时间点,而要看它整个过程,然后综合研究网络的特性。在这个过程中数据的获取是最大的困难所在。本文主要研究了个人微博用户关系网络随时间的变化,网络结构属性的变化体现用户行为的变化。在这一过程中对于信息获取又有怎样的影响?对于某一时间点个人微博用户关系网络是否也满足无标度特性和小世界特性?在个人微博用户关系网络中,都有哪些类型的用户,用户在网络中扮演怎样的角色?
本文利用复杂网络的理论知识,将微博用户关系用网络的形式描述出来,根据网络结构属性的变化来刻画用户的行为和在网络中的影响力。利用聚类分析的方法,将微博用户进行了分类,根据他们在网络中的结构属性,可以得出他们在网络中的目的和类型以及兴趣爱好,从而有利于微博运营商对用户有针对性的推荐。
对于微博关系网络的研究如今也处于白热化阶段,微博网络从各种不同角度进行研究,本文主要是针对个人的微博用户网络,对于普通用户来说(除认证用户)都有一定的普遍性。能更加深入了解用户的行为与兴趣爱好,以及对信息传播的影响,使微博平台更好地服务于用户。
1 相关理论
微博用户关系网络是一个有向无权网络,描述复杂网络的属性有很多,比如网络的度分布、密度、群聚系数及介数等等,这些基本理论不再详述。社交网络分析是基于相互作用单位或节点之间的关系或链接的重要性进行的[12]。为便于理解,将本文用到的术语和理论作以下介绍。
关注率[13]:为节点的入度与出度的比值,即一用户的粉丝数与该用户关注的对象数的比值,刻画的是个人在网络中的影响力。
聚类分析法[14]:聚类分析又称群分析,是研究分类问题的一种多元统计方法,即将待处理的对象分配到相应的聚类中,使得同一聚类中的对象差别较小,而不同聚类之间的对象差别较大。K-means聚类算法[15]是挖掘技术中一个成熟的且认可度很高的算法,是利用距离函数将不同对象进行聚类的方法。选用欧式距离函数,个案x和y的欧式距离是两个个案的m个变量之差的平方和的平方根,距离函数公式为
2 数据准备和网络构建
本文在研究新浪微博中,抽取了一个普通活跃用户(即新浪微博非认证用户,并且微博数和粉丝数不为零)——(记为用户A),以这个用户为节点出发,搜集与该用户有直接关联的用户(他的关注与粉丝),以用户作为节点,他们之间的“关注”与“被关注”关系作为边所构成的有向网络,凡是与用户A没有直接关联的用户都不在网络范围内。因此,用户A的兴趣爱好对于网络有很大影响。记录了该用户从2011年3月注册开始到2012年9月期间3个时间点的数据。2011年4月27日为时间点1,该时间点为用户刚注册不久,显示了微博用户开始阶段的兴趣特征;2011年12月23日为时间点2,该时间点为用户关系网络出度急剧增加入度变化很小,显示了用户过渡时期的行为特征;2012年8月8日为时间点3,该时间点为用户关系网络入度变化较大,显示了用户长期的变化特征,处于用户稳定阶段。用户A网络的总节点数和边数如表1所示。这3个时间点体现了微博用户网络的变化特征。对应于这3个时间点的数据得到3个网络,将这3个网络加以研究分析。用户加入到微博网络中一般经历这3个过程,将网络的拓扑特性进行了对比分析。还搜集到了网络3的所有用户的资料,包括每个用户的粉丝数、关注数和微博数。
表1 微博用户的网络数据Tab.1 The data of networks on micro-blog users
3 微博用户关系网络的结构分析
3.1 基于一个时间点的微博用户关系网络的统计属性
对于微博用户关系网络的结构,首先分析网络属性。选取时间点3的网络,该时间点的数据处于用户注册时间后期,网络出度入度较稳定。从网络的度分布,平均群聚系数和平均最短路径分析了网络的统计属性。
3.1.1 微博用户关系网络的无标度特性
微博用户关系网络为有向网络,其度分布分为入度分布和出度分布,本文利用度分布函数对网络的度进行刻画。根据搜集到的数据,得到微博用户关系网络的度分布,如图1所示。
图1 微博用户关系网络度分布Fig.1 The degree distribution of micro-blog user relations network
从图1得出在双对数坐标下,微博个人用户关系网络的出度和入度分都近似服从幂律分布,P(k)~k-r,用最小二乘法进行了拟合,分布的指数为0.977 88和0.888 54,说明个人微博用户关系网络具有无标度特性。
3.1.2 微博用户关系网络的小世界特性
网络的小世界特性体现在两个方面,一是平均最短路径,二是网络的平均群聚系数。计算得出微博用户关系网络的平均最短路径和平均群聚系数分别为3.798 76,0.328 3。与同等规模的随机网络作对比,计算出随机网络的平均最短路径和平均群聚系数分别为4.672 57和0.080 98。微博用户关系网络与同等规模的随机网络相比较,有较小的平均最短路径长度和较大的群聚系数,表明该微博用户关系网络具有明显的小世界特性。由于该微博网络是个人用户的微博网络,用户的兴趣主导了整个网络,从网络的节点数可知用户关注数并不多,彼此之间的距离小,平均路径不会太大,从而表现出小世界现象。另一方面也表明微博用户关系网络连接紧密,有利于信息在网络中的传播。
3.2 基于时间变化的微博用户关系网络的属性
用户网络根据自己兴趣爱好的变化和生活交际范围的扩大等因素不断地变化着,而用户兴趣不会随时改变,因此到一定阶段微博用户关系网络变化就不会那么大。随着微博用户网络的变化,节点(边)的增加或减少,网络的拓扑特性也随着变化,从这些属性的变化上分析用户网络,得出用户A的行为和网络中信息传播的变化。
首先统计出了用户A的出度和入度变化,如表2所示,从表中可以看出用户A的入度和出度都不断地增加,即用户的粉丝和关注数都在增加,总节点数也不断增加,表明用户网络范围不断扩大,用户获取信息不断增加,信息传播范围相应变大,用户A的兴趣变得更加广泛。相比来看,时间点2比时间点1出度增加较大,时间点3相比时间点2入度增加较大。用户A的关注率不断增加,表明用户在网络中的影响力逐渐增强,用户A的信息传播能力不断增强。
对于微博用户关系网络,随着时间的变化网络结构也发生变化。网络密度描述的是网络的稠密程度;节点i的介数表示网络中所有节点对的最短路径中经过节点i的路径数目占所有最短路径数目的比例,反映了节点i的影响力;群聚系数反映了你的朋友圈的紧密程度[16]。计算出了3个不同时间点的网络的统计指标,如表3所示。
表2 用户A的网络属性Tab.2 The network's properties of user A
表3 不同时间点的微博用户关系网络属性Tab.3 The properties of micro-blog user relations network at different time points
从表1、表3中可以看出网络总节点数不断增加,网络中节点的平均入度和出度不断减小,说明网络越来越稀疏。关注的用户逐渐增多,并没有引起其他用户更多的关注,表明用户A的兴趣越来越广,信息来源越来越广,更有利于用户A获取自己想要的信息。
平均最短路径一直减小,说明网络节点间的平均距离不断变小。虽然网络范围不断扩大即节点不断增加,然而网络中边的连接数增加,用户间能达到的距离减小,从而网络的平均路径减小。网络中用户间交流和沟通更加容易,这一变化过程微博用户关系网络一直都表现出小世界特性,即平均最短路径比随机网络的小。
3个时间点的网络直径都较大说明网络辐射范围较大,用户A关注的对象较广,用户有广泛的信息获取资源。3个时间点的网络直径基本稳定,表明微博用户关系网络较为稳定。
网络介数的不断增大表明网络中用户节点的整体影响力不断增加,信息的传播能力变大,更容易获取及传播信息。用户A的关注不断增加,关注越多,信息来源越广泛,有共同兴趣爱好的微博用户关注同一人可能性就越高,从而用户的介数就不断变大。介数的不断增加使得网络中信息更容易传播,有利于用户获取即时信息。
网络密度逐渐变小,网络节点的增加,虽然网络中边也增加,但两者不是同比例变化的,对于整个网络来说还是变得稀疏。虽然网络变得稀疏,并不影响用户与其他用户交流和获取信息的能力。
网络的平均群聚系数变化很小,表明网络节点在增加的同时,整个网络中用户间彼此关注也增加。而平均群聚系数有所减小,说明用户关注变广,覆盖的不同类别的用户,不同类别之间的用户一般是不会相互关注,导致了网络的平均群聚系数减小。即用户间形成了不同的社团结构,在社团内关注更加密切,而社团之间连接就稀疏了,不利于社团间信息的传播。
网络的结构属性的变化上体现了用户行为的变化,从整个网络发展来看,用户获取信息的能力变强,网络中传播信息的通道变多,这些又是根据用户的兴趣发展变化而变化的。而用户网络结构的变化对用户信息传播的影响可以对信息模型的研究提供理论依据。
4 微博用户关系网络的聚类分析
微博用户关系网络分析剖析了网络的结构特征,为进一步分析微博用户的特性,发掘用户间的共同特性,本文用聚类算法对微博用户关系网络进行了聚类分析。用K-means聚类算法来挖掘微博用户类别和网络节点的共性。将网络3去除一些不活跃节点的影响,得到347个用户节点。将每个用户的关注数和所发的微博数作为网络中节点的信息获取量和活跃性的影响因素。选取用户的在该微博用户网络中的介数、出度、入度以及每个用户的关注数和微博数作为变量,将数据导入SPSS软件,用K-means算法进行聚类,最终聚为3类。聚类结果如表4、表5所示。
表4 最终聚类中心Tab.4 The final cluster centers
表5 每个聚类中的案例数Tab.5 The number of cases in each cluster
从表4和5可以得出类型1占了微博用户的81.84%,这类用户的关注数、微博数及在网络中的出度入度都最小。可见在该微博用户的网络中,大多数用户的关注数约为508,微博数均值为3 345。这类用户关注他人较少,一般都是朋友或者认识的人,微博数也较少,说明平常仅仅是和关注的人或者粉丝进行交流,关注他们的动态,获取自己感兴趣的信息。介数适中,即能得到其他用户的响应和关注,属于普通社交类型。该微博网络包含了大量的明星节点,他们粉丝虽然很多,但大部分发微博数很少,基本都是在与圈内人士进行交流与沟通,发布自己最新动态,所以大部分的明星节点也属于普通社交型。
从表4和表5看出类型2占了微博用户的13.83%,这类用户的微博数及出度入度都适中,关注数最大。可能因为爱好、信息传播内容、职业性质等因素,这类用户关注了自己感兴趣或者有相同兴趣的用户,因此比起“普通社交型”关注他人稍多一点。微博数较多能够与其他微博用户进行交流,能够让用户得到他们想得到的信息,然而出度和入度并不是很大,说明只有部分人关注了这类用户,属于“个人兴趣型”。同时介数最小,说明在网络中这类用户的节点重要性不大。
从表4和表5得出类型3占了微博用户的4.33%,这类用户的微博数与出度入度、介数最大,关注数适中。这类用户在网络中出度入度都最大,说明他在积极关注其他人微博更新动态和信息,浏览和了解网络当前最新、最热门的资讯,然后进行发布,让更多用户浏览信息,属于信息散播型。同时从表中看到这类用户的博文数最大,说明用户比较活跃,能积极传播当前发生的信息。介数最大也说明了这类用户在该微博网络中信息传播影响力很大。
综上所述,81.84%的用户能够与微博用户进行社会和朋友的交流,同时获取自己感兴趣的消息。13.83%属于“个人兴趣型”,这类用户关注数比较大,十分积极地参与微博,话题也能引起听众兴趣,信息创造的价值较大。4.33%的用户属于“信息散播者”,出度入度最大,更多的是关注他人,寻找自己感兴趣的话题和信息,也引起他人的关注给其他用户带来有用的信息。这些用户在网络中活跃度比较高,拥有大量的粉丝,称为网络节点的“权力中心”或“意见领袖”,当他们发布一条信息后,该信息就会在网络中迅速散播,将是主要的信息传播者。
在聚类统计结果中还包括聚类成员,每个个案的聚类信息。由于数据量较大,论文中没有列出。但这些分析结果对于微博服务商是有一定价值的。
5 总结与展望
本文主要研究了个人微博用户关系网络的拓扑特性,研究表明个人微博用户关系网络也具有无标度特性和小世界特性。分析了网络的不同时间点的属性,随着时间的变化网络结构发展变化,通过网络结构变化体现用户行为变化。根据网络节点的不同属性使用K-means聚类算法将微博用户分成了3种类型。了解了网络中的节点用户主要的目的与用途。能更加清晰地认识用户的兴趣和行为,可以考虑为用户推荐应用程序与其他用户。
随着在线社会网络的发展和用户的增加,微博网络还面临着很多的挑战,微博网络还可以从以下一些方面做进一步研究和改进。本文多数指标是无向网络指标,这是最简单的情况,而实际网络要比这复杂得多,所以对于有向加权网络有待进一步研究;本文只研究了一个用户的网络,对于普通用户结论具有普遍性,可对于一些认证用户不一定适用,还有待进一步研究;对于微博用户网络的动态演化、微博用户的影响力和信息传播的效率深入分析研究,有利于信息传播的控制,微博用户的行为特性对微博网络结构和信息传播的影响及微群对信息传播的影响,有待深入研究。
[1] 胡海波,王科,徐玲,等.基于复杂网络理论的在线社会网络分析[J].复杂系统与复杂性科学,2008,5(2):1-12.Hu Haibo,Wang Ke,Xu Ling,et al.Analysis of online social networks based on complex network theory[J].Complex Systems and Complexity Science,2008,5(2):1-12.
[2] Kumar R,Novak J,Tomkins A.Structure and evolution of online social networks[M]//Link Mining:Models,Algorithms,and Applications.New York:Springer,2010:337-357.
[3] Mislove A,Marcon M,Krishna P G,et al.Measurement and analysis of online social networks[C]//Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement,Ser.IMC’07.New York:ACM,2007:29-42.
[4] 汪小帆.在线社会网络分析与网络牵制控制[J].复杂系统与复杂性科学,2010,9(2/3):29-31.Wang Xiaofan.Online social network analysis and network pinning control[J].Complex Systems and Complexity Science,2010,9(2/3):29-31.
[5] Kwak H,Lee C,Park H,et al.What is twitter,a social network or a news media?[C]//Proceedings of the 19th International Conference on World Wide Web.New York:ACM,2010:591-600.
[6]Java A,Song X,Finin T,et al.Why we twitter:understanding microblogging usage and communities[C]//Proceedings of the 9th WebKDD and 1st SNA-KDD 2007Workshop on Web Mining and Social Network Analysis.New York:ACM,2007:56-65.
[7] 尹书华.基于复杂网络的微博用户关系网络特性研究[J].西南师范大学学报,2011(12):57-60.Yin Shuhua.A research of user relations properties based on complex network of microblog[J].Journal of Southwest China Normal University,2011(12):57-60.
[8] Fan P Y,Li P,Jiang Z H,et al.Measurement and analysis of topology and information propagation on Sina micro-blog[C]//Proceeding of IEEE International Conference on:Intelligence and Security Informatics.New York:IEEE Press,2011:396-401.
[9] Guo Z,Li Z,Tu H.Sina microblog:an information-driven online social network[C]//Cyberworlds(CW),2011International Conference on Cyberworlds(CW).New York:IEEE Press,2011:160-167.
[10]张宁.群体兴趣网的统计特性研究[J].上海理工大学学报,2008,30(3):243-246.Zhang Ning.Statistical characteristics study on the group interest networks[J].Journal of University of Shanghai for Science and Technology,2008,30(3):243-246.
[11]曹易,张宁.挖掘用户浏览网页的兴趣研究[J].计算机系统应用,2012,21(7):65-68.Cao Yi,Zhang Ning.Study of the uses'interests based on the internet browsing history[J].Computer Systems & Applications,2012,21(7):65-68.
[12]Coulon F.The use of social network analysis in innovation research:a literature review [D].Lund:Lund University,2005.
[13]Teutle A R M.Twitter:network properties analysis[C]//Electronics,Communications and Computer(CONIELECOMP),2010 20th International Conference on Date of Conference.New York:IEEE Press,2010:180-186.
[14]王晓光,袁毅,滕思琦.微博社区交流网络结构的实证分析[J].情报杂志.2011(2):199-202.Wang Xiaoguang,Yuan Yi,Teng Siqi.Empirical analysis on communicating structure of micro-blog community[J].Journal of the China Society for Scientific and Technical Information,2011(2):199-202.
[15]杨小朋,何跃.腾讯微博用户的特征分析[J].情报杂志.2012(3):84-87.Yang Xiaopeng,He Yue.Analysis on the user's data of tencent micro-blog[J].Journal of the China Society for Scientific and Technical Information,2012(3):84-87.
[16]汪小帆,李翔,陈关荣.网络科学导论[M].北京:高等教育出版社,2012.