APP下载

基于复杂网络的中文微博网络结构研究

2019-02-13吴蓉赖伟杰孟佳娜左振飞

计算机时代 2019年1期
关键词:微博

吴蓉 赖伟杰 孟佳娜 左振飞

摘  要: 为了探讨复杂网络特征,文章通过爬取新浪微博数据,并对数据进行清洗,利用微博用户的关注关系构建微博关系复杂网络,建立微博关注模型。基于复杂网络理论和分析方法,研究了微博的网络特征,探讨用户关注关系网络的小世界特性和无标度特性等特征。研究结果表明,微博关注网络的度分布服从幂律分布,具有较高入度的用户节点相比低入度的节点更容易被人关注,使得网络整体的无标度特性加强。

关键词: 微博; 关系网络; 小世界网络; 无标度网络; 聚类系数

中图分类号:G206          文献标志码:A     文章编号:1006-8228(2019)01-33-04

Abstract: For discussing complex network characteristics, the micro-blog user's follower relationship was used to build the micro-blog relationship complex network and the micro-blog follower relationship model by crawling and cleaning the Sina micro-blog data. Based on the theory and the analysis method of complex network, in this paper the micro-blog network characteristics were studied, the small-world and the scale-free characteristics of users' follower network was discussed. The research results show that the degree distribution of micro-blog follower network follows the power-law distribution. Comparing with low in-degree nodes, nodes with higher in-degree were more likely to be concerned, which makes the network enhance the overall scale-free property.

Key words: micro-blog; relationship networks; small-world networks; scale-free networks; clustering coefficient

0 引言

复杂网络是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。随着复杂网络的小世界效应以及无标度性的提出[1],复杂网络理论被应用到各个领域,自然界中存在的大量的复杂系统都可以用网络来描述,有学者发现社交网络[2]也符合复杂网络的模型,因此复杂网络理论同样被应用到了分析社交网络。

微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台[3],本文从微博平台入手,使用复杂网络理论对其结构进行研究。

1 微博关系复杂网络的构建

在2017年6月时以第一作者的微博账号作为种子,先获取了所有第一作者关注的用户的数据,再获得了这些用户所关注的用户的数据,从而对微博网络进行了三层的广度优先遍历。这里的用户数据包括用户的微博条数、获得别人点赞的个数、用户关注的人和关注用户的人,数据包含2.6万名用户,461万条关注连接。

对于微博来说,关注和被关注实际上是一件事情的两个角度。A关注了B,等价于B被A关注。在所爬取的数据中,记录了这2.6万用户中的每个人都关注了哪些人,及获取了2.6万用户节点的所有外连边。在根据以上用户数据和关注连接,本文建立起基于用户关注的复杂网络模型。

对于现实生活中常见的复杂系统,如交通网络、在线社交网络,可以自然地将其建模成复杂网络来进行抽象表达。图作为一种数据结构,被应用到复杂网络的描述中,其中网络实体用图的顶点表示,实体之间的联系用关联边表示。本文模型中将用户视为复杂网络中的节点,将用户的关注与被关注关系视作边,节点的出度值是该用戶的关注数,节点的入度值是该用户的粉丝数,边上的权值为该用户关注数量的倒数,整个网络为有向网络。

2 微博复杂网络特征分析

复杂网络具有小世界、无标度和集聚性[4-5]特性,社会网络是复杂网络的一种,所以一些复杂网络的理论和研究方法也适用于社会网络分析的研究。例如复杂网络中的小世界效应、无标度网络特性、聚类系数属性等。

本文统计了微博的粉丝数量、微博条数、以及与其他人互动的点赞数和评论数,对这几种指标求取了均值、中位数和标准差。如表1所示,标准差衡量了数据个体之间的离散程度,中位数远小于均值,可以看出大部分用户与均值的差距十分大。符合复杂网络中的无标度特征。

在微博社交网络数据中,幂率分布是数据的基本规律,幂率分布的长尾部分数据有明显的稀疏性[6-7]。图1与图2的横轴表示指标的具体数值,纵轴表示有多少用户具有该指标值。横轴值和纵轴值都取了以10为底的对数,在双对数坐标下的图像,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数。以粉丝分布图为例,最左上方的点表示在这两万多微博用户里面,有大于103的人没有获得一个关注。在图1的双对数坐标中利用线性回归得到斜率为-1.65,回归系数R2=1.65。大部分的节点只有少量的连边,而少量的节点却拥有大量的连边,说明了所构建的网络的幂律分布符合无标度网络的特征。

为了分析网络特点,本文对所爬取的数据的若干特征进行了计算,网络整体计算结果见表2。网络的聚类系数为1.453,结点平均距离为4.777,网络直径为12,可见,该网络的聚类系数较大,结点平均距离较小,满足小世界的特点。

图的平均最短路径长度是指将网络所有点两两之间的最短路径长度进行算术平均,可以用来衡量网络中点之间的平均距离。六度分隔理论指的是一个网络的平均最短路径长度为6。在微博复杂网络模型中反映用户与用户之间的平均距离,是评价一个用户紧密度的重要指标。表3给出了粉丝数大于1万的用户中平均最短路径为2.0547 。这意味着两个粉丝数大于1万的大V用户想要相互认识平均需要两个中间人。网络表现出小世界的网络特征。另外直径这个参数表示大V之间相互认识的最坏情况,两个大V之间的距离高达4个人。这是网络中的一种极限情况,存在的数量极少。由表3可知,粉丝数量大于5万的子集网络密度大于粉丝数量大于1万的子集。说明粉丝数量越高的群体之间的联系就越为紧密,网络越为健壮,不会因为失去少数节点而破坏网络的连通性。

复杂网络中已提出多种中心性指标来度量节点的重要程度,如度中心性、介数中心性、接近中心性、特征向量中心性等。目前应用较多的即为度中心性、介数中心性、接近中心性[8]。一个点的近性中心度较高,说明该点到网络中其他各点的距离总体来说较近,反之则较远。在微博复杂网络中需要选某个用户作为热点消息中转站,需要它到其他用户的距离总体来说最近,方法就是找到近性中心度最高的那个用户。

一个节点的介性中心度较高,说明其他节点之间的最短路径很多甚至全部都必须经过这个结点。假如这个点消失了,那么其他点之间的连接可能消失。图3给出了粉丝大于5万用户近性中心度分布图,图中横坐标表示每一个特定的用户,纵坐标是用户相应的近性中心度。从图3中可以看出,近性中心度服从幂律分布。

图4给出粉丝大于5万的用户介性中心度分布,图4中横坐标表示每一个特定的用户,纵坐标是用户相应的介性中心度。图4的后半部分表明大部分用户的介性中心度接近0,说明这些用户即使退出微博网络,也几乎不会影响其他用户之间建立关注关系。横向对比图4,随着圈子增大,幂律变得更强,除了少数点,大部分的人介性中心度都更趋近于0,人数的增加进一步稀释了大多数人的“独特性”,网络健壮性越来越强。

3 结束语

本文以微博用户关注数据建立了复杂网络模型,运用了复杂网络的一系列评估方法研究,结果表明微博用户在微博上的参与度极其不均衡,大部分用户的粉丝数都比较少。微博关注关系构成的网络的度分布服从幂律分布,整体表现出了无标度的特性,随着网络节点的不断增加,网络健壮性越来越强。意味着即使少数节点离开了微博平台,对于网络连接影响较小。

参考文献(References):

[1] 李清敏,张华平,刘金刚.面向话题的中文微博观点倾向性分析研究[J].科学技术与工程,2014.14(2):227-231

[2] 彭希羡,朱庆华,沈超.基于社会网络基于社会网络分析的社会计算领域的作者合作分析[J].情报杂志, 2013.33(3):93-100

[3] 宋双永,李秋丹,路冬媛.面向微博客的热点事件情感分析方法[J].计算机科学,2014.39(6A):226-260

[4] Kolda T G, Pinar A, Plantenga T, et al. A scalablegenerative graph model with community structure[J].Siam Journal on Scientific Computing,2014.36(5):424-452

[5] 孟佳娜,孫雪莲,云健.基于社会网络分析的高校教师科研合作关系研究[J].大连民族学院学报,2015.17(5):525-528

[6] 孙奕菲,姚若侠,焦李成.基于Memetic算法和关联学习的社会网络聚类分析[J].复杂系统与复杂性科学,2017.14(2):89-96

[7] 曾润喜,王晨曦,陈强.网络舆情传播阶段与模型比较研究[J].情报杂志,2014.5:119-124

[8] 童林萍,徐守志,周欢等.复杂网络中节点暂态中心性预测研究[J].计算机科学,2017.44(10):122-126

猜你喜欢

微博
何以解忧?基于社交媒体大数据的睡眠健康公众叙事研究
基于社交网络的英语互动微平台建设
新浪微博的“语—图”互文分析
基于Redis的微博系统基本功能设计
“985工程”高校图书馆阅读推广的调查与分析
微信与微博平台谣言差异分析
打造医院里的“主流媒体”
事实与流言的博弈
重大突发事件中微博之力不微
神回复