APP下载

具有社团特征的社交网络建模方法*

2018-03-13钱京梅

通信技术 2018年2期
关键词:网络拓扑社团社交

莫 娴,钱京梅,吴 茜

0 引 言

随着互联网的发展,人们的生活更加便捷,互联网的在线社交网络与人们的生活越来越紧密,Facebook、Twitter、微博等社交媒体极大地丰富了人们的生活,其中微博在国内应用最为广泛。

微博内容丰富、新颖、及时,用户能够随时随地获取大量信息。同时,微博具有低门槛性,只要成为微博用户,就能发表自己的意见,容易获取别人的认同,具有较强的参与性。微博用户数量庞大,用户间的关系复杂,可以用有向图G=(V,E)表示,其中V表示用户节点集合,E表示用户间的连接关系集合。用户通过关注与被关注的方式,实现用户之间的信息交互,在社交网络拓扑中,用一条边表示。同时,微博中,信息流具有方向性。例如,节点A关注节点B,A就成为B的粉丝,用A→B表示,而信息却是由B传向A;如果节点A与节点B相互关注,则用双向边A↔B表示,信息可双向传递。整个微博可以用有向网络进行描述,如图1所示,网络拓扑能够清晰表明用户之间的连接关系、信息流向等信息。

图1 微博网络拓扑

通过连接关系的特点,可以将微博用户大致分为普通节点和大V节点。大V节点关注少量节点,但具有大量粉丝,具有高入度、低出度的拓扑特性;普通节点的粉丝节点少,但他们通常会关注较多节点,具有低入度、高出度的拓扑特性;同时存在少量节点,即没有关注其他节点,其他节点也不关注他,成为孤立节点,这种节点对信息的传递没有影响,在网络拓扑中不予描述。

信息是如何在微博中传播的呢?用户发布微博,他的粉丝能够看到该信息,粉丝可以通过转发、评论、点赞等行为表达自己的意见;通过转发该微博,可以使粉丝的粉丝节点获取该信息,从而引起信息的进一步扩散;评论数、点赞数、转发数较多的话题,更能吸引粉丝评论、点赞及转发,通过这样的方式信息能够迅速在网络中弥散,如图2所示。热门话题的发帖数、转发数、评论数、点赞数等都较高,它的影响更广泛。

图2 微博信息传播

社交网络中有些个体之间关系密切,有些关系生疏,在围绕某一个焦点时又形成了联系更为密切的社区形式,可以看作社交网络中的虚拟社区结构,称为社团。虚拟社区结构是在线社交网络的一种典型拓扑结构特征,反映了网络中个体行为的局部聚集特征[1]。通过统计分析可知,微博网络具有社团特征,有相同兴趣、爱好的用户更容易形成一个社团。从网络拓扑上观察,社团具有社团内节点相互连接密集而社团间节点相互连接稀疏的特点,如图3所示。在微博中,部分用户行为具有相似性,如对某一话题感兴趣的用户会相互关注,且会关注该类话题的大V节点,对这一话题的参与度也较高,表现行为就是转发该类话题的微博、点赞频度较高、会在微博发表自己的意见等,而对其他话题的微博反应平淡,也许会有相关动作,但频度很低。

图3 社团示意

1 相关研究

目前,已有大量学者对微博展开了研究,同时对微博网络进行了建模。常见的建模方式有两类,一类是通过真实数据构建网络拓扑,一类是通过相关微博特征参数构建网络拓扑。

1.1 通过真实数据构建网络拓扑

该类建模方式主要通过网络爬虫的方法获取真实数据,从而分析构建网络拓扑。通常,选取已经发生的热门事件为中心,爬取微博上关于该事件的发帖、评论、点赞、转发等相关信息,采用大数据分析的手段,形成某一话题的传播途径,构建微博网络拓扑。这样构建的网络拓扑与真实世界一致,完整并直观展现了微博网络的结构特征和信息传播特性,能够充分分析话题在网络中的扩散程度和对人群的影响力。

例如,在《新浪微博的大规模信息传播规律研究》一文中,选取2012年4月到2012年9月期间部分热门话题的微博数据,得出了波纹式模型、蒲公英式模型、菌落式模型、烟花式模型、蜂巢式模型、双子星式模型和随机引爆式模型等几类传播模型,

并分别对7种传播模型进行了分析[2]。

由真实数据建立的网络拓扑描述的是在某一特定时期、针对特定话题的拓扑情况,当时间、事件发生改变时,网络拓扑随之改变,不会具有相似性,体现了网络演化的特点。采取这种方式构建社交网络拓扑,通常应用于舆情分析、评估、模型验证等方面。

1.2 通过特征参数构建网络拓扑

该类方式是通过已有的研究成果,获取微博网络的特征,并默认整个微博网络满足这些特征,从而构建用户要求规模的微博网络。该类方式主要研究社交网络传播过程的基础拓扑构建。

在《微博网络传播行为中的关键问题研究》一文中,以新浪微博为研究对象,提出了一种微博网络社团发现算法。通过爬取一定数量的微博数据,分析新浪微博的社团特征和用户连接特征,并将此作为构建微博社交网络的特征参数,提出一种“生成具有不同模块度和双向边比例的模拟网络”算法[3]。

在《NCSS:一种快速有效的复杂网络社团划分算法》一文中,根据复杂网络的社团特性,提出一种关于复杂网络社团划分算法。该算法采用社团扩张的方式逐步增加用户,最终形成一定规模的具有社团特征的复杂网络[4]。

在《微博社交网络模型的建立及其性质研究》一文中,提出了网络初始默认社团、社团开放度的属性及节点Interests等概念,并以此约束节点间差异的连接行为形成社团结构,提出了COMW模型和IBMW模型[5]。

2 具有社团特征的社交网络模型

为了研究社交网络对信息传播的影响,探索社会网络信息传播规律,本文侧重于构建大规模社交网络模型,尽可能真实模拟微博用户数量庞大、用户关系复杂的实际情况,以期为后续研究提供一个更可靠的基础环境。这里,提出一种具有社团特征的社交网络模型,通过已有文献研究的微博网络的特征参数,构建一个大规模的具有微博特征的社交网络。该模型能够描述微博社交网络的社团特性,呈现出社团间联系较稀疏、社团内节点联系紧密的特征,并且可以区分大V节点和普通节点。

本模型的基本思路是根据需求划分社团,逐一对每个社团进行建模,最后按照一定规则将社团连接起来,从而完成整个微博社交网络的建模,流程如图4所示。

图4 社交网络构建过程

2.1 划分社团

构建社交网络首先需要确定模拟网络的规模和社团数量,以此为依据划分社团。需要确定的参数为网络节点总数、社团规模特征、社团个数、用户节点数、大V节点数。划分社团时,需满足社团大小(即社团内节点的数量)服从幂指数为2的幂律分布规律[6-7]。

2.2 标题构建社团

这里已经明确社团的规模N及社团内的大V节点数v,构建社团的流程如图5所示。

图5 社团的构建过程

实现过程如下:

(1)按照构造小世界网络的算法构建N-v个节点的网络拓扑。该步骤生成的边为源节点关注目的节点的单向边。记录节点之间边的情况,形成有向边集合。

(2)根据网络密度ρ计算网络中边的总数,由双边概率q计算双向边的数量。网络密度的定义为,其中X表示网络中边的总数,N表示网络节点数。已有相关文献对微博的网络密度进行了研究,规模在1 000~7 000个节点的社团,网络密度的范围为0.000 4~0.052 2,平均值为0.007 7。双边概率是指节点间相互关注的情况,在微博中较少,q的取值范围为0.2~0.25[2]。

(3)优先选择度数较高的节点,完成单向边连接。依次遍历节点,将其作为源节点。在最开始阶段,节点的度基本一致,随机选择目的节点,完成单向边连接。当遍历开始后,节点的度产生变化,此时优先选择度数较高的节点。这与微博用户的实际行为一致,用户总是更容易关注粉丝数量较多的用户,这种现象称为“马太效应”。社团中的节点i与源节点的连接概率i∏满足:

其中,ki表示节点i的度[8]。

(4)完成双向边连接,以概率q从有向边集合中选出部分边,将每条单向边等价为两条具有相反方向的有向边,q为用户对之间存在双向边的概率。

(5)生成大V节点,完成大V节点和普通节点的连接关系,以概率Pv选取普通节点和大V节点的单向连接(普通节点关注大V节点),以概率Pn选取大V节点和普通节点的单向连接(大V节点关注普通节点)。

2.3 社团连接

经过2.2节后,已存在多个独立的社团,需通过一定的规律将其连接起来,避免出现孤立社团。社团连接流程如图6所示。

图6 社团连接过程

实现过程如下:

(1)根据模块度Q计算社团间连接边的数量,由此确定需要连接的节点对数量。复杂网络中提到了模块度(Modularity)的概念,它可以衡量社团划分的质量。当模块度Q的值在0.3与0.7时,表明网络具有明显的社团特性。微博网络的模块度Q值基本稳定在0.374左右。模块度的计算公式为[9]:

其中vre∑表示网络中所有节点的连边中,包含在社团v内各节点的所有连边的比例;av表示一边与社团v内节点相连的边所占的比例。

(2)选取节点,使节点位于不同的社团,用有向边相连,并保证节点之间都是单向连接,记录这些有向边形成有向边集合。

(3)以概率q从有向边集合中选出部分边,将每条单向边等价为两条具有相反方向的有向边,q即为用户对之间存在双向边的概率。

(4)完成大V节点与其他社团的大V节点、普通节点的连接。

(5)检测网络,若存在孤立社团,将其大V节点与其他社团的大V节点相连。

3 结 语

本文提出了具有社团特性的社交网络模型,借鉴小世界网络模型和BA无标度网络模型进行完善,以网络密度和双边概率作为社团构建的关键参数,生成单独的社团网络。由于在社团中大V节点数量较少,其特征与普通节点不同,这里将大V节点与普通节点区分开,通过概率Pv、Pn调节大V节点的连接关系,最后将各个社团连接起来,使之满足模块度要求,形成整个社交网络。国际上关于社交网络的研究仍处于初级阶段,尚未提出完整的社交网络分析的基础理论和方法,值得进一步进行研究和突破[1]。

[1] 方滨兴,贾焰,韩毅.社交网络分析核心科学问题、研究现状及未来展望[J].中国科学院院刊,2015(02):187-199.FANG Bin-xing,JIA Yan,HAN Yi.Social Network Analysis-Key Research Problems,Related Work,and Future Prospects[J].Bulletin of Chinese Academy of Sciences,2015(02):187-199.

[2] 易成岐,鲍媛媛,薛一波等.新浪微博的大规模信息传播规律研究[J].计算机科学与探索,2013,7(06):551-561.YI Cheng-qi,BAO Yuan-yuan,XUE Yi-bo,et al.Research on Mechanism of Large-Scale Information Dissemination Based on Sina Weibo[J].Journal of Frontiers of Computer Science and Technology,2013,7(06):551-561.

[3] 熊小兵.微博网络传播行为中的关键问题研究[D].郑州:解放军信息工程大学,2013.XIONG Xiao-bing.Research on Key Issues of Spreading Behavior in Microblogging Network[D].Zhengzhou:PLA Information Engineering University for the Degree of Doctor of Engineering,2013.

[4] 韩忠明,谭旭升,陈炎等.NCSS——一种快速有效的复杂网络社团划分算法[J].中国科学:信息科学,2016,46(04):431-444.HAN Zhong-ming,TAN Xu-sheng,CHEN Yan,et al.NCSS:an Effective and Efficient Complex Network Community Detection Algorithm[J].Science China:Scientia Sinica Informationis,2016,46(04):431-444.

[5] 杨强.微博社交网络模型的建立及其性质研究[D].北京:北京化工大学,2015.YANG Qiang.Establishment and Study of the Properties of WEIBO Social Network Model[D].Beijing:Beijing University of Chemical Technology,2015.

[6] Danon L,Duch J,Diazguilera A.Comparing Community Structure Identification[J].Journal of Statistical Mechanics:Theory and Experiment,2005(09):09008.

[7] Radicchi F,Castellano C,Cecconi F.Defining and Identifying Communities in Networks[J].Proceedings of the National Academy of Sciences,2004,101(09):2658-2663.

[8] Bianconi G,Barabasi A L.Bose-Einstein Condensation in Complex Networks[J].Physical Review Letters,2001,86(24):5632-5635.

[9] Clauset A,Newman M E,Moore C.Finding Community Structure in Very Large Networks[J].Physical Review E,2004,70(06):066111.

猜你喜欢

网络拓扑社团社交
缤纷社团
基于通联关系的通信网络拓扑发现方法
社交牛人症该怎么治
聪明人 往往很少社交
社交距离
能量高效的无线传感器网络拓扑控制
你回避社交,真不是因为内向
最棒的健美操社团
2017款捷豹F-PACE网络拓扑图及图注
劳斯莱斯古斯特与魅影网络拓扑图