试论社交网络中重要节点的选取原则*
2020-12-23李元齐
李元齐
(英国华威大学,河北 宁晋 050000)
0 引言
高影响点在社交网络信息传播中起到至关重要的作用,并且高影响点的分析在其他领域也有很重要的意义[1]。推特、脸书以及微博在信息化发展中蓬勃发展,并已经成为居民信息交互过程中必不可少的一部分。在微博上,大量公司通过社交网络投放广告,以此来抢占更多的市场份额。然而在社交网络中,用户有很多交互行为[2]。当下大部分研究针对固定时间节点不同节点的影响力的衡量[3][4],忽视了动态传播网络中传播节点的加入对传播拓扑图的影响。本文主要研究社交网络中广告投放,进而分析影响因子比较大的用户,后期选取这些用户作为广告投放的用户。
不同的节点的中心性对衡量节点影响力有着不同的偏差,单一中心性对于重要节点的选取会有严重偏误,进而对于重要节点的衡量指标要做多方面以及有针对性的研究[2][5]。Al-Garadi 等人将节点的中心性分为局部的和整体的,两者的区别在于衡量节点是否结合图形的整体结构。局部中性中度是一个广泛用来衡量节点重要性的指标,也有很多指标由其衍生出来并广泛用于重要节点的选取,例如邻居的度平均数(AND)[6]。在整体中心性上,Freeman 于1979 年展示了一种结合最短路径的算法,进而研发出了接近中心性算法和介数中心性算法,这两种算法广泛用于社交网络重要节点选取[7]。社交网络数据大部分是大于十万节点的,进而结合图形进行中心性提取在很多情况下是不现实的。近些年很多研究者着眼于半局部中心性算法的研究。
1 实证研究
1.1 数据来源
由于研究方向偏向于商业广告投放,因此,通过Python 在微博软件上对可口可乐及一些流量明星的信息进行采集并构建成为完整的转发网络,进而进行重要节点分析。由于微博关注网络只显示前3000 个粉丝,致使根本不可能得到关注网络,言外之意只能使用关注网络对微博用户的影响力进行分析。本文采集了12 组网络结构,由于自转发信息以及多次转发同一用户同一则信息将会大大影响节点的介数中心性属性,在数据清洗中将这些数据进行针对性的处理。
图1 数据可视化
通过对数据进行清洗,转化网络可视化,图1将两个清洗完的数据可视化,可以发现社交网络中,大部分节点连接于个别节点,图形的各个节点的度服从幂律分布,这一特征有助于对重要节点的初步筛选,并有针对性地根据各个节点的中心性进行再次筛选,进而减轻筛选的难度。
1.2 数据基本信息
表1 给出了12 组数据的基本特征,可以发现社交网络的图形结构比较稀松。
图形数据的度均值在2.4 左右,其数值什么小,也就是意味着每个节点大约有1.2 个线去链接,而度小于10 的占总体点数的80%以上进而可以得出图形中大量的节点连接于个别节点,也验证出了社交网络中的节点的度服从幂律分布。
表1 数据统计分析
1.3 基于整体中心性算法以及全图中心性算法的重要节点影响力分析
本章节主要介绍节点的整体中心性算法以及全图中心性算法,并结合两种算法分别运算得出结果,分析差异及对重要节点影响力的不同。
1.3.1 整体中心性算法
1.3.1.1 接近中心性
在方程(1)中,lij表示i点和j点之间最短路径的距离,因此方程(1)表示图中所有其他点到点i的最短路径之和。图2 中的节点的大小是根据节点的紧密中心性来绘图的,可以发现,如果一个点的接近中心性比较小,那么这个点将会位于图形比较边缘的位置;反之,接近中心性比较大的时候,那么点将会位于图形比较中心的位置。在一定程度上接近中心性也能反映出整体传播网络的传播深度。当信息传播比较深远的时候那么图形中的接近中心性的均值都会比较小。但是根据单一节点对图形结构的反应能力十分有限。
1.3.1.2 介数中心性算法
σ(s,t)是指点s到点t之间的最短路径多少,σ(s,t|v)是指点s到点t经过点v的最短路径的多少。进而可以得到介数中心性是衡量一个点位于桥点的概率,当介数中心性大的时候,会发现点位于图形比较关键的位置更偏向于图形链接个图形部分之间的关键点,尤其在社交网络中,其数值更像是衡量一个点在链接图形各个部分之间的重要程度。由图4 可知,当介数中心性比较大的时候,那么这个点是连接各部分之间的核心点如点2,3 以及4,进而介数中心性大小在社交网络各个群落之间传播有着至关重要的作用。尽管图4 中,各个节点的介数和接近中心性十分相似,但两者在密集型复杂网络中是有很大区别。
图2 图形接近中心性和介数中心性事例(左边节点的大小是根据节点的接近中心性的大小;右边节点的大小是根据节点介数大小来表达)
1.3.2 全图中心性分析
1.3.2.1 全图度中心性
1.3.2.2 全图接近中心性
1.3.2.3 全图介数中心性
2 结果分析
通过图形整体的接近中心性以及介数中心性,根据不同节点加入传播网络后进行网络结构分析,在网络结构可视化的过程中,如果采用每一秒进行节点选取,会有很长时间没有节点进入网络,因为微博用户大多数时间是在上午7 点到凌晨2 点对信息进行转发与评论。根据这一特性,将图形的每一节点加入作为一个时间节点进而根据这一特性构建出网络结构,并将节点加入密集的时间节点进行采集。根据所采集的数据,图形传播大致可以分为两种,根据节点加入的时间差可以将数据分为两类。
2.1 密集型传播社交网络
图3 介绍了密集传播型社交网络的全图中心性随时间的走势图,即不同节点加入图形后的全图整体介数中心性和接近中心性的变化,由图3 可以发现全图接近中心性、特征向量、介数中心性以及度中心性曲线没有太大波动,这表明重要节点以及传播用户在较短的时间内快速加入传播网络,从而使一些高影响节点的滞后效果被覆盖。因而对于这种传播图形分析的意义不大。
图3 图形接近中心性和介数中心性事例(左边节点大小是根据节点的接近中心性的大小;右边节点的大小是根据节点介数大小来表达)
2.2 分散型传播网络
图4 反映了分散传播性网络的全图中心性随时间的波动,在这个传播网络中,可以明显发现全图接近中心性以及度中心性曲线有个明显的波峰,根据研究方法可以知道,全图接近中心性变大表明信息由广度传播转向深度传播,而全图度中心性扩大则表明网络结构中有一些度较高的重要节点使得网络结构有较大的变化,即可能存在引入新的群体加入传播过程中。根据波峰的突起程度,可以衡量一个网络在加入传播过程中所带来的信息流量,进而衡量其影响能力。
图4 分散传播的传播网络
3 结语
重要节点在社交网络中的筛选原则主要从两方面去考虑:第一个是针对衡量节点影响力的指标选择;第二类是在动态网络中,节点影响力的衡量标准。
3.1 影响力指标筛选原则
由上述分析可以得到,在社交网络传播过程中,可以发现全图介数中心性以及度和接近中心性在图形中有着不同的作用和影响。
首先针对介数中心性,根据数据可以发现大多数网络的全图介数中心性在随着节点加入过程中没有太大变化,进而很难通过全图介数中心性分析出信息传播路径突变的时间节点,最终无法用全图介数中心性判别出重要节点的位置。而对于节点的介数中心性,会发现介数中心性在衡量节点的重要性方面也有一定的偏差。这种问题可能与社交网络的度的无尺度分布有关,即大量节点仅仅连接于个别节点,进而导致传播路径十分稀疏,并造成连接叶点的度数值比较大的节点拥有较高的介数中心性数值。
根据结果展示可以发现,全图接近中心性以及度中心性对于衡量图形结构变化有着比较好的作用,进而可以推测图形结构改变的节点的加入时间短,并提取这个时间段将其传播路径进行动态可视化,进而可以判别出在图形结构改变过程中哪些点拥有更广的影响力。
3.2 重要节点筛选规则
通过各个节点的度、接近以及介数中心性分析静态网络中的重要节点具有一定意义,但是静态网络中很难判别重要节点传播过程中深度和广度的延伸效果。相对应动态网络中可以根据全图中心性很容易得出信息传递波峰与信息发布的间隔,进而可以判别出用户对于信息传播的滞后效果,这一滞后效果主要是由于广度传播速率慢造成。在动态网络中深度的研究具有很重要的意义,通过全图动态结构网络可以发现,深度传播影响的是信息的传播持久度,并且更广的传播也意味着更广泛的信息受众类型。
在实践过程中,可以首先在静态网络中筛选出重要节点,然后结合动态网络中的全图中心性分析,进一步筛选出用户信息传播滞后性小的以及深度传播更持久的节点,从而提高信息传播的商业效率,并且减少信息传播中的过多传播节点的费用。