基于社会网络分析的微博意见领袖的挖掘
2021-09-16赵雨华邓少灵
赵雨华 邓少灵
随着微博的发展和意见领袖在网络中作用的增大,发掘和利用微博意见领袖具有重要意义。本文从社会网络分析角度出发,根据用户关注的网络图,选取中心性指标和PageRank值作为评价指标,构建微博意见领袖挖掘模型。运用这一模型实证分析“无锡高架坍塌”事件的意见领袖,通过与其粉丝数进行对比验证,来证明这一方法的可行性。
近年来,微博在众多交互网络平台中已成长为用户数与使用率最高的社交平台。新浪微博发布的2020年第三季度的财报显示,微博第三季度月活跃用户达5.11亿,同比净增长约1400万用户。微博日活跃用户达2.24亿,同比净增长约800万用户。随着微博的不断发展,微博意见领袖的研究也逐渐得到了学术界的关注。
相关研究
“意见领袖”这一概念最早出现在1940年,由美国学者拉扎斯菲尔德在《人民的选择》一书中提出,那些在人际传播中经常为他人提供信息或意见,并影响他人的“活跃分子”,被称为意见领袖。微博意见领袖也就是能在微博网络中能够起到信息桥梁作用并能在微博网络中产生一定影响力的网民。
从传统的社会网络分析角度,为了挖掘出微博意见领袖,就要确定用户的中心性和影响力,Freeman等人提出通过中心性指标来实现网络节点中心性程度的量化,根据不同类型的网络使用差异化的指标来度量,度量用户社会网络中节点地位的指标主要包括度指标、接近中心度指标和中介中心度指标。
王娟等人利用社会网络分析中的中心性指标:内连接度,外连接度,接近度,中介度和核数对社交网站的意见领袖进行识别,并通过运用SPSS中的主成分分析法对各指标的权重进行确定,最终建立了新的意见领袖识别模型。
除了传统的中心性度量指标,还有互联网视角下的PageRank值度量用户的网络影响力。
根据现阶段研究,微博社会网络与互联网在结构上存在一定的相似性,不同的网页相当于微博网络结构中的节点,PageRank作为当前网页评分排序的主要方法,是互联网节点评价的重要手段,同样适用于微博社会网络中用户的重要性及影响力评价。周飞和高茂庭从用户自身影响力、用户行为以及动态行为对内容的影响程度角度入手,提出一种基于用户影响力和PageRank的意见领袖发现算法。王正成等利用LDA主题模型挖掘出特定话题中的各个主题,对不同主题的用户分类,结合不同主题分类用户的属性以及PageRank算法识别意见领袖。
社会网络中心性指标是从网络整体角度进行测量,计算用户的中心性,而以网络链接为主的PageRank值是从局部进行度量,容易忽略高权威点和整体网络的刻画,计算用户的影響力,因此本文结合这两种方法共同构建意见领袖挖掘模型并结合具体实例,得到意见领袖。
意见领袖挖掘模型
指标选取
社会网络中心性指标
点入度。点入度表示某节点受到网络中其他节点关注的程度,点入度高的用户在网络中拥有很高的声誉,体现了此用户的吸引力,在网络中可能成为信息传播的源头。
点出度。点出度表示某节点关注网络中其他节点的程度,点出度高的用户在网络中具有较强的社交性,体现了此用户的积极性,在网络中能够从其他成员那里获得丰富的信息。
入接近中心度。入接近中心度指的是某节点在网络中传播信息是不受其他节点控制的能力,入接近中心度高的的人,表明其在网络中传播信息的能力强。
出接近中心度。出接近中心度表示某节点在网络中获得其他节点信息的难易程度。外接近中心度高的人,表明其在网络中获取信息的能力强。
中间中心度。中间中心度表示一个节点担任其他两个节点之间最短的桥梁的次数,即一个用户在多大程度上位于网络中其他任意两用户的“中间”。一个用户处于“中间”的次数越多,这个用户的中间中心度就越高,其控制相邻两个用户交往的能力越强,说明其在网络中处于重要地位。中间中心度高的用户能在一定程度上影响并控制该网络中的信息传播。
PageRank值
PageRank是Google创始人1998提出的,基于网络结构的排序算法,作为排名运算法则主要是确定不同网页的等级,基本思想是:单一页面所链接的其他页面越多,该页面的影响力越大,相应的PageRank值越大。本文基于微博的关注及被关注关系网络,利用PageRank算法思想,计算不同用户在网络结构中的PR值如
其中,表示用户的PR值,表示用户的PR值,表示所有关注用户的用户集合,表示用户关注的所有用户,表示网络结构中用户的数量,为阻尼系数,取0.85。
微博意见领袖挖掘模型的构建
假设用户社会关系网络中共有个用户,首先获取用户的点入度、点出度、内接近中心度、外接近中心度、中间中心度和PageRank值指标,分别为?、 W2、 w3、w4、wg、wg其次将各个指标值进行归一化处理,对6个度量指标加权平均计算,其中指标权重,最终得到意见领袖挖掘模型为
本文引用陈芬通过专家打分确定的指标权重,如公式
实证分析
本文利用python爬取了新浪微博 “无锡高架坍塌”这一话题的相关数据。对从2019年10月10日18时到2019年10月11日23时这段时间“无锡高架坍塌”事件热门微博以及每一条热门微博的博主ID名称进行采集。采集到的这一时段中的“无锡高架坍塌”这一话题下的热门微博共计273条,涉及博主有169位。本文将通过对这169位博主之间的关注关系进行统计,并建立各博主之间的关注关系网络,以便分析得到各博主的社会网络中心性指标值以及PageRank值。其中,社会网络中心性指标值运用UCINET软件得出,PageRank值运用MATLAB软件得出。
根据公式(3)对“无锡高架坍塌”微博话题中169名用户的这6个指标数据使用离差标准化方法进行归一化处理,对处理后的数据分析计算出群体内每位用户的意见领袖值,排名前10的用户信息分布如表左边所示,将他们认定为“无锡高架坍塌”事件微博话题中的意见领袖。
基于粉丝数的排序方式是最原始的排序方式,也是新浪微博各类排行榜采用的排序方式。表右边是微博话题意见领袖的粉丝数排名。通过对比表左右可以发现基于本模型的排序结果和基于粉丝数的排序结果整体上来看还是比较相近的,这在一定程度上验证了本文所建立的微博意见领袖挖掘模型的科学性。
本文从社会网络分析角度出发,根据用户关注的网络图,选取中心性指标和PageRank值作为评价指标,构建微博意见领袖挖掘模型。运用这一模型实证分析“无锡高架桥坍塌”事件,得到此话题的意见领袖。通过与粉丝数对比,验证这一模型的科学性。本文虽取得了一定的研究成果,但是仅从社会网络分析角度出发来挖掘意见领袖,在未来的研究中,可以结合用户的行为特征来全面地对微博意见领袖进行挖掘。
(作者单位:上海海事大学经济管理学院)