基于MUK-means算法的微博舆情意见领袖群识别
2019-02-07李熠辉李冠赵卫东
李熠辉 李冠 赵卫东
摘要:推动微博舆情事件演化是众多意见领袖共同作用的结果,因此识别意见领袖群对于舆情事件的监管具有重要作用。提出微博舆情话题下的意见领袖群识别模型,综合考虑用户属性特征、交互特征和网络结构,设计微博舆情下用户影响力评估算法MUR,并结合K-means算法形成MUK-means算法,实现对意见领袖群的识别。以新浪微博数据进行实验,MUK-means算法的聚类时间(14s)远远少于传统K-means算法(32s),而且基于MUK-means算法得到的意见领袖群的用户覆盖率高达86.3%。实验结果表明,MUK-means算法改进了K-means算法初始聚类中心不确定的缺点,不仅提高了聚类效率,而且实现了对意见领袖群的有效识别。
关键词:微博舆情;MUR;MUK-means;意见领袖群
DOI:10.11907/rjd k.192007
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2019)012-0030-05
0引言
网络舆情事件是指在网络世界中,由于各种刺激人们对于该事件所有的认知、态度、情感和行为倾向的集合。网络舆情事件的突发性、环境隐蔽性和网络用户素质参差不齐,都加大了社会公共治理难度。在通过法律手段对网络环境进行规范的同时,应更关注意见领袖对普通网民潜移默化的影响,正确的思想方向与规范的言论能够正确引导普通网民对待舆情事件的态度,继而影响事件的发展态势。微博作为国内主流社交平台,不仅拥有庞大的用户群,便捷化、大众化和实时性等特点更使其成为网络舆情事件形成和发展的主要阵地。在微博这个社会网络中,“意见领袖”不是指某一个体,单个的意见领袖并不能牵动全局,对舆情事件的引导、推动作用是众多意见领袖共同作用的结果。因此,准确识别出意见领袖群,对于网络舆情事件管理具有重大意义。
1相关工作
近年来,国内外学者在意见领袖识别方面作了大量研究,主要分为3个方向:基于链路分析的方法、基于社会网络分析的方法和基于用户特征的方法。
基于链路分析的方法主要以网页排序算法PageRank及其拓展算法为基础,根据用户间的链接关系对影响力进行迭代计算。这种算法主要研究用户间的交互行为,忽略了对交互内容的分析。对此,朱茂然通过分析回帖的情感倾向,计算情感权重,提出了Leader-PageRank算法。
传统基于社会网络分析的方法通过用户间的关系构建社会网络,利用节点人度、点度中心性、中间中心性、接近中心性等结构要素实现关键节点识别。Dewi提出通过定义社会网络中边缘类型寻找意见领袖。但是基于社会网络分析的方法在考虑节点全局性的同时,忽略了节点自身属性特征。
基于用户特征的方法主要利用层次分析法,通过对提取的特征加权,实现对用户影响力的综合评价,但是由于缺乏统一标准,往往会造成特征提取不全面。因此在微博舆情事件下,综合分析用户交互内容、用户自身特性及其网络拓扑结构对意见领袖群的识别具有重要意义。
上述研究虽然从不同角度实现了对用户影响力的评估,但对意见领袖范围进行确定时,往往采用排名阈值方式,而阈值由研究者自己决定,具有很强的不确定性和人为性。为了解决此问题,本文提出微博輿情话题下的意见领袖群识别模型:综合考虑用户属性特征、交互特征和网络结构,借鉴PageRank算法思想,提出了MUR(Microb-log-lyric User-Influence Rank)算法实现对用户影响力评估,并将MUR算法与K-means算法相结合得到MUK-means(Microblog-lyric User-Influence-based K-means)算法,以影响力最大的用户为簇心进行聚类,识别意见领袖群,得到意见领袖的范围。
2微博舆情话题下的意见领袖群识别
微博舆情话题下的意见领袖群识别模型如图1所示,主要包括4个方面:①数据获取及处理,主要任务是对以Python语言编写程序爬取的舆情数据进行预处理;②用户特征分析,从用户活跃度和影响力角度对用户属性特征进行诠释,用户的交互特征是从语义角度对用户交互过程中产生的影响力进行刻画;③用户影响力评估,借鉴Pager-ank算法思想,综合用户属性特征、交互特征和网络结构,设计微博舆情下的用户影响力评估算法MUR;④意见领袖群识别,K-means算法与MUR算法相结合形成MUK-means算法,实现对意见领袖群和一般用户群初始簇心的确定,以对用户进行聚类,得到意见领袖群。
2.1用户特征分析
在微博舆情传播过程中,用户影响力是多种因素共同作用的结果,从静态和动态两个角度出发,本文选取用户属性特征与用户交互特征作为影响力评估基础。
2.1.1用户属性特征
根据拉扎斯菲尔德对意见领袖的定义,意见领袖是小部分具有一定影响力的活跃分子。综合微博特性和已有研究,本文从用户活跃度和影响力两个维度对用户属性特征进行描述。用户属性特征组成如图2所示。
活跃度A(i)是指用户单位时间内更新微博的数量,通过原创微博数(M1)和转发微博数(M2)体现。微博用户单位时间内活跃度越高,其在微博舆情话题下保持高活跃度的概率就越大。
影响力I(f)是身份认证(M3)、粉丝数(M4)和单位时间内微博被转发率(M5)的综合体现。微博用户认证意味着更高的可信度与曝光度,认证后的用户极可能被收录到搜索引擎,使用户及其所发微博的曝光度大大增加,而且在一般用户的认知中,经过认证的用户所发表的文字更加权威,更使人信服,可信度更高。用户粉丝量越大,其接触到的用户范围就越大,产生的影响辐射范围就越大。用户单位时间内微博被转发率越高,其在微博舆情话题下发表的言论被转发的机率就越大。
由于特征数据的维度不统一,因此为了方便数据处理,使处理结果更加准确,本文对各级特征数据进行归一化处理,采用rain-max方法,对数据进行线性变换,将数据映射到[0,1]区间内,转换如式(1)所示。
2.1.2用户交互特征
意见领袖的权威度来自于其他用户对其言论的认可,在微博舆情传播过程中,转发量和评论量是对其最直接的体现。但是在对意见领袖进行识别过程中,单纯地对数据量进行叠加并不能很好地诠释用户在交互过程中产生的影响力,因此本文同时从语义角度出发对用户交互特征进行分析:通过判断转发、评论内容与原微博情感极性是否一致,作为互动行为有效性的依据。
在已有研究中,往往通过正向情感占比实现对微博情感支持率的分析,由于情感粒度划分较粗,只统计正向情感的比例容易忽略关键信息,如在负面舆情事件中,博主发表微博“愿逝者安息,英雄一路走好”表达悲伤,情感极性为负向,而评论“太悲伤了”,情感极性虽然为负向,但表达的是对博主言论的支持,博主的言论对其产生了影响。为了改进上述问题,本文通过判断转发、评论内容与原微博情感极性是否一致对用户获取的情感支持,即产生的影响力进行衡量。本文采用FastText分类器对微博内容进行情感极性分析,将情感极性分为正向和负向两类。FastText是Mikolov于2016年提出的一种快速文本分类器,能够获得与深度学习分类器相近的准确率,但运行效率远远高于深度学习分类器,保证了舆情快速演化过程中情感极性的准确快速识别。获得情感极性分类后,定义在微博舆情传播过程中,情感一致的转发、评论行为视为有效互动行为,用户有效互动值Eij计算如式(5)所示。
2.2基于MUR的用户影响力评估
微博舆情下用户间的互动网络可以抽象为有向加权图G(v,E),其中v表示节点集合,E表示边的集合。将参与舆情话题讨论的用户看作节点,若用户间存在互动关系,构建用户间的有向边,边的权值由用户间的有效互动率确定。
PageRank算法是衡量网络中网页重要程度的经典算法,基于微博拓扑结构与网络拓扑结构的相似性,本文借鉴PageRank算法思想,提出了微博舆情用户影响力评估算法MUR,具体计算如式(6)所示。原始PageRank算法只考虑了网络结构,在影响力分配过程中往往采取平均分配原则,既忽视了用户节点本身影响力大小的不同,也忽视了传递过程中用户受影响程度的不同。鉴于此,本文将用户属性特征值P(i)作为节点初值,根据有效互动率分配用户影响力,对传统PageRank算法进行改进。
2.3基于MUK-means的意见领袖群识别
K-means算法是一种无监督学习的聚类算法,基于物以类聚的思想,对内在相似性大的数据进行分类组织,其因简单高效而应用广泛,但初始聚类中心的不确定性容易使K-means算法陷入局部最优解,造成聚类结果不稳定。本文提出将MUR算法和K-means算法结合形成MUK-means算法,在有效解决初始聚类中心不确定的同时,实现对意见领袖群的识别。在识别意见领袖时,用户总会被划分为意见领袖和非意见领袖,则可确定划分K值为2。MUR算法优化了PageRank算法,得到微博舆情话题下微博用户影响力从高到低的准确排名,用户的MUI值越大,其影响力就越大,排名越高。将MUR算法与K-means算法相结合,MUI值最高的用户代表意见领袖簇的聚类中心,MUI值最低的用户代表非意见领袖簇的聚类中心,避免了聚类中心的随机性,保证了簇间距离的最大化,优化了聚类效果,同时也得到了意见领袖群和一般用户群。
3实验与结果分析
3.1实验数据收集预处理
本文基于新浪微博提供的開放API,以“重庆公交车坠江”作为关键词,爬取2018年10月28日-2018年11月2日的相关传播数据,详细数据集信息如表1所示。此外,实验数据还包括用户基础信息:粉丝数、认证信息及其近一个月内发表、转发微博的相关信息。
在收集的数据集中,仅包含“#重庆公交车坠江#”话题标签的微博数据有539条,不能作为有效数据进行分析,在过滤掉无效数据后,剩余45519条微博,参与讨论(发布原创微博或转发微博)的用户数为39074,有12642个用户发表了原创微博,但是没有引起任何转发和评论,有16007个用户转发他人微博后并没有引发二次转发。本文将对剩余的10425个用户及其互动关系构造的网络进行影响力计算。
3.2评价指标
(1)用户覆盖率(coverage Rate,CR)。由于目前对用户影响力没有一个统一的评价指标,本文选用户覆盖率指标对用户影响力评估准确性进行验证。用户覆盖率是指在微博舆情事件中受用户i影响的用户数占总用户的比例,计算公式如式(12)所示。NK表示前K个用户影响的用户数量,Ⅳ表示参与该舆情事件讨论的用户总数。
3.4实验与分析
3.3.1基于MUR算法的用户影响力评估实验
将用户作为种子节点,以用户间的互动关系构建网络。提取用户身份认证信息、粉丝数,并以用户2018年9月27日2018年10月27日一个月内的微博数据作为样本,统计单位时间内的原创微博数、转发微博数、被转发微博数。对数据进行归一化处理后,根据式(4)计算用户属性值作为节点初始值。调用Python的FastText包实现情感极性的分类,工作流程如图3所示。通过情感一致性判别对有效互动值进行计算,并根据MUR算法计算式(6)对互动网络中的用户影响力并进行迭代计算,直到每个节点的MUI值与上次计算的MUI值相等,得到每个用户最终的影响力值。
为了验证MUR算法对用户影响力评估的准确性,采用前K个用户的用户覆盖率对MUR算法与UI_LR算法、PageRank算法进行对比。3种算法的用户覆盖率结果如图4所示。图4中,MUR算法和UI-LR算法性能明显优于PageRank算法。虽然在前10个用户的影响下,UI-LR算法与本文算法覆盖的用户范围十分接近,但是在10名之后的用户影响下,本文算法覆盖的用户范围更广,这充分说明了MUR算法对用户影响力评估的有效性,同时保证了初始聚类中心的准确性。
3.3.2基于MUK-means算法的意见领袖群识别实验
基于MUK-means算法的意见领袖群识别,即将意见领袖识别转换为一个二分类问题,把用户分为意见领袖和一般用户。以在用户影响力评估中影响力最大和最小的用户作为初始聚类中心,归一化后的用户属性特征与互动特征作为特征向量,利用Python实现用户聚类,影响力最大的用户所在的簇即为意见领袖群。
由于目前没有对意见领袖群的识别研究,缺乏对比算法,为了证明MUK-means算法对意见领袖群识别的有效性,通过DBI指标和聚类时间对比MUK-means算法与K-means算法的聚类效果,并计算两种算法得到意见领袖群用户覆盖率,结果如表2所示。
从表2可以看出,MUK-means算法运行时间要小于K-means算法,因为MUK-means算法对初始聚类中心的确定,减少了迭代次数,优化了原始K-means算法。MUK-means算法的DBI值要低于K-means算法,说明MUK-means的聚类效果要优于K-means算法,即由MUK-means算法得到的意见领袖群内距离更小,相似度更大。从得到的意见领袖群的用户覆盖率看,MUK-means算法得到的意见领袖群用户覆盖率高达86.3%,远大于K-means算法直接通过特征聚类得到的结果,说明了MUK-means识别意见领袖群的有效性。
4结语
本文针对现有研究对意见领袖范围不确定的问题,基于对用户属性特征、交互特征和网络结构的多角度分析,提出了微博舆情话题下的意见领袖群识别算法MUK-means。实验结果表明,MUK-means算法改进了传统K-means算法初始聚类中心不确定的缺点,提高了聚类效率,能够有效识别微博舆情话题下的意见领袖群,从而为相关部门及时掌握意见领袖范围,了解舆情动态,进行舆情控制提供了依据。然而本文在分析用户交互特征时,没有考虑到网络水军所发虚假评论的影响,下一步研究中将对虚假评论进行过滤,从而进一步提高意见领袖群的识别准确率。