基于用户分析的微博用户影响力度量模型
2015-04-21张绍武林鸿飞魏现辉
张绍武,尹 杰,林鸿飞,魏现辉
(大连理工大学 计算机科学与技术学院信息检索研究室, 辽宁 大连 116024)
基于用户分析的微博用户影响力度量模型
张绍武,尹 杰,林鸿飞,魏现辉
(大连理工大学 计算机科学与技术学院信息检索研究室, 辽宁 大连 116024)
微博用户影响力作为影响力研究在微博领域的延伸,已逐渐成为一个研究热点。该文在传统影响力度量指标的基础上,结合微博价值、消息传播过程中产生的影响力扩散以及用户的活跃程度,提出了三种新影响力度量方法,包括微博影响力、行为影响力以及活跃度影响力。此外,通过有效融合上述三种新度量方法提出了新的微博用户影响力度量模型。最后,针对不同影响力度量指标,该文对它们的内部关系进行分析,并阐述了影响力度量指标之间关联程度及形成原因。
用户影响力;新浪微博;传播路径
1 引言
随着网络的飞速发展,通过哪些因素来衡量网络用户的影响力以及如何挖掘有影响力的用户已逐渐成为研究热点。微博用户影响力作为影响力研究在微博领域的延伸,目前逐渐引起了广泛的关注。
目前,已有不少学者对微博用户影响力进行了研究探讨。其中,Cha等人[1]提出了三种用户影响力的度量方法,包括入度、转发、提及,并且基于这些方法分析了不同主题、时间下用户的影响力。Ye等人[2]对Twitter中用户粉丝数影响力、回复影响力、转发影响力进行了分析,并指出回复和转发是稳定的衡量指标。Weng等人[3]针对微博用户数和关系数服从均匀分布的特点,提出一种主题敏感的TwitterRank算法。与此同时,Lee等人[4]提出一种基于时间序列的影响力排序方法,不仅考虑链接结构,还加入了用户发布微博的时间戳信息,该方法可以挖掘出一些拥有潜在影响力的用户。Romero等人[5]在充分考虑并分析了用户影响力和抵抗力后,提出一种新的影响力度量方法IP-influence。HP实验室的Huberman等人[6]对新浪微博分析后发现,与Twitter用户在行为上相比,新浪微博用户主要关注笑话、图片或视频等娱乐类消息。此外,石磊等人[7]针对单一排名机制的不足,综合考虑用户在微博平台经常出现的三个行为,提出了用户活跃度模型,并从多个方面考察了用户的活跃状态。
本文对于用户影响力的研究主要讨论三个问题: 第一,用户影响力度量方法;第二,用户各类影响力指标之间的联系;第三,名人圈中各类影响力指标是否符合幂律分布。其中,影响力度量方法,本文首先实现传统影响力度量方法[1-2],包括粉丝数影响力、转发数影响力、评论影响力、微博数影响力,其次,考虑用户发布消息的传播范围,本文针对评论影响力以及级联影响力进行研究,再次,加入用户的活跃度因素,并最终提出一种融合用户行为和微博影响力的影响力度量模型。
文章的组织结构如下: 第二部分对相关定义进行说明,第三部分详细介绍本文的主要研究方法,第四部分是实验结果及分析,第五部分进行总结并展望下一步工作。
2 相关定义
本文根据前人研究[1-2]归纳为以下四种常见的影响力度量指标。
1. 粉丝影响力(If): 用来衡量首次传播消息的能力。用户拥有越多的粉丝,该用户的影响力越大。通常也称为度影响力。
2. 评论影响力(Ic): 用来衡量被用户评论的能力。用户拥有越多的评论,该用户的影响力越大。
3. 转发影响力(Ir): 用来衡量消息被其他用户转发的能力。用户拥有越多的转发次数,该用户的影响力越大。
4. 微博数目影响力(It): 用来衡量用户发布微博的能力。用户发布微博数目越多,该用户的影响力越大。
3 微博用户影响力度量模型
3.1 用户微博影响力
用户微博影响力主要衡量微博的价值。一个用户的微博影响力影响因素有很多种,例如,微博消息的新奇程度、发布微博的频率、微博的质量等。对于用户而言,在时间序列上微博影响力是一个累积的过程,本文将所有微博影响力的平均值作为用户的微博影响力。
(1)
图1针对用户的微博记录进行统计,并比较了评论数和转发数的量级差异。如图1(左)所示,Y轴Ratio表示转发数不小于评论数的微博数目占该用户微博总数目的比例,另外两个坐标轴分别展示用户的评论数和转发数,图示1(左)中具体信息及计算公式如图1(右)中所示。通过统计信息可知,约70%的用户转发数目大于评论数目(Q1&&Q4),超过80%的用户单条消息转发数大于评论数(Q1&&Q2)。
图1 比较评论数和转发数
为了平衡评论数和转发数的量级,本文通过式(2)计算每一条微博消息的影响力。其中,ReNum和CoNum分别为用户第i条微博消息的转发数和评论数。
(2)
3.2 用户行为影响力
基于微博消息传播机制中,用户的行为影响力主要体现在两个方面: 直接影响力和级联影响力[2]。一般情况,直接影响力用来衡量用户对其粉丝集合的影响程度,而级联影响力用来衡量用户发布微博的辐射范围。用户的行为影响力定义如下:
(3)
(4)
其中,twNumui、faNumui分别表示用户ui对应的微博数和粉丝数。相较之下,级联影响力从多跳的角度对影响力进行了补充,如微博消息经过用户直接粉丝的转发可以到达更多的用户,使得用户的影响力得到扩散和传播。
(5)
3.3 用户活跃度影响力
用户活跃度反映用户在微博圈中的活跃程度,主要通过用户的主动和被动行为体现。主动行为一般包括发布、转发、评论、关注四种行为;被动行为包括被关注行为。Cha等人[1]发现如果用户ui经常发布微博消息,则ui表现出持续的影响力;ui转发或主动评论uj微博消息更容易引起uj的注意[8],结果通常是获得uj的回复或最终促使uj成为ui的粉丝;同时,用户ui的添加关注行为反映用户对于微博平台的关注度在提升。石磊等人[7]给出用户活跃指数模型,将用户粉丝、用户添加关注的频率与用户发布微博的频率结合,提出了用户的活跃指数的计算方法。本文更全面的考虑用户的主动和被动行为,将转发和评论行为加入模型中,用户ui的活跃度影响力计算方法如下:
(6)
其中,k为影响因子的个数,即上文所提及的五个影响因子;Ti.first、Ti,end分别为用户ui的第j类影响因子最新发生的时间以及最早发生的时间,两者的差为用户ui的第j类影响因子发生的总天数;ni,j为用户ui第j类影响因子的总数。
3.4 用户影响力度量模型
在上述三个讨论的基础上,本文提出用户影响力度量模型,同时,使用层次分析法[9-10]计算不同指标在反映用户影响力时的权重。
(7)
4 实验结果与分析
4.1 实验设置
本文选取新浪微博名人堂用户作为数据集来源,语料具体规模如表1所示。
表1 数据集规模
由于不同度量指标之间存在较大差异,在进行加权融合之前须进行归一化处理,使得融合的度量指标在同一量级上,因而,本文对各类影响力指标进行归一化操作,具体方法见式(8)。
(8)
4.2 评价方法
为了量化影响力序列的差别,本文采用如下三种常见的评价方法进行度量:Spearman序列相关系数ρ[12-13]、KendallTau序列相关系数τ[14-15]以及重叠率Overlap[2]。其中,重叠率的定义如式(9)所示。
(9)
4.3 实验结果及分析
本节中实验的影响力图示用曲线图展示(图2),多项式拟合信息用饼图展示(图3)。点堆积曲线展示用户影响力的实际状况,均为归一化后的排序结果,虚线为利用指数曲线进行拟合的图样,实曲线为利用指数的泰勒级数展开(即多项式)对原始数据进行高度拟合的图样。
4.3.1 传统影响力指标分析
从石磊等人[7]的研究可知,整个微博网络中用户的粉丝数、关注数、微博数等指标均呈现幂律分布的特点,那么在名人网络中,是否也出现该类现象呢?本文以传统影响力度量的形式展现名人圈中用户各类指标的分布。
图2 粉丝影响力
图3 粉丝影响力多项式拟合
图4 评论影响力
由图4可知,用户的评论基本符合幂指数分布趋势。同时,多项式拟合的结果(图5)表明约有70位用户处于影响力高的状态,占据总人数的10%;约47位用户处于影响力较高状态,占据总人数的7%;其余84%为一般影响力的用户分布。
图5 评论影响力多项式拟合
由图6可知,用户的转发也基本符合幂指数分布趋势。多项式拟合的结果(图7)表明约有73位用户处于影响力高的状态,占据总人数的10%;约61位用户处于影响力较高状态,占据总人数的9%;其余81%为一般影响力的用户分布。
图6 转发影响力
图7 转发影响力多项式拟合
由图8可知,幂指数对于用户微博数目分布的拟合效果欠佳。相较之下,多项式拟合的实曲线基本符合实际数据的变化趋势,曲线拟合度R2=0.983 0。图9中多项式拟合的结果表明约有76位用户处于影响力高的状态,占据总人数的11%;约55位用户处于影响力较高状态,占据总人数的8%;其余82%为一般影响力的用户分布。
图8 微博数目影响力
图9 微博数目影响力多项式拟合
综上所述,名人圈中用户的粉丝数、关注数、转发数基本符合幂律分布的趋势。
4.3.2 用户影响力度量模型
(1) 影响因素权重设置
本文实验中通过标注法得到的判定矩阵如表2所示,之后使用方根法对矩阵进行特征向量的计算,并将最终得到的权重向量置于表2最后一行。
表2 影响因素权重
(2) 影响因素融合
图10 用户影响力
图11 用户影响力多项式拟合
4.3.3 影响力度量指标关系
由上述实验结果可知,具有较高影响力的用户范围处于[13%, 19%],即[96, 135]。本文三个指标中τ和Overlap有意义范围在较高影响力的群体中,即本文期望通过实验得知: 在较高影响力群体中,即topn,同一用户在不同影响力度量指标下排名序列差异情况,同样数目的用户在不同影响力度量指标下覆盖情况。因而,本文设置参数n=140。
(1) 传统影响力度量指标关联度
表3展示传统影响力度量指标之间相关度,ρ指标对应一列实验值几乎接近1,说明相同排名的用户之间的影响力值相差不大。τ指标对应一列实验值均比较小,说明同一用户在不同影响力度量指标下排名序列差异较大。
表3 传统影响力度量指标之间相关度
由Overlap一列可知,用户的粉丝数与微博数之间的关系较小,说明拥有很多粉丝的用户,对微博消息的更新频率不一定很高,即这些用户不一定是活跃用户。另外,用户的微博数目与用户微博的转发数以及评论数之间的关系较小,说明一个用户如果发布的微博没有价值,那么微博不可能出现大量的转发或评论行为,即一条有价值的微博更容易被传播。可看出,用户的评论数和转发数之间关联密切,原因在与微博平台提供的转发机制,当用户转发一条微博时,往往会加入自己对于该条微博的评论,而这个评论可以有选择的回复给微博原始发布者,从这个角度考虑,用户的评论数和转发数关系密切。
(2) 新影响力度量指标关联度
表4 新影响力度量指标之间相关度
表4展示新影响力度量指标之间相关度,Tw、Us、Ac分别为用户微博影响力、用户行为影响力以及用户活跃度影响力。从ρ和τ指标同样可以发现,相同排名用户之间的影响力相差不大,而同一用户在不同影响力度量指标下排名序列差异仍较大。由Overlap可知,三种新影响力度量指标中Tw、Us与Ac之间的关联不大,但Tw和Us之间的相关度略高,原因在于Tw和Us两者的衡量标准均基于用户发布的微博,而Ac仅从时间角度考虑用户的影响力。
(3) 用户影响力度量指标与其余指标关联度
表5展示用户影响力度量指标之间相关度,In为用户影响力简称。由Overlap一列可知,首先用户影响力指标与用户的微博影响力关联密切,与用户的粉丝数关联最差,即用户发布微博的质量直接影响用户的影响力提升,由于一条有价值的微博更容易被转发或评论,因而,综合考虑两方面因素的用户微博影响力指标与最终的用户影响力指标关联密切。同时,再次说明用户的粉丝数不是决定影响力的绝对因素。其次,用户影响力指标与用户微博数目影响力以及用户活跃度影响力之间的关联也较强,说明用户的活跃程度直接影响用户的影响力提升,该结论与Romero等人[16]的观点不谋而合。
表5 用户影响力度量指标之间相关度
5 总结
本文通过对传统影响力度量指标以及新影响力度量指标的分析,展现不同衡量标准下,用户影响力的变化。实验说明,用户影响力与粉丝数关联不大,而与微博影响力关联较强,即有价值的微博更容易被传播;用户影响力指标与用户活跃度影响力之间的关联较强,即用户在平台下的活跃程度直接影响用户的影响力提升。
未来工作可以考虑以下两点: 第一,本文采用的加权融合方法是最简单的线性融合,下一步可以优化参数,或者考虑采用逻辑回归等方法进行融合;第二,寻找新的度量方法,从而挖掘微博平台下各项影响力指标均稳定的用户,进而实现影响力用户的推荐。
[1] M Cha, H Haddadi, F Benevenuto, et.al. Measuring User Influence in Twitter: The Million Follower Fallacy [C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Washington, DC, USA, 2010: 10-17.
[2] Ye S, Wu S F. Measuring Message Propagation and Social Influence on Twitter.com[J]. Springer Berlin, 2010: 216-231.
[3] Weng J, Lim E P, Jiang J, et al. TwitterRank: Finding Topic-sensitive Influential Twitterers[C]//Proceedings of the third ACM international conference on Web search and data mining. New York, NY, USA, 2010:261-270.
[4] Lee C, Kwak H, Park H, et al. Finding influentials based on the temporal order of information adoption in twitter[C]//Proceedings of the 19th international conference on world wide web. New York, NY, USA, 2010: 1137-1138.
[5] Romero D M, Galuba W, Asur S, et al. Influence and passivity in social media[J]. Springer Berlin Heidelberg, 2011: 18-33.
[6] Yu L, Asur S, Huberman B A. What trends in chinese social media[C]//Proceedings of the 5th SNA-KDD Workshop on Social Network Mining and Analysis. San Diego, CA USA, 2011: 37.
[7] 石磊, 张聪, 卫琳. 引入活跃指数的微博用户排名机制[J]. 小型微型计算机系统, 2012, 33(1):110-114.
[8] Kwee A T, Lim E P, Achananuparp P, et al. Follow Link Seeking Strategy—A Pattern Based Approach [C]//Proceedings of the 6th SNA-KDD Workshop on Social Network Mining and Analysis. Beijing, China, 2012.
[9] Thomas L. Saaty L. Theory and applications of the analytic network process[M]. Pittsburgh: RWS Publications, 2005.
[10] Thomas L. Saaty. Decision making with the analytic hierarchy process[J].International Journal of Services Sciences, 2008, 1(1): 83-98.
[11] Barabasi A-L, Albert R. Emergence of Scaling in Random Networks[J]. Science, 1999, 286( 5439): 509-512.
[12] Zar J H. Significance Testing of the Spearman Rank Correlation Coefficient[J]. Journal of the American Statistical Asso, 1972, (67): 578-580.
[13] Spearman C. The proof and measurement of association between two things[J]. The American Journal of Psychology, 1904, 15(1): 72-101.
[14] Sen P K. Estimates of the Regression Coefficient Based on Kendall’s Tau[J]. Journal of the American Statistical Association, 1968, (63):1379-1382.
[15] Kendall M G. A new measure of rank correlation[J]. Biometrika, 1938, 30(1/2): 81-93.
[16] Romero D M, Galuba W, Asur S, et al. Influence and passivity in social media[J]. Springer Berlin Heidelberg, 2011: 18-33.
[17] 尹杰,基于用户分析的微博信息过滤研究[D],大连: 大连理工大学硕士学位论文,2013.
A Micro-blog User Influential Model Based on User Analysis
ZHANG Shaowu, YIN Jie, LIN Hongfei, WEI Xianhui
(Information Retrieval Laboratory, College of Computer Science and Technology,Dalian University of Technology, Dalian, Liaoning 116024, China)
As an extension of the user influence research, micro-blog user influence mining is becoming a hot research issue. Based on traditional user influence measures, we propose three novel methods to mining micro-blog user influence in terms of the value of micro-blogging, the proliferation influence of message propagation and the user active level. Meanwhile, a user influence model including tweet influence, behavior influence, and activity influence is presented. Finally, for different influence indicators, we describe their internal relations with discussions for possible reasons.
user influence; sina microblog; propagation path
张绍武(1967—),博士,副教授,主要研究领域为社会计算、情感分析和文本挖掘。E-mail:zhangsw@dlut.edu.cn尹杰(1987—),硕士,主要研究领域为社会媒体处理。E-mail:china20070917@yahoo.com林鸿飞(1962—),博士,教授,主要研究领域为信息检索、社会计算、情感分析和自然语言处理。E-mail:hflin@dlut.edu.cn
1003-0077(2015)04-0059-08
2013-07-29 定稿日期: 2013-11-15
国家自然科学基金(60973068,61277370);辽宁省自然科学基金(201202031,2014020003)
TP391
A