基于行为权值的微博用户影响力度量算法
2014-07-08黎明文海英杨杰陈旭日
黎明,文海英,杨杰,陈旭日
湖南科技学院计算机系,湖南永州 425199
◎数据库、数据挖掘、机器学习◎
基于行为权值的微博用户影响力度量算法
黎明,文海英,杨杰,陈旭日
湖南科技学院计算机系,湖南永州 425199
用户影响力度量是目前微博研究的基础和热点方向,为了提高微博传播影响力度量的准确性,提出一种基于行为权值的微博用户影响力度量算法。对网络用户的转发、评论和提及等行为进行分析,将数据输入到最小二乘支持向量机中进行学习找到最合理的权值,并建立传播影响力度量模型,采用具体数据对算法的性能进行仿真测试。结果表明,相对于其他微博用户影响力度量算法,该算法不仅提高了微博用户影响力的度量准确性,而且可以准确刻画各种用户行为对网络传播力贡献。
微博用户;最小二乘支持向量机;传播影响力;用户行为;影响覆盖率
1 引言
随着Internet的迅速发展,微博作为一种新兴的社交媒体,吸引人们的广泛学者,微博不仅是个人自我表达、获取信息的工具,还逐渐发展成为政府、企业、组织用于信息发布、公关营销的手段[1-2]。用户影响力度量是目前微博研究的基础和热点方向,其可以对舆情事件发酵、商家的产品推介等具有十分重要意义[3-4]。
当前微博网络用户影响力度量方法主要有:(1)文献[5]将好友数量作为影响力度量指标,提出了一种基于UserRank的用户影响力度量模型。(2)将用户转发、评论、提等行为作为影响力度量指标,提出了基于用户行为的度量模型[6]。(3)将PageRank和用户行为进行组合,提出了基于TURank的用户影响力度量模型[7];文献[8]将用户转发行为作为度量指标,提出一种基于WeiboRank的用户影响力度量模型;文献[9]综合考虑了用户发表微博活跃度和PageRank算法,提出了基于Behavior-Relationship Rank的用户影响力度量模型。(4)文献[10]提出了基于URL追踪的用户影响力度量模型,这些研究结果表明,将PageRank和用户行为相结合,可以比较客观、合理地对用户影响力进行度量,但是它们只考虑单一用户行为、或者用户之间的好友关系,但是在实际应用中,一些好友关系对用户影响力没有什么影响,如僵尸粉丝,而用户的转发、评论和提及等行为对于微博传播作用相对较大,因此需要对用户行为进行全面分析,才能够建立客观、准确的用户影响力度量模型[2,11]。
为了提高微博用户影响力的度量准确性,提出基于一种基于行为权值的微博用户影响力度量算法。首先对网络用户的转发、评论和提及等用户行为进行分析,然后采用最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)合理确定他人权值,建立传播影响力度量模型,最后采用具体数据对模型性能进行仿真测试。
2 微博影响力的度量指标分析
在微博传播过程中,主要通过用户交互行为描述微博影响力强弱,用户的发布、分享等行为也有一定的影响作用,同时,他人的微博转发、评论等行为也对信息传播起着推动作用。如果一条微博信息被转发越多,那么其影响力更强,这样,一条微博信息发出后,转发、评论和提及等行为形成一个影响人群范围,因此这些行为可以作为用户影响力的度量标准,具体如图1所示。
图1 微博的信息传播方式
对于不同用户行为,它们在整个网络人群中所占比例不同,为此可采用覆盖率F描述为用户的传播能力,用户ui覆盖率定义如下:
式中,N为网络中所有节点数;Rc、Cc、Mc分别表示用户转发、评论、提及所覆盖的人群数。
3 PageRank算法及存在的不足
在当前Internet中,PageRank是一种基于网络图的网页排名算法,其基本思想是将网页之间的链接看作是一种投票行为,重要网页的选票要比一般网页的价值高,一个网页选票越多,就表示其越重要,设Pi为一页面,O(Pi)和I(Pi)分别为其链出、链入的链接个数,d为阻尼系数,d的取值一般为0.15,那么Pi的PR值计算方式为[12]:
在微博信息传播过程中,将每个用户类可以看作一个网页,将用户粉丝和用户关注对象分别看作链入和链出的网页,这样,就可以采用PageRank算法对用户影响力进行分析,然而PageRank算法存在以下不足:
(1)粉丝数和用户影响力之间的关系难以准确描述用户影响力,特别是粉丝中包含有大量的对户影响力起着反作用的僵尸粉丝时,准确性比较低,因此不能将这部分粉丝作为用户的链入网页,因此,本文采用用户活跃度这个指标对用户粉丝进行筛选。假设在微博数据时间段T内,微博用户ui发表的原创、转发、评论微博数为Sum(ui),则用户ui的活跃度uia定义为:
如果一个用户的活跃度低于事先设定的阈值,那用该用户就要剔除掉,则将用户ui剩下粉丝的集合记为Fo(ui)。
(2)由于用户个人原因,添加了一些关注对象,但是其没有对关注对象的微博信息进行过转发、评论或提及等行为,表明该用户对该条微博信息传播没有任何贡献,那么该对象应该被筛选掉。设微博用户ui转发、评论记录以及提及中包含的关注对象集合记分别为UiR、UiC、UiM,那么用户最终的关注对象集合Fe(vj)为:
4 本文的微博传播影响力度量算法
为了解决传统PageRank算法存存的缺陷,提高微博传播影响力的度量准确性,提出一种基于行为权值分配的微博用户影响力度量算法,其可以表示为:
式中,Fo(ui)为用户ui最终粉丝集合;ui、vj为微博用户;Bw(ui,vj)是分配给用户ui的比例因子,PR(ui)为用户ui的PR值。
通过用户的转发、评论、网络行为可以构造3个有向权值的网络。设节点为V,边为E,边权为R,那么转发网络就可以表示为:GR(V,E,R),权值Rji表示vj对ui的转发贡献,在微博数据获取时间内,ui发布的微博总数为n,tjk表示vj对ui的第k条微博的转发情况,其计算公式为:
相应的Rji计算为:
用户vj转发网络的工作过程如图2所示,在图中,实心圆圈为vj的Fe(vj),两个节点之间如果不存在边连接,那么表示vj对另一个节点没有转发行为。
图2 微博的转发过程
对于评论和提及网络来说,它们与转发过程十分相似,设Cji、Mji分别表示评论和提及权值。构建了3个不同的有向权值网络后,将它们进行合并,最后得到一个反映微博用户影响力的网络,具体如图3所示。
图3 三个单一网络合并过程
在网络合并过程中,由于转发、评论和提及等用户行为对微博传播影响力的贡献是不一样的,因此需要给它们赋予不同权值,设权值为W(ui,vj),则有:
式中,用α、β、γ分别表示转发、评论、提及的贡献程度。
综合上述可知,在微博用户影响力度量模型中,α、β、γ的确定至关重要,在实际情况中,一条微博信息的转发、评论和提及行为具有很大的偶然性,α、β、γ之间不是一种典型的线性关系,因此本文采用支持向量机确定α、β、γ的大小。对第j条微博信息,转发、评论、提取影响人次分别为Rnij、Cnij、Mnij,那么对于n条微博信息,共获得n个样本,将Rnij、Cnij、Mnij作为样本的输入向量,α、β、γ作为输出,通过LSSVM学习建立微博传播影响力度量模型。LSSVM的回归方程为:
通过引入拉格朗日乘子求解该具有等式约束的二次规划的问题,即有:
对公式(9)进行优化,即令w,b,ek,αk的偏导数均等于0[13]。
因此,式(9)的分解可以通过解式(12)和(13)获得,LSSVM回归函数为:
采用RBF径向基函数作为核函数,其定义如下:
5 仿真实验
5.1 数据来源
为了测试本文微博度量算法的有效性和优越性,在CPU Intel酷睿2双核E8600,4 GB RAM,window s XP的计算机上,采用SQL Server2005和Matlab 2012编程,选择新浪微博“时事评论”的微群进行仿真实验。新浪微博数据主要包含了三类信息:(1)用户信息:用户ID、粉丝数、微博数;(2)微博信息:微博数、转发数、评论数、提及数;(3)关系信息:转发列表、评论列表、提及列表。数据采集与预处理流程图如图4所示。
图4 数据处理流程
对采集的数据进行处理,将构造转发、评论、提及三个网络,三个网络的特征见表1。
表1 3个网络的数据
5.2 对比算法
采用3个单独立网络和常用微博用户影响力度量算法(TURank)进行对比分析,它们具体为:单一评论度量算法(Followers);单一转发度量算法(Retweets);单一被提及度量算法(Attenders);TURank算法:通过构造基于链接分析的用户-内容(User-Tweet Graph)来计算得分进行用户排名[14]。TURank算法的实现流程如图5所示。
图5 TURank算法的工作流程
5.3 结果与分析
采用上述几个算法对用户影响力进行度量,然后根据度量结果进行排序,选择影响力前十名的用户影响人次覆盖率进行对比,各算法的结果如图6所示。从图6可以得到如下结论:
(1)相对于TURank算法,本文算法的度量准确性更高,与真实用户影响人次变化曲线十分接近。
(2)相对于单一特征的微博用户影响力度量模型,本文算法的度量准确性大幅度提高。
对比结果表明本文算法综合考虑用户的转发、评论、网络行为,可以比较全面地描述微博用户影响力变化趋势,同时通过LSSVM确定权值,可以准确地描述用户的转发、评论、网络行为对度量结果的贡献,能够更加准确客观地反映用户影响力排名,而单一特征或者其他算法难以建立准确描述用户影响力的度量模型,度量准确性低,没有什么实用价值。
6 结束语
微博作为一个近年来兴起的在线社会网络,既具有媒体传播特性,又具有社交网络特性,引起了人们广泛的关注,为了更加准确度量微博用户的传播影响力,提出了一种基于行为权值分配的微博用户影响力度量算法,并通过仿真对比实验测试其性能。结果表明,本文算法可以准确描述各种用户行为对网络传播力影响,提高了微博用户影响力的度量准确性,具有广泛的应用前景。
图6 不同算法的性能对比
[1]Kwak H,Lee Changhyun,Park H,et al.What is Twitter,a social network or a new s media[C]//Proceedings of the 19th International Conference on World Wide Web. New York:ACM Press,2010:591-600.
[2]Weng Jianshu,Lim Eepeng,Jiang Jing,et al.Twitter rank:finding topic-sensitive influential Twitter[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data mining.New York:ACM Press,2010:261-270.
[3]Ye Shaozhi,Wu Felix.Measuring message propagation and social influence on Twitter.com[C]//SocInfo’10,2010:216-231.
[4]Lee Changhyun,Kwak H,Park H,et al.Finding influential based on temporal order of information adoption in Twitter[C]//Proceedings of the 19th International Conference on World Wide Web.New York:ACM Press,2010:1137-1138.
[5]马雯雯,魏文晗,邓一贵,等.基于隐含语义分析的微博话题发现方法[J].计算机工程与应用,2014,50(1):96-100.
[6]李军,陈震,黄霁崴.微博影响力度量研究[J].信息网络安全,2012,27(3):10-13.
[7]袁毅.微博客信息传播结构、路径及其影响因素分析[J].图书情报工作,2011,55(12):26-30.
[8]钟帅.基于粒子群算法的微博用户影响力研究[D].武汉:华中科技大学,2012.
[9]杨长春,俞克非,叶施仁,等.一种新的中文微博社区博主影响力的度量方法[J].计算机工程与应用,2012,48(25):229-233.
[10]吴陈鹤,杜友田,苏畅.有限节点驱动的微博社会网络话题推荐方法[J].计算机工程与应用,2013,49(15):141-146.
[11]苑卫国,刘云,程军军,等.微博双向“关注”网络节点中心性及传播影响力的分析[J].物理学报,2013,62(3):38901-38910.
[12]郭浩,陆余良,王宇,等.基于信息传播的微博用户影响力度量[J].山东大学学报:理学版,2012,47(5):78-83.
[13]田海梅,黄楠.基于ACO-LSSVM的网络流量预测[J].计算机工程与应用,2014,50(1):91-95.
[14]Yuto Yamaguchi.TURank:Twitter user ranking based on user-tweet graph analysis[C]//W ISE,2010:243-246.
LI M ing,WEN Haiying,YANG Jie,CHEN Xuri
Department of Computer Science,Science and Technology Institute of Hunan,Yongzhou,Hunan 425199,China
Information diffusion and influence modeling are hot topics in micro-blog research, in order to improve measure precision of micro-blog spreading influence, a novel measuring algorithm of micro-blog spreading influence is proposed in this paper. The retweet, comment, mention are analyzed, and then the data are input to least squares support vector machine to obtain weight values, and establish spreading influence measure model, the simulation experiment is carried out to test the model performance. The simulation results show that, compared with other measure algorithms, the proposed algorithm not only improves the measure precision accuracy of micro-log spreading influence, but also can be more accurately portray various user behavior on spreading influence.
micro-blog users; least squares support vector machine; spreading influence; user behavior; effect coverage rate
LI M ing,W EN Haiying,YANG Jie,et al.Measuring user in fluence of m icro-b log based on behavior weigh t.Computer Engineering and Applications,2014,50(17):130-133.
A
TP391
10.3778/j.issn.1002-8331.1402-0110
湖南省自然科学基金(No.11JJ6065);湖南省科技厅项目(No.2012FJ3051);湖南省教育厅项目(No.12C0681)。
黎明(1974—),讲师,主要研究领域为计算机网络安全、系统架构;文海英(1972—),副教授,主要研究领域为智能信息处理、知识发现与知识工程、软件工程;杨杰(1976—),副教授,主要研究领域为计算机网络安全、人工智能及数据挖掘;陈旭日(1971—),副教授,主要研究领域为计算机网络、分布式系统。
2014-02-17
2014-05-13
1002-8331(2014)17-0130-04