基于PageRank改进算法的微博影响力排名
2015-09-27王东升
王东升
(上海海事大学信息工程学院,上海 201306)
基于PageRank改进算法的微博影响力排名
王东升
(上海海事大学信息工程学院,上海201306)
0 引言
PageRank算法是在微博用户影响力研究领域相对普遍及重要的算法。近年来,对基于PageRank算法提出的微博用户影响力改进算法日渐得到完善:①冯典等人利用微博用户关系结构提出来基于相对权威度(根据粉丝的质量和用户本身权威度为评价依据)和用户活力(用户发布和评论微博的次数为评价依据)两个方面改进了PageRank算法,迭代求出微博用户影响力[1]。尽管能够快速实现算法收敛,减少迭代次数,但是这种宏观的根据重要粉丝和用户活跃度来分配权值会改变原有的用户互动行为。②王琛等人基于PageRank算法,根据用户活力和粉丝参与活力(粉丝转发、评论关注者微博的比例)提出了user influence rank用户影响力排名算法[2]。这个算法本质上基本体现微观粉丝和关注用户之间的互动。但用户活力这个因素基本有作用,相反还会改变用户之间的互动关系,考虑不完善。
1 算法原型
PageRank由Google创始人拉里·佩奇和谢尔盖·布林提出,其基本思想是利用网页的超链接结构判定网页重要性,即网页a有个只向网页b的链接,则认为a投了网页b一票,算法根据网页收到的投票数量来衡量该网页的重要性。这种网页链接和微博中的关注和被关注用户关系式相似的,但是忽略了用户与用户本身的互动关系及客观的作用域。
2 改进UI-Rank算法设计
综合用户j的影响力值为:
其中I(j)表示用户j的粉丝集合;UA(i)表示用户i的影响力;d为阻尼系;
OUT(i,j)=a×HUA(i,j)+b×FUA(i,j)+c×IUA(i,j)
OUT(i,j)用户i的用户影响力分配给其关注者j的权值比例,HUA(i,j)表示基于粉丝参与度的粉丝i分配给其关注者j的权值比例,FUA(i,j)则基于微博影响度时用户i分配给其关注者j的权值比例,IUA(i,j)表示基于用户活客观跃度时用户i分配给其关注者j的权值比例。a,b,c为对应的权重。
2.1粉丝参与度
一个粉丝转发和评论关注者微博的多少,直接反映了被关注者所发微博对其粉丝的吸引力。粉丝转发和评论其微博的次数越多,粉丝和关注者直接的互动越多,说明粉丝对其关注的用户越感兴趣。
一个用户的微博总体上分为原创微博和转发微博。粉丝转发关注者的原创微博,说明粉丝对其关注者自己的思想和态度的肯定;而粉丝转发其关注者的转发微博,说明粉丝对关注者转发的微博原主人态度或者思想的肯定,并不是被关注者本人所吸引。
粉丝对关注者的评论,同样体现了其对关注者互动的程度,表现了对其所发微博的兴趣,评论越多,程度越深。但粉丝对关注者的评论并不能被粉丝自己的粉丝所看到,即评论的态度和思想不能传播给自己的粉丝。
所以在本算法思想的分配原则来说,粉丝分配给其关注者的权值时,应该更加看重粉丝是否转发关注者的微博,转发的微博是否是其关注者的原创微博。
基于粉丝参与度的粉丝i分配给其关注者j的比例为:
F(i)表示用户i的关注者集合,即全部好友集合,
其中H(i,j)为用户i与其关注者j互动程度。h1,h2,h3为对应参数的权重。
Y(i,j)表示在统计周期内(T=30天)用户i转发其关注者j原创微博的数目(Yn)和用户i转发和评论别人微博总数(Tn)的比值。
Z(i,j)表示统计周期内(T=30天)用户i转发其关注者J转发微博的数目(Zn)和用户i转发和评论别人微博总数(Tn)的比值。
P(i,j)表示统计周期内(T=30天)用户i评论其关注者j的微博数目(Pn)和用户i转发和评论别人微博总数(Tn)的比值。
2.2用户活客观跃度
粉丝参与度在很大程度上表明了粉丝和关注者直接的互动,用户传递给其粉丝的信息状态,但是这种互动只是局限的展示了粉丝转发和评论其关注者的微博上,但事实上一个用户发布和转发的微博给用户传递的信息不仅仅是体现在转发上,还体现在一个粉丝在阅读其关注者的微博时不经意间产生的信息量。
因为用户对其关注者或者他人的评论信息无法传播给自己粉丝,所以这个因素新算法不做考虑。用户发布的原创微博和转发微博是决定的因素。但原创微博和转发的微博传递给其粉丝的思想和态度的意义是不同的,所以算法对原创微博数和转发微博数同样有不同的衡量参数标准i1,i2。
在一个统计周期范围内,用户发布原创微博数以及转发微博数越多,越能说明该用户的活力越高,粉丝阅读该用户的微博条数的可能就越多。更深入地,客观地,一个用户发表的原创微博数越多,用户传递给其粉丝自己的思想观念信息就越大。
用户j的客观活跃度为:
其中CNj表示用户j统计周期内(T=30天)发布的原创微博数,TNj表示统计周期内(T=30天)用户j转发他人的微博数。
基于用户活客观跃度时用户i分配给其关注者j的比例为:
其中F(i)表示用户i的关注者集合,即全部好友集合,v,j F(i)。
2.2微博影响度
微博是一个开放的信息交流平台,任何人都可以浏览、转发和评论自己感兴趣的用户的微博,这个用户不一定是自己的关注者(好友),可能是自己随意浏览发现的,可能是系统推荐,也有可能是某个时间段比较有社会效益的话题等。这些不定因素所造成的不是自己粉丝转发或者评论的影响,基于粉丝参与度和基于用户客观活跃度分配比例值解决不了,针对这种情况,算法提出来基于微博影响度分配方法。
其中WTn是在在统计时间内微博w被转发次数;WPn是微博w在统计时间内被评论的次数。用户j在统计时间内发布微博的总影响度,其中f(j)表示用户j在统计时间内发布的原创微博和转发微博的集合。
则基于微博影响度时用户i分配给其关注者j的比例为:
其中F(i)表示用户i的关注者集合,即全部好友集合,v,j∈F(i)。
3 实验结果及分析
利用层次分析法[3]我们可以确定一级权重a,b,c分别为0.45,0.30,0.25;二级权重h1,h2,h3,i1,i2分别0.25,0.2,0.15,0.22,0.18。利用新浪微博API接口获得真实用户数据,带入算法得到下表1两种算法的排名前十的用户。
根据实验结果可以看出两种算法的结果发生了变化。在上表中我们可以大概看出PageRank算法的排名中基本依靠粉丝的数量来取决。显著的特征是在原算法排名第3的郭德纲在新算法中已经不在前十中,尽管粉丝数量很多,但其粉丝的影响力值普遍都不高,所以分配在新算法中分配给他的值不高导致排名落后。而原本排名第八位的李开复在新算法中排名第二,主要原因是李开复虽然粉丝数量少,但发的微博基本都是原创微博,且很受粉丝欢迎,转发,并且粉丝的自身影响力值相对很高。
4 结语
本文给出了基于PageRank算法改进的新算法的整体算法思路,相比PageRank算法得到的结果跟为准确客观,对解决一下实际微博排名问题提供了一些新的思路,具有一定的意义。
表1两种算法影响力排名前十的用户
[1]冯典.面向微博的数据采集和分析系统的设计与实现[D].北京:北京邮电大学,2013.
[2]王琛,陈庶櫵.一种改进的微博用户影响力评估算法[J].信息工程大学学报,2013,14(3):380-384.
[3]邓雪,李家铭,曾浩健等.层次分析权重计算方法分析及应用研究[J].数学的实践与认识,2012.24(7).
Micro-Blog;PageRank;User Influence;UI-Rank
A Ranking Algorithm Estimating Micro-Blog Influence Based on the Improved PageRank
WANG Dong-sheng
(Department of Information Engineering,Shanghai Maritime University,Shanghai 201306)
1007-1423(2015)29-0027-04
10.3969/j.issn.1007-1423.2015.29.007
王东升(1988-),男,江苏淮安人,硕士研究生,研究方向为软件开发方法与软件项目管理
2015-08-11
2015-09-15
针对微博用户影响力排名问题,对微博用户影响力关联要素进行分析,将粉丝与关注者的互动行为纳入到影响力评定方法之中,提出一种基于PageRank的微博用户影响力排名算法(UI-Rank算法)。实验表明算法的计算结果反映微博用户自身影响力的实际效果,能够提高微博用户影响力排名的准确度。
微博;PageRank;用户影响力;UI-Rank算法
Accordance with user influence ranking issue of micro-blog,related factors consists in user influence of micro-blog have get analysis.Interactive behaviors between fans and followers are integrated into method of influence evaluation,presents the user influence ranking algorithm(UI-rank)of micro-blog based on PageRank.Experiment shows that computing result of the algorithm is quite consistent with actual effect of user themselves influence and it can improve accuracy of user influence ranking of micro-blog.