APP下载

基于粒子群的微博用户影响力评价算法研究

2017-07-18江玲夏婷婷蒋艺范琳

武夷学院学报 2017年6期
关键词:影响力粒子社交

江玲,夏婷婷,蒋艺,范琳

(1.武夷学院数学与计算机学院,福建武夷山354300;2.绵阳天眼激光科技有限公司,四川绵阳621000)

基于粒子群的微博用户影响力评价算法研究

江玲1,夏婷婷1,蒋艺1,范琳2

(1.武夷学院数学与计算机学院,福建武夷山354300;2.绵阳天眼激光科技有限公司,四川绵阳621000)

针对群体智能与微博社交网络用户行为之间的相似性,对基于粒子群的微博用户影响力的评价算法展开研究。对微博用户数据进行必要的预处理,旨在消除冗余数据和无功数据对影响力评价的消极影响。介绍了适应微博社交网络背景的粒子群算法的速度和位移更新公式。完成微博社交网络中用户相互影响力的评价,该评价算法将微博社交网络中用户群体表现出的自组织性和纳入评价体系中,在消除少量数据引起的评价偏差方面取得一定成效。

粒子群算法;微博社交网络;用户相互影响力

用户影响力是微博社交网络研究中的热点问题,合理的用户影响力评价方法是提高用户推荐[1-2]准确性、用户使用粘度等微博应用的关键技术。早期研究多以粉丝为中心度量用户影响力,以经典的PageRank算法为代表[3]。不同研究人员对影响力的评价方法也不尽相同,如基于传播模型[4]、以关注者为主的评价方式等[5]。但大多只根据用户自身的少量微博数据,可参考依据单一,影响力评价体系中考虑的因素不够全面,从而导致评价效果不佳。

基于上述分析,将群体智能的经典算法粒子群[6]融合到微博社交网络用户相互影响力的评价中,一方面可将相关的用户群体联系起来避免评价指标过于单一,另一方面充分将微博群体在宏观上表现出分布式和自组织性纳入考虑范围。同时阐述了当前应用背景下粒子群的速度和位移更新方法,以增强算法在微博用户相对影响力评价上的可用性。

1 相关工作

1.1 标准粒子群算法

粒子群凭借原理简单、易实现等优点,成为群体智能中经典的搜索优化算法。标准粒子群算法的工作流程如图1所示,粒子的速度由个体经验和群体经验共同决定,粒子的运动方向则根据粒子与群体的最佳位置确定,最终实现最优搜索。设t代种群由N个粒子组成,粒子的位置和速度更新方式见公式(1)。

νt和xt分别表示粒子i在t次迭代的速度和位置。pbestt和gbestt分别表示粒子与群体的最佳位置[6]。α,β1,β2分别惯性权重、个体认知加速因子和社会认知加速因子。r1和r2为[0,1]之间均匀分布的随机数。

图1 标准PSO算法流程图Figure 1 Flow chartof standard PSO algorithm

1.2 粒子群与微博社交网络

粒子在群体没有控制中心的环境下,完全依照自身判断与其他个体交互,从而对整体产生影响。与群体智能相似,微博社交网络中任一用户均可享受发布微博、关注互动、搜索等功能,同时用户间的交互也会对个体的行为产生影响。

在微博应用中用户的行为主要受自身认知水平和网络环境这两大因素影响。在复杂的微博社交从微博群体在宏观上表现出分布式和自组织性,不难发现微博用户行为与粒子群应用的群体智能的五大基本原则上都保持着一致性。

基于微博用户互动交流与群体智能信息交流的相似性,将粒子群算法融入到微博用户影响力评价算法中,关键在于粒子进化过程中要灵活结合用户微博数、互动数等参数。

2 基于粒子群的微博用户影响力评价算法

2.1 数据与处理

微博数据预处理可通过回避冗余和无用数据为数据采集减负,这对于从海量的微博网络数据中获取有利于用户影响力评价的少量数据是极其重要的。

根据应用需求分析,将数据归纳为User_Info、Status_Info和Relation_Info三大类,分别表示用户基本信息、用户状态信息和用户关系信息,表1为具体参数列表。

2.2 基于粒子群算法的微博用户影响力评价

针对微博社交网络的特点,研究的用户影响力可理解为用户发布信息在微博网络中引起互动的能力[7]。结合微博用户影响力评价的应用背景,下文对标准的粒子群算法做适当的改进。

2.2.1 影响力公式

依照微博应用的特点,用户影响力可综合以下参数进行表:用户的微博数U4和粉丝数U5、转发微博、微博互动、评论、点赞以及收藏等行为。设用户集U={A}+UR,其中UR={u1,u2,u3,…,un}表示相关用户集合,A为中心用户。A与u1发生互动行为b时,A的影响力的变化量可由公式(5)表示:

式(9)是相关用户集合UR对A的影响力因子向量,可以用来表征A在UR的n维用户空间中的位置,即IA=,…]。

表1 微博数据集Table 1 The table ofmicroblog data set

2.2.2 速度公式

根据微博用户群体的互动方式,将用户影响力的表现形式融入到粒子群算法中,对A在t+1时刻速度公式重新定义,如公式(10)。

T1、T2和T3分别为惯性部分,个体因素部分,和社会因素部分。A在该时间粒度下所获得的个体经验值和社会经验值分别由PA(t)和SA(t)表征。个体经验值和社会经验值的最佳值分别由PA_M(t)和SA_M(t)表征。

个人经验是通过用户主动行为获得,主要考察主动对其他用户微博的转发行为。一方面是因为微博数目在数据采集阶段突显不出差异性,故不具参考意义。另一方面是考虑到相对评论和点赞对自身的低贡献的特点,转发行为才是信息传播的重要途径。故A在一定时间粒度下通过转发u1的微博获得的个体经验由公式(11)表示。

NFAu1为本次迭代中A转发用户u1的微博数目,NFA为本次迭代过程中A转发微博的总数,若本次迭代的15条微博均为A的原创微博,则本次迭代A的个人经验置零。扩展到相关用户空间UR={u1,u2,u3,…,un},用户A通过本次迭代得到的N维个体经验为

社会经验由其他用户对A的微博进行互动产生。A通过u1积累的社会经验取值如式(12)。

第一个加数部分表示转发因子和转发经验,第二个加数部分为其它互动因子和互动经验。NFu1A为u1在本次迭代过程中转发A的微博总数,ΣS5(A)为本次迭代过程中A的所有微博被转发的总数。为本次迭代过程中A被u1转发过的微博评论和点赞数之和,NCPA表示A本次迭代微博评论和赞之和。扩展到UR={u1,u2,u3,…,un},得到

3 用户影响力评价实验

3.1 数据获取

为了检验改进粒子群算法在用户影响力评价中的有效性,通过基于模拟登陆的微博爬虫系统[7]完成数据采集工作。本次数据采集以用户UID=2530487345为中心,根据表1收集56 461个用户信息。其中一度人脉、二度人脉和三度人脉的用户数分别为29、1 026、55 406。采集的数据中还包含每个用户约300条微博状态信息作为评价实验的数据集。

3.2 实验参数设置

(1)惯性因子:α=0.8。

考虑用户影响力度的记忆性因素,实验中将惯性因子设为经验值0.8。

(2)认知因子:β1=β2=2。

按照经验设置,保持个体认知与社会认知的同等重要性。

(3)社会认知中行为权重:φ1=0.6,φ2=0.4。

由于在信息传播等实际应用中,转发行为的贡献往往高于其他互动行为,故二者按照6∶4比重划分,降低了粉丝数过高带来的偏差,同时保留住粉丝数对用户影响力的表征能力。

(4)用户初始速度:0。

(5)用户初始位置:由总用户数确定。

(6)用户初始影响力:

用户初始影响力根据粉丝数与微博总数归一化数值进行设置。

3.3 实验结果分析

根据20组的Status_Info对用户进行20次粒子群迭代算法评估相互影响力,图2记录了前2 000位用户第1次迭代结果(a图)和第5次迭代结果(b图)。图中数据表明经过第1次迭代,用户影响力度分布比较集中且扩散性不高,产生这一现象与影响力度初始值设置有关。为此第1次迭代后,只有极少数用户的影响力得以提高。但迭代进行到第五代,随着用户间的互动行为,影响力的扩散度显然高于第一次迭代的效果。

图2 用户影响力评价(第1、5次迭代)Figure 2 Evaluation on user influence based on PSO(the first time and fifth time)

图3记录了第10次迭代结果(a图)和第20次迭代结果(b图)。对比图2和图3容易发现,随着迭代次数增加,用户影响力逐步分散。用户影响力变化趋势可归纳为以下比较有代表性的三类。

(1)影响力始终偏低:少量用户始终保持偏低的影响力,究其原因在于该类用户一方面鲜少参与微博互动,另一方面该类用户所发布的微博引发的互动情况的甚少。

(2)影响力变化趋势先高后低:部分用户随着迭代过程,影响力由早先的优势逐步成下降趋势。这类用户多由微博应用的早期使用者构成,他们通过微博总数和粉丝数上的优势获得较高的初始影响值。但随着后期微博使用粘度下降,微博质量欠佳,影响力度也随之降低。

(3)影响力逐步提高:这类用户大多由目前微博应用的活跃分子们构成,他们凭借少而优的微博获取大量关注和互动,凭借微博应用的热度,消除在粉丝数和微博总数上的劣势。

图3 用户影响力评价(第10、20次迭代)Figure 3 Evaluation on user influence based on PSO(the 10th time and 20th time)

图4 用户影响力排行Figure 4 Rank of user influence

将全部用户按最后一次迭代获得的影响力度降序排列,并截取影响力相对偏高的用户(In f(u)>1),如图4所示。根据图4结果显示,经过20次迭代,影响力度偏高的用户共2 483人,其中只有118位用户的最终影响力大于4,而影响力度较高的人数则更少,这也与复杂网络的幂律特性相符。

4 结论

寻找有效的用户影响力评价算法是改进微博用户推荐策略等应用的难题。研究的基于粒子群的微博用户相互影响力的评价算法,可将相关的用户群体联系起来,在避免评价指标过于单一的问题上取得一定成效。此外充分将微博群体在宏观上表现出分布式和自组织性纳入考虑范围。这些研究成果将对微博用户推荐等应用提高参考。

[1]范波,程久军.用户间多相似度协同过滤推荐算法[J].计算机科学,2012,39(1):23-26.

[2]HANNON J,CARTHY K,SMYTH B.Finding useful users on twitter:twittomender the followee recommender[C].Ad vances in Information Retrieval,2011,784-787.

[3]LAWRENCE P.The PageRank citation ranking:Bringing order to the web[J].Stanford Digital Libraries Working Paper,1998,9(1):1-14.

[4]GOYAL A,BONCHI F,LAKSHMANAN LVS.Learning influence probabilities in social networks[C].International Conference on Web Search&Web Data Mining,2010:241-250.

[5]CHA M,HADDAD H,Benevenuto F,et al.Measuring userinfluence in twitter:the million follower fallacy[C].InternationalConferenceonWeblogs&SocialMedia,2010:10-17.

[6]KENNEDY J,EBERHART R.Particle swarm optimization[C].Proc.ICNN.1995:1942-1948.

[7]江玲.基于粒子群算法的微博用户推荐系统[D].绵阳:西南科技大学,2015.

(责任编辑:叶丽娜)

The Calculate Algorithm Study for M icroblog User Influence Based on Particle Swarm Optim ization

JIANG Ling1,XIA Tingting1,JIANG Yi1,FAN Lin2
(1.School of Mathematics Science and Computer,WuyiUniversity,Wuyishan,Fujian 354300;2.Mianyang Skyeye Laser Technology Co.Ltd,Mianyang,Sichuan 621010)

According to the fact that the user’s behaviors ofmicroblog social network match the five principles of Swarm intelligence,a novel algorithm based on particle swarm optimazation is studyed in this paper to calculate the influence bewteen microblog users.First,in order to avoid the negative effect from redundant and uselessmicroblog data,data preprocessing is necessary.Second,the variable is defined as the velocity hange in the proposed algorithm.Finally,the process to calculate the influence between users is introduced.The experiment results show that the novel algorithm is effective in avoiding the negative influence from signal index.

particle swarm optimazation;microblog social network;user influence

TP393

:A

:1674-2109(2017)06-0063-05

2017-02-23

武夷学院校科研基金资助项目(XL201708)。

江玲(1990-),女,汉族,助教,主要从事信息网络、用户行为研究。

猜你喜欢

影响力粒子社交
社交牛人症该怎么治
碘-125粒子调控微小RNA-193b-5p抑制胃癌的增殖和侵袭
聪明人 往往很少社交
基于膜计算粒子群优化的FastSLAM算法改进
社交距离
Conduit necrosis following esophagectomy:An up-to-date literature review
你回避社交,真不是因为内向
天才影响力
基于粒子群优化极点配置的空燃比输出反馈控制
黄艳:最深远的影响力