APP下载

微博舆情话题传播行为预测研究

2015-06-08丁学君

中国管理信息化 2015年17期
关键词:接收者舆情预测

丁学君

(东北财经大学 管理科学与工程学院,辽宁 大连 116025)

1 引言

目前,微博已经成为舆情话题传播的重要渠道之一,对微博网络中的舆情话题传播过程进行监控及预测,将有利于相关部门对不良舆情进行有效地疏导和澄清。本文以新浪微博为例,在深入分析用户转发行为的基础上,提取出了影响微博个体转发行为的4类特征,利用逻辑回归模型(Logistic Regression,LR)对微博用户的舆情话题转发概率进行预测,并在此基础上给出了一种基于个体行为的微博舆情话题转发规模预测算法。

2 微博舆情话题的个体转发行为预测

2.1 转发概率预测模型

本文利用有向无权图G(U,E)来对微博网络进行描述。其中U为网络中所有节点构成的集合;E为网络中所有边构成的集合,且eu,v∈E表示节点u指向节点v的有向边,即节点u对节点v的关注关系,信息的传播方向与关注方向相反。假设用户v发布了一条话题消息 topic,则 y=f(v,u,topic)表示节点 v 的粉丝节点u在看到该话题后采取的行为:y=1表示节点u对该话题进行转发;y=0表示节点u不对该话题进行转发。因此,研究微博用户的个体转发行为,即是在给定话题信息topic以及用户关系网络G(U,E)的情况下,预测用户u转发话题信息topic的概率。

本文借鉴文献[2]和文献[3]的研究结论,使用LR模型对微博用户的舆情话题转发概率进行预测,其预测公式如下:

其中,Fu(topic,G)为影响用户u转发话题的行为特征集合;yu表示用户u的转发行为;ω为权值向量,其值可以采用极大似然函数进行估计。

2.2 用户转发行为特征提取

2.2.1 话题接收者特征

(1)话题接收者的兴趣度。本文利用了Jaccard相似度计算方法,通过计算微博话题内容与用户感兴趣内容的相似程度,来对用户兴趣度进行量化。

步骤1:兴趣收集。收集某时间段内用户u发布的所有Ns条微博,构建用户 u 的语句级兴趣空间 IS={S1,S2,…,SNs}。

步骤2:分词。本文采用中科院计算技术研究所开发的ICTCLAS系统[4]对IS中的语句进行分词,得到用户u的词语级兴趣空间 IW={W1,W2,…,WNw}。

步骤3:从中剔除停用词。本文利用CSDN(2010)提供的停用词列表,以去除IW中的停用词,最终得到用户u的兴趣空间。

步骤4:针对某一舆情话题topic,按照步骤2~步骤3,对该话题进行处理,得到话题 topic 的特征空间 TP={T1,T2,…,TNt}。

步骤5:计算INT和TP的Jaccard系数。Jacccard系数是样本集交集与样本集合集的比值[5],即微博舆情话题特征空间与接收用户兴趣空间的相似度为:

SIMu,topic表示了用户u对目标话题topic的感兴趣程度。

(2)话题接收者的活跃度。本文利用式(3)计算话题接收者的活跃度Ra:

其中,ri,ci,oi分别为用户在n天内转发、评论和原创的微博总数。

(3)话题接收者的重复接收次数。研究表明,用户会因为信息的重复接收,而对该信息的转发倾向发生改变[6]。因此,本文认为话题接收者的关注对象中转发目标话题信息的数量,会影响该话题接收者的转发行为。

2.2.2 话题发布者的特征

(1)话题发布者的影响力。微博网络中,发布者的影响力大小势必会对其粉丝的转发行为产生影响[6]。本文采用文献[7]给出的UIR算法来评价话题发布者的影响力,该算法可以描述为:

其中,UIR(v)为节点 v 的影响力,d 为[0,1]区间上的阻尼系数,通常情况下,取经验值d=0.85,本文假设节点的初始UIR值为1。f(v)表示节点v的粉丝集合,Au,v为节点v分配给节点u的UIR值的比例:

其中,Nf是节点v的粉丝节点总数,Rak为节点v的第k个粉丝节点的活跃度,Rak可由式(3)计算得到,通过有限次的反复迭代,就可以获得目标节点v的UIR值。

(2)话题发布者与接收者之间的社会关系。研究表明,与具有“单向关注”关系的用户相比,具有“双向关注关系”(“互粉”)的用户间的亲密程度更高[8]。此外,用户间的互动次数也从另一个方面反映了用户间的关系亲密程度,本文定义用户u和用户v之间的互动次数为

其中,Cu,v为用户 u 和用户 v 转发对方微博的数量,Ru,v为用户u和用户v评论对方微博的数量,Mu,v为用户u和用户v在微博中提及(“@”)对方的次数。

2.2.3 话题的内容特征

研究表明,微博话题中是否包含图片、视频、URL、Hashtag以及“@”等内容,均会对用户的转发行为产生影响[3]。

2.2.4 外部媒体关注度

本文利用目标舆情话题传播过程中,网络媒体对此舆情事件的新闻报道数量,来描述外部媒体的关注度。针对某一目标舆情话题 topic,首先得到该话题的特征空间 TP=(T1,T2,…,TNt),并提取出相应舆情事件的关键词,然后利用百度搜索引擎得到该舆情事件的相关新闻报道数量NMtopic。

通过以上分析,本文共提取了影响微博用户舆情话题转发行为的11个数值化特征,见表1。 特征6、7、8、9、10均采用二元表示方法。

表1 微博用户转发行为的特征分析

3 微博网络舆情话题转发规模预测算法

3.1 微博网络中的话题转发规则

微博网络中,用户节点对某一目标话题topic的转发规则如下:(1)定义微博舆情话题的传播底图为有向网络G(U,E),其中U为该网络中所有节点的集合,E为网络中所有边的集合,节点总数为N。

(2)定义U中的节点仅具有两种状态,即易感状态S和传播状态I,其中S态表示节点没有对目标话题进行转发,I态表示节点对目标话题进行了转发;USt、UIt分别表示t时刻,网络中的S态节点集合和I态节点集合。

(3)定义节点 u 所关注的节点集合为 FL(u)={v|eu,v∈E}。

(4)定义 t时刻节点 u 所关注的 S 态节点集合为 FLSt(u)={v|v∈FL(u),且 v为 S 态};t时刻节点 u 所关注的 I态节点集合为 FLIt(u)={v|v∈FL(u),且 v 为 I态}。 此处假设 FLIt(u)中的每个节点均会影响节点u的转发行为,且其中所有节点对节点u转发行为的影响相互独立。

(5)根据式(1)确定节点 u 对话题 topic的转发概率 Pu,topic

(6)假设节点u对话题topic产生转发行为的阈值为λu,且λu=[0,1],则当 Pu,topic≥λu时,节点 u 将产生转发行为,并由 S 态转变成为I态。

(7)FLI(u)中每增加一个 I态节点时,需要对特征集合 Fu,topic中的话题发布者特征进行更新,即更新表1中的特征4、5、6。由此得到目标舆情话题在网络G(U,E)中的传播过程。

3.2 PRALR 算法

本文根据上述话题转发规则,给出了一种微博舆情话题转发规模的预测算法——PRALR算法,其实现过程如下。

步骤1:网络初始化。获取微博网络上舆情话题传播的历史数据集,得到传播底图 G(U,E),并为网络中的每一个节点用 1,2,…,N进行编号,其中N为节点集合U中的节点总数;利用式(1)给出的逻辑回归模型,通过训练得到权值向量ω,进而建立每个节点的转发概率预测公式;为U中的每个节点设置随机的转发阈值λ∈[0,1];初始状态下,网络中所有节点均设置为易感状态S,即US0中的节点数为N,UI0中的节点数为0;根据网络中边的集合E,为U中的每个节点 i建立集合 FLS0(i)、FLI0(i)(i=1,2,…,N)。

步骤2:t=1时刻,设置网络中某一节点v为I态,即v为话题topic在该网络中的入口节点,将其从对应的FLS0(i)中移除,放入相应的 FLI0(i)中,并更新 US1、UI1。

步骤 3:t时刻,对于网络中任意节点 u,根据集合 FLIt-1(u)中各节点状态的改变,对节点u的特征4、5、6进行更新,得到更新后的Fu(topic,G),并重新计算节点 u 此时的转发概率函数 Pu,topic,如果 Pu,topic≥λu,则节点u产生转发行为。

步骤4:将在步骤3中产生转发行为的节点u从对应的FLSt-1(i)中移除,加入到相应的集合 FLIt-1(i)中,即将 FLSt-1、FLIt-1分别更新成为 FLSt、FLIt,同时更新 USt、UIt。

步骤5:t=t+1,重复步骤3~步骤4,直到网络中再也没有新的节点产生转发行为为止。此时,集合UI中的节点数,即为话题topic在该网络中的最终转发次数。

4 实验仿真

4.1 实验数据集

本文利用自行开发的爬虫工具从新浪微博中抓取了1000条用户特征数据,及这些用户在采样时间段内发布的95783条微博数据,并最终从原始数据集中提取出15276条舆情话题数据,构成实验数据集,其中包括6814条转发数据,8762条非转发微博数据。

4.2 舆情话题转发行为预测结果及分析

本文利用Matlab工具对微博用户舆情话题转发行为进行预测。首先,从实验数据集中提取出表1所描述的11个话题转发行为特征,构建每个用户的话题转发行为特征集合Fu,topic;然后,将实验数据集分成训练数据集和测试数据集两部分,其中训练集中的微博数量占70%,测试集中的微博数量占30%;最后,利用训练集估计出式(1)中的权值向量ω,进而建立每个用户的微博舆情话题转发概率模型,并利用测试集对用户的转发行为进行预测,预测结果见表2。结果表明,本文给出的微博舆情话题转发行为预测模型具有较高的预测准确度。

表2 微博用户转发行为预测结果

4.3 舆情话题转发规模预测结果及分析

本文从数据集中选取了2个舆情话题,其中话题1为“奥巴马2013年就职典礼”,其在本文选取的微博子网中被转发了595次(采样时间为2013年1月 21日-2013年 3月 31日);话题2为“长春盗车杀婴案”,其在传播子网中被转发了1057次(采样时间为2013年3月4日-2013年3月31日)。利用PRALR算法对以上两个话题的转发规模进行预测,分别得到了其转发次数随时间的变化趋势,如图1所示。结果表明,PRALR算法可以有效地预测微博舆情话题转发规模的演化趋势。

图1 话题转发规模随时间的变化趋势

5 结论

本文分析了影响微博用户舆情话题转发行为的相关因素,利用逻辑回归模型,对微博用户的舆情话题转发行为进行了预测。此外,本文还将微观层面上的个体用户行为与宏观层面上的微博网络话题传播过程相结合,给出了一个基于个体行为的微博舆情话题转发规模预测算法——PRALR算法。实验结果表明,本文给出的微博用户舆情话题转发概率预测模型,及预测微博舆情话题转发规模的PRALR算法,均具有较高的预测精度。本文的研究工作将为相关部门制订有效的微博舆情话题控制策略提供一定的理论依据。

[1]D J Zhao,M B Rosson.How and Why People Twitter:The Role that Micro -blogging Plays in Informal Communication at Work [C]//In Proceedings of ACM 2009 International Conference on Supporting GroupWork, Florida, 2009:243-252.

[2]吴凯,季新生,刘彩霞.基于行为预测的微博网络信息传播建模[J].计算机应用研究,2013,30(6):1809-1812.

[3]张旸,路荣,杨青.微博客中转发行为的预测研究[J].中文信息学报,2012,26(4):109-114.

[4]张华平, 刘群.中文自然语言处理开发平台[EB/OL].[2013-03-01].http://www.nlp.org.cn.

[5]林学民,王炜.集合和字符串的相似度查询[J].计算机学报,2011,34(10):1853-1862.

[6]R Narayanam,Y Narahari.A Shapley Value-based Approach to Discover Influential Nodes in Social Networks [J].IEEE Transactions on Automation Science and Engineering, 2011,8(2):130-147.

[7]何静,郭进利.基于改进PageRank算法的微博用户影响力研究[J].中国报业,2013 (2):21-23.

[8]苑卫国,刘云,程军军,等.微博双向“关注”网络节点中心性及传播影响力的分析[J].物理学报,2013,62(3).

猜你喜欢

接收者舆情预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于SDN的组播安全机制
单粒子未知态的分级量子通信
舆情
舆情
舆情
微博的舆情控制与言论自由
浅谈信息接收者反馈不当现象及对策