APP下载

基于混合特征学习的微博转发预测方法

2016-12-26马晓峰陈观淡

计算机应用与软件 2016年11期
关键词:影响力准确率预测

马晓峰 王 磊 陈观淡

1(上海数据分析与处理技术研究所 上海 201112)2(中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京 100190)



基于混合特征学习的微博转发预测方法

马晓峰1王 磊2陈观淡2

1(上海数据分析与处理技术研究所 上海 201112)2(中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京 100190)

微博转发预测是研究信息传播的关键问题之一,对于舆情监控、广告投放、商业决策具有重要意义。用户兴趣、微博作者影响力及微博内容等信息均影响信息传播过程。转发行为预测的挑战性问题在于如何捕获更多有意义的影响因素以提高预测性能。提出基于混合特征学习的转发预测方法,该方法首先引入并分析了局部社会影响力特征、用户特征、微博内容特征的计算方法;接着,基于分类器建立预测模型;最后,比较了不同类型微博的转发预测效果。在新浪微博平台数据的实验结果表明,局部社会影响力特征、用户特征、微博内容特征都对转发预测有较大影响,其中微博内容特征的影响最大。随机森林预测效果最好,准确率达到83.1%;与朴素贝叶斯、逻辑回归、支持向量机模型相比,准确率平均提高约7.4%,最高提高约10.8%。另外,该方法对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。

微博 混合特征学习 转发预测

0 引 言

随着Web2.0技术的快速发展,以微博等为代表的社会媒体平台以其内容丰富、交互性强、实时便捷等特点深受用户喜爱。截至2015年9月30日,国内最大的微博平台之一的新浪微博的月活跃人数达到2.22亿,较2014年同期相比增长33%,日活跃用户达到1亿,较去年同期增长30%。可见,微博用户群保持着持续快速增长[1]。当某一社会事件发生后,人们可以通过该平台第一时间获取事件信息,发表自己的观点,转发感兴趣的信息等。用户的转发行为影响着微博中信息的传播趋势,具有传播快、覆盖广的特点。通过转发,某些微博可快速成为关注,造成影响。如何有效从转发行为中学习用户的兴趣和行为规律,挖掘影响用户转发行为的重要要素,进而充分利用这些要素对未知的用户转发行为进行准确预测,对于热点话题检测与跟踪、舆情监管及商业营销至关重要。这是当前的研究热点,具有广阔的应用前景[2,3]。

基于混合特征学习的预测方法将转发行为预测作为二元分类问题,具有简单、直观的特点。其关键挑战性问题是分析影响用户转发行为的因素,将其作为特征,然后训练分类器得到分类模型进行预测。目前,微博转发行为预测模型所采用的特征集中在用户特征及微博内容特征。社会影响力反映了人们间观点、行为的相互影响方式,用户在社交网络中的社会关系,即与其关联较紧密的其他人的行为对该用户的转发行为也有重要影响。新近研究表明,根据用户自我网络计算得到的用户成对影响力和结构影响力有效量化了局部社会影响力,具有较强的预测能力[4]。同时,面向领域的不同社会事件类型对于转发预测也有影响。因此,本文首先设计了有效融合用户特征、微博内容特征及体现局部社会影响力的自我网络特征的集成化微博转发行为预测方法。以周边用户的影响力特征为基础,辅以其他类型的社会特征、话题特征、微博特征、作者特征和时间特征,再结合机器学习方法对人物的转发行为进行预测。接着,基于面向领域的事件分类体系,在新浪微博的实际数据集上进行了测试,并细致分析了不同事件的转发预测效果,以便于更深层次理解用户转发行为的深层次原因,为舆情监管提供有效的辅助决策支持。

1 相关研究

微博转发预测依赖于对转发影响因素的分析,Guan等分析了热点事件中用户转发行为的影响因素,包括微博用户性别、身份、是否插入图片、URL等[5];Rudat等分析了用户引导、微博主题以及信息量因素对微博转发行为的影响[6];Morchid等从微博内容和用户方面采用PCA多微博转发的主要影响因素进行了分析[7];吴凯等构建了基于兴趣相似度、社会关系、文本特征与用户属性影响、用户受激活次数的影响4种指标的信息传播模型[8]。

微博转发预测方面,Petrovic等对Twitter平台的转发预测进行研究,考虑了粉丝数、关注数、tweet发布量等在内的用户相关特征以及标签、URL、tweet长度等微博本身特征,基于passive-aggressive算法构建转发预测模型[9];张旸等采用特征加权算法构建了微博转发预测模型[10];Suh等人选取了URL、标签、关注人数等因素,使用主成份分析方法(PCA)分析了影响用户转发的主要因素,最后结合所选因素应用广义线性模型分析影响因素与转发行为之间的关系。但这些研究仅仅是对转发行为的统计分析,缺少对用户行为的预测[11]。文献[3]提出融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,基于分类算法构建了面向热点话题相关微博的转发预测模型;文献[12]提取了用户间的微网络结构、权重比率、用户个人信息等特征,提出了一个随机森林微博转发预测算法;文献[13,14]选取用户名、关注人数、微博包含的单词个数等特征,采用基于概率的协同过滤模型对用户的转发行为进行预测;文献[15,16]选取了22个影响因素,并采用因子图模型进行预测分析,对于用户转发行为预测取得了较高的精度。李英乐等从5个影响指标出发提出了基于支持向量机(SVM)的微博转发规模预测模型[17]。Bandari等将微博转发数量划分为(1~20,20~100,100~2400)不同等级,以此为基础构建多分类模型来预测微博转发规模[18]。文献[19]采用BP神经网络对突发事件下的微博转发量进行了预测,并通过改变样本数对预测结果的稳定性进行了测试,得到了有一定参考价值的预测结果。

2 问题描述

微博转发行为预测可形式化地定义为如下问题:给定微博m,用户v,预测用户v是否会对微博m进行转发。用sv,m代表用户的转发状态,sv,m=1代表已转发,sv,m=0代表尚未转发,转发行为预测问题即对sv,m的状态进行预测。

3 集成的微博转发预测方法

3.1 方法框架

预测方法整体框架如图1所示。

图1 微博转发行为预测框架

3.2 特征选取

本文设计了考虑局部社会影响力特征、用户特征及微博内容特征的集成化的特征选取体系,如表1所示。

表1 微博特征选取体系

各特征的计算描述方法如下:

1) 用户影响力特征

文献[4]证明用户的影响力有利于提升用户转发预测准确率。受此启发,本文首先分析影响力特征,提取特定用户的1-ego网络G,即由该特定用户、其关注者和被关注者组成的完整网络。设网络中已对m进行转发的用户为激活用户,没有进行转发的用户为未激活用户。通过以上信息,本文提取该网络中针对特定人物的成对影响力特征和结构影响力特征。

成对影响力是网络中已有的各激活用户对特定用户的影响力之和。已有研究证明[4],基于重启随机游走(RWR)计算得到的成对影响力与转发概率之间存在较强的正相关关系。因此本文基于重启随机游走来计算成对影响力。

具体算法步骤如下:

(2) 从网络中提取邻接矩阵A;

(1)

f(Sv,t,G)=e-d|C(Sv,t)|

(2)

将成对影响力和结构影响力结合,总的影响力计算式如下:

Q(Sv,t,G)=w×g(Sv,t,G)+(1-w)×f(Sv,t,G)

(3)

其中w为平衡两项的系数,Q(Sv,t,G)即为影响力特征。

2) 社会特征

除影响力特征外,还有一些其他类型的社会特征,包括:

用户之前转发v′发布的微博的次数;

用户之前在自己的微博中提到v′的次数。

3)话题特征

微博m的内容是否是用户感兴趣的话题也是影响用户转发行为的重要因素之一。因此,我们提取以下话题特征:

TF-IDF特征:根据用户以往发布的微博构建词袋(BOW)模型,得到以TF-IDF为权重的词向量,计算其与微博m的TF-IDF词向量的余弦相似度;

隐话题特征:用LDA对用户以往发布的微博进行分析得到代表用户兴趣的话题向量,同样用LDA对微博m进行分析,计算两话题向量之间的KL散度,即:

(4)

其中p、q分别是用户以往发布微博、微博m的LDA话题分布;

弹指一辉间,每次看到《农家致富顾问》,我就想起与她二十余年的情缘,翻开我多年珍藏的《农家致富顾问》剪贴簿和杂志社编辑、记者寄给我的厚厚一叠泛黄的信和样刊,禁不住思潮翻涌,思绪万千。我与《农家致富顾问》感情之深,在这里还要特别感谢《农家致富顾问》曾经刊登了我编写的“农家致富顾问助我走上致富路”……,豆腐块小文!使我久久难以忘怀,《农家致富顾问》真好,平易近人。

实体特征:从用户以往发布的微博得到其使用过的实体的分布,计算该分布与微博m中的实体分布的余弦相似度。

4) 微博自身的特征

微博自身的特征包括:URL数目、Hashtag数目、@他人的数目、微博m中的文字数目。

5) 微博作者的特征

微博作者特征包括:该作者的关注者数量、关注该作者的用户数量、作者是否是认证用户、作者发布的微博的总量。

4 实验结果分析

4.1 数据集描述与评价准则

本文从新浪微博平台随机抽样了1522个用户,如表2所示,爬取了2014年1月23日到2015年3月26日期间27 094条转发记录,涉及原创微博6892条。另外从微博作者的直接粉丝以及间接粉丝(粉丝的粉丝)中随机采样非转发记录,为保证类平衡性,采样的负样本与正样本个数相同,最终总共得到54 188条数据。

表2 新浪微博随机采样数据

利用该实验数据集,分别训练朴素贝叶斯、逻辑回归、支持向量机、随机森林模型,并利用10折交叉验证对预测效果进行评价。使用的性能指标包括:精度、召回率、F1、准确率。精度Precision、召回率Recall、F1、准确率Accuracy的计算式为:

(5)

(6)

(7)

(8)

其中TP表示测试数据中系统预测转发并且实际数据也是转发的实例个数;FP表示系统预测转发并且实际数据没有转发的实例个数;TN表示系统预测不转发并且实际数据也不转发的实例个数;FN表示系统预测不转发但实际数据转发的实例个数。

4.2 实验结果

1) 分类算法比较

朴素贝叶斯、逻辑回归、支持向量机、随机森林模型的预测效果如表3所示。可以看出随机森林准确率达到了83.1%,取得了最好的分类效果。

表3 不同分类算法预测效果

2) 特征重要性比较

为了比较各类特征对于预测效果的作用,本文对比去除某类特征后的转发预测准确率和原模型预测准确率。不同类别特征对于预测准确率的影响如表4所示,可以看出三个类别的特征对于预测准确率都有较大的影响。其中,微博内容特征对预测效果影响最大,不使用微博内容特征的模型预测准确率将会降低至68.5%;未使用局部影响力特征将会使准确率降低将近2%。可见,综合考虑微博内容特征、用户特征及局部影响力特征可以有效提高预测准确率。

表4 不同微博特征预测效果

3) 不同事件类型的微博影响力预测效果对比

本文基于事件分类体系,采用不同关键词从实验数据集中的微博中选取了自然灾害、环境、公共突发、暴恐、犯罪、审判、公共卫生、政治、反腐、维权、活动类、周边国家、政策出台、军事等14个类别的微博,比较不同类别中微博转发预测的准确率。各个类别的数据情况如表5所示。

表5 不同类型的微博数据情况

不同类型中微博转发预测准确率如表6所示。可以看出,在所有类别中随机森林都取得了最好的预测准确率。在对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。而对于公共突发、暴恐、军事等类型的事件,转发预测的准确率相对较低。

表6 不同类型微博转发预测效果

续表6

5 结 语

微博转发预测是研究信息传播的关键问题之一,对于舆情监控、广告投放、商业决策有着重要意义。本文综合局部社会影响力特征、用户特征、微博内容特征,提出了基于混合特征学习的转发预测方法。利用新浪微博平台数据,本文对比了朴素贝叶斯、逻辑回归、支持向量机、随机森林模型的预测效果,结果表明随机森林取得了最好的效果,准确率达到83.1%。另外,本文还对比不同特征对于转发预测的影响,结果表明局部社会影响力特征、用户特征、微博内容特征都对转发预测有着较大影响,其中微博内容特征的影响最大。最后,本文比较了不同类型微博的转发预测准确率,结果表明,在对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。而对于公共突发、暴恐、军事等类型的事件,转发预测的准确率相对较低。

[1] 樊博.2015微博用户发展报告[R/OL].[2015-12-15].http://data.weibo.com/report/reportDetail?id=297.

[2] 李洋,陈毅恒,刘挺.微博信息传播预测研究综述[J].软件学报,2016,27(2):247-263.

[3] 陈江,刘玮,巢文涵,等.融合热点话题的微博转发预测研究[J].中文信息学报,2015,29(6):150-158.

[4] Zhang J,Liu B,Tang J,et al.Social Influence Locality for Modeling Retweeting Behaviors[C]//International Joint Conference on Artificial Intelligence.AAAI Press,2013:2761-2767.

[5] Guan W,Gao H,Yang M,et al.Analyzing user behavior of the micro-blogging website Sina Weibo during hot social events[J].Physica A:Statistical Mechanics and Its Applications,2014,395:340-351.

[6] Rudat A,Buder J,Hesse F W.Audience design in Twitter:Retweeting behavior between informational value and followers’ interests[J].Computers in Human Behavior,2014,35:132-139.

[7] Morchid M,Dufour R,Bousquet P M,et al.Feature selection using Principal Component Analysis for massive retweet detection[J].Pattern Recognition Letters,2014,49:33-39.

[8] 吴凯,季新生,刘彩霞.基于行为预测的微博网络信息传播建模[J].计算机应用研究,2013,30(6):1809-1812.

[9] Sasa Petrovic,Miles Osborne,Victor Lavrenko.RT to Win! Predicting Message Propagation in Twitter[C]//Fifth International AAAI Conference on Weblogs and Social Media(ICWSM),2011.

[10] 张旸,路荣,杨青.微博客中转发行为的预测研究[J].中文信息学报,2012,26(4):109-114,121.

[11] Bongwon Suh,Lichan Hong,Peter Pirolli,et al.Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing (SocialCom). Minneapolis,USA:IEEE,2010:177-184.

[12] 罗知林,陈挺,蔡皖东.一个基于随机森林的微博转发预测算法[J].计算机科学,2014,41(4),62-64,74.

[13] Zaman T R,Herbrich R,Gael J V,et al.Predicting information spreading in Twitter[J].Computational Social Science and the Wisdom of Crowds Workshop,2010.

[14] Stern D H,Herbrich R,Graepel T.Matchbox:Large scale online Bayesian recommendations[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,2009:111-120.

[15] Yang Zi,Guo Jingyi,Cai Keke,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th International Conference on Information and Knowledge Management,Toronto,Canada,2010:1633-1636.

[16] 杨子.社会网络分析中的预测模型[D].北京:清华大学,2011.

[17] 李英乐,于洪涛,刘力雄.基于SVM的微博转发规模预测方法[J].计算机应用研究,2013,30(9):2594-2597.

[18] Roja Bandari,Sitaram Asur,Bernardo A.Huberman.The Pulse of News in Social Media: Forecasting Popularity[C]//6th International AAAI Conference on Weblogs and Social Media(ICWSM),2012.

[19] 邓青,马晔风,刘艺,等.基于BP神经网络的微博转发量的预测[J].清华大学学报:自然科学版,2015,55(12):1342-1347.

A MICROBLOGGING RETWEET PREDICTION METHOD BASED ON HYBRID FEATURES LEARNING

Ma Xiaofeng1Wang Lei2Chen Guandan2

1(Shanghai Data Analysis and Processing Technology Research Institute,Shanghai 201112,China)=2(The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

Microblogging retweet prediction is one of the key problems in information dissemination, which plays important roles in public opinion monitoring, advertising, and business decision making. The process of information dissemination is influenced by many factors such as user interest, microblogging author’s influence, and content of post, etc. The challenge of improving prediction performance is how to capture the important features for retweet prediction. In this paper, we propose a retweet prediction method based on hybrid features learning. Firstly, the method introduces and analyses the impacts of hybrid features including social influence locality, user features, and microblogging content features. Then, it builds the retweet prediction model based on classification algorithms. Finally, it compares the results of different types of microblog. Experimental results on Sina Weibo datasets show that local social influence features, user features and microblogging content features affect the retweet prediction,and the greatest impact is the micro-blog content features. Random forest method has the best performance, and the accuracy rate can reach 83.1%. Compared to Naive Bayes, logistic regression and SVM, the accuracy rate increased by an average of about 7.4%, the highest increase of about 10.8%. In addition, the method has an advantage on topics about natural disasters, environment, trial, rights, which shows that these kinds of events contain stronger retweet patterns.

Microblogging Hybrid features learning Retweet prediction

2016-08-01。马晓峰,博士生,主研领域:社会媒体分析与处理。王磊,高工。陈观淡,博士生。

TP181

A

10.3969/j.issn.1000-386x.2016.11.058

猜你喜欢

影响力准确率预测
无可预测
选修2-2期中考试预测卷(B卷)
选修2-2期中考试预测卷(A卷)
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
天才影响力
黄艳:最深远的影响力
不必预测未来,只需把握现在