基于SVM的新浪热门微博预测
2017-05-12陈梦秋周安民
陈梦秋,周安民
(四川大学电子信息学院,成都 610065)
基于SVM的新浪热门微博预测
陈梦秋,周安民
(四川大学电子信息学院,成都 610065)
针对新浪微博热门微博预测的问题,提出一种以博主影响力、博主最近微博热度、原创性、微博发布时间、微博信息量、是否含有话题标签、是否带图/视频/链接作为特征,借助SVM模型进行热门微博预测的方法。其中,用户影响力根据PageRank算法进行计算,避免仅以粉丝数量作为评判带来的偏差。实验结果表明,该方法可以较为准确地对单条微博能否成为热门微博进行预测。
新浪微博;热门微博;预测;SVM
0 引言
据国家发改委11月29日公布的数据显示,截至2016年6月底,我国国内网民规模为7.1亿人,互联网普及率达51.7%,手机网民更是达到了6.56亿人。
互联网持续的颠覆和改造传统行业诞生了很多机会,互联网媒体的高速发展使得传统媒体受众日益减少,过去报纸、刊物、电视是媒体,现在依靠互联网人人都可以成为媒体,可以说这是一个人人都是自媒体的时代。
新浪微博于2009年上线,用户可以将所见所闻所想随时随地通过电脑或者手机上传,而所有的好友,甚至陌生人都可以一起分享、讨论。微博以其开放性、个性化、自由化的特性,为更多的社会公众提供了话语环境和信息传播渠道。微博时代下,每个用户都是记者,他们用内容丰富和及时的信息传播,开始挑战传统媒体的地位,对新闻报道产生了巨大的影响。尤其近两年,有诸多新闻是通过微博传播发酵甚至发布的,微博使更多社会民众参与其中,改变了新闻报道形式。
在这一情景下,研究热门微博的预测,对舆情监控和预警有着重要的意义。
1 相关工作
Twitter可以看作是微博的起源和原型,国外对Twitter的研究,也早于中国便开始,Kwak等人[1-2]抓取并研究了Twitter用户、话题、推文数据,对用户的影响力进行排序,并给出了Twitter跟随图的拓扑特征的特征属性。对于国内的微博,丁兆云等人[3]研究了微博的相关特性,介绍了微博数据挖掘的方法、对话题事件微博情感的分析、对微博传播和影响力的分析。微博以传播量影响舆论,所以现有研究的重点多以热门微博、热门话题和关键用户节点为主,但是也有刘臣等人[4]以非热门微博为研究对象,分析了非热门微博的生命周期,并指出了微博生命周期与粉丝数量、转发量等因素的关系。在热门预测方面,熊小兵等人[5]结合用户信息和微博内容建立线性预测模型,对微博话题的流行度进行预测;于兴隆等人[6]以高校BBS为研究对象,通过对发帖回帖用户的活跃、回复时间间隔度进行聚类,进行热帖的预测;对新浪热门微博的预测,俞青云等人[7]对博主影响力和微博内容建模,有的再结合发布时间、情感等因素,综合判断。但相比于话题,针对单条微博的热度预测研究,还有很大研究空间。
2 方法介绍和特征选取
2.1 支持向量机SVM
支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,常用于模式识别、分类,以及回归分析,针对线性不可分的情况,通过非线性映射算法将低维的输入样本转化到高维特征空间使其线性可分,如图1所示,将在一维空间中不可分的点,映射到二维特征空间中,达到了进行线性分析的目的。根据已有实验结论,SVM在短文本分类上具较其他方法更有优势[8],因此这里选用SVM对微博分为热门微博和非热门微博两类,以分类结果作为微博热度的预测。
图1 SVM原理示意图
2.2 特征选取
热门微博榜单是新浪微博提供最新最热优质内容阅读服务的一项产品,按有效时间分为小时榜、24小时榜、周榜、月榜,并可以根据用户爱好按微博内容类型分类。热门微博榜单以热度为标准进行排序,列出在榜单时效内除去违规、营销、低信用微博后热度最高的前300条。热度计算公式为:
(1)加权特征
热度计算公式中的热度权重根据热门微博管理规范(试行版)所述,微博包含多图的、含“#”话题的、含站内长微博的、博主是实名用户(绑定手机帐号、完善个人资料、认证用户等)的,有热度加权;而微博包含外链的、同一时段榜单同一用户的第二条上榜微博、内容相似的第二条微博、图片长微博、博主非原创段子类帐号的微博,会对其热度进行降权。由数据统计得知,热门微博中含有图片、视频、文章链接的微博占全部热门微博的94%,在一定程度上证明了微博含有图片和视频、微博为站内长微博的,因为增加权重,热度更高,更有可能成为热门微博。因此,选取微博是否含有话题标签和是否带有图/视频/新浪长文链接两项作为预测特征。
(2)博主影响力
PengyiFan等人[9]对新浪微博的拓扑及信息扩散进行了研究,发现新浪微博的拓扑结构具有明显的小世界效应和无规模的特性,度分布服从幂律分布。而且因为微博中的关注是有向的,新浪微博的关注网络节点平均距离甚至比人人网、Facebook更小[10],即微博上人与人之间的联系更为紧密,消息只需要经过更少的跳数就能传播到网络上的其他人,这也在一定程度上解释了为什么消息能在微博网络上迅速传播。这种一传十十传百的特性,使得一条微博的转发量可能呈现出裂变式的几何增长,爆炸式的新闻。
通过抓取热门微博数据,分析微博转发规律,绘制转发拓扑图,发现微博转发常见的拓扑分为两种——树形结构(图2左)和星形结构(图2右)。无论是哪种结构,一级转发都占到总转发量的50%以上,可以看出新浪微博转发深度较小,而广度较大,印证了微博转发的平均距离短和最大深度分布近似符合幂律分布的特征,也从一定角度说明了博主的粉丝数和影响力对转发量影响。
图2 常见微博转发拓扑
由于僵尸粉、买粉现象的存在,粉丝数量并不能完全代表一个微博用户的真实影响力。因此采用PageRank算法对博主影响力进行评算[11]。PageRank[12]是一种根据网页之间的超链接计算网络中优质网页排名要素的算法,鉴于用户之间的关注和被关注与网页之间的链接和被链接的相似性,将该算法用于用户影响力的计算,其思想大致为被越多影响力大的用户关注的用户影响力越大,关注其他用户越少的用户影响力越大。根据这一思想,用户的PageRank值可以用以下公式进行计算:
其中:I(uj)表示用户i的影响力;d为0~1之间的一个阻尼系数,表示从一个给定用户转移到另一个随机用户的概率,一般取值为0.85;F(ui)表示所有指向节点ui的节点(即ui粉丝用户集);表示uj所有指向的节点数(即uj的关注数)。
(3)博主近期微博热度
同一微博用户的时间相近的微博在内容上可能具有一定的连续性,同时,同一微博用户在热度上也具有一定的连贯性,因此由博主近期的微博热度可以在一定程度上预测当前微博热度:
其中,h表示博主近期微博热度特征值;m表示该博主最新的10条微博;rm表示微博的转发数;cm表示微博的评论数;lm表示微博的点赞数。
(4)原创性
新浪微博中只有28.98%微博为原创微博,转发微博占到71.02%。新浪微博的转发以在原微博前添加“// @用户名:(转发评论)”表示,在微博字数限制内转发格式可以多次重复叠加,表示多级转发。一条微博不限制被转发的次数,转发越多,就表明越有可能被更多人看到,有更大的影响力。由于字数限制,转发级数过多可能导致较低级数的转发标记被删除,但所有的转发次数都会计算在原微博的转发数中。所以,同样一条微博,原创微博在热度上更有优势,因此选取微博的原创性作为热门微博的特征之一。
(5)微博发布时间
从微博转发的时间规律上看,一条典型的热门微博发布后会迅速开始被转发,短时间内热度呈指数增长,一段时间后转发量逐渐减小。如果一条微博在发布后的3小时[7]内没有大幅度的热度增长,那么这条微博成为热门微博的可能性就很小了。
图3 微博发布后24小时内转发量变化
根据濮小燕[11]等人的数据结论,新浪微博每天不同时刻的在线人数和活跃度呈现一定的规律,不同的活跃用户总数将直接导致微博转发评论的数量,从而影响微博的热度。结合大部分人的作息和休息娱乐时间,我们大致将一天分为几个阶段,[1:00,7:00]是大多数人的睡眠时间,整体活跃度降至一天的最低谷,[7: 00,11:00]有所回升,属于多数人的上班时间,[11:00,14: 00]属于午休时间,正合适微博利用碎片化时间娱乐的特点,所以转发数量略有上升,[14:00,19:00]属于上班时间,因此对微博用户的活跃度有所影响,[19:00,1:00]是多数人晚饭后的自由支配时间,用户活跃度达到一整天的峰值。从转发规律上也印证了这一点,如图3所示。
一条微博如果在用户活跃度较高的时间发布,则会更快地传播,热度更高,相反如果发布的时间用户整体活跃度较低,就很容易淹没在海量微博数据中。因此,选取微博的发布时间作为热门微博特征:
其中,t表示发布时间特征取值,T表示微博发布的具体时间。
(6)微博长度
大多微博用户在微博发布的都是生活琐事和情感宣泄,难以引起广泛的转发或评论,传达完整清楚的微博才能获得更多的共鸣和热度,因此选取微博长度是否大于20字作为热度特征之一。
3 实验及结果分析
3.1 实验数据准备
训练和测试所需的微博及用户数据通过新浪开放的API平台获取,抓取30天热门微博和其他非热门微博各100条,共计6000条微博及其发布用户数据。将前15天的3000条数据作为训练集,剩余数据作为测试集。
3.2 实验及结果
对微博能否成为热门微博的预测,可以转换为一个二分类问题,将输入的单条微博分类到热门类或非热门类,分类结果即预测结果。根据前文的分析,本文选取博主影响力、博主最近10条微博平均转发评论量、是否为原创微博、微博发布时间、微博长度是否大于20个字、是否含有话题标签、是否带图/视频/链接7项作为分类特征。
依照图4所示流程进行实验。将爬取到微博和博主信息,根据选取的特征转换成所需的数据作为语料,并分为训练语料和测试语料两部分。用训练语料训练微博热度分类SVM模型,采用“网格搜寻法”确定惩罚系数C和间隔γ。最后用测试语料测试模型的准确性。
使用准确率、召回率和F1值对模型分类结果进行评价,得到结果如表1所示。
表1 基于SVM模型对微博热度分类结果
从实验结果可以看出,本实验使用的7项特征,借助SVM模型可以较好地区分出热门与非热门两个类别,从而达到预测单条微博是否能够成为热门微博的目的。
图4 预测分类流程
4 结语
自媒体时代的到来,意味着单条微博的流行和传播,可能就是一条爆炸性新闻、一个舆论事件开端,进而引领出大范围的讨论,因此对单条微博的热度预测有助于对舆情的监督和预判。本文分析了热门微博的特征,提出了使用博主影响力、微博的原创性、发布时间等特征借助SVM模型对微博按热度进行分类的方法,从而达到热门微博预测的目的,并从新浪微博爬取了微博和博主数据,对提出的方法进行了相关实验,实验结果表明该方法对热门微博的预测具有一定的实际效果和意义。
[1]Myers S A,Sharma A,Gupta P,et al.Information Network or Social Network:the Structure of the Twitter Follow Graph[C].Proceedings of the 23rd International Conference on World Wide Web.ACM,2014:493-498.
[2]Kwak H,Lee C,Park H,et al.What is Twitter,a Social Network or a News Media[C].Proceedings of the 19th International Conference on World Wide Web.ACM,2010:591-600.
[3]丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706.
[4]刘臣,周立欣,霍良安,等.非热门微博信息的传播特征分析[J].情报杂志,2014(11):29-33.
[5]熊小兵,周刚,黄永忠,等.新浪微博话题流行度预测技术研究[J].信息工程大学学报,2012,13(4):496-502.
[6]于兴隆,李丽萍,吴斌.基于用户行为的高校BBS热帖预测模型[J].计算机应用与软件,2013,30(1):48-54.
[7]俞青云.基于微博公共平台的单条微博热门程度预测及其相关微博发现[D].安徽大学,2016.
[8]丁晟春,王颖,李霄.基于SVM的中文微博情绪分析研究[J].情报资料工作,2016(3).
[9]Fan P,Li P,Jiang Z,et al.Measurement and Analysis of Topology and Information Propagation on Sina-Microblog[C].IEEE International Conference on Intelligence and Security Informatics.IEEE,2011:396-401.
[10]曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(4):779-790.
[11]王彪.社交网络中的用户影响力分析[D].哈尔滨工业大学,2012.
[12]濮小燕.基于多层结构的单条微博影响力研究[D].电子科技大学,2015.
[13]李英乐,于洪涛,刘力雄.基于SVM的微博转发规模预测方法[J].计算机应用研究,2013,30(9):2594-2597.
Sina Popular Microblog Prediction Based on SVM
CHEN Meng-qiu,ZHOU An-min
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610065)
Aiming at the problem of popular microblog prediction of Sina Microblog,puts forward a new method to predict the popular microblog, which is based on SVM model using the influence of bloggers,recent blog heat of bloggers,originality,published time,information amount,topic tag,picture,video,link as the features for popular microblog prediction.Among them,calculates the user influence according to PageRank algorithm,to avoid the deviation of using only the number of fans as a judge.The experimental results show that this method can accurately predict whether a single microblog can become a popular microblog.
Sina Microblog;Popular Microblog;Prediction;SVM
1007-1423(2017)09-0023-05
10.3969/j.issn.1007-1423.2017.09.006
陈梦秋(1991-),女,四川成都人,硕士研究生,研究方向为信息安全
2017-01-18
2017-03-10