融合热点话题的微博转发预测研究
2015-04-12巢文涵王丽宏
陈 江,刘 玮,巢文涵,王丽宏
(1.北京航空航天大学计算机学院,北京100191;2.国家计算机网络应急技术处理协调中心,北京100029;3.中国科学院计算技术研究所,北京100190;4.中国科学院大学,北京100049)
1 引言
微博是一个基于用户关系的信息分享、传播以及获取平台[1]。微博从2009年发布至今,迅速以其内容简洁、交互简便和快速传播等特点,发展成为人们表达观点、抒发情绪、传递信息的重要社会媒体。根据2015年7月《CNNIC:2015年第36次中国互联网络发展状况统计报告》,截止2015年6月,我国微博用户规模为2.04亿,其中手机微博用户数为1.62亿,使用率为27.3%,用户之间通过关注形成复杂的关系网络。
在微博平台中,用户之间通过关注关系构成错综复杂的网络结构,用户通过转发微博传播信息,这种传播方式具有传播快、覆盖广的特点,使得某些微博能够在短时间内形成极大的关注和影响。因此,微博转发研究对话题检测、热点跟踪、舆情监控以及商业营销具有重要价值。
目前针对微博转发的研究主要基于网络结构或基于微博特征,前者通过分析微博网络中信息传播的特点,研究微博转发问题,但该方法局限于微博网络复杂而庞大,难以获得完整的网络结构,而基于部分网络结构数据往往造成较大的偏差。后者通过分析影响微博转发的因素,构建微博转发模型,该类主要针对用户静态属性或消息特征来预测消息是否会被转发,没有充分考虑待预测用户的个体差异和背景知识对转发决策的影响。
事实上,用户阅读到一条微博时,会根据自己已有知识对微博价值和新颖性进行判断,然后决定是否转发。微博是否会被转发与用户个体行为和用户对微博的背景知识具有紧密相关性,用户所掌握的微博背景知识一方面由历史微博获取,一方面由用户对微博内容的综合认知程度决定,而用户对微博内容的综合认知程度受多种复杂因素影响,社会上发生的热点话题信息是其中重要的影响因素。
本文以此为出发点,研究融合背景热点话题的用户转发行为预测方法。本文提出融合热点话题的微博转发预测方法,对背景热点话题内容和传播趋势对用户转发行为的影响进行量化分析,提出了融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,并基于分类算法建立了面向热点话题相关微博的转发预测模型。在真实数据上的实验结果表明,本文方法的预测准确性达到96.6%,提升幅度最高达到12.14%。
本文的组织结构如下:引言部分介绍问题背景和研究现状;第二节介绍相关工作;第三节介绍问题描述;第四节介绍热点话题对用户转发的相关性问题;第五节介绍融合热点话题的特征分析方法;第六节实验结果和分析;第七节是总结和下一步工作。
2 相关工作
微博转发研究工作主要集中在提取转发和非转发行为区分度高的特征。Petrovic S[2]等人研究Twitter平台的转发预测问题,考虑了tweet用户相关特征,如粉丝数、关注数、tweet发布量等,以及tweet本身特征,如标签、URL、tweet长短等,基于机器学习方法构建转发预测模型。Galuba W等人[3]研究了用户URL提及频繁程度,通过追踪URL传播的方式,研究Twitter平台中URL的传播规律,构建基于用户提及URL的预测模型。李英乐[4]和曹玖新[5]等人通过微博客中用户特征和微博内容特征来研究微博转发及其预测问题,但方法过于依赖微博内容对微博转发的影响。Kanavos A[6]等人构建微博情绪模型,基于tweet内容特征的情感倾向研究tweet传播的广度和深度。文献[7-9]将微博是否会被转发转化成一个二分类问题,基于机器学习方法构建分类模型进行微博转发预测。
转发行为是促使微博在微博网络中病毒式传播[10-11]的关键问题,转发特征的研究主要分布在用户转发行为的研究[12-14]和微博转发规模预测的研究中[15-16],Zhang Y等人[19]研究不同特征对转发行为影响的差异性,从而构建基于特征加权的转发预测模型。Petrovic S等人[2]基于passive-aggressive算法预测微博是否会被转发,他们的研究发现微博博主是否认证及其粉丝数等会影响微博是否会被转发。Bandari R等人[17]将微博转发数量按不同等级划分(1-20,20-100,100-2400),构建多分类模型来预测微博转发规模。Ma Z[18]等人提取tweet的特征,基于机器学习方法,构建了标签的流行度预测模型对转发规模进行预测。
社交网络具有复杂网络特性,也有学者基于社交网络结构研究微博传播规律。这方面的研究主要基于社交网络的结构特征,构建社交网络拓扑图,在此基础上研究信息传播规律。Szabo G[19]等人研究在线内容的流行度问题,并构建流行度预测模型,但他们的研究具有平台局限性,可推广性差。Yang J[20]等基于传播关系网络,通过信息已经流过的节点,构建线性影响模型,预测信息传播的实时动态。
综上所述,现有的研究者主要基于微博特征或基于网络结构特征,研究微博转发预测问题,这些研究工作将微博平台视作一个独立系统,不受其他渠道信息影响。事实上,Yang Z[14]等人的研究工作表明,当有突发话题发生时,微博传播很大程度上会收到外界信息的影响。微博是否会被转发与用户个体行为和用户对微博的知识背景具有紧密相关性。用户所掌握的微博背景知识一方面由历史微博获取,一方面由用户对微博内容的综合认知程度决定,而用户对微博内容的综合认知程度会受到多种复杂因素影响。其次,通过微博内容与用户兴趣相似度判断用户转发的方法,往往因为微博内容非常短,所含内容特征有限,使得微博与用户兴趣之间的相似度计算准确性低,转发行为预测准确性低。
针对上述问题,本文研究融合背景热点话题的用户转发行为预测方法。首先,提出话题背景知识获取和特征向量计算方法,用于表示用户对热点话题的综合认知程度,并将直接判断用户对微博的感兴趣程度问题转换成判断用户对微博所属热点话题的感兴趣程度问题,能够避免因用户历史微博内容局限性而导致的预测准确性低的问题。其次,提出利用用户历史转发行为趋势特征及其与热点话题传播趋势一致性的计算方法,以此代表用户对热点话题的关注程度,进而表示该用户对热点话题微博的感兴趣程度,避免直接通过计算单条微博与用户兴趣相似程度所带来的不准确性问题。最后,基于分类算法建立面向热点话题相关微博的转发预测模型,在真实数据上开展实验验证。
3 问题描述
融合背景热点话题的微博转发预测问题可以描述为F=f(U,W,H),其中:U表示用户特征,W表示微博特征,H表示当前网络上正在发生的热点话题特征,本文称为背景热点话题,F表示用户行为,即用户u对微博w的动作,F∈{1,-1},F=1表示用户u转发了微博w,F=-1表示用户u没有转发微博w,用户u是否转发微博w的转发预测问题可以转化为二分类问题。
现有方法仅基于微博本身的用户特征和微博特征,无法综合利用背景热点话题特征对用户转发行为进行预测。本文基于百度新闻搜索获取热点话题数据,作为背景热点话题内容,研究背景热点话题对微博转发行为的影响。在传统分类模型基础上,引入热点话题特征扩展特征空间,提高预测准确性。背景热点话题对转发行为的影响主要考虑热点话题内容和传播趋势两方面因素,相关定义如下。
定义1 背景热点话题内容,指从新闻网站获取的热点话题数据,经过预处理后表示为热点话题关键词向量,以此表示用户能够从其他渠道获知的微博内容相关的背景知识。
定义2 背景热点话题传播趋势,指热点话题相关报告的热度分布,以此表示热点话题热度传播趋势。
4 热点话题对用户转发的影响研究
基于微博自身属性的微博转发预测研究大多假设用户转发行为不受微博之外的因素影响。然而,用户具有社会属性,接收信息渠道具有多元化特点,转发行为会受到微博数据以外的多种因素影响。热点话题能在一定程度上吸引用户更多地参与到相关微博话题的讨论中,提高话题相关微博的转发量。
以“世界杯”热点话题为例,我们爬取新浪微博2014年4月12日—9月13日期间数据,统计微博总量变化趋势和话题相关微博总量的变化趋势。如图1所示,热点话题期间微博空间的微博总量和话题相关的微博总量都呈现出明显的增长趋势,表明用户转发行为会受到热点话题的影响。
图1 热点话题期间微博转发量变化趋势
进一步,我们研究热点话题对微博用户转发行为的影响。我们针对2014年4月12日—9月13日期间微博用户,根据用户在热点话题期间是否发表过与之相关的微博判断用户是否与热点话题相关,将用户分为与热点话题相关和不相关两类,分别对用户转发量趋势进行统计。结果如图2所示,三条曲线分别表示所有用户(all users)、与热点话题相关的用户(users prefer soccer)、及与热点话题不相关的用户(other users)所转发的与热点话题相关的微博量的变化趋势。我们可以看出在话题传播周期内,热点话题对各类用户的转发量都有明显的提升,与热点话题相关用户的转发量提升幅度较大。同时,历史上与热点话题不相关的用户也在热点话题期间增加了对热点话题相关微博的转发量,表明仅基于用户历史微博计算的用户兴趣难以有效预测在新的热点话题下的用户转发行为,用户的转发行为会受到当前社会热点话题的影响。
图2 热点话题对各类用户微博转发量的影响
5 特征分析
5.1 融合热点话题的用户转发兴趣特征
兴趣是人们对事物喜好或关切的情绪,它表现为人们对某件事物、某项活动的选择性态度和积极的情绪反应[21]。微博用户的兴趣部分通过用户的转发行为体现出来,我们称之为用户转发兴趣。用户的转发行为受用户对微博的综合认知程度影响,而用户对微博的综合认知程度受多种复杂因素影响,用户转发兴趣及背景热点话题也是影响因素之一。兴趣作为用户的情绪反映,是用户个体行为一种相对稳定表现的形式。而在做转发决策时,个人兴趣、微博内容及当前发生的热点话题共同影响着用户转发决策。
从第四节的分析,我们可以看出用户兴趣与热点话题越相关,越容易在热点话题期间进行大量的转发,我们提出融合热点话题的用户转发兴趣特征,来计算用户转发兴趣与热点话题的匹配程度。
热点话题内容表示:背景热点话题文档级别的表示D_topic={d1,d2,…,dn},根据表示背景热点话题的文档集合,提取关键词,获得背景热点话题词语级别的表示S_topic={w1,w2,…,wm}。
用户转发兴趣表示:通过用户历史转发微博内容来表示用户转发兴趣。用户历史转发微博表示为D_user={d1,d2,…,dn},对用户微博进行分词,去除停用词后,形成用户转发兴趣的词语级别的表示为I_user={w1,w2,…,wm}。
融合热点话题的用户转发兴趣特征计算,定义为用户转发兴趣与背景热点的匹配程度,计算方法如式(1)所示。
我们计算了转发微博数量对应用户转发兴趣特征的变化关系。如图3所示,横坐标表示融合热点话题的用户转发兴趣,纵坐标表示与背景热点话题相关的微博转发量。图3反映了用户转发行为与融合背景热点话题的用户转发兴趣之间的关系。由图中可以看出,用户转发兴趣与背景热点话题之间的匹配程度越高(CO越大),则用户所转发与背景热点话题相关微博的数量越多,表明融合背景热点话题的用户转发兴趣能够有效预测用户的转发行为。
图3 微博转发量对应融合背景热点话题的用户转发兴趣的关系图
5.2 融合热点话题的用户转发行为特征
1.融合背景热点话题的用户活跃度
转发行为活跃度通过用户在热点话题期间的累积转发量表示,融合背景热点话题的用户转发活跃度通过热点话题期间与热点话题相关的微博的累积转发量表示,该特征能够表明用户对热点话题的感兴趣程度。计算公式如式(2)所示。
用户在一段时间t内转发的与热点话题相关的微博的频繁程度:
其中:mti表示用户在时间t内发布的微博i,S表示对应热点话题的词语级表示,τ是微博是否与热点话题相关的阈值。
2.融合背景热点话题的用户行为一致性
第四节从内容上考虑影响用户转发行为的因素,从图3我们还可以看出,由于微博长度短且用户通常利用碎片时间登录微博进行浏览和转发,大部分用户转发量在0~100条之间,转发兴趣关键词集中在0~150之间,仅从兴趣内容和累积转发量上很难全面刻画用户对热点话题的关注程度。用户转发微博的行为具有差异性,有的用户登录频繁且兴趣广泛,从累积的转发活跃度和兴趣特征上都表现出较高的转发概率,但是这类用户对热点话题相关微博的转发行为具有突发性和随机性特点。而有的用户转发活跃度较低,只是在自己持续关注的某些领域进行转发,这类用户未来转发热点相关微博的概率更大。所以考虑用户对热点话题相关微博的持续关注程度,能够有效检测用户是否是该热点话题的黏性用户,黏性用户未来转发热点话题相关微博的概率较高。
一段时间内用户转发微博数量的变化趋势可以看做是时间轴上的一个概率分布P_user;我们以一定时间内新闻报道数量变化来衡量背景热点话题的热度变化趋势,也可以看作是时间轴上的一个概率分布P_topic。我们通过计算两个分布之间的相似度来计算用户行为与热点话题传播趋势的一致性特征。
试验第9 d和10 d,第79 d和80 d,于晨饲前对试验牛进行称重,并计算每头牛平均体重[16]。
计算分布相似度,我们采用KL(Kullback-Leiber divergence)散度又称相对熵(relative entropy)方法,该方法是用来描述两个概率分布之间差异性的一种方法[22],KL距离越小表示两个分布越相似,KL距离等于0时表示两个分布完全一样。我们用KL距离来反映概率分布P_user和概率分布P_topic之间的关系。
考虑到KL距离的非对称性,我们以式(5)
来计算概率分布之间的关系。通过上述计算方法我们计算了转发微博与行为一致性之间的对应关系。
如图4所示,当KL距离增大时,分布之间差异变大,说明用户转发行为与背景热点话题发展趋势之间相关性较小,转发行为具有随机性和非持续性,用户转发的与背景热点话题相关的微博较少;当KL距离减小时,分布差异较小,说明用户转发行为与背景热点话题发展趋势之间相关性较大,转发行为和热点话题趋势具有较高的一致性,用户对该热点话题进行了持续关注,用户转发与背景热点话题相关微博较多。这说明,持续关注某一背景热点话题的微博用户对该背景热点话题具有更高的转发兴趣,融合背景热点话题的用户行为一致性特征能够有效检测出热点话题的持续关注用户,同时避免因其总发帖量不高而被忽略的问题。
图4 微博转发量对应行为一致性特征的关系图
5.3 融合热点话题的微博内容特征
本节针对待预测微博内容来分析热点话题对微博转发的影响。考虑到微博内容与热点话题越相关,得到转发的概率就越大,我们提出融合热点话题的微博内容特征,同样,我们用词集合S_topic={w1,w2,…,wm}来表示背景热点话题内容。我们对微博进行分词、去除停用词的预处理之后,将微博表示成一个词语级别的集合:M_mes={w1,w2,…,wm}。由于微博内容很短且都是特征词语,我们用Jaccard相似系数来表示微博内容与背景热点话题之间的相似性,即融合热点话题的微博内容特征,如式(6)所示。
我们对融合热点话题的微博内容特征值不同的微博获得的转发总量及平均值进行了统计分析。如图5所示,横坐标为JSM值,纵坐标分别对应微博所获得的平均转发量和转发总量。从图中可以看出,以右侧坐标轴为标示的绿色曲线表明微博转发总量随微博内容与背景热点话题相似性的增大而减少,这是因为大部分微博内容简短,所含内容特征较少,高相似性的微博数量大量减少,导致转发总量降低。以左侧坐标轴为标示的蓝色曲线表明,微博获得的平均转发量随微博内容与背景热点话题相似性的增大而提高,表明微博内容与热点话题越相似,越容易受到转发,融合热点话题的微博内容特征能够有效区分微博转发行为。
图5 微博转发对应融合热点话题的微博内容特征对的关系图
6 实验结果与分析
6.1 数据集构建
在微博数据集的基础上构造矩阵:
其中:n表示用户个数,m表示微博个数,aij∈F。标记后的数据集元素为一个三元组<ui,mj,aij>,当aij=0或1时表示用户ui转发微博mj,当aij=-1时表示用户ui没有转发微博mj。
6.2 特征选取与对比方法
分类特征选择本文所提出的融合热点话题的用户转发兴趣特征、用户活跃度、用户行为一致性、微博内容特征,如表1所示(特征1—4)。
本文采用李英乐[4]等人的方法作为对比试验,该方法使用特征较全面且预测准确性较高,在特征可计算条件下,选择用户影响力、用户转发活跃度、用户发布活跃度、用户兴趣与微博相似度作为对比特征,如表1所示(特征5—8)。
表1 特征选取
6.3 转发预测及评价指标
本文采用SVM、朴素贝叶斯、贝叶斯信念网络、决策树等分类算法,来测试所选分类特征应用于转发预测时的效果。
评价方法采用准确率(Precision)、召回率(Recall)和综合评价指标(F-Measure)。
6.4 实验结果及分析
我们将特征分为三组,分别在四种分类器上进行了对比试验。Baseline方法是对比的基准方法,仅采用了用户和微博自身特征,Ours表示本文所提特征,即融合了热点话题的转发特征,Combine表示将用户和微博自身特征与融合热点话题的转发特征相结合,进行了综合测试。如表2所示,在多个分类器上的测试结果表明本文所提出的融合热点话题的用户转发兴趣特征、用户活跃度、用户行为一致性、微博内容特征能够有效提升转发预测准确性,与传统用户和微博自身特征相结合后,能够进一步提升效果,其中,采用C4.5分类器时的预测效果最好,达到96.6%,对基于SVM分类器的预测模型提升效果最高,达到14.12%,采用NaiveBayes分类器的实验中,ours的实验效果略差于baseline,这是因为我们选取的特征不完全满足朴素贝叶斯的条件独立性假设,导致其在分类准确率上有一定的牺牲,但是从数据上可以看出,本文所提特征在与baseline特征结合后能够提升分类准确率。引入外部热点话题并融合其内容和传播趋势对用户转发行为的影响因素,能够有效提升转发行为的预测准确性。本文的训练集和测试集按照时间先后相互独立,预测准确性的提高也表明了本文所提特征能够很好地刻画用户转发行为模式,具有较好的长期预测效果。
表2 实验结果对比
7 总结与展望
微博转发行为是实现信息传播的重要方式,微博转发预测对微博影响力分析、微博话题分析具有重要价值。现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征。本文融合背景热点话题研究了外部热点话题对用户转发行为的影响,并对影响因素进行量化分析,提出了融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征。根据热点话题前期用户的转发行为,预测用户是否会转发热点话题相关的微博。并基于分类算法建立了面向热点话题相关微博的转发预测模型,在真实数据上的实验结果表明,本文方法的预测准确性达到96.6%,提升幅度最高达到12.14%。通过引入背景热点话题内容和传播趋势特征,能够有效提升用户转发行为预测准确性。在未来工作中,可以进一步改进热点话题内容表示方法,以及热点话题内容和用户兴趣相似性度量方法,进一步提高预测效果。
[1] KortLou.微博(微型博客).百度百科.http://baike.baidu.com/link?url=Qsdt8nZWb5Q_iTpNaS41Wl-K2ZxMJeaUC8g9cuHWpK2V01Grlj6wiUx7C4170CT-m2988GAfKuQoMHuWdmq1V65C0zVgKyuU1qMYl-Z44yMBe_,2015-11-29
[2] Petrovic S,Osborne M,Lavrenko V.RT to Win!Predicting Message Propagation in Twitter[C]//Proceedings of the ICWSM.2011.
[3] Galuba W,Aberer K,Chakraborty D,et al.Outtweeting the twitterers-predicting information cascades in microblogs[C]//Proceedings of the 3rd conference on Online social networks.2010,39(12):3aAS3.
[4] 李英乐,于洪涛,刘力雄.基于SVM的微博转发规模预测方法[J].计算机应用研究,2013,30(9):2594-2597.
[5] 曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(4):779-790.
[6] Kanavos A,Perikos I,Vikatos P,et al.Modeling ReTweet Diffusion Using Emotional Content[M].Artificial Intelligence Applications and Innovations.Springer Berlin Heidelberg,2014:101-110.
[7] Ma H,Qian W,Xia F,et al.Towards modeling popularity of microblogs[J].Frontiers of Computer Science Selected Publications from Chinese Universities,2013,7(2):171-184.
[8] Ying-Le L I,Hong-Tao Y U,Liu L X.Predict algorithm of micro-blog retweet scale based on SVM[J].Application Research of Computers,2013,30(9):2594-2597.
[9] Zhang Y,Rong L U,Yang Q.Predicting Retweeting in Microblogs[J].Journal of Chinese Information Processing,2012,26(4):109-108.
[10] Pastor-Satorras R,Vespignani A.Epidemic dynamics and endemic states in complex networks[J].Phys.rev.e,2001,63(6):138-158.
[11] Pastor-Satorras R,Vespignani A.Epidemic spreading in scale-free networks.[J].Physical Review Letters,2001,86(14):3200-3203.
[12] Boyd D,Golder S,Lotan G.Tweet,Tweet,Retweet:Conversational Aspects of Retweeting on Twitter[C]//Proceedings of the Hawaii International Conference on.IEEE,2010:1-10.
[13] Suh B,Hong L,Pirolli P,et al.Want to be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//Proceedings of the 2010IEEE Second International Conference on.IEEE,2010:177-184.
[14] Yang Z,Guo J,Cai K,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th ACM International fConference on Informa-tion and Knowledge Management.ACM,2010:1633-1636.
[15] Jiang Y,Counts S.Predicting the Speed,Scale,and Range of Information Diffusion in Twitter[J].ICWSM,2010,10:355-358.
[16] Hong L,Dan O,Davison B D.Predicting popular messages in twitter[C]//Proceedings of the 20th international conference companion on World wide web.ACM,2011:57-58.
[17] Bandari R,Asur S,Huberman B A.The Pulse of News in Social Media:Forecasting Popularity[J].Sixth International Aaai Conference on Weblogs &Social Media,2012.
[18] Ma Z,Sun A,Cong G.On predicting the popularity of newly emerging hashtags in twitter[J].Journal of the American Society for Information Science and Technology,2013,64(7):1399-1410.
[19] Szabo G,Huberman B A.Predicting the popularity of online content[J].Communications of the ACM,2010,53(8):80-88.
[20] Yang J,Leskovec J.Modeling information diffusion in implicit networks[C]//Proceedings of the 2010 IEEE 10th International Conference on.IEEE,2010:599-608.
[21] Music0007.兴趣.百度百科.http://baike.baidu.com/subview/45281/8045345.htm#viewPageContent,2015-11-30.
[22] 宗成庆.统计自然语言处理[M].北京:清华大学出版社,2008.