基于用户兴趣与博主影响力的微博流行度预测模型研究
2020-11-28张睿张喻曦
张睿 张喻曦
【摘要】对于网络舆情研究中的微博预测问题,目前的主要方法是根据微博文本特征以及早期传播特征来进行预测,这种预测忽略了用户之间的相互关系以及用户喜好,因此导致预测微博热度时准确性不高。本文提出了一種基于用户关系、用户兴趣和早期传播数据的转发预测模型,首先利用TF-IDF与LDA主题模型计算参与互动用户兴趣与微博文本的相似度,再利用PageRank算法衡量博主影响力,将模型分别应用于逻辑回归、支持向量机和随机森林来预测微博的流行度。结果表明,该方法能有效提高微博预测的准确率。
【关键词】新浪微博 LDA 模型 兴趣 影响力
1.引言
新浪微博2019年第三季度财报显示,截至2019年第三季度,新浪微博月活动活跃用户达4.97亿,比去年同期增长了5100万,其中约94%为移动端用户。相较传统媒体,微博是以发布、阅读、转发、再阅读这种不断迭代的方式进行传播的,传播速度更快。相对普通微博,热门微博传播更为迅速,影响力更大,因此微博预测研究对于网络舆情监测、企业营销等方面具有重大意义。
目前,对于微博流行度预测共分为两个方向:一类是基于微博文本进行研究,另一类是针对微博传播过程进行研究。文本分析通过对于微博文本提取特征进行预测,主要分为基于微博文本内容和基于微博情感两种。郑斐然等人通过检索微博中出现的关键字,并考虑词频和增长速度等相关因素,进行聚类从而找到新闻话题。邓丹君等人利用微博中的话题标签建立一种微博标签的LDA模型,提高了微博主题提取的准确度。Phuvipadawat等人通过对于微博文本特征进行分析,提出一种应用于Twitter的突发新闻检测、排列及跟踪算法。Wu等人分析了Twitter上面消息的感情倾向与流行度的关系,发现转发率与负面情绪呈正相关,与正面情绪关系较小。但以上方法只能对于已有的热门微博进行分析,对于未出现过的词语、情感倾向等预测准确率较低。
对于微博传播过程的研究包括微博传播路径、博主影响力、粉丝活跃度等因素的研究。Unankard等人提出了一种基于地理空间信息的热点事件检测方法,但该方法基于用户的位置信息,在用户不允许分享位置时容易失去效用。Liu Gongshen等人提出一种用户对微博转发的影响力的量化算法,根据微博博主的特征来预测一条微博是否会引起大转发量,从而进行提前预警。朱海龙等人基于微博早起传播数据,提出了传播加速度的概念并建立微博预测算法,并根据微博用户活动周期性来优化模型。陈鹏飞提出了基于内容兴趣特征和用户影响力的转发预测模型,利用LDA模型提取微博内容兴趣特征,利用PageRank算法衡量用户影响力,准确率可达85%。但是同一博主发表的不同微博流行度有较大差异,且博主的影响力随时间变化幅度较大,因此根据博主影响力预测微博流行度有一定的局限性。
本文针对以上不足,提出一种基于用户之间相互关系以及用户喜好特征的微博流行度预测算法,从博主与转发者的用户关系以及微博内容与用户喜好匹配程度这两个方面对微博流行度影响因素进行研究,并利用逻辑回归、支持向量机、随机森林算法建立模型,从而实现对于微博流行度的预测。
2.主要结果
TD-IDF算法
TF-IDF是信息检索领域的加权技术,通常用来评估一个词语对于一个文本集的重要性。若某个词语在一篇文本中出现的频率(TF)高,而在其他文本中很少出现(IDF高),则认为这个词语对于文章具有代表性,可以用来分类。TF-IDF是词频(TF)与逆文档频率(IDF)的乘积,其公式表示为:
N为文本总数,n(w)为包含特征词w的文本数。
本文中,N为用户总数,n(w)为参与话题w的用户数,TF(w)为话题w在某一用户发表微博的所有话题中的出现频率,并以此来建立单个用户的兴趣特征向量。
2.2 LDA模型
2.2.ILDA模型的主要思想
LDA是由文档一主题一词语构成的概率模型,是一种对文本主题建模的方法。LDA主题模型假设文档中存在多个可能的主题,这些主题中又存在着若干个特征词,文档以一定概率选择某个隐含主题,隐含主题以一定概率选择特征词。
当M有篇文档,K个主题,N个特征词,在一篇文档i中的第wi个特征词的概率表示为
2.2.2微博文本话题特征
由于单条微博字数较少利用传统的LDA主题模型会出现高维稀疏,因此我们结合微博特殊符号“//”和“#”,来改进传统的LDA模型。
“//”符号表示转发并同时评论,具体格式为:转发评论内容//@源微博博主:源微博。此时源微博更大程度上反映了其主题,因此源微博内容进行主题提取。
“#”符号表示微博话题,“#”与“#”之间是所发布的微博所属话题。此时以微博所属话题代表微博主题
此外,微博评论内容与微博主题密切相关。因此将评论内容与微博原文共同分析,设置影响系数衡量评论对于主题的影响程度。
2.2.3微博标签LDA主题模型的构建
微博在互动时会产生专属符号:“@”、“//”和“#”以及微博可回复他人评论,可以借此分析微博主题。可设置参数λd其对应取值代表微博文本d中是否含有“@”、“//”或“#”符号。若微博文本d中出现“#”符号,则θd=0,由“#”符号确定的微博话题θs。为微博主题;若微博文本d中出现“//”符号,则θd=1,源微博主题θr是该微博的主题θd;如果微博文本d中未出现上述符号,则θd=2,该条微博Od的主题由该微博文本内容决定:若微博文本d为回复他人评论的微博,则θd=3,该微博的主题θd由该微博内容和被回复的微博的主题共同决定。主题分布公式如下:
2.3 余弦相似度
余弦相似性通过计算两个向量夹角的余弦值来其相似程度,其夹角的余弦值一般被称作为余弦相似度。向量的长度不会影响余弦相似度数值的大小,余弦相似度仅取决于向量的方向,因此可以度量两个不同长度的向量的相似性,常用于文本信息的比较。余弦相似度具体公式如下: