微博网络中用户主题兴趣相关性及主题信息扩散研究
2017-04-08罗春海刘红丽胡海波
罗春海,刘红丽,胡海波
微博网络中用户主题兴趣相关性及主题信息扩散研究
罗春海,刘红丽,胡海波
(华东理工大学商学院 上海徐汇区 200237)
运用Twitter-LDA主题模型对新浪微博数据进行了主题分析,基于用户主题兴趣相关性的研究表明用户间的主题兴趣具有三度相关性,同一主题兴趣下三度以内粉丝的发文数随用户发文数增加而波动式增加,各度粉丝与用户主题兴趣的相似度随粉丝度数的增加而下降。通过分析比较不同主题类别微博的扩散差异,发现生活情感类的信息最受用户欢迎,不同主题类别微博被转发的概率存在显著差异,平均转发数相差可达10倍,微博信息扩散树中各类主题在微博信息扩散深度、扩散时间间隔和用户的扩散能力方面都表现出不同的特征。
信息扩散; 微博网络; 主题分析; 用户行为
微博集媒体性和社交性于一身[1],以其多途径接入、多类型信息传播的特点,吸引了大量的用户。《2014年新媒体蓝皮书》显示在中国提供微博服务的网站有103家,注册用户数达13亿之多,2013年仅新浪微博每天就产生超过一亿条微博,对这些信息及其扩散特征的研究具有重大的社会经济意义,如对微博信息的研究,可以用于预测电影的票房[2]、股市走势[3],对信息扩散特征的研究则可以用于精准广告营销[4]等。利用用户历史数据研究用户兴趣和用户与其粉丝间兴趣的相关关系可以更好的理解用户偏好,有助于理解网上信息扩散的机理,帮助政府部门有效引导、控制网络舆情。
对微博网络信息扩散的研究可以从微观和宏观两个角度进行,微观角度主要从单个用户或用户间关系的视角研究影响信息扩散的各种因素,宏观角度则主要研究信息扩散的整体特征[5]。在微观角度上,文献[6]分析了博文是否包含网址、标签,是否提及他人以及用户粉丝数、朋友数、帐号使用时间等因素对微博转发概率的影响。文献[7]研究了用户发表的微博数量分布的幂指数和用户间的互动指数之间的关系,发现两者呈反向变动趋势。也有学者通过对用户历史数据的分析,根据各种因素对信息扩散的影响预测未来的信息扩散[8-11]。近年来,学者们利用微博网络历史数据研究了信息内容对信息扩散的影响,如文献[12]发现信息包含更多的消极情绪、行为和复杂的认识过程会加快信息的消亡,文献[13]的研究表明不同的信息不仅在用户和用户之间扩散的概率不同,不同信息重复暴露对其被采用的边际贡献率也不同。有的学者在研究信息内容对信息扩散的影响时同时考虑用户的主题兴趣,如文献[14]将用户兴趣和信息内容结合起来提出了一种基于信息亲和机制的SKIR扩散模型,研究表明信息亲和阈值影响了信息的最终扩散范围,文献[15]则根据用户之间的主题兴趣相似度发现Twitter中用户和她/他的直接粉丝之间存在着同质现象,用户间主题兴趣越相似,信息越容易在两个用户间扩散,文献[16]利用用户主题兴趣和间接影响力,提高了预测Twitter用户转发行为的准确度。不仅文本信息,情绪、行为等也可以在社会网络上扩散,并且遵循“三度影响力原则”[17]。文献[18]的研究表明新浪微博中用户间不同的情绪尤其是愤怒具有较高的相关性,这种相关性同样限于三度粉丝以内。在宏观角度上,文献[19]系统分析了Twitter信息扩散树深度、扩散时间间隔等特征。此外,学者们在不同主题类别的信息扩散差异上也做了一些研究,如文献[20]对Twitter内容分析时发现在Twitter中不同主题类别微博的转发率存在差异,文献[21]则发现新浪微博的热门话题大多是关于休闲娱乐的话题。
用户的主题兴趣是影响信息扩散的一个重要因素,研究它能否像情绪、行为一样在微博网络中具有相关性以及这种相关性遵循的规律,有助于理解某一类主题信息的扩散过程和微博网络的形成,引导用户兴趣的培养和微博网络中的信息扩散,然而目前对相关方面的研究仍不够深入。直观上看,信息扩散的整体特征是大量用户转发行为构成的,不同主题的信息在用户之间的扩散概率存在差异,因此不同主题类别的信息扩散整体上可能会表现出不同的特征。虽然可以像文献[21]根据微博实时提供的热门话题关键词对不同主题类别的信息扩散展开研究,但是热门话题只包含了少量的主题和微博,隐藏在热门话题外的大量微博仍有待于进一步分析,而文献[20]的研究主要针对Twitter和传统媒体在内容上的区别,没有针对不同主题类别的微博在扩散上的差异,对不同主题类别的信息扩散特征的研究仍相对较少。为此,本文在主题分析的基础上,探讨用户与其各度粉丝之间主题兴趣的相关性,并对各类主题微博的扩散差异展开研究。为方便叙述,下文将用户的发表和转发行为统称为发表行为,用户的粉丝称为一度粉丝,粉丝的粉丝称为二度粉丝,并依此类推。
1 数据描述
1.1 数据收集
本研究利用新浪微博提供的API接口[22],从一个粉丝数和微博数较多的用户开始,将该用户加入爬取队列,根据研究需要爬取该用户最新发布的100条微博,对其中的每条微博,再爬取该微博的原创微博和转发微博以及原创微博和转发微博的用户信息,并将这些用户加入爬取队列。一个用户处理完后,再提取爬取队列中的第一个用户进行相同处理,并不断重复上述操作。从2014年10月15日至10月20日共收集了21 992个用户信息和这些用户发布的2 076 564条微博的详细信息,随后本文收集了这些用户的转发关系,排除陌生人(即非本用户粉丝)转发,共得到258 116条关注关系。本文收集每个用户最新发表的100条微博和这些微博间有转发关系的粉丝,因此得到每个用户粉丝列表和关注列表的一部分。
1.2 数据预处理
爬取的数据集中原创微博占36.3%,除去空文本微博共得到1 919 406条博文。删除博文中系统自动产生的文本以及@用户名、表情符、所有非中文字符,同时将繁体中文转换成简体中文。之后利用ICTCLAS&NLPIR[23]对博文进行分词,删除停止词、高频词、低频词后得到表1统计信息。除去文本容量少于2 kB的用户后共得到21 750个有效用户。
表1 分词后博文统计信息
2 微博主题分析和主题分类
2.1 主题分析
主题是指所说或所写的内容[24]。文献[20]将主题分为事件型、实体型和长期型,并认为主题类别是属于共同主题领域的一组主题。在主题分析方法中LDA(latent dirichlet allocation)作为强有力工具被广泛运用到微博文本分析中,学者们根据微博文本的特点,提出了许多适用于微博环境的主题分析模型,例如文献[20]在对Twitter和传统新闻媒体纽约时报进行内容比较时提出了Twitter-LDA模型。文献[25]对各种主题分析模型进行了研究,发现UserLDA、AuthorLDA和Twitter-LDA运用到微博环境时各有自己的优点。根据研究需要,本文运用Twitter-LDA进行微博主题分析。
利用Twitter-LDA对收集的博文进行主题分析,得到:1) 用户主题分布矩阵DT,DT为维矩阵,表示用户数量,表示主题数量,=120,DT()表示节点对主题的感兴趣程度,其值越大表明节点对主题越感兴趣;2) 各个主题单词的概率分布;3) 每条微博所属主题。
2.2 主题识别和分类
对主题分析得到的120个主题进行人工识别,舍弃其中不能识别的34个主题、3个杂乱主题和2个有关微博本身的主题,剩余的81个参考新浪微博的分类方法,将它们分成社会、体育、娱乐、旅游、美食、医疗保健、财经、科技、生活情感、政治、教育、文化、天气、时尚共14个类别。不同于新浪微博主题分类方法,本研究增加了政治、教育、天气、文化、时尚主题类别,将公益主题合并为社会类别,将综艺、娱乐八卦、电视节目、电视剧、电影、动漫、音乐归为娱乐类。教育类包含校园生活、读书,政治类包含国际历史和国际社会,表2列出了每个主题类别相关信息,其中相关词汇是每个主题词汇分布中出现频率最高的前3个词语。
表2 主题类别、主题数和相关词汇表
3 用户主题兴趣相关性研究
2.1节主题分析得到了用户主题分布DT矩阵,DT矩阵可以用来量化用户的主题兴趣。本节利用DT矩阵,对用户主题兴趣相关性展开研究。
3.1 用户与其各度粉丝之间主题兴趣的相关性
本文选取每个主题下发表关于该主题的微博最多的前100个用户,探讨这些用户和他们的各度粉丝之间主题兴趣的相关性。