社交网络舆情事件中用户行为影响力分析
——以“长春长生疫苗事件”为例
2020-11-27中南财经政法大学统计与数学学院湖北武汉430073湖北经济学院信息管理与统计学院湖北武汉430205
赵 琼(中南财经政法大学 统计与数学学院,湖北 武汉430073;湖北经济学院 信息管理与统计学院,湖北 武汉430205)
魏 夏(中南财经政法大学 统计与数学学院,湖北 武汉430073)
一、引言
随着美国的社交网络平台Twitter 和Facebook、中国的社交网络平台新浪微博、豆瓣、抖音和腾讯微博等日益普及,众多网民通过社交网络评论热点事件、反映民生状况、建言献策,使得社交网络平台成为推动社会主义民主政治建设的重要方式。 第43 次《中国互联网络发展状况统计报告》显示,截止至2018 年12 月,我国手机网民达8.17 亿。根据2018 年度新浪微博用户发展报告, 新浪微博月活跃用户达4.62 亿,日活跃用户达2 亿。 2018 年7 月,长春长生公司内部员工曝光其疫苗,一共25 万余支,存在生产造假、价格不合理等情况,引起大家的强烈关注以及巨大恐慌,造成了十分恶劣的社会影响, 广大群众对我国医疗体制与安全流程产生严重怀疑,引起了国家高度重视。
社会媒体平台深深地影响着社会舆情的传播走向与演变趋势,吸引了国内外学者对于社交网络平台上舆情与用户的研究。 国外相关研究成果比国内时间更早,研究也较为全面,且研究都集中在转发预测行为方面,Binder 等(2009)提出人类想要保持独立的状态就要加强社交网络的使用进行假设,并通过对Facebook 社区用户行为数据进行实证分析来佐证;Java 等(2009)发现相关性高的各个用户会慢慢形成群体模式,并且用户位置信息与之有着很大的联系Sun(2014)等结合网络平台的享乐性质、 功利性质和社会性质等特点,继而研究了用户继续使用社交平台行为的倾向。 这些研究都是以国外Twitter 和Facebook 平台为对象, 与我国社交网络平台上的情况有着很大差别。 国内近些年来也涌现出不少针对社交网络用户行为与舆情传播方面的研究。 马莹莹(2015)模拟微博用户转发微博时的阅读习惯, 从不同角度分析了影响转发行为的因素,得出用户更容易转发负面情感倾向的微博的结论。 刘行军(2016)结合使用与满足(U&G)理论,构建用户的信息传播行为的理论模型, 通过设计问卷对用户的浏览、发布和转发行为进行调查, 并对信息传播行为的影响因素进行了实证研究。 解军(2016)利用写微博时长来反映该用户真实行为并从中挖掘更深层次的用户行为特征。 唐晓波(2017)等人研究表明,情绪化用户更能产生转发的行为,且具有较大情绪差异的用户再转发时也携带着更多相关衍生信息。 对微博用户行为和信息传播特征进行研究的还有平亮 (2010)、何跃等(2016)、刘玮等(2016)等一大批优秀文献,从不同视角得出有利于舆情监测的结论。 李静梅等(2003)、廉捷等(2011)、罗泰晔(2017)则对数据挖掘和建模方法进行了有益尝试。
综合已有研究来看,有关微博用户行为预测的研究较少,且主要研究都集中在转发行为上, 少有结合全面的用户属性特征进行研究。本文以“长春长生疫苗事件”为样本,用机器学习的方法进行深度挖掘, 运用统计方法分析事件传播中的舆情走势及用户行为特征, 在现有研究基础上利用朴素贝叶斯算法对微博内容、评论内容进行情感分类,建立情感分析模型分析用户影响力大小,拓展了用户行为特征的研究方法,能识别舆情事件文本数据的情感类别,及时了解网民的情感倾向,判断舆情走势。
二、影响力模型设定和变量选择
新浪微博因其庞大的用户规模成为中国社交网络的主流应用,占据了网络舆情传播中心的地位。本文对微博用户行为的具体描述如表1 所示。
本文对舆情事件下新浪微博用户实时影响力因素的划分涉及静态属性、动态属性、交互属性、情感属性四个维度。在社交网络用户行为的已有研究中,活跃力、关注力、互动力这些是较为成熟的指标, 本文在此基础上加入基于机器学习方法的情感导向力指标, 构建如表2 所示的微博用户影响力指标体系。
表2 热门话题下微博用户影响力指标体系
构建的影响力模型如图1 所示。
图1 舆情事件下微博用户行为影响力模型
三、微博用户的情感分析
(一)数据获取
长春长生生物公司于2018 年7 月11 日被举报所生产的疫苗造假。 7 月21 日,文章《疫苗之王》在社交平台微信朋友圈开始传播, 该事件至新浪微博平台传播后将疫苗安全问题引燃,事件相关的舆情在7 月24 日达到最高潮,其中有关疫苗安全、卫生监管等卫生安全的话题,引发了较大恐慌,也引起了国家高度重视。 本文样本数据来源于最具代表性的社交网络平台——新浪微博,利用新浪微博API 和Python 爬虫技术获取2018 年7 月22 日至31 日 “长春长生问题疫苗事件”所有微博内容、相关评论及其用户数据,其中包括:微博用户ID、粉丝数量、关注人数、会员认证情况、微博博文内容、其转发数、其评论数、其点赞数以及该微博下所有评论内容、评论用户ID,由于新浪微博对API 的限制,利用八爪鱼数据采集器进行了相关二级用户数据补充,使用户属性特征更加全面。
(二)数据预处理
本文抓取新浪微博高级搜索条件下“长春长生问题疫苗”事件热门微博数据字段的基本信息包括:用户名,评论内容,时间,点赞数,回复数,共19534 条数据,抓取新浪微博关键词为“长春长生问题疫苗”的微博用户基本信息以及热门微博下评论用户基本信息包括:用户名,微博认证,性别,地区,关注数,粉丝数,微博数,用户链接,共2912 条微博用户数据。为进一步细化该舆情事件在整个微博平台传播过程中的变化趋势,本节将传播时间段区分为小时和天,统计了各时间段的参与人数,做出了相应的舆情热度变化图。下述将详细对所作图像进行分析,得出信息传播的大致规律。
图2 舆情时间段走势图
图2 趋势表明, 每天20 点之前关注参讨微博时事的较少; 每天20 点至24 点之间传播人数最多, 时间舆情热度最高,但由于7 月22 日20 点之前,这个时间节点比较早,虽然李克强总理针对该疫苗事件做出了批示,根据前文归纳该舆情事件只是处于初始传播阶段, 在这个时间段参与讨论的用户还较少,微博人数只是从开始的24 人上升到66 人。 经过22日白天该事件的发酵,人民日报、新京报、新浪新闻等官方博主发文,晚20 点至24 点便在微博上形成了一次舆情小高峰,引发大多群众转发评论,内容多为愤怒与痛心的态度,短短四个小时内有1590 人参与讨论评论等行为,此时该事件舆情处于迅速扩散阶段,人数从66 人增至1590 人,呈爆炸式增长。在23 日0 点至8 点,大多微博用户已经进入休息时间,所以微博上关注评论该事件的人数在逐步下降,舆情也得到进一步缓解。 可以发现,在此时间段下发微博会受到较少用户关注。
23 日该事件已经处于迅速扩散阶段,基本各阶段人数相较初始传播阶段都多了很多, 此时舆情呈现负面消极的态度偏多。19 点,习总书记对此事件做出了重要指示后,又一次引发群众热议,微博评论该事件人数于23 日24 点至24 日4 点达到顶峰2169 人,不过舆论方向已从只是情绪的宣泄、对国家医疗体制的不信任转向如何问责与追究该事件涉案人员,这一指示在一定程度上安抚了群众情绪, 没有向更坏的方向发展。 24 日纪委监委等政府机构采取了相关措施,由官方微博实时跟进近况,此时该事件已到后期反复阶段。25 日起,该舆情事件已经到达消亡阶段, 最终微博舆论态度变为怎样反思使警钟长鸣,整体事件随着时间推移,讨论人数逐渐减少趋向于0,如图3。
图3 每天舆情走势图
由此可见:(1)在时间段方面,凌晨、白天8-12 点是微博关注较少的时间, 而晚上8-12 点是众多网民微博在线的黄金高峰期。 (2)在舆情阶段方面,政府在舆情初始传播阶段表明官方立场,能有效阻止舆情肆意传播。 在迅速传播阶段官方通过较为权威的多个账号对舆情事件进展进行实时跟踪报道,可引导舆论导向,也可借群众的力量进行相关监督工作。
(三)基于朴素贝叶斯模型的情感分析
由于统计方法无法定量衡量情感偏好,本文选用机器学习方法进行了微博用户情感属性分析来弥补数据的局限性,加入情感导向进行整体影响力分析。
现有研究对于情感分类问题通常采用两种方法,一种是机器学习,另一种是利用情感词典。 当数据量越大时,机器学习的优势越突出,准确率会越高。 本文选择的朴素贝叶斯模型是机器学习方法中的一种简单、高效的方法,具有强有力的理论支撑,而且本文研究案例具备足够规模的训练样本集,进行预测分类。
本文选取“长春长生疫苗事件”热门微博下评论数据共19534 条, 筛选删除空白评论数据1334 条、 无效评论数据1389 条、只包含@ 微博用户数据359 条,最终剩余评论数据16452 条评论数据。 由于数据样本过大,且考虑微博舆情传播演变各阶段对微博用户影响程度不一样,所以本文随机选择1386 条数据作为测试数据, 其余数据15066 条作为训练数据,为了验证情感分类结果的准确性,对测试数据1386 条微博文本数据进行人工情感极性标注。 其中正向情感极性数据有658 条(47.5%),负向情感极性数据有728 条(52.5%),得到混淆矩阵表5。
表5 基于朴素贝叶斯算法的情感模型混淆矩阵结果图
在文本情感分析中,常用的指标有准确率(precision)、召回率(recall)和F1 值。 模型把正向指标预测为正向的数量记为TP,把负向指标预测为正向的数量记为FN,把正向指标预测为负向的数量记为FP,把负向指标预测为负向的数量TN,可计算出本文热门微博情感分析模型准确率、 召回率和F1值如下:
从根据以上准确率、召回率、F1 值来看,微博评论文本情感分析模型效果是比较理想的。
四、基于情感分析的微博用户影响力实证分析
在利用朴素贝叶斯分类器高效准确地分析了“长春长生问题疫苗”事件所有热门微博博文、评论数据的情感极性的基础上,接下来将采用层次分析法(AHP)和德尔菲法(Delphi)用以分析计算活跃力、关注力、互动力、情感导向力四个方面因素的权重占比。
1. 首先根据表2 微博用户实时影响力评价指标体系,将实时影响力分成活跃力、关注力、互动力、情感导向力四个准则层元素。
2. 根据图4 微博用户影响力层次结构图,笔者设计了判断矩阵表,由专家组填写完成后,构建出影响力因素重要性判断矩阵。
3. 收取专家第一次判断矩阵的结果,由笔者计算出各个因素权重占比,汇总成结果图表,并发放给各位专家,假若任何一位专家对此结果产生异议,则重复上述步骤,再次填写判断矩阵表,重复3-4 次直到专家们意见不再修改为止。
图4 微博用户影响力层次结构图
运用Matlab 编写代码,判断各判断矩阵是否通过一致性检验并计算相应权重,得到的结果均能通过一致性检验。再结合图4 所示的微博用户影响力层次结构图, 计算得出各因素对在舆情事件中微博用户实时影响力占比,见表6。
表6 微博用户影响力因素权重结果表
根据“长春长生问题疫苗”热门微博用户数据,选择该事件热门微博上前三页全部49 位目标用户,其中微博用户数据包括微博数量、粉丝人数、关注人数、会员情况、更博间隔时长、该热门微博点赞数、该热门微博评论数、该热门微博转发数、主微博情感值、微博评论情感值、评论时间、评论点赞数、评论回复数量。 由于以上所涉及的舆情数据量太大,粉丝数、关注数都是成百上千万, 所以本文将数据都进行了归一化处理,再结合前文计算的权重,乘以各因素占比,最后相加得到舆情事件实时微博用户影响力排行榜,列举排名前10 如表7。
表7 “长春长生问题疫苗”事件微博用户影响力排行榜示例(前10)
由此可见,在“长春长生问题疫苗事件”中微博用户影响力最大的用户是新京报,其次是人民日报。 仅根据活跃力、关注力、 互动力三个方面来分析, 人民日报的影响力大于新京报,与微博风云榜是一致的,人民日报与新京报的情感极性都为积极,发现新京报情感得分0.89,人民日报情感得分0.65,越接近1 的博文内容越具有情感倾向, 更容易吸引广大网友转发评论分享,传播力更大。
还可以发现,影响力排在前列的大多数账号为官方账号,较少个人用户上榜。分析前10 仅有的“樊建川”“八组鹅热议”两位个人用户,发现他们的情感极性都为消极,内容与广大网友的情绪相近,被广大网友转发评论点赞支持,形成较大的微博热点事件影响力。 除开情感导向力分析发现,“央视财经”“环球时报”等官方用户均比“樊建川”“八组鹅热议”等个人用户的影响力是明显偏大。 在“长春长生问题疫苗”热点舆情事件中,“央视财经”“环球时报”等官方用户情感极性都为正向,描述语句都较为理性,“樊建川”“八组鹅热议”为负向,描述内容包含了众多网民感同身受的感受和情绪, 在该热点事件中微博传播影响力大于微博官方用户。由此得出,微博博文情感极性为负向的微博传播更快速,影响更大。
五、结论
社交网络舆情的演化涉及多门学科, 本文选取了近两年来有关公共安全卫生且产生较大影响的“长春长生疫苗造假”舆情事件, 用统计方法和机器学习中的朴素贝叶斯算法对舆情事件下微博用户博文及评论文本数据进行了情感分析,情感分析模型准确率达84.04%,在此基础上通过层次分析法和德尔菲法计算出该舆情事件中微博影响力因素中情感导向权重达27.18%,因此,在舆情事件中用户行为的属性特征时,情感导向力应加以考虑。 另外,在舆情迅速扩散初期,利用影响力较大的官方微博进行相关正向积极回应是很有必要的。