基于利益相关者的突发事件网络舆情演化研究
2022-06-07张教萌师荣蓉
张教萌,师荣蓉
(1.西北大学数学学院,西安 710127;2.西北大学经济与管理学院,西安 710127)
1 引 言
突发公共卫生事件会威胁到人们的生命安全和财产安全,随即会产生大范围的社会舆情。社会舆情的表现形式之一是网络舆情,然而社交平台用户的发言存在有主张、少依据、易于情绪化的特征,在突发事件出现后容易引发谣言蔓延、群体极化以及利益相关群体迅速聚集形成群体压力等危机,所以需要对突发事件下的网络舆情进行监管。微博平台作为突发事件期间独特的网络舆情信息来源,蕴含丰富的时空信息,对事件的态势感知和防控工作有着重要意义。微博数据庞大、内容混杂,因此,如何通过从非结构化数据中快速提取事件信息,进而有效地监督互联网舆情,并进行正确的舆论疏导就显得尤为必要。本文以“新冠肺炎”为关键字搜索相关微博,剔除偏僻词和频繁词对主题提取的影响,先通过LDA(latent Dirichlet allocation)与LDA2vec串行的方法提取主题,并利用SnowNLP计算文本情感值,再划分时间切片和突发事件的利益相关者,最后分别通过绝对关注度和相对关注度两种统计方式得到利益相关者的舆论演化模式。通过分析社交平台的舆论演化过程,发掘不同利益相关者的关注点,厘清利益相关者之间的影响关系,将有助于及时掌握网络舆情的演化态势,为政府介入、引导和研判网络舆情态势提供理论依据。另外,及时对突发事件中社交平台的信息进行复盘,也有利于为以后突发事件的舆论监控提供决策参考。
2 相关研究
近年来,随着自然语言处理技术的进步,越来越多的学者利用机器学习和深度学习算法研究突发事件的网络舆情,这类研究主要集中于突发事件的话题识别和情感分析两个方面。
关于突发事件话题的识别主要是利用主题模型对社交平台上某一段时间内的全局话题做演变分析,进而了解不同领域的话题演变过程,发掘不同时期内的热门话题[1],其中使用最多的是基于LDA的主题模型。针对突发社会安全事件,吴晓娟[2]利用LDA模型分析“蓝色钱江纵火案”在不同舆情时期的微博话题演化过程。针对突发事故灾难事件,Xiong等[3]基于LDA模型捕捉了“印度金奈水危机”事件中的热点话题,并通过WordNet计算主题热度来判别一条文本的主题类别。针对突发自然灾害事件,Sadri等[4]和Yuan等[5]利用LDA提取飓风期间的Twitter数据中公众关注的问题。王艳东等[6]将支持向量机(support vector machine,SVM)[7]与LDA结合,先通过主题建模发现隐藏在微博文本集合中的主题,再利用SVM进行文本主题分类,实现应急主题的实时分类与定位,以获取突发自然灾害的主题趋势和空间分布。Wu等[8]以“2016年中国合肥暴雨洪涝灾害”为例,将LDA与密度聚类算法结合,以探索空间子类别的主题。针对突发公共卫生事件,赵华等[9]对H7N9事件中微博和Twit‐ter两个平台的主题演化差异进行了对比。Wang等[10]利用LDA模型识别新冠肺炎疫情期间用户最常发布的主题,并结合点赞量、评论量和转发量等数据对不同话题进行了用户行为分析,研究了用户关注度的变化和话题参与度差异。刘雅姝等[11]在突发事件网民评论的话题图谱上,利用LDA模型提取了话题图谱实体中的话题和时间属性,从多维特征融合角度追踪突发事件舆情的演化过程。
突发事件网络舆情的情感分析是指对社交平台上发布的相关文本进行文本情感分析,包含文本情感分类、情感传播、情感演化等方面的研究。Nep‐palli等[12]对“桑迪”飓风期间发布的推特文本进行地理标记的情感分析,在以飓风为中心的地理地图上可视化在线用户的情绪,分析用户地理位置与情绪的关系。Zhang等[13]利用SVM模型对飓风“艾玛”事件的微博做细粒度情感分类,并在此基础上使用负二项回归分析了情绪和生命周期对信息传播的影响,使用双因素方差分析验证了情绪与生命周期之间的相互作用。崔彦琛等[14]以“蓝色钱江纵火案”为例,采用词集合并法、SO-PMI(semantic orientation from pointwise mutual information)、PMIIR(pointwise mutual information and information re‐trieval)等方法构建了专属情感词典,并基于该情感词典和时间序列分析方法进行了实证分析。Huang等[15]由微博转发关系构建微博用户的社会关系网络,并运用社交网络分析方法和情感挖掘分析技术研究了舆论传播中主体与环境之间的相互作用和演化机制。安璐等[16]则在构建微博用户社会关系网络的基础上,将用户划分为不同的利益相关者类型,利用情感词典与句法分析的方法进行情感计算,将情感计算结果嵌入构建的社会网络中,得到利益相关者的社会网络情感图谱。
已有文献无疑是值得肯定和借鉴的,针对突发事件网络舆情的研究,本文在以下三点加以补充和完善:从研究视角来讲,较少有加入突发事件利益相关者视角的研究,然而突发事件网络舆情从酝酿到爆发是由多个利益相关者相互作用产生的结果,故本文划分了11类突发公共卫生事件的利益相关者,分别观察这11类利益相关者在事件发展过程中的舆论主题变化和情感变化;从使用的主题模型来讲,已有文献主要使用基于LDA的改进模型,本文使用LDA与LDA2vec串行的方法,不仅提高了单独使用LDA模型在大规模文本数据上进行主题提取的准确率,还提高了单独使用LDA2vec模型的实现效率;从统计分析方法来讲,本文通过统计绝对关注度和相对关注度,得到利益相关者的绝对关注话题演化和相对关注话题演化过程,既纵向对比了利益相关者自身对不同话题的关注程度,又横向对比了利益相关者相比于其他利益群体对话题的兴趣差异。因此,本文使用LDA与LDA2Vec串行模型提取主题,借助SnowNLP判别文本情感倾向,研究突发公共卫生事件中利益相关者的话题演化与情感演化特征。
3 研究设计
微博舆情演化模式分为主题演化和情感演化,分别利用LDA与LDA2Vec串行模型和SnowNLP实现。将微博用户划分为11类新冠肺炎疫情的利益相关者,统计并可视化得到每类利益相关者的话题和情感演化过程,研究路线如图1所示。
3.1 主题提取
主题提取是指利用主题模型发掘文档集合中抽象的主题。本文的主题建模涉及LDA模型和LDA2vec模型,下面对它们分别加以介绍。
3.1.1 LDA主题模型
LDA是由Blei等[17]提出的经典主题模型,用来识别隐藏在大规模文档集或语料库中的主题信息。它是一种三层贝叶斯概率模型,包含文档层、主题层和词层,它假设整个文档集合存在K个互相独立的主题,每个文档是K个主题的多项式分布,而每个主题又是词的多项式分布,且多项式分布的先验分布是Dirichlet分布,即对于任一文档d和任一主题k,其主题分布和词分布满足
其中,α和β为分布的超参数。对于任一文档d中的第n个词,其主题编号z dn的分布和该主题编号下的词ωd n的分布满足
则M篇文档对应M个独立的Dirichlet-multinomial共轭结构。同样,K个主题对应K个独立的Dirichletmultinomial共轭结构,由贝叶斯推断就可以得到基于Dirichlet先验分布的θd和φk的后验分布。
3.1.2 LDA2vec主题模型
LDA2vec是一种融合word2vec[18]与LDA的主题模型[19],结合了word2vec和LDA的最佳部分。LDA2vec专门在word2vec的skip-gram模型基础上建模,将词向量和文档向量融合进同一个向量空间中同时训练。skip-gram模型通过某个输入的单词预测其上下文词语的方法来学习词向量,而LDA2vec则使用上下文向量来进行预测,该上下文向量被创建为词向量和文档向量的总和,其中词向量由skip-gram模型生成,文档向量是文档权重向量和主题矩阵的加权组合。
LDA2vec模型的损失函数为
LDA2vec模型在大规模数据上的表现比LDA模型好,但是LDA2vec对设备GPU的要求比较高,所以会影响到模型实现的效率。然而,如果将LDA模型与LDA2vec模型串行[20],即先利用word2vec和LDA对语料库进行训练,再利用LDA2vec中的核心算法进行迭代计算得到文本的主题概率分布,那么不仅能够有效地提高主题提取的准确率,还能够有效地提高程序运行效率。
3.2 文本情感值计算
情感分类是指对带有感情色彩的文本进行分析,判别其情感倾向的过程。SnowNLP是Python的一个自然语言处理库,它可以快速且高效地处理中文文本内容,并且自带训练语料,可以直接使用SnowNLP库做文本情感分类。SnowNLP的情感值计算以朴素贝叶斯分类算法为理论基础,计算目标词汇属于正类或负类的后验概率,且将该概率值作为情感值,数值越接近于1,表示文本内容越积极,而越接近于0,则越消极。其计算公式为
依据文献[21],将情感值大于等于0.5的微博视为具有积极情感倾向的微博,而情感值小于0.5的微博则视为具有消极情感倾向的微博。
3.3 利益相关者的划分
借鉴文献[22-23],从新冠肺炎疫情中主要涉及的社会角色——抗疫一线单位、政府、媒体和平民来做利益相关者的划分。考虑到此次疫情还对旅游业和学生复学升学产生了重大影响,故将旅游服务机构和学校加入利益相关者当中。通过提取用户的微博认证标志和用户主页中的“行业分类”信息可以直接得知用户分类;而对于没有“行业分类”信息的用户,则通过用户名和用户主页内“简介”中的关键词来进行用户分类。具体分类标准如表1所示。
表1 新冠肺炎疫情利益相关者的划分标准
4 实证分析
4.1 数据收集与预处理
以“新冠肺炎”为搜索关键词,采集2020-01-21至2020-10-31时间段内的原创微博,共计69922条。对收集的文本进行数据清洗,清洗规则如下:①删除无效的微博;②删除重复项,只保留一条;③去掉文本中的链接、@其他用户、表情。建立“新冠肺炎”词库,防止如“人传人”“火神山”等特殊词汇被错误分词。利用Python中的jieba库对清洗后的数据进行分词、去停用词,然后通过统计词频,删除在每条微博中出现概率小于0.1%的偏僻词和出现概率接近100%的频繁词,最后删除剩余字段数量小于8个的过短文本,得到59034条预处理后的数据。其中,用户数量分布为普通群众占比63%,自媒体占比20%,非卫生领域政府部门占比8%,其余占比9%;发文数量分布为普通群众占比36%,主流媒体占比23%,自媒体占比22%,其余占比19%。
4.2 时间切片的划分
由于微博指数只保留近90天的数据,故参考百度指数进行时间切片的划分,截取的“新冠肺炎”百度指数曲线如图2所示。
由于“新冠肺炎”的百度指数具有多峰长尾的特征,不满足经典生命周期理论[24-25],所以本文依据疫情的发展阶段进行时间切片的划分。从图2中可以观察到几个比较具有阶段特征的低谷点,分别是4月12日、6月6日和8月2日,再结合历史新闻,“4月8日武汉市解除封城”“5月27日美国新冠死亡人数超过10万人,成为全球第一个死亡病例超过10万例的国家”“8月9日,巴西成为全球第二个死亡病例超过10万例的国家”;因此,我们按这几个时间节点将时间切片划分为国内疫情爆发期、国内疫情平稳期、国际疫情爆发期和国际疫情平稳期。时间切片的起止日期和期间的微博数量如表2所示。
图2 “新冠肺炎”的百度指数曲线
表2 数据清洗后的微博文本分布情况
4.3 新冠肺炎疫情微博主题演化
利用LDA与LDA2vec串行的方法提取“新冠肺炎”微博中的主题。当设置主题数量K=40时,主题困惑度到达一个低谷点,主题之间具有较好的独立性,提取结果也相对稳定。经过主题提取后,得到每条微博的主题概率分布,视概率最大的主题为对应微博的主题,即
其中,Topici表示第i条微博的主题;P(Topici,k)表示第i条微博属于第k主题的概率。统计不同时间切片内各主题的微博数量,绘制主题热度演变堆积图,如图3所示。
图3 主题热度演变
由图3可以直观地看出,关于新冠肺炎疫情的实时报道(T8)是所有话题中热度最高的,在P3时期的占比高达27%。这是由于国际疫情爆发与国内疫情复发,导致疫情通报数量大幅增加;其次,中央及地方政府防疫工作(T13)热度排名第二,说明公众十分关注政府的抗疫作为;关于美国政府对新冠肺炎疫情的态度(T2)位列话题热度第三,该话题主要包含美国政府未向美国民众传达新冠病毒的真实危害、特朗普推荐的“新疗法”等内容。话题的热度演变规律基本符合事实。例如,围绕火神山、雷神山两所医院的话题(T6)和新冠肺炎患者成功治愈的新闻(T22)在前两个时间切片中的数量较多,而后大幅减少,符合国内疫情的发展情况;关于表彰抗疫工作杰出代表(T15)和致敬最美逆行者(T16)两个话题在国内疫情爆发期(P1)内大量出现,之后减少,是因为9月、10月陆续举办的抗击新冠肺炎疫情表彰大会而热度回升;随着新冠肺炎疫苗的研究和临床试验不断推进,相关话题(T3)数量在P4时期大幅增长。
为进一步总结归纳舆论的分布情况,本文将40个主题归类为5个大的舆论分支,每个舆论分支包含的主题编号如表3所示。
表3 40个主题的分类情况
统计各时间切片内各舆论分支的微博数量,绘制舆论分支热度演变堆积图,如图4所示。
图4显示,在国内疫情爆发期(P1),抗疫行动是被讨论最多的舆论分支,主要包含社会对政府工作的关注,以及如“武汉加油”“致敬最美逆行者”等社会正能量的涌现。随着国内疫情逐渐稳定而国际疫情日益严重,关于国际疫情的话题数量与P1时期相比明显增加。虽然有关经济民生方面的微博数量相对较少,但是如“企业破产”“旅游业重创”“学生返校复学”等话题一度也成为热议内容。
图4 舆论分支热度演变
4.4 新冠肺炎疫情利益相关者的关注点
依据3.3节中的利益相关者划分标准,统计各类利益相关者在每个话题下的微博发布数量,得到他们最关注的5个话题,如图5所示。
图5 各类利益相关者最关注的5个话题
图5中每一行表示对应利益相关者最关注的5个话题。有3组利益相关者的关注点在组内高度重合,如非卫生领域政府部门和学校最关注的5个话题完全一致,而医疗卫生部门也有4个话题与上述两者一致;主流媒体、自媒体和医疗健康媒体三者最关注的5个话题完全一致,而普通群众除了“致敬最美逆行者”话题以外,皆与上述三者一致;医院和公益组织也共同关注了3个话题。由此可见,利益相关者的关注点与其在突发公共卫生事件中扮演的社会角色紧密相关——媒体和普通群众代表了信息传播者,政府部门和学校代表了行政事业单位,而医院和公益组织代表了抗疫一线。
虽然利益相关者的关注点受其角色属性影响,但是不同利益相关者的关注倾向仍存在差异。下文将图5中两组具有较多共同话题的利益相关者加以对比,如图6所示。
图6 利益相关者话题分布差异(彩图请见https://qbxb.istic.ac.cn/CN/volumn/home.shtml)
如图6所示,主流媒体的话题分布相对均匀,没有明显的偏向;医疗健康媒体主要关注疾病本身,承担了更多的健康知识普及的职责;自媒体热衷于国际疫情和经济民生中容易引发社会讨论的话题,因为这类话题能够为自媒体平台吸引更多的关注和粉丝;普通群众则在疫情通报上投入了更多的关注。对于同属于行政事业单位性质的3类利益相关者,他们关注的话题在分布上都呈现出了对抗疫行动相关话题的偏向。不同的是,医疗卫生部门明显显示出了其医疗属性,学校则需要关心如学生返校复学等民生问题。
4.5 新冠肺炎疫情利益相关者的舆论演化模式
统计各类利益相关者在各个时间切片下所有话题的微博数量,即话题的绝对关注度,得到每类利益相关者在特定时间段内绝对关注度最高的话题,并计算对应的情感值。可视化所有利益相关者的绝对关注话题及情感演化过程,如图7所示。
首先,分析利益相关者的话题演化特征。从时间流的角度来看,各类利益相关者关注的话题在疫情爆发期内比较一致,而在疫情平稳期内比较分散,这说明在突发公共卫生事件中人们先是关注于当下影响力较强的话题,或者是一些社会上急需解决的问题,而后才逐渐关注与其利益相关的话题。从主体的角度来看,在图6中话题重合度较高的3组利益相关者——医院与公益组织,政府部门与学校,媒体与普通群众,他们同样具有相似的话题演化过程,说明在突发公共卫生事件中相同角色属性的利益相关者具有相似的话题演化。前两组易于理解,而对于媒体与群众,一个是信息的主要发布者,一个是信息的主要接收者和扩散者,两者都是信息传播过程中的重要角色。在危机传播的过程中,媒体起着搭起政府与公众之间信息传递通道的“中间人”的作用,是让信息得以大规模扩散的主要渠道[26],其中主流媒体充当着舆情的预警者、引导者以及动员者的角色,而自媒体充当着舆情的推动者的角色[27]。在新冠肺炎疫情中,《雷火明书》的舆情监测数据显示,主流媒体在2月的多个舆情事件中均配合政府重要举措及时跟进报道,与网民形成了良性互动[28]。在本文收集的微博中,主流媒体发布的微博平均每条点赞量为365,评论量为24,转发量为17,其中最高点赞量高达92万,最高评论量高达3万,最高转发量高达1万。由此可见,主流媒体的发文得到了大量普通网民的认同和讨论,说明主流媒体在一定程度上引导着公众的舆论话题,从而导致两者具有相似的话题演化过程。
其次,分析利益相关者的情感演化特征。从时间流的角度来看,在P1时期,由于国内疫情严峻,且当时还没有有效的治疗方案,导致社会消极情绪在一定范围内激增;而到了P2时期,国内疫情基本稳定,舆论也随之转向积极的一面;P3时期没有明显的情感倾向;在P4时期,由于国际疫情的持续蔓延,舆论又倾向于较消极的一面。从主体的角度来看,政府部门和学校在整个时间线上以传播正能量为主,医生则相对较多地表现出担忧的负面情绪。利益相关者中主流媒体、自媒体和普通群众的话题情感演化过程完全一致。为了进一步探究三者之间是否存在情感上的因果关系,将主流媒体、自媒体和普通群众的微博文本日情感值做格兰杰因果关系检验,发现普通群众的情绪与主流媒体的情绪互为因果,说明主流媒体在很大程度上影响着公众看待事件的情绪(表4)。这也体现了随着融媒体的不断发展,主流媒体能够在重大突发公共卫生事件中发挥强大的引导力和共情力,在“营造强信心、暖人心、聚民心的环境氛围”中起到讲好故事的重要作用[28]。
表4 主流媒体、自媒体和普通群众的日情感值格兰杰因果关系检验结果
由图7易知,由于主流话题在微博数量上占据绝对优势,导致如果仅统计绝对关注度就无法体现利益相关者之间的差异。因此,本文提出“相对关注度”的概念,即在同一时间切片下,利益相关者相比于其他利益相关者对一个话题的关注程度。公式为
图7 各类利益相关者的绝对关注话题及情感演化过程
其中,RAk,l,P m表示利益相关者l在时间切片P m下对话题k的相对关注度;n k,l,P m表示利益相关者l在时间切片P m下发布关于话题k的微博数量;r l表示利益相关者l在总用户数量中的占比,该项用于剔除不同类群用户数量对微博发布数量的影响。如果相对关注度较高,说明在对应时间切片下利益相关者l相比于其他利益者更关注话题k。统计各类利益相关者在各个时间切片内相对关注度最高的话题,并计算对应的情感值,可视化所有利益相关者的相对关注话题及情感演化过程,如图8所示。
由图8可见,利益相关者的相对关注话题在各个时间段都比较分散,也没有出现一致的演化过程,但是这些话题都与利益相关者自身密切相关,例如,普通群众积极响应政府号召自发减少外出活动(T34),政府部门第一时间进行辟谣(T37),医院组织人员驰援武汉(T7),公益组织呼吁团结社会力量(T32)。相比于绝对关注度,相对关注度排除了主流话题在数量上的优势,能够更好地体现与利益相关者自身利益相关的话题,反映了利益相关者在突发公共卫生事件中的舆论立场,这一点在相对关注话题的情感演化上也得到了验证。观察相对关注话题的情感演化,发现相对关注话题的情感倾向更能凸显利益相关者在不受主流舆论影响下的情感立场,例如,医生倾向于发布警示性、劝告性的言论,自媒体倾向于发布抨击、尖锐、引人耳目的言论,政府部门倾向于发布提振公众抗疫士气、展现政府作为的言论,而主流媒体则配合政府发布暖人心聚人心的言论。正是因为相对关注话题体现了利益相关者在利益关系网中的位置,所以只要利益相关者的利益关系没有发生改变,其相对关注话题的情感倾向一般也不会发生改变,反映在图7和图8中就是相比于绝对关注话题的情感演化,相对关注话题的情感演化没有太多的情感转变。
5 结语
本文从突发公共卫生事件利益相关者的角度出发,研究新冠肺炎疫情中11类利益相关者的网络舆情演化过程,得出以下三点研究结论。第一,按事件发展的阶段来看,利益相关者们的关注点在疫情爆发期内比较一致,而在平稳期内比较分散,最终随着疫情的逐步控制再次集中。第二,按事件涉及的主体来看,利益相关者的关注点与其扮演的社会角色紧密相关,而且相同角色的利益相关者具有相似的话题和情感演化过程,例如,媒体与普通群众,政府部门与学校,医院与公益组织。然而即使是相同角色的利益相关者,彼此关注的侧重点也存在差异。第三,按生成舆情演化过程的统计方法来看,绝对关注度反映了各类利益相关者在主流舆论影响下的关注点,因此会出现多个利益相关者共同关注一些主流话题的情况;而相对关注度能够更好地揭示与利益相关者自身利益相关的关注点,所以利益相关者彼此相对关注的话题比较分散,对相对关注话题的情感倾向也不会频繁转变。将两种统计方法相结合,既能从纵向对比利益相关者自身对不同话题的关注度,又能从横向对比利益相关者相比于其他利益群体的话题关注程度。
本文的研究发现将有助于政府部门掌握突发公共卫生事件中各类利益相关者在各个阶段的话题和情感演化规律,及时采取应对措施,从而减少社会恐慌和舆论偏激等情况的发生。在未来的工作中,将进行多个社交平台和多个突发公共卫生事件的对比分析,以期得到更加具有普遍意义的突发公共卫生事件的网络舆情演化规律。