基于主题挖掘的突发公共卫生事件舆情分析研究
2021-08-09来能烨汪明艳周成阳
来能烨 汪明艳 周成阳
摘要:新冠肺炎疫情暴发后,网络舆情传播迅速,如何准确把握舆情传播热点,引导舆情理性发展成为一个重要课题。本文基于生命周期理论,结合TF-IDF特征词-权值模型和隐含狄利克雷分布(LDA)主题模型,研究舆情传播者在舆情发展各阶段关注的主题内容及演化过程,为应对突发公共卫生事件网络舆情危机、精准监测舆情走向提供相关决策依据。
关键词:突发公共卫生事件;网络舆情;主题挖掘;生命周期理论
中图分类号:G353.1 文献标识码:A 文章编号:1004-9436(2021)08-0-03
0 引言
2019年新冠肺炎疫情暴发,成为全球重大突发公共卫生事件,引起了世界各国人们的高度关注,数十亿人急切地希望通过社交媒体获取疫情相关信息,在此背景下,与新冠肺炎疫情相关的话题迅速引发大量讨论。各类造谣、不实疫情信息在全球化的社交媒体网络上泛滥扩散,此次疫情催生了第一个真正意义上社交媒体的“信息疫情”[1]。因此,在积极推进疫情防控举措的同时,有效应对突发公共卫生事件网络舆情传播以及精准监测舆情传播走向也是一项重要工作。
本文以新冠肺炎疫情暴发期间新浪微博的数据为研究对象,基于生命周期理论,结合TF-IDF特征词-权值模型和隐含狄利克雷分布主题(LDA)模型,分析在舆情传播周期各阶段网民关注的焦点主题及演化趋势,刻画此次疫情网络舆情特征,为相关部门掌握突发公共卫生事件焦点主题、提升政府舆论引导能力提供决策支持。
1 相关研究
1.1 主题挖掘模型
网络舆情中的主题分析是定性研究中较为常见的一种形式,其中最具代表性的是LDA主题模型。王雅静等学者提出基于LDA主题模型的微博在线用户特征预测方法,以实现对所有用户的特征预测[2]。曹树金等学者采用舆情演化分析方法研究网络舆情传播周期各阶段的热点主题和时序发展趋势[3]。赵凯等学者通过“困惑度—主题方差”相结合的方法改进了LDA主题模型最优主题数的确定方法[4]。
1.2 突发公共卫生事件网络舆情传播研究
陈璟浩等学者采用描述性统计法、列联表分析法、回归分析法等方法,分析突发公共卫生事件中网民关注度变化,以提高政府信息供给效率[5]。任立肖等学者将食品安全突发事件网络舆情参与主体分为消费人群、有关部门、网络舆情原创者、网络舆情旁观者等9种类型[6]。另有学者把突发公共卫生事件的利益相关者分类为医疗卫生部门、传统媒体、自媒体、普通群众、易感人群以及患者等6大类。
2 研究设计
2019年暴发的新冠肺炎疫情是一次重大突发公共卫生事件,通过采集该事件中新浪微博平台的相关数据,基于LDA主题模型并结合生命周期理论划分舆情事件阶段,分析舆情传播各阶段中网民关注的焦点主题及演化特征。总体研究思路为:首先对采取的微博数据进行归一化处理;其次以生命周期理论为依据结合舆情发展划分舆情传播的不同阶段;再次利用TF-IDF算法计算各词项权重,通过LDA主题模型提取相关主题词和概率值;最后进行网络舆情主题内容演化和强度演化分析。
3 实证分析
3.1 数据采集与预处理
本文研究的网络舆情事件是2019年末暴发的新冠肺炎疫情,因为该事件具有较大的社会影响,研究疫情期间的网民评论内容有利于分析舆情传播者情感的演化。新冠肺炎疫情在传播意义上的突发期以2020年1月23日武汉采取“封城”措施为标志,武汉“封城”后,网络舆情呈爆发态势。2月19日,新华社等国内主流媒体开始陆续报道疫情向好的方向发展,以此为标志,新冠肺炎疫情由突发期过渡到平稳期。笔者编写Python程序采集新浪微博用户数据,设置“新冠肺炎疫情”为关键词,时间范围设定为2020年1月23日—2020年2月19日,爬取共计四周的新浪微博数据,对数据进行标准化处理,再进行微博事件文本分析,通过文本分词、添加自定义词汇、添加停用词典,去掉对文本分析无用的停用词,最终获得23665条微博内容,提取参与社会网络构建的用户3610个。
3.2 舆情演化阶段划分
按日统计参与舆情传播的用户数,得到传播者数量演化趋势如图1所示。利用大连理工大学中文情感词汇本体库的褒贬义词汇对评论数据进行情感强度计算,将舆情用户每天的情感强度进行累加得出群体情感强度,如图2所示。
通过对比发现,网民的舆情传播行为和情感强度呈正相关。根据图1、图2中用户数量变化和情感强度变化,结合现有的突发事件舆情阶段划分[7],现将舆情演化阶段划分为四个阶段。第一阶段为舆情形成期(2020年1月23日至1月29日),第二階段为舆情爆发期(2020年1月30日至2月5日),第三阶段为舆情缓解期(2020年2月6日至2月12日),第四阶段为舆情平复期(2020年2月13日至2月19日)。
3.3 主题及阶段演化
本文基于密度的自适应最优LDA模型选择方法确定文档语料参数和主题数量,在LDA主题模型提取词汇的基础上,利用TF-IDF算法计算各词项权重,依据主题间的相似度最小原则提取各阶段网民关注主题。
通过对舆情形成期文本集进行主题模型分析,得到7个主题,每个主题提取相关程度最高的10个词语,计算其概率值,根据每一类主题关键词的特征对舆情形成阶段主题特征归纳总结如下。
主题1:患者感染新冠病毒后出现发热等症状,在定点医院接受隔离治疗。
主题2:各地召开新闻发布会,公布防疫和救治情况,确保人民群众生命和健康安全。
主题3:表达对抗议一线工作者的赞美、感谢和鼓舞。
主题4:各地医院召集医务人员紧急支援武汉。
主题5:爱心人士为医院捐赠医疗物资。
主题6:各地报告新增确诊病例和累计确诊情况。
主题7:防控形势严峻,农村地区防控亟待关注,转发倡议避免人群聚集。
在舆情形成期,舆情传播者参与数较少,随着初始阶段感染病例增加,舆情传播者对疫情进展的关注度持续提升,在网络平台互相交流,求证最新消息。网络舆情主题内容大部分集中在舆情事件本身数据的统计和现状的描述,以及各地官方机构召开新闻发布会上。
对舆情暴发期文本集进行主题模型分析,根据主题间的相似度最小原则最终得到6个主题,归纳总结如下。
主题1:多地每天公布确诊病例涉足的场所和小区。
主题2:各地通报确诊患者治愈出院数例。
主题3:不准确的信息和谣言时有出现,发布头条文章呼吁不信谣、不传谣。
主题4:社区一线在防控指挥部统一调度下,科学有序参与疫情防控工作。
主题5:《新英格兰医学杂志》刊登新论文,作者主要来自中国疾病预防控制中心、湖北疾病预防控制中心和香港大学等机构。
主题6:网民通过多种创作形式为中国加油。
随着舆情事件的不断演化,大量舆情传播者涌入,评论数量大幅度增长,人们对舆情事件的关注度急速上升,舆论进入白热化阶段。除了关注疫情传播现状外,舆情关注主题逐渐转向“早期人传人迹象”和“科研发表风波”。中国疾病预防控制中心等机构发表在《新英格兰医学杂志》的一篇论文引起了轩然大波,舆情传播者质疑中国疾病预防控制中心何时发现病毒有“人传人”迹象。值得注意的是,谣言在这一阶段逐渐传播开来,同时相应的辟谣信息也开始出现。
对舆情缓解期文本集进行主题模型分析,根据主题间的相似度最小原则最终得到5个主题,归纳总结如下。
主题1:向所有奋战在一线的工作人员致敬。
主题2:新加坡总理李显龙谈病毒——如果致死率能与流感保持一致,或会改变应对策略。
主题3:新冠肺炎疫情是公共卫生事件,不是国家和种族之间的问题。
主题4:在新冠肺炎疫情防控期间稳定劳动关系,支持企业复工复产。
主题5:通报疫情最新动态,如累计病例、治愈信息等。
在这一阶段,用户参与数有所减少,舆情事件的讨论度下降,但网民情感强度依旧处于较高水平。在媒体和意见领袖的引导下,网民关注于以钟南山、李兰娟院士为代表的“抗疫英雄”,以及各地医护人员奉献精神所产生的正能量。官方发布最新信息,媒体及时报道疫情防控工作,使得防控信息覆盖面扩大,同时政府加大网络谣言整治力度,网民的信息接收度逐渐饱和,舆情传播者不断增强自我防病意识和社会信心,除了继续关注疫情影响及现状,还增加了对国外疫情的关注。
对舆情平复期文本集进行主题模型分析,根据主题间的相似度最小原则最终得到9个主题,归纳总结结果如下。
主题1:康复病人捐献血浆,这是目前治疗病毒感染的最有效的方法。
主题2:确诊病例患者治愈出院的情况。
主题3:新闻发布会介绍防控工作和医疗队援助工作的相关情况,并回答记者提问。
主题4:钟南山院士接受采访。
主题5:基于近期情况及采取的措施,新增感染人数逐步减少,疫情有望结束。
主题6:企业做好疫情防控,推动复工复产。
主题7:专家告诉大家特殊时期应如何调整心理状态。
主题8:各地防控指挥部、红十字会发放捐赠物资公示。
主题9:各地实行外出人员申报健康证明临时措施,提供免费健康证明服务。
在舆情平复期,舆情传播者的注意力和兴趣发生转移,转向对复工复产的讨论以及钟南山院士讲话。随着更多疫情防控细节被公开,相关事件被逐步理清,以及疫情好转和经济的逐步恢复,舆情传播者对突发公共卫生事件的判断逐渐归于理性,舆情传播者的情绪状态在慢慢地平复。
3.4 突发公共卫生事件网络舆情治理建议
通过研究发现,社交媒体上公众对疫情防控、民生保障的关注仅次于对疫情风险的认知和社会心态调整的关注。因此,有关部门除了及时公布疫情最新进展,提高信息透明度,满足公众信息需求,也要关注民生保障措施的落实。在重大突发公共卫生事件中,政府不能因充当全方位的舆情防控角色而忽视舆情传播者在舆情治理中的关键作用,应利用社交媒体平台引导公众自发参与疫情防控工作,从而与公众形成平衡化的网络舆情防控共同体。及时掌握舆情传播者不同阶段的关注主题,从认知、行为、情感等多角度引导他们參与舆情治理。一方面,政府可以从信息源着手,做好权威信息发布,消除信息不对称。若未及时发现舆情关注主题热点,发布的信息不能解决公众疑虑,可能使舆情事件愈演愈烈,引发谣言。政府要针对公众的核心诉求,进行妥善解答和回应,牢牢把握话语权,消除公众心中的不确定性,降低因公众情绪传播而产生的舆情风险。另一方面,政府要做好网络舆情热点主题监测,判断、预测并及时预警主题内容演变趋向。网络舆情事件爆发前都会有一定的征兆,政府及相关部门应形成一套涵盖疫情预警、疫情应对和疫情消解的处理机制,利用现代信息网络技术,实时监测网络舆论动态,发现敏感信息,
4 结语
本文以2019年新冠肺炎疫情为具体案例,结合生命周期理论和LDA主题模型挖掘舆情传播周期中各阶段下网民关注的焦点主题,并分析主题内容演化特征,目的在于为政府信息公开、应对突发公共卫生事件网络舆情危机提供建议。由于各种原因,本文的研究还存在两点不足,第一,LDA主题模型抽取的特征词不够贴合主题,未能挖掘更深入细致的有效信息;第二,舆情发展阶段没有针对突发公共卫生事件的特性细分展开。
参考文献:
[1] 徐剑,钱烨夫.“信息疫情”的定义、传播及治理[J].上海交通大学学报(哲学社会科学版),2020,28(05):121-134.
[2] 王雅静,郭强,邓春燕,等.基于LDA主题模型的用户特征预测研究[J].复杂系统与复杂性科学,2020,17(04):9-15.
[3] 曹树金,岳文玉.突发公共卫生事件微博舆情主题挖掘与演化分析[J].信息资源管理学报,2020,10(06):28-37.
[4] 赵凯,王鸿源. LDA最优主题数选取方法研究:以CNKI文献为例[J].统计与决策,2020,36(16):175-179.
[5] 陈璟浩,陈美合,曾桢.突发公共卫生事件中中国网民关注度分析——基于新冠肺炎网络舆情数据[J].现代情报,2020(10):11-21.
[6] 任立肖,张亮.食品安全突发事件网络舆情的分析模型——基于利益相关者的视角[J].图书馆学研究,2014(01):65-70.
[7] 谢耘耕,荣婷.微博舆论生成演变机制和舆论引导策略[J].现代传播(中国传媒大学学报),2011(05):70-74.
作者简介:来能烨(1994—),女,浙江杭州人,硕士在读,研究方向:信息管理。
汪明艳(1975—),女,吉林吉林人,博士,教授,研究方向:电子商务、数据分析、舆论治理。
周成阳(1995—),男,上海人,硕士在读,研究方向:信息管理。