大数据情景下新冠疫情新闻舆情分析
2020-11-19胡乐炜
◎胡乐炜
新冠肺炎疫情爆发以来,疫情的动向牵动着全国人民的心。社交媒体平台成为广大群众了解疫情的重要渠道。大到权威的新闻媒体, 小至零散的个人自媒体都纷纷在社交平台上发声,从不同角度传递着疫情的进展。 可见,社交媒体平台作为新闻媒体的载体对于明确疫情新闻真实性、消除民众恐慌情绪、 传递社会正能量等方面发挥着不可替代的作用。更进一步地,习近平总书记在2 月3 日召开的政治局常务委员会议上强调加强疫情防控的舆论引导工作,为坚决打赢疫情防控阻击战提供强大的舆论支持。基于此,本研究以新浪微博的媒体新闻为实验场地, 分析新冠疫情新闻舆情传播特征和内容属性,为科学引导舆论提出思路。
一、对于新浪微博疫情新闻的文本挖掘
1.设计思路
新浪微博是中国最大的社交媒体平台之一, 既有蕴含国家政策导向的主流新闻媒体声音, 也呈现了民间自媒体的影像,非常适合本研究探索新闻舆情特征。 因此,本文拟首先从新浪微博上采集某一特定地区特定时间段的新冠疫情新闻内容,然后利用Python 程序完成对于新冠疫情新闻内容的文本挖掘,分析得出文本特征,最后,结合我国新闻行业实践,总结和归纳科学引导舆论思路。
2.数据集选择
由于新冠疫情始于湖北,因此本研究首先将新闻采集的范围控制在湖北地区媒体发布,而后,本研究将新闻采集的时段选定为新冠肺炎疫情蔓延最为严峻的时期:1 月27日(李克强总理来到武汉考察指导)至2 月8 日(雷神山医院交付使用)期间。
图1:新浪微博疫情新闻数量折线图
通过利用基于scrapy 架构的Python 程序爬虫采集以新冠肺炎为检索关键字的新闻,本研究得到了来自湖北地区各种媒体(包括武汉晚报、健康武汉、新浪湖北等经过认证的权威媒体,也包括未经认证的自媒体用户)发布的相关新闻,清洗和去重,最终得到8772 条数据,数量特征如图1 所示。
可以看出,随着疫情不断加剧,新浪微博上的湖北媒体发文数量呈现总体上升趋势, 从一个方面反映了社会对于疫情关注度不断提升的事实。
3.实验处理过程
经过新闻的数量分析后,本研究将采集到的新闻全部整合到一起,利用Python 的jieba 第三方库进行分词,并结合哈工大版的停用词表对新闻内容进行进一步清洗, 在此基础上, 完成了全部内容的词频分析, 图2 是利用Python的WordCloud 库和matplotlib 库绘制的词云图。
图2:基于Python 程序的词云图
从词云图中,可以看出新闻内容中出现频率比较高的词语(如:新冠、疫情、肺炎、医院、防控等)均是和检索的新闻内容密切关联的。 进一步地,本文再利用Python 统计分析出了新闻中出现频率最高的十个词语和出现次数, 如下表1 所示。
表1:新闻词频分析
从表1 可以看出出现频率最高的两个词便是本研究在新浪微博检索的关键词,随后的高频词语均与新冠肺炎的防控高度相关。 然而,尽管通过词频分析可以判断新闻的相关话题,却无法细致地新闻的文本特征,因此,有必要对新闻进一步采用TF-IDF 算法进行关键词抽取的舆情分析。
表2:新闻关键词抽取
二、新浪微博疫情新闻的舆情分析
TF-IDF 表示词频逆文档频率,TF-IDF 是文本挖掘和舆情分析中常用的算法。该算法计算出一个权重,用于评估一个词语对集合或语料库中的文档的重要性。 重要性随着词语在文档中出现的次数成比例增加, 但会被该词语在语料库中的频率所抵消。 总体上的新闻内容中常出现的高频词汇不一定等表征每天新闻的内容特点,基于此,本研究运用TF-IDF 算法,对样本新闻库中每天的新闻内容进行关键词抽取分析,如表2 所示。
从上表可以看出,每日新闻内容的关键词大都含有医院、感染等词汇,但仍存在自身特有的关键词维度,结合具体的新闻内容进行细致分析, 能发现关键字和新闻内容的对应关系。 例如1 月31 日出现的红十字会关键词,就涉及到了在当天发生的湖北省红十字会对应疫情物资使用情况的澄清说明事件,2 月2 日出现的火神关键字则表明了当天武汉火神山医院正式交付的新闻,2 月4 日出现的方舱关键字则描述了连续的几天中武汉市政府连夜开辟方舱医院,收治新冠肺炎轻症患者,2 月7 日出现的李文亮关键字凸显了当天大量的新闻报道指向李文亮医生去世,2 月8日的关键字气溶胶的呈现则是因为当天公布的新冠肺炎传播途径包括气溶胶传播。
三、总结与思考
社交媒体平台的新闻内容在一定程度上代表了社会大众的心声。 通过对新浪微博这个主流的中国社交媒体平台中各种媒体用户发布的新冠疫情新闻进行舆情分析,本文对于社交媒体平台上的新闻舆情进行总结。
首先, 对于疫情的报道应该注重严谨性和科学性,对于未经证实或虚假的新闻要及时给予澄清和辟谣。 社交媒体平台冗杂了大量的媒体用户, 在信息缺乏透明度的舆论环境中,如果用户随意发声,很可能引起全社会不必要的恐慌和混乱,例如:有自媒体发声形成了红糖和姜蒜熬水喝可以预防新冠肺炎、养猫狗易感染新冠肺炎等谣言。这些谣言曾在一时间给予了人们错误的引导, 或者造成了不必要的恐慌。 新浪微博平台很快就根据查证权威机构的说明给予辟谣。 未来,社交媒体平台需要更加健全新闻传播机制:一方面,对于这些类似街谈巷议的谣言,官方媒体能够及时给与辟谣和解释,另一方面,官方媒体自身发布的新闻一定要更加严谨和科学。
其次,社交媒体平台上的用户及时发布的疫情医疗相关信息,有效促进了社会组织间的配合协作。本次疫情来势凶猛, 短时期内对于武汉乃至湖北地区社会经济带来了极大的压力,造成医疗资源不足的不利情形。社交媒体平台在信息传播方面有着得天独厚的速度和广度优势, 媒体用户将疫情即时信息快速传播, 有助于政府和民间深入了解疫区情况,更有效地调配医疗资源,提升医院救治效率。例如:在本次疫情中, 新浪微博的媒体用户及时通报了疑似新冠肺炎感染患者的具体情况, 为政府收治病人和控制疫情蔓延收到了一定的效果。又如,媒体用户在新浪微博全平台及时通告某些医院防疫物资不足的详细情况, 为全国支援湖北抗疫提供了有力的信息支持。 可以看到,在舆论引导上,社交媒体平台需要判别信息的价值, 对于用户传递的有价值信息应给予更大力度的推送和传播。
最后,结合国家的政策导向,利用社交媒体平台的话题和超话功能,弘扬正能量。突发的疫情几乎打了所有人的生活节奏, 大部分人都被迫隔离。 人们无法正常生活和工作,承受着来自各方的巨大压力(例如:无法回家、房贷、没有收入等),急切需要找寻舒缓压力的出口。 新浪微博开辟了万众一心抗击新冠肺炎、抗击新型肺炎各地公益行动等围绕抗击新冠疫情的话题和超话,大量的媒体都在这些话题中为湖北加油打气:有代表政府的媒体不断发出帮助疫区人们的利好政策信息(例如:银保监会发布的受疫情影响暂无收入人群可合理延后还房贷), 有代表企业的媒体发出的援助湖北的新闻,也有大大小小的自媒体用户发布的提醒、祝福、鼓励的内容等等。 这些正向引导的新闻内容对于湖北疫区的人们来说,无疑是排解压力,消除恐慌情绪的良药。