新冠肺炎疫情的微博舆情演化时空分析
2022-08-02王海起李学伟
孔 宇,王海起,李学伟
(1. 中国石油大学(华东) 海洋与空间信息学院,山东 青岛 266580)
社交媒体应用已成为网民发表言论与分享信息的平台,我国使用较广泛的社交网络平台为新浪微博。社交用户在新浪微博平台上发表的微博文本内容,包含时间、地点、点赞量、转发量等多种属性的海量数据[1]。2020 年初新型冠状病毒肺炎(以下简称新冠肺炎)爆发,随着每日官方信息的发布以及研究的不断深入,舆情随之不断升温,关于疫情的话题频上热搜,公众时刻关注着疫情的最新走向,并在社交媒体新浪微博平台上发布求助信息和关于疫情的言论。在这种情况下,了解公众对疫情相关话题的讨论,掌握公众的舆情热度,有利于引导工作的开展和优化辅助决策。
用户发表的社交媒体数据中蕴含着丰富的地理信息,很多学者利用社交媒体模拟预测了一些真实事件,如流感监测、地震灾害探测、空气质量监测等[2-3]。在微博舆情话题监测方面,闫俊伢[4]等提出了一种文档生成主题模型LDA 与基于遗传优化的K-means 相结合的文本分类算法,提高了聚类的准确率,可识别与追踪微博舆情话题;谢卫红[5]等研究了网络舆情监控算法,分析了不同文本分类算法、情感倾向算法的优缺点,并探讨了其未来发展趋势。微博文本中蕴含着社交用户的情感信息,如方梦静[6]等利用微博数据分析了公园内游客情感的时空变化趋势,并分析了情感值与影响因素之间的关系;王海起[7]等通过计算社交文本的情感信息,构建了中国居民的情感地图,并分析了城市情感值的时空特征;裴颂文[8]等提出了结合词性注意力机制和长短期记忆网络的情感分类网络模型,能充分挖掘情感极性词与句子的情感目标词之间的关系,具有较高的分类准确率。
随着疫情的发展变化,国内很多学者开展了关于新冠肺炎疫情的研究,通过对求助信息的统计分析和可视化,有效获得了流行病学特征,快速掌握了一线的真实情况[9];刘勇[10]等探究了河南省新冠肺炎疫情的时空扩散过程,评估了区县春节后的疫情风险,得到病例呈显著空间聚集性、遵循邻近相似的特征的结论;周松[11]等从大数据的角度利用Logistic模型拟合了全省确诊人数的变化趋势,通过时空迁徙特征分析了疫情的空间分布与高危地区之间的相关性,采用的模型能较准确地预测江苏省的确诊人数;苏理云[12]等利用空间统计分析方法分析了疫情的空间相关性和局部空间聚集性,得到全局Moran’s I 呈下降趋势、湖北省主要为高—低型聚集、周围的省份呈低—高型聚集的结论;孙宇婷[13]等将百度指数作为公众关注度,通过时空分析方法发现,公众关注度符合人口分布规律,东西差异较大,武汉“封城”后各省份对疫情的公众关注度较“封城”前有所提高,并分析了其影响因素。
本文利用网络爬虫技术获取了湖北省关于新冠肺炎的新浪微博舆情信息,并将微博文本与用户地理信息相结合,利用情感分析、空间分析等方法进行研究,获得了研究区的关注度指标和情感分值,探讨了公众对于疫情的关注度和情感的时空变化特征。本文采用的方法流程如图1所示。
图1 本文采用的方法流程图
1 研究方法
1.1 数据采集与处理
本文通过网络爬虫技术获取新浪微博数据,利用Python 的Selenium 库模拟用户登录,以“病毒”、“肺炎”、“疫情”为搜索关键词,获取新冠肺炎疫情受灾最严重地区——湖北省2020年1月1日—2月20日共51 d的新浪微博数据。每条微博数据获取的内容包括用户ID 、微博文本内容、发布时间、发布位置等字段,共计725 806 条,附带签到位置的有63 673 条,8.77%的微博数据附带地理位置。数据概况如表1所示。
表1 数据统计表
本文对获取的微博数据进行预处理,具体步骤为:
1)文本过滤,删除无签到位置、文本内容重复、为空、字数小于5 个以及微博官方认证的微博数据,清除微博文本中的特殊字符。文本过滤后的微博数量剩余36 923条。
2)文本分词,基于Python 编程语言采用jieba 中文分词工具对过滤后的文本内容进行分词。
3)去停用词。停用词为一些对识别文本内容无用或意义不大的语气词,如“的”、“了”、“这样”等。
1.2 公众关注指数
用户对新冠肺炎疫情的关注可在社交网络空间有所反映,结合用户发文的签到位置,可将用户对疫情的关注映射到现实的地理空间。考虑到新浪微博用户的空间分布存在偏差,且与经济、人口因素密切相关,人口稠密、经济发达的地区微博用户的数量往往比较密集。本文将区域内微博用户发布的与疫情相关的微博结合人口、经济因素,构建了一个区域内微博用户对新冠肺炎疫情的关注指数,计算公式为:
新冠肺炎的微博关注指数可有效削弱人口、经济因素对微博用户空间分布差异的影响,更真实地反映微博用户对新冠肺炎疫情关注程度的空间分布情况。基于Python语言,通过地理编码包Geocoder的ArcGIS接口获取签到位置的WGS84坐标系地理经纬度,统计得到湖北省各地市的微博发文数量,计算各市的微博用户对新冠肺炎疫情的关注指数,其中省直辖行政单元包括仙桃市、潜江市、天门市3个县级市,结果如表2所示。
表2 湖北省各地市的公众关注指数
1.3 情感分析
情感分析最早是由Nasukawa T[14]等提出的,是对文本内容的主题观点、情感进行分析提取、分类的过程。文本情感值计算属于文本情感分析,主要任务是将文本内容中所表达的情感用具体数值来表示,能较直观地展示文本中的情感倾向和强度。微博文本中隐藏着丰富的潜在信息,发布的关于疫情的微博文本包含着社交用户对于该事件的看法和情感态度,包括消极、中性、积极的情绪状态。
本文采用Python 语言的SnowNLP 库[15]对微博文本内容进行情感分析。SnowNLP库是基于情感词典的情感分析模型,可方便地处理中文文本。首先准备正、负样本,并保存到文本neg.txt和pos.txt中;然后对数据进行训练,对所有文本内容进行分词、去停用词处理;最后统计每个词出现的频次。贝叶斯模型是情感分析的基本模型,首先判断正p(c1)、负p(c2)类的先验概率,进行文本分词;再计算每个词语的后验概率p(w|c1)和p(w|c2);最后根据式(2)计算得到概率较大的类别。
对于两个分类问题c1和c2,其词语为w1,…,wn,属于c1类的贝叶斯模型为:
若P(c1|w1,…,wn)>P(c2|w1,…,wn),那么属于c1类;若P(c1|w1,…,wn)<P(c2|w1,…,wn),则属于c2类。
本文采用与疫情相关的微博文本作为语料库,对SnowNLP情感分析模型进行训练;再将预处理后的微博数据进行人工标注,分别保存为正、负样本,从而进行情感分析模型训练;最后结合jieba分词,设定相对应的自定义词库,以提高情感判断的准确率。返回结果的Score 范围在0~1 之间,当数值大于0.5 时,情感为正面,数值越大表达的情绪越积极。
2 研究结果分析
2.1 公众关注度的时空特征
本文统计了每日微博发布数量在时间上的变化趋势,结果如图2 所示,可以看出,微博发文数量可分为4个阶段:①1月1日—1月19日疫情相关发文量较少;②1月19日—1月25日发文量大幅上升,在25日达到峰值;③1 月25 日—1 月31 日发文量出现下降趋势;④1 月31 日以后,发文量处于较稳定的波动期,其中在2月14日出现次峰值。
图2 每日微博发文量的变化趋势
2020 年1 月1 日—1 月19 日疫情相关的发文量较少,由于疫情初期公众接触到新冠肺炎疫情的信息较少,因此较少社交用户发布有关疫情信息的内容;1月20日钟南山院士称新冠肺炎具有传染性,肯定了人传人的现象,因此1 月19 日之后发文量出现大幅上升,网民对事件的关注和重视程度越来越高;1月25日发文量达到最高值,这是由于1月25日为春节的第一天,较多网民表达出关于春节期间新冠肺炎的复杂心情;1月25日之后,微博发文量出现下降趋势,随着疫情发展得到控制,疫情热度趋于下降;1 月31 日之后,每日发文量有较小的波动趋势;由于2月14日为情人节,发文量出现次峰值。
湖北省疫情与公众关注指数空间分布如图3 所示,可以看出,各地市公众关注指数与疫情严重程度具有大致相似的空间分布趋势,疫情最严重的武汉市的公众关注指数最高,其次为与武汉市相邻的黄冈市、孝感市,神农架林区确诊人数在全省中最少,公众关注指数也最低;鄂州市公众关注指数较低,恩施土家族苗族自治区公众关注指数偏高,均出现了与疫情分布不一致的现象,鄂州市面积在全省中最小,相应微博用户较少,因此公众关注度结果不显著,恩施土家族苗族自治区作为湖北省偏远的县级市,信息宣传和医疗资源可能跟不上疫情的发展,前期很多人不够重视,较多网民发布“恩施人民求关注”、“恩施请求支援”等相关内容的微博。
图3 湖北省疫情与公众关注指数空间分布(审图号:GS(2016)1595)
2.2 情感变化时空分析
每日情感分值变化曲线如图4 所示,可将网民对于疫情的情感态度划分为3个阶段:
图4 每日微博情感分值变化趋势
1)2020年1月1日—1月19日公众对于新冠肺炎的出现表现出非常恐慌的情绪,情感值较低且上下波动较大。1 月1 日是新年第一天,在发布疫情相关内容的同时多数网民会表达新年快乐等具有积极情绪的文本内容,1月16日为情感最低点,微博热搜话题为“日本确认首例新型冠状病毒病例”,该现象加剧了公众对新冠肺炎疫情的恐慌以及对存在人传人现象的担忧等负面情绪。
2)2020 年1月19日—1月25日,1月19日国家卫健委宣布向各省派出工作组,指导做好疫情防控相关工作,1月20日习总书记做出重要指示,坚持把人民生命安全和身体健康放在第一位,党中央的一系列防控措施使网民情绪逐渐上升,由担忧恐惧转为团结振作。
3)1 月25 日之后网民情感均值在0.5 上下波动,变化幅度较小,公众的情绪基本稳定。微博热搜话题为“万众一心抗击新冠肺炎”、“钟南山称已有药物将用于临床治疗”、“武汉协和医护人员临床症状得到控制”等,使广大人民充满信心,坚信中国能够打赢疫情防控阻击战。
通过分析情感在时间上的变化可以发现,1月25日(春节)为公众情绪趋于平稳的一个节点,因此本文选取1月25日为分割点,绘制春节前(2020年1月1日—1 月25 日)和春节后(2020 年1 月26 日—2 月20 日)两个时期的情感空间分布图(图5),可以看出,全省春节后的情感态度基本高于春节前;春节前各地市情感偏向负面,情感低值与疫情严重区域具有相似的空间分布,其中武汉市及其相邻的鄂州市、咸宁市情感值均较低,还包括疫情不太严重但情感值较低的襄阳市,襄阳市为湖北省重要的交通枢纽,很多从武汉返乡的人员需要在这里中转。鄂州市在前后两个时期情感差异不明显,作为湖北省最小的地级市,按照人口比例,鄂州市是除武汉市外确诊率最高的城市。1 月26日因“黄石确诊31例新型肺炎”的热搜话题,使黄石市大量市民产生消极情绪,影响了春节后的黄石市情感值。
图5 情感空间分布(审图号:GS(2016)1595)
2.3 词频统计结果
本文对高词频进行统计排序并生成词云图,频数越大字体形状越大。根据情感态度划分的3 个阶段统计发布微博中的高词频,并绘制词云图,如图6 所示,可以看出,与时序情感分析结果一致。
图6 疫情发展3个阶段的词云图
1)疫情初期阶段,高频词中包括“发现”,“不明”、“华南”等词汇,还包括“害怕”、“恐慌”、“死亡”等许多表达情感的词汇,面对突如其来未知的肺炎,广大民众处于极不稳定的情绪状态。
2)疫情发展的第二阶段,高词频中包括“封城”、“防控”、“加油”、“希望”等,微博话题集中在有序开展防控措施、共同抗击疫情等内容,网民情绪逐渐上升,由担忧恐惧转为团结振作。
3)疫情发展的第三阶段,微博中出现较多的词汇包括“加油”、“希望”、“结束”、“中国”等,广大人民充满信心,坚信中国能够打赢疫情防控阻击战,表达的都是积极、团结、对未来充满希望的正能量。
3 结 语
本文以湖北省为例,爬取2020 年1 月1 日—2 月20日的新浪微博数据,经过文本预处理后,计算得到各地市的公众关注指数;并利用情感分析、地理统计等方法分析了湖北省微博用户对于疫情的关注度和情感上的时空差异,主要结论包括:
1)2020年1月1日—1月19日疫情相关发文量较少,1月19日之后疫情热度高涨,发文量大幅增加,春节发文量达到顶峰;随着疫情发展得到控制,疫情热度趋于下降,发文量逐渐减少,1月31日之后发文量趋于平稳。疫情的公众关注度与受灾严重程度具有大致相似的空间分布,受灾程度最大的武汉市的公众关注度最高,关注度也受特殊事件、经济水平的影响。
2)公众情感态度大致可分为3个阶段:疫情初期网民情绪波动较大、极不稳定;第二阶段网民的情绪逐渐上升,由担忧恐惧转为团结振作;第三阶段网民情感基本平稳,广大网民表达的都是积极、充满信心的正能量。从总体时间上来看,情感呈上升趋势,公众态度向好的方向发展;春节前全省各地市情感偏向负面,春节后情感态度基本高于春节前。
微博数据具有实时性、可获得、成本低等特点,本文爬取了微博关于新冠肺炎的舆情信息,揭示了疫情事件在时空上的演化过程。然而,本文只爬取了2020 年1 月1 日—2 月20 日的微博数据,仅反映了该时间段的发展变化过程,今后将扩大时间范围,进一步增加数据量,从更细粒度的尺度挖掘疫情在空间上的传播过程。