APP下载

城市微博数据驱动的群体疫情情感响应时空特征
——以武汉市和石家庄市新冠疫情为例

2022-02-23伟,郝辉,王东,曹东*,夏江,吴泽,樊

地理与地理信息科学 2022年1期
关键词:石家庄市副词武汉市

姜 伟,郝 智 辉,王 艳 东,曹 卫 东*,夏 江,吴 浩 泽,樊 成

(1.安徽师范大学地理与旅游学院,安徽 芜湖 241003;2.武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079;3.武汉市疾病预防控制中心,湖北 武汉 430022;4.武汉市卫生健康委员会,湖北 武汉 430014)

0 引言

新型冠状病毒肺炎疫情(简称“新冠疫情”)[1,2]的暴发与全球流行,不仅对人的生命健康构成严重威胁,也导致社会经济出现巨大损失[3]。新冠疫情多次局部暴发[4],不仅考验社会的疾病预防控制工作,也影响当地民众的生命安全和心理健康[5],导致民众出现恐惧、悲伤、愤怒等多维负面情感响应[6],这些负面情感如果得不到及时发现和治理,会直接妨碍防控措施的有效实施,加重社会集群式恐慌,影响社会和谐稳定[7]。深入理解城市大规模人群疫情情感响应时空特征及其影响因子,可为民众情感治理策略制定以及疫情防控措施优化提供科学依据。

目前国内外学者多采用实地调研等方法挖掘疫情暴发时人们的情感响应特征[8,9],但实地调研方法难以在疫情防控期间大范围实施,无法即时采集大规模人群的疫情相关情感信息。随着社交媒体的普及,情感研究由实体空间映射到网络空间[10]。网络用户可在社交平台随时、随地发布自己的情感响应和认知状态信息,这些信息为即时掌握大规模群体在疫情防控期间的多维情感响应强度及其时空特征提供了可能[11]。目前,社交媒体数据已广泛用于网络用户群体情感响应研究并不断取得新进展[12-16],但多数研究仅将社交文本的情感类别划分为积极、中性、消极3类[12,13,17],对用户群体表达的情感维度扩展不够,且缺乏对疫情防控期间用户群体多维情感强度的定量化评估方法研究。此外,聚焦国内多地疫情暴发现状,不仅要注重全国层面省市大空间尺度下情感响应探索[3,14,15,18],对城市内部情感响应时空分布特征的精细化研究也亟待开展。鉴于此,本文基于社交媒体大数据,结合实地问卷调查,提出城市用户群体疫情情感响应时空特征分析框架,该框架重点构建用户群体对于疫情的多种情感强度的精确评估方法,细粒度且高效反馈用户群体情感响应信息;在此基础上,挖掘城市用户群体在多次疫情暴发期间情感响应的动态变化以及在城市空间中的分布特征,探究影响情感响应的显著性因子。

1 研究区域与数据来源

1.1 研究区域

武汉市是国家中心城市之一,也是全国重要的工业基地、科教基地和综合交通枢纽[19],2019年12月-2020年4月武汉市曾受新冠疫情影响,出现公共卫生事件危机[20,21];石家庄市是京津冀地区重要的中心城市之一[22],2021年1月该市连日新增新冠肺炎确诊病例及多例无症状感染者,疫情防控工作压力巨大。因此,本研究以武汉市和石家庄市为案例城市,选择武汉市主城区(江岸区、江汉区、硚口区、汉阳区、青山区、武昌区、洪山区)和石家庄市新华区、裕华区、桥西区、长安区、藁城区、正定县为研究区域,所选区域人口较为集中,受疫情影响较大。

1.2 数据来源

新浪微博是国内应用最广泛的社交媒体平台之一,20岁以下、21~30岁、31~40岁、41~50岁、51岁及以上5个年龄段的新浪微博用户分别约占总用户的30%、48%、18%、3%、1%,青年用户占比最大。本研究基于新浪微博开放平台提供的数据接口,采集并存储2020年1月1日至2月14日在武汉市和2021年1月1日至2月14日在石家庄市发布的带有地理标签的社交媒体数据,最后分别采集微博用户在武汉、石家庄市内发布的136 235、500 162条新浪微博数据,并存储为原始数据集。为保证数据质量,本文应用噪声过滤方法[23]对数据进行降噪(剔除用户转发的和由机器人发布的微博以及广告),最终保留91 168条武汉市微博数据和112 954条石家庄市微博数据。

在两个案例地疫情形势稳定后,本研究对当地民众进行问卷调查,以验证基于微博数据评估城市用户群体多维情感响应结果的准确性。两个案例地分别发放1 000份问卷,每份问卷包含20条微博文本,以李克特5分量表[24,25]对微博文本的愤怒、恐惧、悲伤和喜悦情感强度进行描述。考虑到社交媒体数据可能受人口地理空间分布特征和网络用户年龄段较集中等因素的干扰[26],为提高问卷调查数据的可信度,本次调查问卷均由调研人员在研究区域内随机发放[27]。最终回收有效问卷1 574份,其中,武汉市877份(男性受访者425人、女性受访者452人),石家庄市697份(男性受访者352人、女性受访者345人),有效问卷回收率为78.7%。基于两市的有效回收问卷,进一步提取情感评估所需的问卷数据集合。首先,融合微博平台发布的用户发展报告与文献[28],厘清新浪微博用户的年龄构成比例;其次,将两市收集的有效调查问卷分别根据被调查者的年龄信息,划分为20岁以下、21~30岁、31~40岁、41~50岁、51岁及以上5个年龄段;然后,按照微博用户年龄构成比例,从划分好年龄段的调查问卷中抽取300份调查问卷,形成问卷调查子集(共600份),确保该子集中的受访者年龄构成比例与新浪微博用户年龄构成比例一致;最后,利用该问卷调查子集,对情感响应评估结果进行验证。

2 研究方法

本文以社交媒体数据为基础数据,以实地问卷调查数据为验证数据,进行多维情感响应评估并验证评估精度;在此基础上构建时空分析指标,用于挖掘情感响应时空特征,并探索城市用户群体多维情感响应特征的影响因素,具体流程如图1所示。

图1 方法流程Fig.1 Flowchart of the proposed method

2.1 多维情感响应评估

精确评估城市用户群体在疫情防控期间的多维情感响应强度,是进行情感时空特征及其影响因素分析的重要前提。本文首先建立疫情背景下的情感词典,然后构建顾及程度副词、否定词等语法因素的情感计算规则,最后利用问卷调查数据验证基于微博数据评估用户群体情感响应强度的准确性。

2.1.1 疫情场景专有情感词典构建 现有情感词典可分为一般场景情感词典和特殊场景情感词典两大类[29]。本文在已有一般场景情感词典基础上,构建疫情场景专有情感词典。采用的一般场景情感词典为国内应用较广泛的中文情感词汇本体库(http://ir.dlut.edu.cn/),该词库总结了大量生活中通用的中文词汇及短语,并规范其词性种类、情感类别等属性信息。已有研究表明[30],愤怒、恐惧、悲伤和喜悦4种情感可以基本反映公众对于疫情感知的情感变化动态,因此,本文结合武汉疫情防控专家的相关意见,抽取该情感词汇本体库中愤怒、恐惧、悲伤、喜悦4个维度情感,利用每个维度对应的情感词汇构建初步情感词典;然后从两方面对初步情感词典进行扩充:一是扩充疫情相关的情感词汇(如“窒息”“野味”“漏报”等),二是扩充近年来的网络流行词汇(“蓝瘦”“泪目”“坑爹”等)。在词典扩充过程中,通过招募20名志愿者对1万条微博文本中的词汇进行情感词汇筛选并判别情感维度,将分类后的词汇扩充到初步情感词典中,在愤怒、恐惧、悲伤、喜悦4个情感维度上分别扩充105、166、183、212个词汇,最终构成疫情场景多维情感词典。部分情感词汇示例如表1所示(1)完整新增词库网址:http://miaochunhuaixia.top/wenjian/ %E5%AE%8C%E6%95%B4%E6%96%B0%E5%A2%9E%E6%83%85%E6%84%9F%E8%AF%8D%E5%85%B8.rar。

表1 情感词汇库示例Table 1 Instances of emotional vocabularies

2.1.2 多维情感评估规则构建 中文中的副词、否定词对城市用户群体的情感强度评估结果存在显著影响[31,32]。本文首先引入已有研究构建的否定词和副词词库[33],然后基于情感词、否定词和副词词库建立顾及否定词、副词影响的多维情感评估规则:1)对于出现否定词的句子,进一步计算否定词的数量。若否定词为奇数,则不统计其后出现的情感强度;若否定词为偶数,则按照正常规则统计其后出现的情感强度。2)程度副词。蔺璜等[34]根据程度副词表达强烈程度的不同,将程度副词划分为不同量级,构建具有强度差异的程度副词分类表。部分学者基于该分类表开展顾及程度副词强度差异的多维情感量化评估,研究结果表明,该强度分类可显著提高情感强度评估结果的准确度[32,33,35,36]。因此,本文基于蔺璜等对程度副词的强度分类,添加少量程度副词,构建研究所需的程度副词赋值体系,部分程度副词如表2所示。针对包含程度副词的句子,本文将副词的倍数与相连情感词的强度相乘,乘积结果作为该句子的最终情感强度。基于上述规则,针对用户发布的微博文本T,通过统计该文本在q情感维度上的总强度Tq(式(1)、式(2)),实现城市用户群体的多维情感强度评估。

表2 程度副词分类Table 2 Classification of degree adverbs

(1)

(2)

2.1.3 多维情感响应强度评估 本文对问卷调查数据进行归一化处理,将基于社交媒体数据的情感强度与问卷调查中的情感强度映射至0~1范围内。针对每个情感维度,利用均方根误差(RMSE)衡量评估的准确度,得到愤怒、恐惧、悲伤、喜悦4个维度的RMSE分别为0.172、0.201、0.189、0.217,可见微博数据虽不能反映所有民众的响应(如非网民群体、老年者等),与群体特征覆盖较完善的问卷调查结果存在一定误差,但二者偏差较小,表明本文构建的多维情感响应评估方法准确性较高。

2.2 时空分析指标构建

本文构建城市用户群体的多维情感时序指标(H)、多维情感空间指标(K)和主体情感空间指标(Q),在时空维度上研究城市用户群体疫情情感变化特征。其中,H反映用户每天各维度的情感强度,可刻画用户群体的情感时序变化趋势,由每天城市用户群体各维度情感强度总值与当天反映该情感微博总数之比计算(式(3));K可定量反映用户各维情感在空间单元上的分布强度,由每个空间单元内用户群体各维度情感强度总值与该单元内反映该情感微博总数之比计算(式(4))。

(3)

(4)

已有研究表明,微博用户发布空间信息的最大误差为1 km左右[37]。为防止空间误差影响分析结果,同时尽可能保证展示空间差异性,本文设定1.25 km×1.25 km 的规则格网为基本空间分析单元[38];为避免小样本问题,本文仅考虑发布微博数大于等于10的空间单元[39]。

Q通过比较目标空间单元中用户多维情感空间指标(K)在各维度情感的指标大小,反映该空间单元呈主导地位的一种或两种情感维度。具体计算过程为:1)根据式(4)计算各空间单元不同情感维度的强度值;2)统计各空间单元内最高和次高情感强度值及其对应的情感维度,并计算最高和次高情感强度之差;3)绘制全部情感强度差值箱形图[40],基于箱形图的数值分布,将下边缘截断点的数值设定为情感强度阈值;4)若空间单元中最高、次高两情感强度之差小于设定的情感强度阈值(0.3),则判定其属于极小异常值[41],表明该空间单元最高、次高两情感强度的差异很小,属于两种并列情感,将其作为该空间单元主体情感,否则,将情感强度最高值对应的情感维度作为该空间单元的主体情感(式(5))。

(5)

式中:(Kqx)max、(Kqy)2nd_max分别为空间单元g中最高强度qx情感和次高强度qy情感对应的情感强度值。

3 结果与分析

3.1 时序分析

城市用户群体疫情情感响应时序变化受多种因素影响[42]。通过微博词频构建词云,可从实时、大量的微博文本中提取用户群体讨论的高频词汇,从而挖掘微博内容中有关社会热点、民众关切等主题信息,有利于识别情感变化的潜在影响因素[43,44]。因此,本文采用上述研究方法识别用户疫情情感变化的潜在影响因素。首先,提取各维度情感局部极值发生时间点对应的微博数据;其次,通过统计微博词频并构建词云对社交媒体文本进行探索;然后,根据词云图中的高频词汇推断用户群体情感变化潜在因素,并将因素分为政府行动、疫情发展、传统节日以及公众事件4类(表3);最后,分别研究4类因素对愤怒、恐惧、悲伤及喜悦四维情感时序变化的影响。

表3 群体疫情情感响应时序变化的影响因素Table 3 Factors influencing the groups′ emotional sequential changes

(1)愤怒。政府行动对用户群体的愤怒情感响应影响显著。如图2所示,2020年1月27日李克强总理到武汉市考察、2021年1月12日河北省委书记调研石家庄市防控工作、1月20日石家庄市完成第三次核酸检测等政府行动均显著降低了用户群体的愤怒情感强度,表明政府积极的防控措施可有效安抚城市人群的愤怒情感。武汉市疫情防控期间,1月23日武汉封城并未导致愤怒情感强度的提升,这表明当地用户群体对武汉封城持赞同和理解态度,有力驳斥了外国媒体的歪曲报道。相反,政府相关部门行为不当却会引起愤怒情感强度的提升,如1月3日武汉市启动对不明原因肺炎的调查和2月1日红十字会物资分配中存在的问题引发用户群体产生强烈的愤怒情感响应。除政府行动外,公共事件也是影响愤怒情感强度的重要因素。武汉市疫情中,2月7日英雄人物因公殉职事件备受关注,奋斗在抗疫一线的医务工作者牺牲,促使用户群体产生愤怒情感;石家庄市疫情防控期间,由于个别超市哄抬物价引起民众不满,导致1月10日石家庄市用户群体的愤怒情感强度达到峰值。

图2 愤怒情感强度值的时间分布对比Fig.2 Comparison of temporal changes of anger emotion index

(2)恐惧。城市用户群体的恐惧情感与疫情发展紧密相关。如图3所示,2020年1月9日武汉市出现首例不明肺炎死亡病例、1月17日武汉市持续发现新冠肺炎病例等疫情相关因素引起城市用户群体恐惧情感强度显著提升,其中,1月17日持续发现新冠肺炎病例促使用户群体产生最强烈的恐惧情感。1月27日,李克强总理考察武汉,使用户群体恐惧情感得到显著缓解;1月27日以后,由于疫情得到有效控制,武汉市用户群体的恐惧情感波动较弱。此外,武汉封城未引起城市内用户群体恐惧情感的剧烈变化。如图3所示,1月5日石家庄市连续多日新增确诊病例以及1月14日新增死亡病例均引起恐惧情感强度提升;1月20日,全市开展第三次核酸检测,用户群体恐惧情感强度显著下降;1月30日以后,全市复工复产,城市用户群体恐惧情感强度逐步下降。通过两地对比发现,石家庄市微博用户群体的平均恐惧情感强度比武汉市下降81.09%,表明在武汉市疫情得到有效控制的背景下,民众对政府的防治措施更加信任,疫情再次暴发产生的恐惧情感强度大幅下降。

图3 恐惧情感强度值的时间分布对比Fig.3 Comparison of temporal changes of fear emotion index

(3)悲伤。城市用户群体的悲伤情感受城市封闭式管理以及重要人物逝世等公众事件的显著影响。如图4所示,2020年1月23日武汉市封城,政府果断的决策起到了遏制病毒传播的作用,得到了广大民众的理解和支持。虽然未引发用户群体的极端负面情感响应,但是人们依然对封城之后的生活感到忧伤。2月7日英雄人物因公殉职成为备受关注的公众事件,奋斗在抗疫一线的烈士牺牲引起了广大用户群体的悲伤情感。在2021年石家庄市新冠疫情中,1月16日石家庄全市累计确诊病例超过600人,达到新高,促使城市用户群体产生悲伤情感;1月23日石家庄市分区分级管控导致用户群体悲伤情感强度显著提升;石家庄市解封后,该市部分过年返乡人员的行程依旧受阻,在2月2日上升为受网络用户群体关注的公共事件,促使悲伤情感强度上升。

图4 悲伤情感强度值的时间分布对比Fig.4 Comparison of temporal changes of sadness emotion index

(4)喜悦。城市用户群体的喜悦情感强度与政府行动及传统节日有关。如图5所示,2020年的元旦、春节和元宵节,武汉市用户群体的喜悦情感强度均处于高值,表明疫情防控期间传统节日对武汉市民众喜悦情感强度有显著提升作用。此外,政府行动也会提升人们的喜悦情感强度,1月27日总理考察武汉促使用户群体产生喜悦情感;2021年1月21日石家庄市调低风险等级及1月29日石家庄市解封,表明当地疫情已经得到控制,民众生活逐步回到正轨,均促进喜悦情感强度增长;2月12日(春节期间)石家庄市微博用户群体喜悦情感强度达到最大值。

图5 喜悦情感强度值的时间分布对比Fig.5 Comparison of temporal changes of happiness emotion index

综上发现:1)政府行动和公众事件对用户群体的愤怒和悲伤情感影响显著,政府严格的疫情防控措施不仅不会引起城市内用户群体的愤怒等负面情感强度上升,反而对用户群体的负面情绪具有安抚作用;2)连续确诊病例及死亡病例出现等疫情发展因素会显著提升城市内用户群体的恐惧情感强度;3)在疫情防控期间,传统节日及政府行动对于用户群体喜悦情感强度的提升具有一定促进作用。

3.2 空间分析

由武汉市、石家庄市用户群体的多维情感和主体情感空间分布(图6、图7)可以发现,相比其他情感维度,愤怒情感空间分布范围最小,表明用户群体的愤怒情感仅在特定空间区域内产生;其次,两城市的喜悦情感空间分布范围最广且强度较高,表明在疫情防控期间城市用户群体的积极情感仍占据主流;两城市主体情感的空间分布显示,喜悦情感是多数空间单元中唯一的主体情感,表明疫情防控期间城市用户群体的主导情感是积极、正向的,且在多数空间单元中喜悦情感强度远高于其他维度情感;武汉和石家庄市区以及部分市郊出现两种情感共同作为主体情感的现象,这些区域内用户群体的主导情感中包括悲伤或恐惧等负面情感,由于区域内用户数量较多、情感响应差异较大以及研究时间跨度较长等,需要进一步加强对此区域的情感监测和分析。

图6 武汉市群体四维情感和主体情感响应空间分布Fig.6 Spatial distribution of groups′ four-dimensional and dominant emotion response in Wuhan

图7 石家庄市群体四维情感和主体情感响应空间分布Fig.7 Spatial distribution of groups′ four-dimensional and dominant emotion response in Shijiazhuang

本文在空间分布特征挖掘的基础上,进一步研究城市用户群体恐惧情感的影响因素。根据已有的武汉市新冠疫情风险模拟模型[45],探索武汉市用户群体恐惧情感强度与新冠疫情风险水平之间的关系。通过对比图8a与图8b,发现风险等级较高的A、B、C、D、E区域,其恐惧情感强度值也处于高值水平,表明疫情风险可能是促使用户群体产生恐惧情感的重要原因。除上述5个区域外,F区域的恐惧情感强度值也较高,通过解析该区域内的设施分布,发现其内部存在部分新冠确诊病例收治医院(武汉同济医院、武汉市第一医院和协和医院)。结合研究团队实地走访调查,发现附近居民广泛认为收治医院的聚集会增加其患病风险,从而导致恐惧情感强度提升。

图8 武汉市新冠疫情风险模拟与群体恐惧情感响应空间分布Fig.8 Spatial distribution of the COVID-19 risk simulation and groups′ fear emotion response in Wuhan

本文根据已有新冠肺炎患者居住小区数据,进一步解析石家庄市恐惧情感的空间分布影响因素。如图7所示,石家庄市疫情主要分布在主城区内、藁城区东部及正定县机场周边,而恐惧情感的空间分布与新冠肺炎患者居住小区的一致性较高。城区由于人口密度大,人口流动速度快,更有利于疫情扩散,虽然引起民众情感响应的因素较多,但地理空间因素对民众恐惧情感响应的影响作用不容忽视[3]。相关研究表明,无论是外地输入还是本土出现的新冠肺炎感染者,都会引起感染者本人或家庭成员以及与病患有可能近距离接触人群的紧张与担忧[46]。因此,大规模群体的恐惧情感响应空间特征与疫情传播有关的地理因素(如新冠肺炎患者所在小区、村镇)分布密切相关,并且恐惧情感强度未必会因空间距离出现线性增强或衰减,而是受多种因素影响,在地理空间中呈现出情感强度差异。

综上发现:1)疫情防控期间,城市用户群体的愤怒情感空间分布范围较小,喜悦情感空间分布范围较广,喜悦是多数空间单元中的主体情感;2)城市内用户群体恐惧情感的空间分布与疫情风险、收治医院、肺炎患者所在小区紧密相关。

4 结论与建议

本研究以武汉市和石家庄市为案例地,结合社交媒体数据及问卷调查数据,构建疫情防控期间城市用户群体多维情感精确评估方法,探索城市内部疫情情感时空分布特征,进而解析多维情感影响因素。主要研究结论如下:1)本研究提出的基于疫情情感词典的情感响应评估方法能够精确量化城市群体疫情防控期间喜悦、恐惧、悲伤等多维情感响应强度;2)政府严格的疫情防控措施可有效缓解群体负面情感响应,使群体恐惧、愤怒等负面情感强度显著下降;3)喜悦情感在疫情防控期间分布范围最广且强度较高,是城市群体的主体情感;4)疫情再次发生不会引起城市群体负面情感响应强度的显著上升。

本文为增强疫情中民众情感监测能力、提升情感治理水平,提出如下建议:1)在整个疫情发展过程中,政府部门应注重收集、发布与事件有关的信息,积累能够反映大规模群体情感响应的资料,使面向国外的舆论宣传更具真实性,占有主动权。2)重视在疫情高风险区域及新冠肺炎患者定点收治医院密集分布区域的情感调节工作;根据不同地点针对性开展疫情防控工作及风险信息的精准发布,注重情感调节资源在空间上的合理分布,进一步向街道社区、居委会和村委会等基层单位部署,做好精细化的情感疏导和实际帮扶工作。3)政府等相关部门应继续坚持严格的疫情管控政策,有效保护民众的生命安全,降低民众的愤怒等负面情感,化解疫情防控期间民众心理情感问题。

本文研究成果丰富了目前情感响应研究的理论与方法体系,可为政府部门的疫情防控措施优化以及民众情感治理政策制定提供科学依据。今后研究需重点考虑以下两方面:1)引入更多维度情感,对城市用户群体产生的疫情情感响应类型进行全面描述;2)综合多种数据源(如面部表情数据、视频监控数据等)挖掘人们的情感强度信息,从而支撑空间指标的时序动态分析。

猜你喜欢

石家庄市副词武汉市
乡镇尺度下PM2.5时空分布——以石家庄市为例
武汉市勘察设计有限公司
石家庄市
河北省石家庄市第十七中学
武汉市中小学优秀自制教具评选活动成功举办
韩国语副词“더”与汉语副词“更”“再”的对应
石家庄市
短句—副词+谓语
第十届中国足球协会第三次会员大会在湖北省武汉市召开
副词和副词词组