新型冠状病毒肺炎期间公众情感的时空演化分析
2022-04-06高鑫月宋沛林薛润生
高鑫月 宋沛林 薛润生
(山东科技大学 测绘与空间信息学院, 山东 青岛 266590)
0 引言
新型冠状病毒肺炎(corona virus disease 2019,COVID-19)的爆发与蔓延,严重危害了人民的生命和财产安全,成为社会关注的焦点。自疫情暴发以来,我国采取了前所未有的努力[1],从不同方面展开应对,试图阻止疫情的蔓延。
疫情期间,相关研究多从地理学视角入手,探究包括疫情的时空分布[2-3]、扩散特征[4]及风险走向[5-6]等,并据此制定防疫策略[7]和系统方案[8],以有效阻止疫情的传播与蔓延。随着社交媒体的普及,公众更倾向于通过社交媒体软件(如微博)获取疫情发展的最新动态并发表自己的看法,极大地促进了人们之间的交流。因此,利用社交媒体数据参与疫情分析受到了不少学者的关注。有学者试图从公众舆情角度出发,研究社交距离与疫情传播之间的关系[9],同时,社交媒体为公众对热点事件的表达和分享提供了便捷,逐渐应用于公众舆情分析[10-12]、热点事件的情感分析[13-14]和公众关注的热点话题[15-16]等层面。
然而这些研究没有考虑病例位置与公众情感信息之间的关系,而病例位置和公众情感在城市疫情防控的过程中起着至关重要的作用。因此,本文提出一种基于病例位置及公众情感分布的时空演化挖掘框架,构建了病例位置与公众情感之间的关系,对疫情期间公众情感做了细致分析,有利于相关部门制定适合当地的疫情防控策略。
1 研究数据与方法
1.1 研究数据
(1)COVID-19数据。本研究基于青岛市卫生健康委员会发布的疫情通告,收集了2020年1月21日至2020年2月20日59例新型冠状病毒肺炎确诊病例的详细信息,提取确诊时间、区域名称、经度以及纬度等相关信息,如表1所示。
表1 COVID-19疫情示例数据
(2)社交媒体数据。采用2020年1月21日至2020年2月20日的新浪微博数据,对采集到的文本进行数据清洗等预处理,提取时间、文本、经度以及纬度等相关信息,最终得到5 414条社交媒体数据,形成了适用于分析的数据集,表2显示了处理后的部分数据。
表2 社交媒体示例数据
1.2 研究方法
(1)皮尔逊(Pearson)相关性分析。Pearson相关系数是最常用的一种相关系数,主要用来衡量两个变量X和Y的线性相关程度,其数值介于-1到1之间,且绝对值越大相关性越强,如式(1)所示:
(1)
式中,ρX,Y为变量X与Y的相关系数;cov(X,Y)为X与Y的协方差;σX、σY分别是X、Y的标准差;E(XY)为X与Y乘积的数学期望;E(X)、E(Y)分别为X、Y的数学期望;E(X2)、E(Y2)分别为量X2、Y2的数学期望。
本文采用Pearson相关系数探究新增确诊病例和社交媒体数据的时间分布关系,为探究疫情期间的公众情感提供数据支持。
(2)核密度分析。核密度分析旨在计算要素在其周围邻域中的单位密度,可直观反映离散测量值在连续区域内的分布情况。本文选用核密度分析研究青岛市社交媒体数据的分布规律,并探究社交媒体数据与确诊病例位置之间的空间关系。
(3)百度人工智能(artificial intelligence,AI)情感分析。百度 AI 开放平台(https:∥ai. baidu.com/)是全球领先的人工智能服务平台,其中情感倾向分析模块可对包含主观信息的文本进行情感倾向判断,为舆情分析提供帮助。鉴于此,本文运用百度AI情感倾向分析探究COVID-19疫情期间的公众情感特征,探究疫情期间确诊病例位置与公众情感空间分布的关系,以期帮助相关部门对公众可能产生的行为做出评估,有效控制疫情的扩散。
(4)基于社交媒体的关键词抽取。疫情期间,大量用户通过社交媒体平台发布自己的观点来表达情感,因此,基于社交媒体的关键词提取可反映公众产生不同情感的原因。关键词抽取的算法有很多,如词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF)、TextRank及LDA(latent dirichlet allocation)等。
在本文中,我们采取了TF-IDF,TF是词语在文本中出现的频率式中用F表示,IDF是文档频率的倒数,式中用FID表示,计算公式如式(2)所示:
(2)
式中,Ni表示词i在该文档中出现的次数;N表示所有文档中全部词的总数;|D|是语料库中的文档总数;Di是包含词i的文档总数。
从社交媒体数据中提取关键词信息,可为探究疫情期间公众关注的重点话题提供数据基础。
2 结果分析
2.1 病例的时间演变
2020年1月21日,青岛市首次通报确诊病例,之后确诊人数逐渐增长。截至2月20日,共有确诊病例59例,死亡病例1例。图1显示了该阶段内确诊病例的时间演变,大致可以分为3个阶段。
图1 青岛市确诊病例的时间分布
低速发展期(1月21日—1月25日)。这一阶段确诊病例呈小幅度变化趋势,但新增确诊病例不超过2例,增速较缓。
高速增长期(1月26日—2月14日)。在此期间,疫情在全国范围内大规模爆发,青岛市确诊人数呈高速增长趋势,日新增病例达7例,增速较快。
缓慢下降期(2月15日—2月20日)。该阶段新增确诊病例最高为1例,其中有3天出现“零新增”,COVID-19基本得到控制。
2.2 社交媒体数据的时间演变
在疫情发展过程中,以社交媒体为代表的信息传媒媒介表现异常活跃,大量与其相关的信息在社交媒体上传播,并受到公众的广泛关注。新浪微博用户覆盖范围广,可实时获取所需数据,因此具有很大的研究价值。
2.2.1 时间演变
本文收集了从1月21日至2月20日的5414条微博数据作为社交媒体数据,用于研究社交媒体数据与疫情发展变化之间的关系,新增病例与社交媒体数据的时间分布如图2所示。
图2 新增病例和社交媒体数据的时间分布
2.2.2 相关性分析
由图2可知,新增病例与社交媒体数据的时间分布呈现出相似的规律,其散点图分布如图3所示。
图3 新增病例及社交媒体数据的散点图分布
采用SPSS 26.0统计学软件中的Pearson相关性分析探究两个变量之间的关系,评估了从1月21日至2月20日的新增确诊病例与社交媒体数据之间的关联性,检验结果如表3所示。
表3 新增确诊病例和社交媒体数据的相关性
在相关性分析中,新增确诊病例与社交媒体数据呈现出显著的正相关性。因此,选择社交媒体数据研究疫情的演变过程具有重要的参考意义,可为政府决策部门提供数据支持,更好地服务于人民。
2.3 社交媒体数据与公众情感的时空分布
2.3.1 数据的时空演变
将疫情期间的社交媒体数据进行空间地址匹配,为了增强可视化的效果,图4采用核密度分析方法探究社交媒体数据的分布。
由图4可知,社交媒体数据主要集中在确诊病例的附近区域。低速发展期,新增病例较少,还未引起人们的重视,此时人们对于疫情的关注度较少;高速增长期,疫情不断扩散与蔓延,新增确诊病例增长迅速,引起了人们的高度重视,公众对于疫情的关注度极高;缓慢下降期,新增确诊病例增速明显减缓,人们对疫情的关注度显著降低,疫情基本得到控制。这得益于青岛市政府对疫情的高度关注,在一定程度上对疫情的防控起到了积极的促进作用。
(a)低速发展期 (b)高速增长期 (c)缓慢下降期注:审图号为鲁SG (2020)019号图4 社交媒体数据的空间分布
2.3.2 公众情感分布
社交媒体数据中包含了许多用户的主观情感内容,为基于用户情感分析的舆情演化研究提供了实时全面的文本数据,对于疫情的研究至关重要。为了分析疫情期间公众的情感倾向特征,文章融合COVID-19官方病例数据以及相关的社交媒体数据,探究确诊病例位置与公众情感分布之间的关系。
本文应用百度AI自然语言处理的情感分析模块,随机选取正向情感和负向情感各500条作为训练样本,对社交媒体数据进行情感预测。将用户的情感倾向划分为积极情感、中性情感以及消极情感三种类型。积极情感表达人们战胜疫情的信心,中性情感是对疫情的客观描述,消极情感代表着人们对疫情扩散的担忧。得到如图5所示公众情感的空间分布。
(a)低速发展期 (b)高速增长期 (c)缓慢下降期注:审图号为鲁SG (2020)019号图5 公众情感的空间分布
结合图4、图5可知:疫情期间青岛市公众情感整体表现为消极倾向,人们对于疫情的关注大多集中于确诊病例所在位置附近,确诊病例越集中的地区公众情感分布越密集。在低速发展期,公众关注度较低,呈现出微弱的消极情感倾向,除了区域A,其他地区几乎没有消极情感,这是因为前几个病例均发生在A区域,引起了人们的担忧;在高速增长期,公众对于疫情的关注度急剧增加且情感最为消极。与之前的情感分布相比,区域A的情感更加消极。在缓慢下降期,公众关注度逐渐降低,区域A的消极情感有所减少但一直持续,其他地区消极情感呈零星式分布,公众对疫情防控工作充满信心,疫情基本结束。因此,A地区是潜在的高风险区域,政府应该制定相应的措施,加强对疫情的管控力度。
2.3.3 公众关注的热点话题
公众在疫情不同时期表达不同情感,为进一步探索该现象的成因,我们通过挖掘社交媒体的文本数据来探究原因。采取TF-IDF关键词抽取方法抽取关键词信息,将社交媒体数据按照疫情发展的3个阶段划分为3个文本集合,并统计各关键词在文本集合中出现的次数,以此绘制3个集合的“词云”并得到公众关注的热点话题,如图6所示。
图6 疫情不同阶段公众关注的热点的时间演变
由图6可知,公众对于COVID-19疫情的认知具有明显的时间差异性。在疫情初期,公众消极情感大多源于对COVID-19疫情认识的不足;在高速增长期,病例增长迅速,而此阶段口罩供不应求,因此“口罩”成为公众关注的重点;随着时间推移,武汉疫情防控工作取得积极进展,复工复产相继开始,增加了人民战胜疫情的信心,疫情防控工作取得阶段性胜利,“复工”“加油”成为公众关注的热点。
图6大致呈现了每个阶段公众关注的热点话题,为对其做细粒度的探究,我们研究了A区域在高速增长期公众关注热点的时间演变过程,如图7所示。
图7 A区域高速增长期公众关注热点的时间演变
结合图7和相应的社交媒体数据可知:1月31日晚,有谣言称双黄连口服液可以抑制病毒,2月1日,“双黄连”“抑制”成为公众关注的热点,公众出现了盲从“心理”,严重影响疫情防控工作的开展,防疫部门应尽快向社会澄清事实,减少盲目恐慌带来的危害。随着时间的推移,多数企业宣布复工,公众情感态度逐渐转好,表达了对疫情即将结束的渴望。在较长的时间内,“复工”“加油”逐步成为重点话题,公众对于疫情的认知逐渐趋于平稳,此时公司应制定完善的复工复产制度,以确保员工健康,防止疫情的二次爆发。
3 结束语
本文提出一种基于病例位置及公众情感分布的时空演化挖掘框架,并将其应用到青岛市,构建了病例位置与公众情感之间的相关关系,对疫情期间公众情感做了细致分析,具有较高的可行性和参考价值,可应用于相关传染病的研究中。但也有一定的局限性:本文所采用的数据以网民分享为主,用户覆盖范围不全面,在青少年的分布较为普及,但中老年的用户较少。针对上述问题,下一步的工作重点是,融合更多来源的数据,如社交媒体数据、百度迁徙数据以及手机信令数据等,基于多源数据更加全面准确地探究COVID-19疫情期间病例位置与公众情感的时空分布规律。