APP下载

新冠疫情相关社交媒体谣言传播量化分析

2021-07-23陈慧敏金思辰朱泽宇仝凌波刘一芃叶奕宁姜维翰刘知远孙茂松金兼斌

计算机研究与发展 2021年7期
关键词:传谣辟谣谣言

陈慧敏 金思辰 林 微 朱泽宇 仝凌波,4 刘一芃 叶奕宁 姜维翰 刘知远 孙茂松 金兼斌

1(清华大学新闻与传播学院 北京 100084)

2(清华大学计算机科学与技术系 北京 100084)

3(北京航空航天大学软件学院 北京 100191)

4(美国圣母大学心理学系 美国印第安纳州南本德 46556)

谣言一般指没有事实依据而捏造的言论[1],是社会科学和计算机科学的重要研究问题[2-5].谣言最初主要以口耳相传形式流传,随着近年来互联网的发展,诸如微博、微信、Twitter等社交媒体成为谣言传播的新平台.由于社交媒体平台的开放性和便捷性,大量虚假言论在社交媒体平台上广泛传播,对网络秩序和社会稳定产生了不良影响(1)http://www.xinhuanet.com/2020-01/27/c_1125506246.htm.

重大公共事件出现时往往伴随着谣言的产生,如2014年的埃博拉瘟疫[6]、2016年的美国总统大选[7].而2019年出现的新冠肺炎(COVID -19)疫情发展至今,已经构成了全球性“大流行”(Pandemic)(2)https://www.who.int/dg/speeches/detail/who-director-general-s-opening-remarks-at-the-media-briefing-on-covid-19%E2%80%9411-march-2020.与之相伴的则是信息瘟疫(Infodemic)(3)https://www.who.int/news-room/feature-stories/detail/immunizing-the-public-against-misinformation的到来,大量谣言在社交媒体平台上衍生并广泛传播,这些谣言不仅严重危害到公众的生命安全,同时给社会带来了极大的恐慌和不稳定因素(4)https://www.who.int/news-room/detail/23-09-2020-managing-the-covid-19-infodemic-promoting-healthy-behaviours-and-mitigating-the-harm-from-misinformation-and-disinformation.与此同时,已有研究表明,类似于这次新冠肺炎疫情的突发公共事件相关谣言,其传播与社会常态时谣言的传播具有十分不同的特性[8-11].因此,对新冠肺炎疫情相关社交媒体谣言传播进行量化分析不仅具有深远的社会意义,同时具有十分重要的研究价值.

目前已经有一些研究者针对新冠肺炎疫情相关社交媒体谣言传播展开量化研究.Islam等人[12]收集了来自Twitter和Facebook等社交媒体平台的2 311篇疫情相关谣言和阴谋论报道,并对其进行内容分析.Cinelli等人[13]收集了来自6个国外社交媒体平台的疫情相关谣言,并对其传播模式进行对比分析.钱迎飞[14]和江苏佳[15]则收集了国内的腾讯较真查证平台和丁香园辟谣平台的疫情相关谣言,并展开内容分析.然而,目前这些工作仅对疫情相关社交媒体谣言传播的单一要素展开量化分析,如内容特征.而根据拉斯韦尔的经典信息传播模型[16],构成信息传播的基本要素包括传播者(communicator)、传播内容(message)、传播媒介(medium)、受众(audience)以及传播效果(effect),其中对谣言的传播者、传播媒介、受众以及传播效果的研究仍未涉及.同时,已有工作基于的谣言数据大多来自于人工归纳整理,相对于真实的社交媒体平台谣言数据,其仍然存在一定的分布偏差和信息缺失:其分布偏差体现在人工归纳收集的谣言数据多为广泛传播的谣言,而社交媒体平台中的谣言只有极少数具有广泛的传播范围[17].其信息缺失体现在人工归纳收集的谣言往往只保留谣言内容,而其引发的舆情和传播信息以及参与用户信息则没有保留.

为了解决分布偏差和信息缺失问题,本文基于国内最大的微博服务平台——新浪微博,对新冠疫情相关社交媒体谣言传播展开全面地量化分析.我们首先构建了一个新冠肺炎疫情相关谣言数据集,其中包括谣言及其转发、评论以及参与用户信息的数据.本文对疫情期间的社交媒体谣言研究聚焦于对其传播结构和传播要素的分析,不对谣言的真实性做探讨(5)数据主要来源于新浪微博社区管理中心中被举报和核查的不实信息,不排除其可能存在覆盖度不全和人工判断的误差.同时谣言的判断具有不确定性,随着更多信息的引入可能会发生变化..进一步,我们结合计算机和深度学习方法,对构成谣言传播的各基本要素分别展开分析:首先我们针对传播内容展开谣言内容分析(6)由于是基于新浪微博的谣言数据分析,故我们省去对传播的基本要素——传播媒介——的分析.,紧接着我们针对传播者和受众展开谣言用户分析,最后我们针对传播效果展开谣言舆情分析.通过对新冠肺炎疫情相关谣言传播的量化分析,我们得出了3个有意义的结论:

1) 在谣言内容方面,疫情防控类是出现最多的谣言类型,其次是海外相关类;谣言在疫情发展的不同阶段具有不同的主题特征;谣言涉及地区多为疫情严重地区,且地区相关谣言多集中产生在疫情早期阶段;谣言中“坏消息”居多,且传达的情绪也以负面为主.

2) 在谣言参与用户方面,造谣者原创微博及其发微博字数更多,传谣者则转发微博更多;造谣者在上午更为活跃,倾向于在上午发表言论,且其影响力远大于传谣者和辟谣者;辟谣者在历史微博中表现出了对新冠相关科学研究主题更多的关注,且其自网络结构更加聚集;造谣者和传谣者的个人情绪则更为负面.

3) 在谣言所引发的舆情方面,近半数谣言评论持中性态度,在此之外,消极评论则整体多于积极评论;疫情相关奇闻异事和名人轶事类谣言热度最高,但疫情防控类谣言评论最正面,病毒传播类谣言评论则最负面,其中“封城”相关谣言引发大量积极舆论;谣言评论情感往往向负面演变,其中辟谣信息的出现也是其中原因之一.

据我们所知,本文是较早全面地从信息传播的各基础构成要素角度对新冠肺炎疫情相关社交媒体谣言传播展开量化分析的工作.通过本文的研究,可以对疫情相关社交媒体谣言传播有更全面深入地认识,对突发公共事件的谣言传播研究和谣言治理具有重要意义.

1 新冠肺炎相关谣言数据

本文使用的新冠肺炎疫情相关谣言数据来源于新浪微博社区管理中心和举报处理大厅(7)https://service.account.weibo.com/?type=5&status=0,该中心接受微博用户对于不良信息的举报,我们选择其中受举报并已公示的不实信息数据作为谣言数据.图1展示了疫情期间一条不实信息的处理公示页面.

Fig. 1 Web page of Weibo misinformation processing platform图1 微博社区管理中心不实信息处理公示页面

具体来说,我们爬取了2020-01-22—2020-07-27的不实信息数据,并人工筛选出其中疫情相关的谣言数据,共448条(8)数据集已公开于https://github.com/thunlp/COVID19-Social-Datasets/tree/master/rumor.其数量随时间变化如图2所示,可以看出,疫情谣言主要集中在2020年1—4月,这一时期是国内疫情爆发和国外疫情开始阶段,疫情谣言涉及的话题涵盖了病毒信息、疫情防控与国际轶事,同时后期6月中旬至7月出现了疫情谣言小高峰,主要涉及的话题与当时北京疫情小范围2次爆发有关.

Fig. 2 Number of COVID -19 related rumors over time (2020-01-22—2020-07-22)图2 疫情谣言数量随时间变化(2020-01-22—2020-07-22)

进一步地,为了对谣言传播中的传播者和受众进行量化分析,我们爬取了谣言传播中参与用户的用户数据,包括其基本属性数据(用户认证、关注数和粉丝数等)、和历史微博数据(时间为2019-07-31—2020-07-31).我们将谣言传播参与用户分为3类:辟谣者(举报人)、造谣者(被举报人)、传谣者(转发用户).经过统计,疫情相关谣言的造谣者共468人(9)由于包括内容已被删除的谣言发布信息,所以较前文的谣言数量更多.,传谣者共1 321人,辟谣者共1 076人.

最后,为了分析谣言的传播效果,我们爬取了谣言的转发和评论数据,共45 638条(统称为评论).图3展示了疫情谣言评论数量随时间的变化.

由图3可知,谣言评论主要集中在2020年1—4月,即国内疫情爆发的主要阶段和国外疫情流行初期.2020年6月出现了评论数量的小高峰,与疫情2次爆发相关.进入2020年7月后,基本未再出现新的疫情相关谣言,评论数也随之趋向于零.

Fig. 3 Number of COVID -19 related rumor comments over time(2020-01-22—2020-09-18)图3 疫情谣言评论数量随时间变化(2020-01-22—2020-09-18)

2 谣言内容分析

内容是信息传播过程的核心.本节我们首先对疫情相关谣言的内容进行分析,具体维度包括主题分析、涉及地区分析、事件倾向性分析和情感分析.

2.1 谣言主题分析

我们基于爬取的疫情谣言数据,结合已有研究对谣言的划分[14-15,18],将疫情谣言分为5类,如表1所示.我们招募了2名新闻与传播专业的学生作为标注员对数据进行标注.正式标注之前,我们首先对标注员进行培训,要求其阅读包含规则和案例的标注指南,并标注测试样本.最终经过培训,2名标注员的标注结果一致占比为95%,并进一步完成所有数据的标注.

谣言主题分布.由表1可以看到,数量最多的疫情谣言类型是疫情防控类谣言,共计226条,占总量的一半以上,显示了疫情期间谣言热点主要与防疫抗疫相关事件相关.疫情期间,预防方法、防控措施与民生息息相关,涉及生命安全的保障,这反映出谣言主要围绕在公众所关心的话题领域.主题分布第2位是国际相关类谣言,共计206条.此类谣言大部分涉及“中国人”“国籍”“美国”等民族主义相关词语[19].此类谣言主要凭借受众的民族主义情绪获得讨论度和关注度[19].此外,这类谣言也善于通过迎合人们的认知来获取认同感、博取可信度.

Table 1 Topic Categories of Rumors表1 谣言主题分类

谣言阶段性分布.我们进一步根据《抗击新冠肺炎疫情的中国行动》白皮书(10)http://www.gov.cn/zhengce/2020-06/07/content_5517737.htm将疫情按照国内外形势划分为4个阶段,分别分析了这4个阶段的谣言主题.这4个阶段分别是:疫情爆发阶段(2020-01-20至2020-02-20)、国内疫情得到控制阶段(2020-02-21至2020-04-28)、疫情全球大流行阶段(2020-03-11以来)和疫情常态化阶段(2020-04-29以来).如图4所示,通过对比发现,谣言具有明显的阶段性分布特点,具体表现为:

Fig. 4 Numbers of different categories of rumors (2020-01-22—2020-07-26)图4 谣言分类数量随疫情阶段变化(2020-01-22—2020-07-26)

1) 病毒传播类谣言主要分布的阶段包括:疫情爆发阶段和疫情控制阶段.在疫情爆发阶段,传播类谣言涉及各地确诊隐瞒出逃的谣言事件;在国内疫情得到控制这一阶段,随着国内疫情得到控制,对于复工复产的猜测、聚集性爆发的谣言增加;在疫情全球大流行阶段,病毒传播类谣言又出现了关于境外输入性传播的小高峰.

2) 病毒信息类谣言主要分布的阶段包括:疫情爆发阶段和疫情控制阶段早期.在疫情爆发阶段,诸如“人工病毒”“犬类传播”之类的谣言盛行,主要是由于疫情开始爆发时公众对病毒的认识不足,缺少权威介绍,此时对病毒信息的猜测较多;而在国内疫情得到控制初期出现了一些有关病毒后遗症和传播途径导致二次爆发的病毒信息类谣言.

3) 疫情防控类谣言在各个阶段都有分布,属于民生相关、民众持续关注类谣言,主要涉及事件包括:疫情爆发阶段关于封城等防控措施的虚假信息;国内控制阶段对于复工复学的谣传;疫情全球大流行阶段对于国外防控措施的谣言.

4) 国际相关类谣言主要分布在疫情全球大流行阶段早期,随着疫情震中从国内转移到全球范围,海外相关类谣言数量开始增加,包括一些国际轶事,国际抗疫防控相关的谣言.在疫情全球大流行阶段后期,谣言的总体数量回落,疫情谣言主要包括海外相关、疫情防控,例如境外输入与国内小范围爆发联系、签证政策等.

从不同主题谣言的时序分布占比可以看出:谣言的出现具有明显的阶段性,其主题随疫情的形势变化而不断演变.这对于谣言的治理和预防有重要的借鉴意义,在疫情不同阶段,社会关切不同,应该加强相应信息的公开性、透明度.

2.2 谣言涉及地区分析

本节主要研究海外国家和国内具体省市谣言讨论与该地区疫情关系.首先我们通过人工标注提取谣言中出现的地名,我们招募了地理信息科学专业的标注员进行标注,标注员必须阅读包含规则和案例的标注指南,而后才可开始标注.标注结束后,我们根据提取出来的地名集合将谣言进行归类,与相应讨论地区关联起来.根据标注结果统计,谣言讨论度排名前5的地区分别是湖北、美国、俄罗斯、日本、北京.

谣言涉及地区多为疫情严重地区.我们进一步将谣言讨论地区进行归类,得出谣言涉及的不同国家的谣言数目、国内不同省份的谣言数目、国内不同城市的谣言数目.根据统计,我们发现疫情涉及的国内城市谣言数排行榜中,武汉、北京最多,分别为47条和40条.谣言涉及的省份主要是湖北省,包含76条.在涉外谣言数目分布中,美国、俄罗斯、日本排名前三,涉及谣言数目分别为104条、39条和23条.可以发现,不论是国内还是国外,疫情谣言讨论的热点地区都是疫情比较严重的地区.

地区相关谣言集中产生在地区疫情早期阶段.基于统计数据,我们进一步分析谣言讨论地区随该地区疫情变化特征.如图5所示,对于各地区本身的谣言,大多出现在该地区疫情刚刚兴起的时候.其可能的原因包括:首先是疫情初期信息的不确定性[20],即在疫情初期,大多数公众对疫情的认识十分模糊,对新冠肺炎信息有很多的误解,给谣言的传播以可乘之机.其次是疫情初期人心恐慌,不安定因素加剧了谣言传播[21].最后是新闻的助推效应[22],即疫情初期,新冠肺炎成为新闻报道焦点,公众对其关注程度陡然上升,也会助长相关谣言的传播.

Fig. 5 Relevance between number of rumors and its related regions’ confirmed cases (2020-01-22—2020-07-25)图5 谣言讨论地与该地区新增确诊病例关系(2020-01-22—2020-07-25)

2.3 谣言事件倾向性分析

事件倾向性分析是关于谣言涉及事件正负面的研究.正面性是指文本内容释放的事件消息是积极的,负面性是指文本内容涉及的事件消息是消极的.我们通过人工标注的方法将谣言涉及事件分为正面、中性、负面3类.标注方法与2.1节中主题标注相同.

“坏消息”居多.通过对疫情谣言的正负面分类分析,我们发现负面谣言在疫情谣言中数量最多,为269条,占比60%;正面谣言111条,占比25%;中立谣言最少,69条,占比15%.这一方面体现出谣言往往伴随具有倾向性和话题度的事件产生;另一方面表现出负面事件更容易引发谣言,这可能是由于负面信息更容易引发公众的恐慌心理,而当人们身处惶恐紧张情况下,负面信息再经过加工渲染后更易受到关注并广泛传播.

此外,我们还探究了不同倾向谣言的内容分布.正面的疫情谣言主要包括国际援助、复工复学、疫情防控工作、医护人员等相关的事件和消息;负面的疫情谣言主要包括病毒传播、病毒危害、恐怖事件和国际关系等相关事件和消息.

2.4 谣言情感分析

谣言的情感分析主要包括情感分类和用词特征分析,我们参考Allport等人[3]和阮璋琼等人[23]的谣言情绪分类类型,疫情谣言按照所投射出来的心理将谣言情感分为5类,分类标准如表2所示.我们采用人工标注的方法,对疫情谣言进行情感分类标注.标注方法与2.1节中主题标注相同.

Table 2 Different Sentiment Types Rumor表2 谣言情感分类

1) 消极情感谣言占上风.如表3所示,可以发现,充满消极情感的恐惧类型和敌意类型的谣言总数多于充满积极情感的善意类型谣言和愿望类型谣言的总数,一定程度上反映人们在疫情压力之下,易寻找负面情绪的宣泄口,并可能促进分裂与焦虑情绪在社交媒体上进一步蔓延.

Table 3 Cross Comparison Between Rumor Content Categories and Rumor Sentiment Types表3 谣言主题类型与情感类型的交叉分析

但值得注意的是,对比来看,善意类型的疫情谣言占比也并不低,例如一则关于钟南山出征北京参与新冠肺炎治疗的谣言一时间引起很高的关注度和转发量,可见人们在面对疫情的压力时,不仅存在恐慌、宣泄的心理状态,也存在寻求希望寄托、自我安慰的心理状态.

2) 谣言内容类型与情感类型的交叉分析.如表3所示,我们通过分析不同谣言内容类型与其情感类型之间的联系,发现在病毒传播类型的疫情谣言中恐惧型谣言最多,主要涉及内容包括确诊病例隐瞒潜逃等;在病毒信息类谣言中也是恐惧类谣言最多,主要包括病毒传播途径和病毒对人体造成的危害相关谣言;在疫情防控谣言中善意类型谣言最多,主要包括对管控城市的祈福、对复工复产的期待和愿望;在国际相关类谣言中敌意和中立类型的谣言最多,敌意类型的国际谣言主要包括一些病毒溯源阴谋论、二次输入的猜测,中立型谣言主要包括对国外疫情防控措施的讨论和调侃.这反映了不同主题类型谣言背后的社会心理,对于病毒信息、病毒传播类谣言,出于恐慌心理,人们往往“宁可信其有,不可信其无”,是一种恐慌心理下急于求证的自我保护机制[24].对于疫情防控类谣言人们面对疫情长期的压抑,倾向于寻求心理慰藉,因此出现较多对于复工复产、医护人员奔赴前线的善意类谣言.而对于国际类谣言往往充斥着攻击性言论,善于挑起民族主义情绪[19],因此出现大量敌意型情感.

3) 谣言情感类型与特征词.我们进一步利用词云分别展示不同情感下的疫情谣言的词语分布,分析不同情感疫情谣言的关键词和用词特点(11)由于中立型谣言不包含感情色彩,以及愿望型谣言数量过少,其特征词的分析予以省略..具体分析为:

① 如图6(a)所示,敌意类型谣言主要包括“口罩”“绿卡”“女子”“捐赠”“物资”“顺丰”等主题词.对比文本,我们发现情绪的表达大都使用类似“这么猖狂”“这么无耻”“根本没有考虑我们的公民”“没有任何隔离措施”“你们都干了些什么?”“你们的良心过得去?”的语句来加强语气、增加情绪激烈程度、增强情绪感染力.可以看出,敌意类型的谣言一方面内容上通过与国家利益关系、群体冲突、物资等敏感话题和涉及普通民众安全的话题相关联,另一方面语言上利用具有强烈、夸张感情色彩的词语加深语言的情感张力,煽动民众情绪.

Fig. 6 Word cloud of different sentiment types rumor图6 不同情感谣言词云图

①图中将“瑞德西韦”折词成“瑞德”“西韦”2词.

② 如图6(b)所示,恐惧类型谣言主要包括“复工”“酒精”“新冠肺炎”“肺部”“确认”等主题词.为了强调恐慌情绪,谣言中常使用程度副词,例如“一定不要”“千万注意”“引以为戒”等,以达到渲染恐慌氛围、引起人们注意的作用.可以发现,恐惧类型的谣言一方面内容上大多涉及死亡相关的恐吓性新闻,另一方面用词上利用警戒性词语引起关注,耸人听闻,达到扩散的目的.

③ 如图6(c)所示,善意类型谣言主要包括“北京”“钟南山”“加油”“药物”“瑞德西韦”“日本”“救护车”等主题词,内容主要涉及对医护人员的赞赏、对国际援助的感谢等,多利用“加油”等正能量的词语来带动积极情绪.善意类型谣言的产生大多是在信息未经证实的情况下,网友对于不实信息的误传,对社会治安不会造成很大程度的威胁,但是此类谣言的出现也反映了人们在面对疫情时寻求心理寄托和安慰的现象.

3 谣言参与用户分析

在拉斯韦尔的传播模型中,传播者与受众位于传播过程的两端.而微博上的谣言传播是一个复杂的过程.除了造谣者作为原始的传播者之外,当谣言的受众转发这则谣言,也在无形之中成为了传谣者.此外,辟谣者也是谣言传播的重要角色.正是辟谣者的参与,抑制了谣言的传播.本节我们对造谣者、传谣者与辟谣者3类人群的谣言接触历史、基础画像、个体情绪、自网络属性以及历史微博内容进行分析,以期对参与谣言传播的各类人群获得更为深入的认识.

本节我们采用降采样的方式,对微博不实信息举报平台上新冠疫情相关谣言所涉及的3类用户,即造谣者、传谣者和辟谣者,分别随机抽样200人,利用其用户属性数据和历史微博数据,开展谣言用户分析.

3.1 3类人群的基础属性分析

本节基于此前得到的用户数据,我们对用户在过去一年中的原创微博数量、转发微博数量、原创微博平均字数、转发微博平均字数、用户认证情况、用户影响力指标(用户被关注数与关注数的比值)、发博时间分布等这些基础属性指标展开分析.需要注意的是,由于微博的隐私访问限制,我们只能抓取每位用户关注列表的前20页,这可能导致对用户的关注列表获取不全.但我们认为用户近期的关注者,正反映了用户近期的关注导向,故用此数据进行后续分析.

1) 造谣者原创微博更多,传谣者转发微博更多.在我们随机抽样得到的各200位造谣者、传谣者和辟谣者中,在过去一年时间段内,造谣者发表原创微博数量的中位数为293条,传谣者为18条,辟谣者为5条,如图7(a)所示.方差分析结果表示3组人群的差异显著(p<0.000).事后检验显示,造谣者的原创发博量显著高于另外两者,而传谣者和辟谣者之间则没有显著差异.对于转发微博数量而言,传谣用户的转发微博数量则是显著高于另外两者(p<0.000),传谣者在过去一年中转发微博数的中位数为399条,造谣者为35条,辟谣者为8条,如图7(b)所示.

2) 造谣者发微博字数更多.如图7(c)所示,三者的原创微博平均字数有显著差异(p<0.000),造谣者的原创微博字数(中位数为81)高于传谣者(中位数为42),后者又高于辟谣者(中位数为32).根据图7(d)进一步发现,辟谣者在转发微博的平均字数上也显著低于另外两者(p<0.001),其中位数为101,而造谣者为124,传谣者为116.

Fig. 7 The number of original Weibo and forwarded Weibo, the average length of words of original Weibo and forwarded Weibo图7 原创微博数和转发微博数、原创微博平均字数和转发微博平均字数

综合图7可知,造谣者偏好发表原创微博,且原创与转发的博文字数较多;而过往更偏好转发的用户,则在接触了此次新冠疫情相关谣言后,以转发行为再一次参与到了谣言的传播之中.与这二者相比,辟谣者发博数量、发博字数都更少,展现出一种“沉默寡言”的用户形象和“冷静谨慎”的发言姿态.

3) 造谣者上午更活跃.从用户在一天中的发微博比例分布图8中可以看出,造谣者在上午6点到11点最为活跃.相比之下,传谣者在午后13至15时阶段性活跃后,在傍晚再度活跃起来,并在深夜24点左右达到发微博数量的峰值.辟谣者的活跃时间有2个小峰值,分别在12时至14时与22时至次日凌晨1时.这一定程度反映造谣者倾向于在早上发表言论,其可能有引导当日舆论的意图.

Fig. 8 The distribution of the creation time of Weibo图8 3类用户在一天24 h的发微博比例分布图

4) 造谣者影响力远大于其他人群.从图9所示的3类人群被关注数和关注数的比例看来,较传谣者、辟谣者来说,造谣者的相对影响力是显著更大的.

Fig. 9 The boxplot of the ratio of followers and followees图9 3类用户被关注数与关注者数的比例图

基于分析可以看出,微博虽然日益被诟病为“泛娱乐平台”,但其中意见领袖的引导机制本质上没有发生变化,有影响力的造谣者仍然是那些本身把握信息影响力优势的人,他们或出于有意“蹭热点”,或是无意地轻信了错误信息而将谣言引入微博空间之中.

3.2 3类人群的关注主题分析

本节基于用户的历史发博数据,包括原创博文内容和转发微博的转发内容,我们进行微博主题层面的分析.

我们利用STM[25-26](structural topic model)模型对用户自疫情发生以来的疫情相关微博进行主题分类.STM模型是一种无监督文本主题模型,可以通过纳入协变量在主题建模中取得更好地效果.为了更好地训练STM主题模型,我们爬取微博平台中2020年1—5月疫情相关的微博数据(12)我们参考官方报道[27]并结合微博平台在不同阶段对新型病毒的命名,选取“肺炎”“SARS”“新冠”“冠状”以及“COVID -19”作为疫情相关微博的抽取关键词.,随机抽取其中10%的微博作为训练文本,共1 211 760条微博.我们设置发博时间作为协变量,将疫情相关微博的主题划分为“缅怀与致敬”“国内疫情形势”“控制疫情扩散”“医疗救治”“复工复产”“海外疫情形势”“全球疫情影响”“新冠科学研究”“社会互助行动”“生活日常记录”10个类别.进一步,我们同样通过关键词抽取出3类用户的疫情相关微博,分别得到26 515条造谣者微博、1 006条辟谣者微博和25 229条传谣者微博,并利用本节在大规模疫情相关微博中训练的STM模型计算每位用户的微博隶属于各个主题的概率分布.

辟谣者更偏好新冠科学研究.如图10所示,我们发现辟谣者发布的微博中“新冠科学研究”主题占比最高,且显著高于造谣者和传谣者.由此可以推测,辟谣者对新冠科学研究话题的偏好,显示出相对更高的科学素养,对谣言有更强的甄别能力.

Fig. 10 The bar of topic distribution of users on Weibo图10 3类用户的微博主题分布图

3.3 3类人群的个体情绪分析

本节我们将针对用户的历史微博数据对3类人群的个体情绪进行探究.

我们使用基于BERT[28](bidirectional encoder representations from transformers)与TextCNN[29]结 合的方式对3类用户的历史微博数据进行情感分类.BERT是谷歌团队提出的预训练语言模型,被广泛用于文本分类、问答等下游任务中[30-31].TextCNN模型由Kim提出,其核心思想是利用卷积神经网络捕获文本的局部特征并用于最终的文本分类.由于疫情相关文本的领域特殊性,与日常微博表达不同,我们使用北京市经济和信息化局和中国计算机学会等单位发布的“疫情期间网民情绪识别”数据集(13)https://www.datafountain.cn/competitions/423/datasets训练情感分类模型.该数据集包含10万条2020-01-01—2020-02-20期间的疫情微博,每条微博被人工标注为3类情感之一,3类情感分别为积极、中性和消极.我们使用这10万条数据进行训练和交叉验证,训练得到的模型在比赛测试集上的预测F1值为73.6%,相比于只基于BERT的模型提升了4.1%.

造谣者和传谣者情绪更为负面.基于这一模型,以用户发表的负面微博数占总微博数的比例作为对用户负面情绪倾向程度的测量标尺,我们对3类人群的负面情绪倾向进行统计分析.3类人群负面情绪倾向分布如图11所示.就中值而言,造谣者负面情绪的比例高于传谣者,传谣者负面情绪的比例高于辟谣者.方差分析结果显示,造谣者的负面情绪程度显著高于传谣者(p=0.0169<0.05).

Fig. 11 The boxplot of negative emotion of users on Weibo图11 3类用户的负面情绪倾向图

既有的研究已经讨论了不同情感在微博中传递的效果差异[32],愤怒相较于喜悦、甚至悲伤都更有传染性.一方面,造谣者由于其本身的负面情绪,可能使得其产生的谣言更具感染力.另一方面,根据Na等人的研究[33],在公共健康危机中,如果流言所激发的情绪与受众本身所处的情绪一致,则受众会更倾向于相信这一流言.面对此次新冠肺炎疫情,长期身处于负面情绪的社交媒体用户则更为轻易被负面谣言所欺骗和感染,并成为其中的一名传播者.

3.4 3类人群的自网络属性分析

本节我们将基于用户的关注列表数据,对3类人群构建自网络来探究其所处网络结构.自网络(Ego network)由中心节点(Ego,“自我”)、与之直接连接到的节点(Alter,“他者”)以及“他者”之间的联系(如果这些连边存在)组成.因此,我们抓取了3类用户的关注列表以及这些受关注用户的下一级关注列表来构建其二级网络结构.

大量既有的研究从社会网络视角研究了谣言传播现象,其考察的网络属性包括连边强度和节点属性等基础网络属性[34-37].相比之下,Burt经典的结构洞理论[38]对这一问题提供了更为深层次的洞见.根据这一理论,处于结构洞位置的节点为网络中的其他节点提供了非冗余的联系,因而拥有更大的信息优势.基于包括脸书、推特在内的7个真实网络开展的实验表明,若是移除结构洞位置的重要用户,将会阻断多达24%的信息传播[39].这表明,结构洞理论在社会化媒体上依旧适用.因此,本文将基于结构洞理论,探究在本次疫情谣言传播中,3类用户在社交媒体中所处网络结构的差异.

辟谣者的自网络聚集系数更高.我们以局域聚集系数(local clustering coefficient)作为测量用户自网络结构的关键指标[40],就网络属性对谣言用户参与行为的影响展开探究.如图12所示,对辟谣者、造谣者和传谣者的局域聚集系数分布进行对比,结果显示,就中值而言,辟谣者的聚集系数高于造谣者,造谣者的聚集系数高于传谣者.事后检验显示,辟谣者和传谣者的网络结构聚集系数存在显著差异(p=0.0078<0.01).

Fig. 12 The boxplot of local clustering coefficient of users图12 3类用户的局域聚集系数分布图

这扩充了我们对于结构洞的认识,即结构洞属性高的节点尽管拥有信息优势,但也容易受到虚假信息的影响.辟谣者的自网络聚集系数更高反映出辟谣者所处网络更聚集稳定,其关注者之间往往也相互关注,形成一个较为闭合的关注网络.而造谣者和传谣者的自网络结构则更为松散,这可能使得他们的信息获取渠道更加开放,但也同时失去了信息源之间较为稳定的信任关系,失去信息“交叉验证”的质量保证.

4 谣言舆情分析

传播效果指的是来自传播者的讯息对受众产生的效果.本文谣言微博所引发的舆情,无疑是谣言传播的一种重要效果.在本节中,我们通过对谣言的评论进行情感分析来研究谣言引发的舆情,并探索其与谣言主题、关键词以及涉及地区的关系,最后进一步探索公众舆情演变的原因.

4.1 谣言评论情感整体分析

本节我们使用3.3节中所述模型对谣言的评论进行情感分类.图13展示了谣言评论情感倾向的整体分布.

近半数谣言评论持中性态度.在剔除“转发微博”等微博自动生成的关键词后,中性评论仍然在3类情感中占据主导地位,达到了48%.通过归纳整理,我们将中性评论概括为3种主要类型:冷静辟谣型评论、质疑打探型评论和无关评论.中性评论占比较大反映出相当一部分网络用户对于谣言具有一定的辨别能力,在消息未证实前持观望态度,在辟谣后会要求博主进行澄清或删除,以防止更多用户被误导.

Fig. 13 Sentiment distribution of COVID -19 rumor comments图13 疫情谣言评论情感分布

消极评论多于积极评论.消极评论可概括为恐慌、矛盾争议和激烈辟谣3类,积极评论则主要包括加油祝福、赞美英雄和善意调侃3种类型.除中性评论外,消极情感评论数量整体领先于积极情感评论,前者数量约为后者的3倍.图14展示了每周积极和消极的评论在该周总评论数中的占比随时间的变化.可以看出,消极情感在疫情各个阶段均基本占据主导地位.

Fig. 14 Sentiment of COVID -19 rumor comments over time图14 疫情谣言评论情感随时间变化

4.2 谣言主题与评论情感分析

本节我们对第2节划分的5类主题谣言的评论进行统计和分析(分类标准如表2所示).5类主题中,疫情防控、国际相关和其他类主题谣言获得的评论数量较多,分别为33 616,17 283和27 132条.病毒传播和病毒信息类谣言的评论数量较少,分别为591和249条.

奇闻异事和名人轶事热度最高.为了进一步了解用户对各个主题谣言的关注程度,我们对五大主题谣言的平均评论数进行统计.结果显示,其他类主题谣言的平均评论数最高,平均每条谣言获得了335条评论,这表明用户对于其他类中占主要部分的坊间奇闻异事、名人轶事十分热衷.其次是疫情防控主题谣言,平均每条谣言被评论146.6次,这表明人们对于疫情的防控情况较为关注,会通过评论来对一些表达利好消息的谣言表达喜悦和支持,对描述违反防控相关政策的谣言予以谴责.

疫情防控最正面,病毒传播最负面.5类主题的谣言评论情感分布如图15所示.其中疫情防控相关谣言的积极情感评论占比最多,为12.99%,这反映了大众对防疫政策的理解和支持.病毒传播相关谣言的消极情感评论占比较多,达44.16%,原因可能是人们对于新冠病毒的传播持有警惕心理,此类谣言容易引发公众对于疫情蔓延的恐惧和担忧.

Fig. 15 Sentiment distribution of comments under different topics图15 5类主题对应的评论情感分布

4.3 谣言关键词与评论情感分析

随着新冠疫情的出现,一些疫情相关的特色词汇成为了公共讨论的焦点,也为谣言制造者提供了素材.本节中我们统计了在谣言中出现频率位居前30且具有疫情特色的关键词对应的谣言评论数量和情感指数,如图16所示.在选取过程中对近义词进行了合并处理,例如“瑞德西韦”“双黄连”等词被归入药品类.这里,我们将情感指数定义为谣言评论情感倾向(消极为-1,中性为0,积极为1)的均值.

Fig. 16 Sentiment distribution of rumors with different keywords图16 含有不同关键词谣言的评论情感分布

从数量上看,“药品”和“防疫”谣言最受关注.在药品相关的谣言中,获得转评最多的谣言大多与瑞德西韦有关,这些转评的高峰均出现在1月底到2月初,彼时人们对于疫情了解较少,更容易轻信治疗病症的谣言.防疫则一直是公众关心的热点,相关谣言主要围绕国内外的疫情防控形势展开.

“封城”谣言引发积极舆论.从情感指数上看,“封城”谣言引发了最多的正面情感.封城相关的谣言评论主要来自1月25日“襄阳封城”谣言,突出湖北为防控疫情做出的牺牲和奉献,唤起公众的感动情绪.因此尽管封城意味着抗疫形势愈发严峻,网友仍然留下大量“感动祝福”类型的评论.这一定程度上反映了谣言的情绪感染作用.

4.4 谣言涉及地区与评论情感分析

本节中我们对涉及不同地区的谣言评论进行统计和分析.图17为武汉和国内4个一线城市的谣言评论数量对比.通过柱形图可以看出,武汉作为1~3月疫情的中心,获得了最多的关注,之后依次为北京、上海、广州、深圳,这表明地区谣言受到的关注不仅与其受影响程度,同时与地区的政治、经济等发展水平具有相关性.

Fig. 17 Comment sentiment distribution regarding different cities图17 不同城市相关谣言评论情感分布

从不同地区的情感指数对比可以看到,北京相关的谣言评论平均情感指数最高(-0.03),广州相关的谣言评论平均情感指数最低(-0.53).与北京相关的积极评论主要来自疫情防控相关的利好消息.公众对疫情防控中英雄人物的敬佩和崇拜某种程度上使其对“救世”类的谣言更宽容,在评论时会降低语言的攻击性.与广州相关的负面转评则主要围绕防疫形势恶化消息,此类谣言利用了普通民众对疫情、种族等问题的恐慌情绪,在短时间内获得大量传播,一度成为新闻热点.偏负面的谣言评论情感也反映出一些潜在的社会问题,例如这里涉及的民众对广州外国人聚居现象的观点之争,值得引起相关部门的重视.

4.5 谣言评论中的情感演变

在谣言不断传播,评论数量不断增长的过程中,谣言引发的舆情往往会发生时序的变化[41-42].因此,本节从情感倾向随时间的变化入手,剖析疫情期间谣言的情感演变.

谣言评论情感倾向于向负面演变.根据谣言评论的初始情感和最终情感,可以将谣言划分为4种类型,即始终保持积极和消极、初始为积极最终为消极以及初始为消极最终转向积极谣言数量,其分布如表4所示.由表4可知,疫情相关谣言中初始评论为负面、最终转化为正面谣言的比例只占了全部初始为负面谣言的8.05%,远低于初始正面向负面转化的比例56.60%,表明谣言引发的评论情感倾向于向负面演变.

Table 4 Number of Comments with Different Initial or Final Sentiment Orientation表4 不同初始和最终情感倾向的评论数量

4.6 辟谣对评论情感演变的影响

已有研究[41]证明辟谣对谣言引发舆情演变具有重要影响,其发现辟谣后公众情感通常会由负面转向正面或者中立.因此,本节我们进一步探究辟谣对于疫情相关谣言的评论情感演变的影响.

在所有微博谣言评论中,存在着一类特殊的评论,这些评论的发布者试图通过发布评论表达“此条微博是谣言”的含义,我们称之为辟谣评论.辟谣评论的出现能够使之后的评论者意识到该微博可能为不实信息,从而影响后继评论的情感倾向.通过标记出辟谣评论的出现时间,可以将谣言评论在时间上分为2个类别:辟谣前评论与辟谣后评论.我们使用关键词筛选的方式提取辟谣评论,选取的关键词如表5所示.如果一条评论中包含任意一个关键词(keywords),且不含有任何的停用词(stop words)时,我们就认为这条谣言评论为辟谣评论.

Table 5 Keywords of Refutation Comments表5 辟谣评论关键词

通过这方法,我们对所有评论数量大于10条的谣言提取其辟谣评论.根据谣言中辟谣评论的出现时间,我们将谣言分为3类:发布至今未出现辟谣评论的谣言、第1条评论就是辟谣评论的谣言、其他(即一般谣言).3类的谣言的数量如表6所示(注:受限于微博时间的表示形式,评论的发布时间只精确到分钟).通过表6可以发现,大部分谣言(74.11%),即“一般谣言”,都经历了在公众中发酵之后被辟谣的过程,只有少数谣言(9.14%)一经发布即被公众识别.这一方面体现了公众对于疫情相关谣言的辨别力不高,但同时也说明了谣言检测中谣言评论的重要作用,可以辅助公众对信息的甄别和自动化谣言检测.

Table 6 Number of Three Types of Rumors Divided According to the Time that Refutation Comments Occurr表6 根据辟谣评论出现时间划分的3类谣言数量

辟谣使得谣言评论情感向负面演变.对于“一般谣言”类,我们记录其对应的最早辟谣评论和最晚辟谣评论,比最早辟谣评论更早的评论被划分为辟谣前的评论,比最晚辟谣评论更晚的评论被划分为辟谣后的评论.通过对辟谣前后评论的情感倾向进行统计分析得到表7,可以发现,与Zeng等人[41]的研究不同,谣言的评论中正面情感的占比从辟谣前的18.3%下降到了辟谣后的11.9%,而负面情感的占比从辟谣前的31.2%上升到了辟谣后的33.9%.通过卡方检验验证,在置信水平为0.005的条件下,是否辟谣与谣言评论的情感演变具有显著相关性,这种相关性表现在正面评论的显著减少和负面评论的显著增加.

Table 7 Number of Comments of Different Sentiment Types Before and After the Refutation表7 辟谣前后不同情感类型的评论数量

辟谣导致舆情向负面变化的原因也是直观的:用户在识破谣言后感受到被欺骗,倾向于表达负面情感.在新冠疫情的背景下,这一点尤为突出,谣言被辟谣后造谣者和传谣者常常会被大量的负面评论攻击,引发负面舆情,一定程度上污染网络信息环境.因此,对于突发公共新冠疫情类似的公众事件而言,在辟谣的同时,也应注意疏导谣言被揭发后引发的负面情绪级.

5 总 结

本文基于新浪微博社交媒体平台,从信息传播的基本要素出发,对新冠肺炎疫情相关谣言传播展开较为全面的量化分析,包括谣言的传播内容分析、谣言的参与用户分析、谣言引发舆情分析.据我们所知,这是首次从信息传播的各个基本构成要素角度对新冠肺炎疫情相关谣言传播展开量化分析,对新冠肺炎疫情相关的谣言传播有了更全面深入的认识.此次新冠肺炎疫情是一次全球性的突发公共事件,针对突发公共事件的谣言传播展开研究不论是对于学术研究还是社会治理都具有重要意义.

本文开展的疫情相关社交媒体谣言分析基于新浪微博社区管理中心中被举报和核查的不实信息数据,其难免存在覆盖度不全和人工判断的误差.同时对谣言的判断具有不确定性,随着更多信息的引入可能会发生变化.因此,本文对疫情期间的社交媒体谣言研究聚焦于对其传播结构和传播要素的分析,不对谣言的真实性做探讨.未来可以进一步探索不同传播平台的谣言传播差异,实现对谣言不同传播途径的分析.同时可以进一步将本文的量化分析结论应用到谣言的自动检测技术中,当突发公共事件再次来临时,助力于社交媒体谣言的自动检测.

作者贡献声明:陈慧敏负责文章选题、实验设计及文章撰写工作;金思辰主要参与谣言内容分析工作,林微、朱泽宇主要参与谣言用户分析工作,仝凌波主要参与谣言舆情分析工作.金思辰、林微、朱泽宇、仝凌波4位排名不分先后,同等贡献;刘一芃主要负责数据的收集和整理;姜维翰参与谣言舆情分析工作;叶奕宁参与谣言用户分析工作;刘知远、孙茂松、金兼斌老师为论文开展提供了宝贵的经验,并对论文进行修改.

猜你喜欢

传谣辟谣谣言
中国使馆驳斥荒谬谣言
不信谣言 科学防“疫”
“最强辟谣101条”引发质疑
网络造谣、传谣行为刑法规制研究
你被养生谣言忽悠过吗?
谣言π=4!
真相查清之前别急着辟谣
我国多部门联合行动打击网上造谣传谣行为
辟谣联盟:一切谣言都是纸老虎