APP下载

基于LDA模型的新冠肺炎疫情微博用户主题聚类图谱及主题传播路径研究

2021-04-21王晰巍刘婷艳

情报学报 2021年3期
关键词:领袖社群舆情

张 柳,王晰巍,2,3,5,黄 博,刘婷艳

(1. 吉林大学管理学院,长春 130022;2. 吉林大学大数据管理研究中心,长春 130022;3. 吉林大学网络空间治理研究中心,长春 130022;4. 吉林大学计算机科学与技术学院,长春 130022;5. 吉林大学东北振兴研究院,长春 130022)

1 引 言

新型冠状病毒肺炎在全球的持续蔓延引起了各国政府和民众的热切关注,公众通过微博、微信、论坛、短视频等社交网络平台,聚焦全球疫情趋势并形成了大量舆情。在新浪微博上,关于新冠肺炎每分钟以几十万甚至上百万的搜索量出现在微博顶端。以微博为代表的社交网络,成为当前疫情期间我国网络用户获取疫情进展信息、分享信息和评论信息的首选平台。如何从疫情期间大量社交网络数据中识别出微博用户群体关注的主题和关键意见领袖,并对疫情期间的网络社群间主题传播路径进行分析,进而对关键舆情的信息传播进行有效引导,成为了舆情监管部门和学术界在新冠肺炎疫情期间关注的重要问题[1]。

近年来,国内外学者相继展开了突发公共事件中信息的传播研究。国外学者:Theja Bhavaraju 等[2]研究了灾难事件在Twitter 中关注的持续时间和情感等指标的变化;Kumar 等[3]基于长短期记忆模型对海量的推文、图片和视频进行分析,识别出Twitter中与突发事件有关的信息内容,以便于及时辅助民众进行决策的作用;Ray 等[4]利用监督学习,来区分社交媒体中关于灾难事件的真实信息和虚假信息,从而减轻谣言造成的负面影响。国内学者唐明伟等[5]应用案例分析法对突发事件应急响应情报体系进行解析,结果发现突发事件应急响应情报体系对公共安全事件的处理具有可预见的效果;李明等[6]通过构建可信度影响因素,评估模型研究突发事件环境下,虚拟问答社区的知识可信度影响因素;刘建准等[7]运用突发事件应急管理领域的介入模型,高效、快速地提升了突发事件的处理速度。从国内外学者的研究现状来看,国外学者主要分析了社交媒体在突发公共事件时社交媒体在信息传播中的重要作用,而国内学者的研究主要集中在对突发公共事件的应急管理和信息识别等方面。从现有研究成果来看,目前围绕重大突发公共卫生事件中的舆情传播主题及进行意见领袖识别的研究相对较少,运用LDA(Latent Dirichlet Allocation) 主题模型进行微博用户主题偏好聚类及主题传播路径分析的研究成果相对更少。

本文试图研究并解决如下三个方面的问题:①如何基于LDA 模型识别新冠肺炎疫情中微博用户的主题聚类特征并进行可视化分析?②如何结合新冠肺炎疫情期间的典型话题进行微博主题在不同网络社群间的主题传播路径分析?③如何基于微博用户的主题聚类特征及主题传播路径对新冠肺炎疫情期间的舆情事件进行更好的舆情疏导?本文基于LDA模型构建新冠肺炎疫情微博用户主题聚类图谱,结合 “日本钻石公主号邮轮” 热点舆情话题,对微博用户的群体主题进行划分、意见领袖识别,以及不同网络社群间主题传播路径进行实证分析,从而更好地引导和管控新冠肺炎疫情期间舆情的互联网生态,并为相关舆情监管部门正确引导疫情舆情,减低舆情监管成本,建设网络生态目标起到积极的推动作用。

2 相关理论与方法

2.1 突发公共事件

突发公共事件,是指突然发生的,造成或者可能造成严重社会危害的,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件[8]。例如,新型冠状病毒肺炎疫情属于突发公共卫生事件,其具有传染性、突发性、复杂性和持续性等特点。2020 年1 月30 日,世界卫生组织(World Health Organization,WTO)宣布新型冠状病毒肺炎疫情升级为 “国际关注的突发公共卫生事件” 。公共卫生事件具有严重的危害性,不但影响着人民的健康,严重时将会阻碍经济的发展,甚至威胁社会的稳定[9]。随着新冠肺炎疫情的不断扩散与升级,有关疫情期间的相关信息持续在网上发酵,并演化成网络舆情,然而其中不可避免地充斥着很多谣言信息,人民网指出要警惕这 “第二波” 疫情[10]。因此,准确、有效地识别微博用户群体特征和意见领袖,并对疫情期间的网络社群间主题传播路径进行分析,有助于对此次疫情网络舆情的信息传播有针对性地进行引导,消除社会恐慌,增强人民群众抗击疫情的信心。

2.2 LDA模型

LDA 是三层级的贝叶斯概率图模型,其组成结构包含文档、主题和词三种粒度[11]。LDA 模型可挖掘出文档集或语料库中的潜在主题信息,并采用词袋构建模型,在不考虑词汇出现顺序的情况下,构成 “文档-主题分布” 和 “主题-词分布”[12]。一个或多个主题构成一篇文档,且文档中的每个词由其中之一的主题生成[13]。因此,针对大数据环境下的网络舆情话题事件,LDA 模型可帮助进行潜在主题识别和用户聚类等基于文本的分析过程。

本文通过perplexity(困惑度)评价指标来确定文档中的最优主题个数。Perplexity 常用来度量一个概率分布或概率模型预测样本的优劣程度,可用于调节主题个数[14],其计算公式为

其中,D表示文档中所有词的集合;M表示文档的数量;Wd表示文档d中的词;Nd表示每个文档中d的词数;P(Wd)表示文档中词出现的概率。perplexity数值一般随着潜在主题数量的增加呈现递减的规律,perplexity 数值越小,则该主题模型的生成能力越强[15]。因此,本文选择perplexity 相对小且主题数量相对较少的主题数值作为LDA 模型训练的最优模型参数[16]。

2.3 基于LDA模型的主题聚类图谱

主题聚类图谱采用图的建模方式,以网络用户作为节点,转发评论关系为边,来连接不同的网络用户。主题聚类图谱在社交图谱和兴趣图谱的基础上,不但可以将相同主题兴趣下的网络用户聚集在一起,而且可以将社交网络中的用户通过主题分类成不同的聚类群体[17],凸显出网络用户对某一话题事件的转发、评论和点赞行为。主题聚类图谱将海量的微博用户发布的文本信息通过主题相似度进行划分,并将同一主题下的网络用户通过社交关系聚集在一起。主题聚类图谱是为适应信息资源网络化而出现的一种新兴智能化的知识组织方式、一种模型化的知识表示技术,可以解决大量的、无序的、非结构化信息的组织问题。社交媒体中的主题聚类图谱来源于互联网用户的转发评论语料,主题聚类图谱的构建可获取用户讨论的热点主题以及主题间的关系,进行用户主题挖掘[18]。

突发公共事件往往伴随着舆情话题的集中爆发和舆情的快速转化,某一突发舆情事件会包含若干子话题的舆情演化过程[19]。传统的舆情分析方法主要是基于时间变量来分析网络舆情的演化特征,缺乏对潜在主题的抽取[20]。现有的分析方法难以根据网络用户的转发评论关系发现舆情中小社群中的意见领袖对舆情整体发展的影响,故引导与治理突发事件舆情的难度及管理成本较高。舆情监管部门容易忽视潜在舆情主题中网络群体,对相关舆情分析很难掌握全局。因此,本文通过LDA 模型对微博用户的转发评论文本进行主题建模,确定文档-主题分布、主题-词分布,从而确定某一微博用户节点的隶属主题,而具有相同主题的微博用户节点通过聚类可视化展示,构成微博用户主题聚类图谱。同时,微博用户的转发评论文本对应了LDA 模型所确定的文本主题,本文通过LDA 模型来确定用户转发评论的文本主题,进而代表用户的主题。

2.4 网络社群间主题传播路径分析

对网络社群间主题传播路径进行分析,可以更好地把控微博用户主题信息的传播路径,从而便于进行信息传播的疏导。为降低后续计算的复杂度,本文进行如下假设:①意见领袖节点代表其所在网络社群的主题倾向,并选择PageRank 值最大的节点作为子社群中的意见领袖;②边权重可以看作是网络社群在不同节点间传播的信息损耗,即主题相似度越高的节点,信息传播的越容易,其信息损耗也就越小。

因此,本文通过PageRank 值确定各个网络社群的意见领袖,结合LDA 主题模型得到 “文档-主题分布” ,获得意见领袖之间的相似度,利用该相似度确定不同社群间意见领袖的语义距离,并将语义距离作为社群之间的边权重,通过Dijkstra 算法计算遍历各个意见领袖的最短主题传播路径。不同社群间意见领袖的相似度计算方式为

其中,JS 散度度量了两个分布的相似度,是基于KL 散度的变体;P(x)与Q(x)表示不同微博用户的概率分布,即通过LDA 主题模型求得的 “文档-主题分布” ,JS 散度的值域范围是[0,1],相似度越高,值域越接近于0[21]。形式上,在某话题空间下,通过困惑度评价指标得到的最优LDA 主题参数为n个,再通过JS 散度,计算各网络社群间意见领袖的主题相似度,即求得一个n×n的方阵,进而得到不同网络社群间的边权重。在确定了不同网络社群意见领袖之间传播路径上的边权重后,构建网络社群之间主题的传播路径,并通过Dijkstra 算法确定意见领袖节点全连通图中,遍历各个网络社群间意见领袖的最短路径。

3 数据采集及数据处理

3.1 数据获取及预处理

微博具有传播主体平民化、多媒体综合化和信息碎片化等社交媒体的传播特点,吸引了众多的网络用户[22],在Alexa 网站中拥有较高的排名[23]。在新冠肺炎疫情期间舆情话题的选择上,本文选取了全球新冠肺炎疫情爆发早期公共关注的新浪微博热点话题 “日本钻石公主号邮轮” 作为信息源,采集全部转发评论数据。

本文运用火车头采集器爬虫软件[24]获取微博用户转发评论数据。获取数据字段包括用户ID、用户名、微博内容、转发评论及时间等。根据百度指数的统计数据,关键词 “日本邮轮” 舆情的生命周期为2020 年2 月5 日至2020 年2 月23 日,数据达到顶峰的时间段位于2 月19 日。在近半个月的时间中,本文共获得 “日本钻石公主号邮轮” 话题下的微博数据为32265 条。

对数据进行预处理,本文首先利用火车头采集器爬虫软件实现海量微博数据的爬取;其次,通过Jieba 分词脚本对获得的文本进行分词,并过滤无关字符和去停用词等;再次,对微博用户的转发评论文本进行去重处理,使文本信息的话题性朝着更具 “原创” 性的方向倾斜;最后,获得微博转发评论数据20814 条。本文采用LDA 主题模型对话题下的微博用户评论文本进行分类主题挖掘。

3.2 确定主题聚类个数

经过数据预处理后,本文选用gensim 中的类实例化LDA 主题模型,对预处理后的文本进行分类训练,并拟定在区间[2,30]内的整数作为候选主题数,通过调用LDA 主题模型类下的Log_Perplexity 方法,得出不同模型的对数化困惑度数值,如图1 所示。

图1 perplexity-topic折线图

图1 表明了某一文档对于各个潜在主题的不确定程度。困惑度越低,文档归属于某一潜在主题的可能性就越高,即模型的聚类效果越好。图1 的折线图显示,随着主题数的增加,总体上困惑度呈现波动上升的态势;困惑度的局部极小值点,出现在主题数为11 的模型选择上。主题数越多,则后续的主题分析也越为复杂。根据奥卡姆剃刀准则,本文舆情话题拟选取11 个潜在主题数。

3.3 构建主题聚类图谱

本文的研究对象是新冠肺炎疫情舆情空间下的微博用户节点,任意两个节点间的转发评论关系,代表这两个节点在同一舆情空间下的话题倾向性趋同,因此,这种转发评论关系代表节点之间的相似性[25]。本文以 “日本钻石公主号邮轮” 舆情话题中微博用户为节点,转发评论为边,将最终获得的20814 条微博转发评论数据导入VOSviewer 可视化软件中,构建新冠肺炎微博用户主题聚类图谱,如图2 所示。

根据不同颜色,将该舆情话题下的微博用户主题聚类划分为不同网络社群。其中,气泡直径与微博用户节点的度中心度成正比。微博用户节点气泡越大,其度中心度越大,说明其在社群中具有较高的影响力。从图2 中可以看出,新冠肺炎期间 “日本钻石公主号邮轮” 的微博用户主题聚类共分为11个主题(即11 个网络社群),且每个网络社群都存在着边连接;并且同一网络社群内的用户节点连接相对紧密,网络社群内的边密度高于网络社群间的边密度,各个网络社群之间连接的相对稀疏。数据分析结果表明,主题10 所在的网络社群在舆情的整体用户中占有较大的用户比例;主题6 所在的网络社群所占的用户比例在该舆情话题中相对最小。通过新冠肺炎微博用户的主题聚类可视化分析,不仅可以直观地展示 “日本钻石公主号邮轮” 话题下新冠肺炎微博用户的主题聚类,还可以根据气泡面积的大小有效识别每个网络社群中的意见领袖。

图2 “日本钻石公主号邮轮” 舆情话题微博用户主题聚类图谱(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

表1 主题高频词分布

4 数据结果

4.1 网络主题高频词及主体强度

在确定最优主题数后,将分词后的文本数据用于LDA 主题模型训练,得到 “主题-词” 以及 “文档-主题” 两个概率分布。通过 “主题-词” 分布,可确定各个主题包含的高频词,并以分类的主题个数确定微博用户群体。利用LDA 主题模型训练得到的11 个主题结果如表1 所示,且各个主题均选取词频最高的前5 个词,如表1 所示。

通过表1 可以看出,各个主题的关键词都占有较大的概率值,这符合微博文本主题的特点,即微博用户在某一特定话题空间下的评论用词习惯趋于相同[23]。同时,各个主题的高频词各不相同,也说明了该模型能够较好地实现微博文本主题的划分。通过文档-主题分布,本文可以得出用户转发评论文本信息的主题划分,从而确定微博用户群体,并统计新冠肺炎微博用户群体主题强度图,如图3 所示。从图3 中可以看出,主题出现频率从高到低依次为主题10、主题8、主题4、主题1、主题0、主题2、主题5、主题3、主题9、主题7 和主题6。其中,主题10 占比最高达到19%;主题6 的占比最少,只有5%左右。

图3 微博用户不同网络群体的主题强度图

图4 最大社群微博用户主题10节点分布

4.2 网络社群意见领袖识别

基于LDA 模型对新冠肺炎疫情微博用户进行主题划分后,本文以最大网络社群主题10 和最小网络社群主题6 为例,进行主题网络社群中意见领袖的识别分析。主题10 和主题6 的网络社群用户节点分布如图4 和图5 所示,图中的用户节点气泡直径与用户节点的度中心度成正比,用户节点气泡越大,其度中心度就越大,表明该网络节点在此社群中较为活跃,对社群内用户的影响力较大。由于PageRank 的计算综合了度中心度以及网络传播的特点,PageRank 值表明了意见领袖在整个主题聚类图谱中的核心作用,即可通过PageRank 值来定位意见领袖[26]。PageRank 算法作为使用最广泛的网页排名算法,可用于各种有向或无向、有权或无权网络中节点影响力分析,PageRank 值高的微博用户节点代表了网络社群中的核心节点,进而可对微博传播中意见领袖的影响力做出判断[27]。此外,为进一步确定社群中的意见领袖,本文利用PageRank 算法,综合考虑度中心度以及网络传播特点,对主题社群中的意见领袖影响力做出判断[28]。主题10 和主题6 的社群用户PageRank 值如表2 和表3 所示。

通过对比发现,最小网络社群主题6 中存在意见领袖的PageRank 值大于最大网络社群主题10 中的意见领袖的PageRank 值,即小社群中的意见领袖影响力不一定小于大社群中的意见领袖影响力。通过图2 的新冠肺炎微博用户主题聚类图可以发现,影响力较大的节点,如主题4 中的 “梨视频” 和 “人民网” ,其PageRank 值分别为1891 和392.67,远远大于一些社群中意见领袖的PageRank 值。由此可见,在诸如主题6 的节点数较少的社群中,其意见领袖(如 “阿金实验员” )的影响力甚至大于节点数较多的社群中意见领袖(如主题10 中的 “七本青木l” )。

图5 最小社群微博用户主题6节点分布

表2 主题10社群用户PageRank值(Top10)

表3 主题6社群用户PageRank值(Top10)

在常规的社交网络分析法中,一般根据社交网络中的评论转发关系,将网络建立为一个有向图模型。直接计算其上面的各项性能指标(如出度、入度、PageRank 值等)。然而,这种方法会导致一些小社群中的意见领袖被 “淹没” 。由于这些节点只在其潜在的主题聚类中拥有相对较高的性能指标,倘若放置于整个话题空间中,则无法通过性能指标的降序排列进行有效地筛查。如果不采用LDA 模型对新冠肺炎疫情微博用户进行主题聚类,那么将无法有效地划分新冠肺炎疫情话题空间下的网络用户社群,也就无法确定潜在的意见领袖。

4.3 网络社群间主题传播路径分析

在对不同网络社群意见领袖的主题相似度进行计算后,得到网络社群间的边权重。本文以最大网络社群主题10 到最小网络社群主题6 为例,进行网络社群间主题传播路径的分析。其中,网络社群间意见领袖的主题相似度如表4 所示。根据网络社群间意见领袖的主题相似度,确定不同网络社群意见领袖之间主题传播路径上的边权重,并构建网络社群之间主题的传播路径,通过Dijkstra 算法确定网络社群主题10 的传播能够遍历各个网络社群主题,最终到达网络社群主题6 的最短主题传播路径,如图6 所示。由于JS 散度的值域范围是[0,1],相似度越高,值域越接近于0。在表4 众多主题相似度的值域中,加粗下划线的值域是相对最小的,如主题10 与主题8 的相似度为0.13,满足网络社群之间主题传播的最优路径。

表4 网络社群间意见领袖的主题相似度

图6 “日本钻石公主号邮轮” 舆情话题网络社群主题传播路径图

由图6 可知,在选择网络社群主题10 进行舆情信息的传播时,经由主题8、主题4、主题5、主题1、主题0、主题2、主题3、主题9、主题7,最终到达网络社群主题6 的主题传播路径所带来的信息损耗最小,如图6 所示。研究结果表明,在网络舆情的管控中,除了重点关注较大网络社群中的意见领袖,还应该关注一些小网络社群中的意见领袖,其可能会是网络舆情传播过程中的潜在力量。同时,疫情中典型舆情话题动态的有效、及时传播,不仅取决于话题空间下不同网络社群间的传播效率,也取决于在同一网络社群内进行有效传播。意见领袖所代表的网络社群,其关注的主题倾向性趋同,在意见领袖的引导下,意见领袖与普通用户之间更会产生频繁的舆情交互,使得疫情动态在社群内部得到更为有效的传播。因此,确定不同网络社群间主题传播的最优路径,识别网络社群中的意见领袖,可以减少舆情在传播过程中的信息失真。

5 讨论与分析

5.1 网络群体主题识别及衍生话题

本文结合表1 和图3 分析结果可知,从微博用户群体主题强度和高频词分布,可大致发现新冠肺炎疫情的 “日本钻石公主号邮轮” 网络舆情发展周期内,主要出现的舆情事件及衍生的次生舆情事件。此事件从2 月5 日日本政府宣布所有在船人员隔离14 天开始,于2 月19 日到达顶峰,是整个话题空间的入口。主题10 的微博用户主要对 “采取的隔离措施” 进行讨论,其中包括对在船隔离提出质疑,并引发了对国内方舱医院的讨论;主题8 的微博用户主要关注 “在船人员感染人数的增加以及确诊死亡病例” ;主题4 的微博用户对 “确诊的第一例中国香港游客以及被隔离的邮轮” 发布恐慌的言论。随着中国防疫专家提出假阴性以及病毒潜伏周期可能超过14 天,主题1 的微博用户纷纷对 “日本邮轮的隔离时间” 等提出了讨论;主题0 的微博用户表达 “中国武汉和日本共同加油” 的信息;主题2 的微博用户主要关注 “日本政府” 应该借鉴中国政府在疫情期间的应对措施,不要抄错 “试卷” ;主题5 的微博用户主要关注 “钻石公主号有美国乘客确诊感染” 的信息;主题3 的微博用户对 “在疫情期间东京奥运会是否能如期举办” 表示担忧;主题9 的微博用户希望 “日本政府重视此次疫情减少不必要的恐慌” ;主题7 的微博用户 “对船内环境表示担忧,并发现在船隔离人员并未佩戴口罩” ;主题6 的微博用户主要关注 “邮轮中持续增加的确诊人数” 。

结合 “日本钻石公主号邮轮” 舆情话题的演进周期,根据划分的主题数及展现的高频词,不仅可以确定 “邮轮隔离” “确诊病例增加” “美国乘客感染” “隔离结束” 等舆情子话题,还可以发现 “武汉方舱” “东京奥运会” “舱内环境” “日本体制” 等潜在衍生话题,更可以通过网络社群用户群体主题的分析帮助舆情监管部门准确有效地识别微博用户群体话题特征,确定重点舆情监管对象。因此,在新冠肺炎疫情的舆情管控期间,不仅需要注意期间的主要舆情发展走向,更应关注舆情衍生的潜在话题[29],并结合不同主题的网络群体特征做到有针对性的监管,从而帮助舆情监管部门降低舆情监管成本,实现有针对性的舆情引导。

5.2 网络社群意见领袖识别及舆情引导

随着新冠肺炎疫情的发展,网络用户对于疫情相关信息的需求随着时间的推移急速上升,并通过网络舆情不同周期的演进呈现出不同的主题特征。本文提出的基于LDA 模型的 “日本钻石公主号邮轮” 舆情话题微博用户主题聚类图谱,不仅可以展示出网络用户对于疫情发展的客观事实信息,也展示出网络用户的主观评论与感受。由于部分主题能够反映出话题事件中子话题甚至是衍生话题,因此确定各部分的主题社群意见领袖对于引导舆情走向和进行疫情期间更为有效的舆情监管具有重要作用。研究发现,主题2 中的 “环球时报” 和主题4中的 “梨视频” 等官方微博,主要关注政府措施和疫情通报等信息;主题8 中的 “小野妹子学吐槽” 自媒体微博主要关注 “日本钻石公主号邮轮” 的确诊人数等;主题10 中的 “忘不了人海中的朵儿” 普通网络用户,则主要关注公众情绪等。

通过LDA 主题模型能够识别出网络舆情话题事件中的子话题与衍生话题中的意见领袖。因此,媒体和政府等机构可以尽全力满足这些意见领域的信息主题需求,让意见领袖在最大程度上发挥与其在网络主题社群中的正能量引导作用。同时,在舆情爆发期与热议期,媒体、政府以及相关舆情监管部门可以通过适当的主题选择,向意见领袖推荐多样化的主题信息,引入与新冠肺炎疫情话题信息同样重要的其他话题,避免网络用户过于集中于一类疫情信息从而导致信息过载,造成信息倦怠并产生负面影响,引发次生舆情事件[30]。

5.3 网络社群的主题传播路径及话题推送

本文结合表4 的数据分析结果与图6 的主题传播路径分析发现,主题10 中的意见领袖节点 “七本青木1” 与主题8 中的意见领袖节点 “小野妹子学吐槽” 间的主题相似度最高,JS 散度值为0.13;主题8 中的意见领袖节点 “小野妹子学吐槽” 与主题4 中的意见领袖节点 “彭拜新闻” 的主题相似度相对较高,JS 散度值为0.27;主题4 中的意见领袖节点 “彭拜新闻” 与主题5 中的意见领袖节点 “吃土的土豪13” 的主题相似度相对较高,JS 散度值为0.32。以此类推,本文可确定在 “日本钻石公主号邮轮” 话题空间下疫情舆情从主题10 到主题6 的最优传播路径。为保证推送信息在传播路径上的信息失真最小、信息传播效率最高,在新冠肺炎舆情监管中,本文通过确定不同社群间主题传播的最优路径,并利用社交网络的连通性,可进行更为高效的网络社群关键意见领袖的话题推送,从而更好地引导舆情未来走向。

在网络舆情的实际监管中,相关舆情监管部门可以对微博舆情中关键意见领袖进行及时的话题推送,从而更好地引导舆情的进一步走向。确定网络社群间主题传播的最优路径,有助于提升推送话题的传播速度。以 “导” 与 “控” 相结合的方式对新冠肺炎期间的网络舆情进行管控,让意见领袖发挥更大的正能量和舆情疏导作用。针对某一突发事件的网络社群所进行的舆情监管,其投入的监管资源往往是十分有限的,如果对整个网络社群进行话题推送,则容易造成推送阻塞或推送风暴。推送阻塞容易对网络造成过大的负载压力;推送风暴则会降低用户对推送内容的信任度。同时,这种无差别的话题推送没有利用社交网络的传播性质,忽略了用户之间的社群属性。通过确定不同网络社群间主题传播的最优路径,可以为舆情管控提供一种可解释性的推送流量入口分析,并降低推送阻塞与推送风暴带来的舆情管控风险。

6 研究结论

在理论层面,本文构建基于LDA 模型的 “日本钻石公主号邮轮” 舆情话题微博用户主题聚类图谱,采用困惑度评价指标确定LDA 模型最优主题数,为新冠肺炎疫情舆情话题下的微博用户主题聚类图谱的网络社群用户特征分析和不同社群下意见领袖、网络社群间主题传播路径分析提供一定的理论和方法支撑。在实践层面,本文结合新冠肺炎疫情期间 “日本钻石公主号邮轮” 话题下微博用户主题群体,进行划分及意见领袖的识别,并对该话题下的网络社群间主题传播路径进行分析。研究结果表明,基于LDA 模型的微博用户主题聚类图谱,不仅可以识别网络用户群体关注的重要主题,而且能够准确定位每个主题聚类下的意见领袖和关键主题的传播路径,为舆情监管部门识别新冠肺炎疫情下不同微博用户关注的主题特征,通过主题传播路径进行关键意见领袖的主题推送,从而帮助舆情监管部门更为有效的进行舆情监管和舆情引导。

另外,本文在研究中存在一定的局限性:本文仅结合 “日本钻石公主号邮轮” 这一典型的舆情话题进行分析,在后续的研究中,将进一步扩大新冠肺炎期间其他舆情话题的分析,进行多话题下的对比研究,从而使本文构建的微博用户主题聚类特征及主题传播路径分析方法具有更好的普适性,对新冠肺炎期间的舆情起到更好的引导作用。

猜你喜欢

领袖社群舆情
领袖风范
社群新玩法:分层和快闪
社群新玩法:分层和快闪
营销的最短路径
社群短命七宗罪
意见领袖们的“不老圣经”
追寻领袖足迹 奋力追赶超越——学习《梁家河》
数字舆情
数字舆情
消费舆情