跨社交媒体舆情关键节点识别方法及其实证研究
2024-12-31孔婧媛毕达天杨阳等
关键词: 超网络; 跨社交媒体; 网络舆情; 关键节点; 信息传播
DOI:10.3969 / j.issn.1008-0821.2024.09.002
〔中图分类号〕G206 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 09-0016-15
互联网的普及与社交媒体平台的繁荣逐渐改变了人们交流互动、获取信息的渠道和方式, 网络舆情已经成为影响公众观点、塑造社会议题、驱动政策制定的关键因素。由于网络舆情具有自发性、多元性、跨界性、冲突性等特点[1] , 其治理与管控一直是学术界致力研究的重点, 也是社会各界共同关注的问题。然而, 社交媒体在其所处平台深耕细作,种类趋向多元化。网络舆情已不再局限于某一单一平台, 而是以网络矩阵的形态跨越多个平台进行发酵与扩散[2] 。虽然这种跨媒体舆情能够促进信息传播的速度与范围[3] , 但其带来的情感极化、回音室效应、信息异质性等问题的危害亦不容小觑[4-5] 。因此, 如何跟踪探索复杂的跨社交媒体舆情传播模式, 并从其中挖掘与识别舆情关键节点, 是当下舆情管理亟待解决的重要课题。
当前, 学术界对网络舆情的研究给予了高度重视, 如舆情信息传播模式与机制研究[6-8] 、舆情监控与预警研究[9-12] 、舆情特征与演化研究[13-16] 。研究此问题所采用的方法论也颇为丰富, 使用最为广泛的知识发现方法包括文本挖掘[17-18] 、知识图谱[19] 、机器学习[20-21] 等; 还包括时间序列分析[22] 、多元统计分析[23] 、扎根理论[24] 、社会网络分析[25]等传统研究方法[26] 。相关研究尚存在一些局限性:现有研究大多基于单一平台的数据展开, 有部分研究选取多个平台的舆情数据进行对比分析, 但忽略了不同平台间的信息交互和影响, 跨社交媒体舆情方面的相关文献也寥寥无几; 此外, 当前研究大多针对舆情传播过程中的关键用户主体展开分析, 对舆情传播过程全貌的认识不足。
基于此, 本研究基于“5W” 的分析方法, 利用超网络模型刻画跨社交媒体舆情传播模式, 并融合超网络属性指标与经改进的超边排序算法, 识别不同种类的跨社交媒体舆情关键节点。本研究试图扩展现有研究仅聚焦于单一平台的视角, 为网络舆情研究领域提供了新的理论框架与研究方法。在实践层面, 本研究识别出的关键节点能够帮助舆情监管部门在跨社交媒体环境下实施更为精准的舆情监控, 以期为跨社交媒体网络舆情的风险防范与应对提供科学依据。
1相关概念及理论
1.1超网络理论
超网络的明确理论最早由Nagurney A 等[27] 提出, 指高于而又超于现有网络的复杂系统。近些年来一些学者开始运用超网络的方法, 通过构建包含多层子网的舆情超网络模型来分析网络舆情的传播特征。马宁等[28] 将微博舆情所处的网络分为4 层,包含社交子网、环境子网、心理子网、观点子网。梁晓贺等[29] 通过构建社交子网、观点子网、情感子网、时序子网来识别微博舆情中的热点主题。杨湘浩等[30] 通过构建社交子网、环境子网、心理子网、观点子网来分析微博谣言传播过程。周欢等[31] 构建了包含社交子网、时序子网、情感子网、话题子网、观点子网的五维微博超网络模型。
基于以上研究发现, 超网络模型具有多层、多级、多维、多属性等特性, 因此能够较好地刻画跨社交媒体信息传播的网络特征。据此, 本研究基于5W 分析法, 全面考虑多个社交媒体舆情传播的要素及其相互作用关系, 构建包含多层子网的跨社交媒体舆情超网络模型, 以更全面地探索跨社交媒体舆情传播的模式与特征, 从而识别跨社交媒体舆情超网络中的关键节点。
1.2关键节点
超网络结构中的关键节点主要指对网络功能和稳定性起到重要作用的节点。通过识别这些关键节点能够帮助理解网络的结构与动态,以准确预测与控制网络。网络舆情的跨社交媒体传播是一个更为复杂且具有多维属性特征的过程, 应该采用超网络结构来进行表征。因此, 在这种大规模社交网络中快速识别关键节点对于跨社交媒体网络舆情的控制及引导有重要意义。
随着研究工作的开展, 关于网络舆情信息主体的讨论也逐渐丰富,包括意见领袖、高影响力用户、关键用户等概念。其中,社交网络意见领袖主要指的是在社交平台中发布观点,且被多数信息受众认同的用户。高影响力用户主要指具有独特的魅力与特质的用户, 并且能够在社交平台中增强用户间交互行为。关键用户的概念主要是来源于社会网络分析,在网络中的地位及影响程度较高的用户称为关键用户。方法层面, 早期国内外学者主要采用社会网络分析的方法, 通过网络属性指标识别关键用户[32-34] 。近年来, 许多学者在原有算法的基础之上, 提出了许多新的挖掘方法。如基于改进的Pag⁃eRank 算法构建社交网络中的意见领袖识别模型[35] 。Jain L 等[25] 通过融合博弈论与社会网络分析的方法进行社交媒体意见领袖的识别。金燕等[36] 基于用户特征属性、话题相关性以及网络位置, 构建意见领袖三层次筛选甄别流程。还有学者基于用户的属性特征构建意见领袖识别指标[37] , 并且通过各种指标体系进行意见领袖用户画像的构建[38] 。此外,还有研究对意见领袖的影响方式[39] 与作用[40] 展开探索, 证实了意见领袖在多样化的互联网信息传播过程中的影响力[41] 。
总体而言, 网络舆情中关于各类主体用户内涵与特征的研究较为丰富, 且对不同种类用户进行识别的研究方法也有较多成果。但已有方法多是基于单一平台的社交环境, 对同一用户参与不同平台产生的网络舆情关注较少; 现有研究大多关注挖掘网络传播过程中的意见领袖, 然而在舆情的传播过程中还有许多较为活跃的、具有鲜明观点的关键用户; 最重要的是在舆情传播的过程中, 除了扮演重要角色的关键用户节点, 还应当给予其他类型(如情感、主题、时序)节点等一定的关注, 以更全面地监控舆情过程, 把握舆情发展情况。基于此, 本研究以超网络理论为基础, 对跨社交媒体网络舆情的发展过程进行建模, 同时结合LDA、情感分析、神经网络等方法, 对选取的跨社交媒体舆情事件中的关键节点展开挖掘。
2研究设计与方法
2.1研究设计
本研究的目标为挖掘跨社交媒体舆情传播过程的关键节点, 因此, 研究工作选取特定的网络舆情事件, 在多个平台按照话题内容进行检索获得本研究所需要的多平台舆情数据库。在此基础上, 采用跨社交媒体同一用户识别算法采集符合本研究目标的数据。整体研究流程如图1 所示。
研究过程中, 子网络构建环节完成对跨社交媒体舆情信息传播超网络的模型构建, 然后分别介于超边排序算法与超网络属性指标挖掘关键节点; 从信息传播影响力、时序相似度、情感相似度、主题相似度4 个指标构建超边排序算法, 识别依据为节点在超网络传播中发挥的多方面影响力; 基于超网络属性指标挖掘的节点则依据其在网络中的重要性来识别; 最后基于得到的不同种类关键节点进行对比分析, 为跨社交媒体舆情传播提供可供参考的建议。
2.2跨社交媒体同一用户识别
通过给定的某平台某用户的属性信息, 如用户名@ 人民日报, 如果他在其他平台也进行了信息交互, 那么可以找到该用户在其他平台的相关信息。
这种针对多个社交媒体的用户间关联关系展开的研究, 称为跨社交媒体同一用户识别[42] 。由于本研究关注的研究对象是参与发布跨社交媒体网络舆情的信息用户, 因此研究工作借鉴该同一用户识别算法, 结合自身研究需求作出适当调整, 提取同时参与跨社交媒体网络舆情的信息用户。跨社交媒体同一用户识别方法模型如图2所示。
从图2 可见, 本研究首先采用属性相似度算法计算平台间用户对之间属性的相似度值(Simattr ), 从跨社交媒体舆情数据库中发现用户匹配对数据集和潜在的用户匹配对数据集; 然后对用户在不同社交媒体发布信息内容的相似度(Simcont )进行测算, 以寻求更多用户匹配对; 最后通过对算法识别出的结果进行人工校对与检查, 得到本研究需要使用的参与跨社交媒体舆情传播的同一用户信息集。
2.3 超网络子网构建
网络舆情事件是指发生在网络空间中, 以社交媒体平台为载体, 公众针对自己关心或与自身利益密切相关的社会现实问题所发表的各种观点、态度与意见的总和[1] 。随着信息科技的飞速发展与媒介的迭代更新与繁荣, 网络舆情事件并不局限于在单平台进行孤立传播, 而是以矩阵化的形式在多个社交媒体平台发酵。当由多个社交媒体同时传播相同的舆情事件, 其中还存在相同用户在多个平台发生实质性的交互时, 便形成了跨社交媒体网络舆情事件, 即相同用户在不同平台中参与舆情交互的言论、观点与情感的集合。
跨社交媒体舆情的发生过程, 类同于普通的信息传播过程, 需要厘清5W(When、Where、Who、What、Why)五要素的关系。一条舆情信息包括一个用户在特定的时间与平台内发布的包含其情感与观点的表达, 而一个舆情事件由多条舆情信息传播构成。因此, 跨社交媒体舆情形成关联的实体包括用户(Who)、时序环境(When)、平台环境(Where)、信息及话题内容(What)、情感内驱力(Why)。本研究基于“5W” 分析法, 构建跨社交媒体舆情超网络模型, 包含的6 层子网, 分别为“社交子网”“信息子网” “时序子网” “平台子网” “话题子网”“情感子网”。①社交子网U(Social Network): 用来描述参与跨社交媒体舆情讨论的用户主体间的关系; ②信息子网C(Information Network): 用来描述舆情主体在跨社交媒体发布信息的传播过程, 一条信息内容对应于子网中的节点。信息子网的量化是通过将用户与其评论的内容进行关联, 形成新的节点, 然后对其编号; ③时序子网T(Temporal Net⁃work): 用来描述舆情事件在跨社交媒体发展的不同阶段和程度。根据舆情信息数量以及生命周期理论, 跨社交媒体舆情演化可划分为孕育期、爆发期、持续期和反复期4 个阶段。该4 个阶段作为子网内的节点, 以相邻时区间的转化关联关系构造无向边;④平台子网M(Platform Network): 用来描述舆情事件在跨社交媒体传播的途径。本文考虑用户会选择在不同的社交媒体环境参与跨平台网络舆情的讨论,以选取的各类社交媒体平台作为子网内节点, 以平台内用户主体在不同媒体的共现次数构造无向边;⑤话题子网O(Topic Network): 用来描述舆情主体在跨社交媒体发布言论时的观点与思想, 以话题是否在同一条信息内容中出现构建无向边; ⑥情感子网E(Sentiment Network): 用来描述舆情主体在参与跨社交媒体讨论时所具有的情感类型, 以从信息内容中提取的情感极性与情感强度作为节点, 以不同的情感类型之间的转化关联关系作为无向边。
2.4超网络模型超边属性计算
PageRank 算法一直被广泛应用于识别舆情信息传播过程中的关键节点[35] , 因此, 现有学者通过将PageRank 算法的核心思想引入舆情超网络中超边排序计算, 如马宁等[28] 提出的SuperEdgeRank算法、张连峰等[41] 提出的HyperEdgeRank 算法分别基于微博舆情超网络中的超边进行排序; 周欢等[31] 将微博的转发、评论、点赞量作为影响因子对SuperEdgeRank 算法进行了改进。鉴于此, 本研究分别从信息传播影响度、时序相似度、情感相似度、主题相似度4 个维度出发, 对构建的跨社交媒体网络舆情超网络中的各个子网进行量化, 提出CN-SuperEdgeRank 算法, 同时结合超网络中的各项属性指标对超网络中的超边进行计算, 以更好地挖掘关键节点。跨社交媒体舆情传播超网络模型构建与节点识别过程如图3所示。
6) 超网络属性指标
为了更全面地识别跨社交媒体舆情关键节点,参考相应文献[15,28] , 本文还引入节点超度、超边重叠度、超边连接度、接近中心度等评价指标。节点超度: 指该节点参与组成的超边数, 用来识别超网络中活跃节点; 超边连接度: 若两条超边包含相同的节点, 则代表这两条超边通过该共同节点相连,用来识别焦点节点; 超边重叠度: 指一个超边与其他超边共享节点的次数, 该值能够描述一条超边与其他超边的重叠情况, 用来识别传播人物; 接近中心度: 指一个点到其他点的近邻情况, 用来识别潜在活跃人物。
3研究过程
3.1数据采集与预处理
根据社交媒体平台的内容生产类别与提供服务的功能, 可以将其划分为即时通讯平台、公共社交平台、短视频社交平台与虚拟社区平台等[2] 。由于本研究聚焦于识别网络舆情在跨社交媒体发酵演进的关键节点, 需要针对同一用户在不同类型的社交媒体平台参与舆情过程的数据展开研究。因此,本研究以“日本核污染水排海事件” (以下简称“事件”)为例, 利用自主开发的Python 爬虫工具,分别在微博、今日头条、抖音、哔哩哔哩与知乎5个平台进行检索, 共获得相关数据5 万余条, 用户1 万余名。采用跨社交媒体同一用户识别算法, 共识别出参与跨社交媒体网络舆情传播的161 名用户, 获得有效舆情数据5 452条。鉴于微信平台性质特殊, 难以采用爬虫的方式获取数据。本研究采用人工检索与收集的方式识别上述160名用户在微信平台内发布的有关事件信息数据。最终, 共获取6 332条有效舆情数据, 时间跨度为2023 年8 月21日—9 月12 日。其中分别包含用户、舆情内容、发布时间、点赞量、评论量等关键信息。舆情数量统计如图4 所示。
图4 中的数字代表每个自然日内事件跨社交媒体传播的舆情信息数量。根据“事件” 的时间序列特点[1] , 将该事件舆情发展划分为孕育期、爆发期、持续期和反复期4 个阶段。
3.2情感子网量化结果
将信息子网中的内容节点, 即各平台的舆情数据, 经过去除无效符号、停用词等预处理后获得待分析语料库。Paddle Paddle 会基于正面情感和负面情感打出两个情感分值, 根据情感极性选取两个分值中大于0 5 的分数进行赋值, 并依据情感强度值划分11 个情感节点, 如表1 所示。
研究工作通过Paddle Paddle 分别计算上述语料文本的情感极性与强度, 部分打分结果如表2 所示。
3.3 话题子网量化结果
首先, 采用LDA 分别计算待分析语料库2~20个主题数时的一致性得分以及主题词间距, 以判定本模型的最优主题数, 结果如图5所示。
根据一致性得分以及主题词分布, 本研究确定该事件的主题个数为8。通过对数据进行处理, 得到了话题子网的关键词提取结果, 如表3 所示。
根据文档—主题分布概率, 将信息子网与话题子网进行关联匹配, 得到对应的内容节点与主题节点信息如表4 所示。
3.4 跨社交媒体舆情超网络量化结果
事件由2023 年8 月21 日“日本宣布核污染水排海” 开始, 发展演化至8 月24 日与25 日达到高峰, 至9 月12 日“日本核污染水第一次排海结束”逐渐平息, 通过图4 可以发现, 事件发生后在国内各个社交平台中引起广泛关注。本研究截取事件整个发展过程中参与跨社交媒体舆情讨论的用户为研究对象, 分别构建舆情参与者及其对应的平台、内容、时序、情感、主题共同组成的该事件舆情跨社交媒体超网络模型, 结果如表5 所示。其中, 每一行代表一条超边中的某个舆情用户主体一个媒体环境发布的一条信息内容, 该信息内容属于舆情周期,并且包含着情感和主题。
超网络模型的社交子网包括161 个节点, 平台子网包括6 个节点, 信息子网包括6 332个节点,时序子网包括4 个节点, 情感子网包括11 个节点,话题子网包括8 个节点, 共形成6 332条超边。
4研究结果
4.1超边排序计算结果
根据3.4 节超边排序算法的步骤, 研究工作首先分别对信息传播影响度、时序相似度、情感相似度及主题相似度展开计算。具体计算结果如表6~表9 所示。
基于上述结果, 研究工作以建立的网络舆情事件跨社交媒体传播的超网络模型, 借助Python 编程软件, 对提出的超边排序算法对模型中的6 332条超边进行计算。根据超边排序算法得到排序分值,结果如表10 所示。
根据超边排序结果, 可以得到排名前十的超边及其包含的用户节点。其中, u160、u157、u151 等节点出现了两次, 说明其在不同平台发布的信息内容在该事件舆情主题讨论的多个时间周期内引起了情感共鸣。
4.2超网络属性指标计算结果
根据3. 4 节中超网络属性指标的定义展开跨社交媒体舆情关键节点识别的计算, 结果如表11 所示。
4.3关键节点挖掘结果
根据超网络属性指标以及节点得分公式, 分别在建立的跨社交媒体舆情传播超网络模型中计算各子网内节点得分, 得到各子网关键节点挖掘结果,如图6 所示。
图6展示了跨社交媒体舆情传播超网络模型中各子网的关键节点及其测算指数。基于5W 分析法, 研究工作共挖掘出15类关键节点。在社交子网中, 根据节点得分计算公式, 所识别出的关键节点与先前基于超网络属性指标所识别的节点存在明显差异。依据节点得分指数, 本研究识别出的意见领袖为用户“@ 玉渊谭天”。这说明其发布的舆情内容传播范围较广, 并涉及多个平台和多个舆情周期内的话题交流。同时, 该用户与众多用户持有相似观点, 并且能够引起多数用户的情感共鸣。在话题子网中, 挖掘出两类关键节点, 分别为驱动主题与焦点主题。其中, 驱动主题的节点得分为0.16,说明在多重指标维度的考量下, 主题节点o2 构成公众讨论的话题枢纽, 具备引导舆论走向以及深化讨论的能力。主题节点o5 的节点得分为0.13, 略低于驱动主题, 但其节点超度和情感指数等指标均超过了驱动主题。因此, 本研究将主题节点o5 定位为焦点主题。该节点在整个舆情事件中频繁出现,并且具有强烈的负面情感投射, 成为整个事件的讨论热点与情感聚焦中心。研究工作共识别出3种不同的情感节点, 情感节点e7 得分最高, 该节点在整个舆情事件中与大众情感共鸣之间紧密契合, 加强了信息传播的广度与接受度, 增强了社群的凝聚力与参与动力, 因此将节点e7 定义为事件的核心情感。虽然情感节点e11 的得分为0.15,但是该节点的节点超度高达3351。说明e11 奠定了整个舆情事件的情感基调, 该节点是公众讨论最多的倾向,扮演着主导情感的角色。e10 的节点得分为0.13,所以是事件的次核心情感。在对平台子网中的节点进行计算后, 研究工作识别出3 种不同层次的关键节点。得分最高的为m2 抖音平台, 该节点在舆情传播的过程中起到了中心枢纽的作用, 核心平台的定义不仅体现在超网络中的地位优势, 该平台在多重维度上展现出独特的融合特性。被定义为主流平台的m6 微博平台, 凭借广泛的用户基础和信息传播能力, 汇集了大量的信息流。作为次核心平台的m3 微信平台在整个过程中也起到了重要作用, 尽管其影响力略低于前两者, 但在特定群体或场景中仍具有一定的信息扩散效应。本研究还识别出两个时间节点, 分别为高峰时期与次高峰时期。
通过上述分析可以发现, 将利用改进的超边排序算法构建的节点得分公式与超网络属性指标结合分析, 能够从多维度、多视角对关键节点进行解读,有助于增强整个舆情事件在跨社交媒体传播过程的完整性与深度的理解。就该事件而言, 各类关键用户节点均呈现出不同的作用与影响。利用节点得分识别出的意见领袖为@ 玉渊谭天, 在整个事件中具有高度的影响力, 其发布的信息与洞见促进用户间的深度交流与观点碰撞, 为平稳舆论与纾解负面情绪起到了至关重要的作用。采用超网络属性指标挖掘出的各类节点, 如@ 观察者网、@ 海峡新干线等在舆情事件中较为活跃的用户可以起到积极的作用,也可能带来风险, 应当通过采取建立沟通桥梁、建立反馈机制等方式更好地管理和引导这些用户, 使其成为平台的有益成员; 如@ 每日经济新闻、@ 中国网等焦点用户, 由于其对公众产生较大的影响,因此与他们建立良好的沟通至关重要, 在舆情爆发过后, 通过监管焦点用户发布的内容可以实时监测到用户关注的重点; 如@ 观察者网、@ 中国网直播等传播用户, 在规范设定相应的用户行为准则后,应当给予更多的信息资源供其进行决策和发表意见。通过根据不同种类关键用户发挥的作用, 从而设定不同的管理和监控舆情的策略与方法。舆情事件在跨社交媒体传播的过程中, 对于关键媒体节点的监控是至关重要的。核心平台在跨社交媒体舆情传播中扮演着情感感知器、资源整合与舆论引导者等多重角色。主流平台的作用主要体现在舆情信息广泛覆盖与扩散方面。核心情感与主导情感等节点的提取有助于决策者准确捕捉公众情感变化, 进而对舆情的走势产生积极影响。焦点主题与驱动主题的提取能够为决策者提供有价值的信息, 帮助理解公众的需求, 提高与信息受众间的互动效果。此外, 在舆情演化的过程中, 关键时间节点标志着舆情发展的重要阶段, 通过监控舆情发展过程中的高峰时刻与次高峰时刻, 能够帮助识别舆情发酵与骤增的时间点, 为了解舆情的发展与变迁、实时监控舆情提供建议。
5研究结论
本文将超网络理论应用于跨社交媒体舆情传播的过程中, 提出改进后的超边排序算法, 并根据超网络属性指标与节点得分计算公式识别关键节点。首先基于“5W” 分析方法构建跨社交媒体舆情传播的超网络模型, 主要包括社交子网、平台子网、信息子网、时序子网、情感子网和话题子网; 然后通过量化信息传播影响度、时序相似度、情感相似度、主题相似度, 对超网络模型的超边间关联关系进行计算, 基于上述指标, 构建改进后的CN-Su⁃perEdgeRank 超边排序算法; 最后通过获取与“日本核污染水排海事件” 相关的数据, 利用跨社交媒体同一用户识别算法得到研究数据并展开实证研究。研究发现, 本研究提出的跨社交媒体舆情关键节点识别方法, 能够有效识别网络舆情在跨社交媒体传播过程中的各类关键节点。
在理论方面, 本研究基于5W 分析法, 将超网络模型应用于刻画跨社交媒体舆情传播的过程, 能够从时间、空间、情感和主题等多维角度全面地捕获舆情信息传播的复杂性, 揭示各层子网中节点间的关联关系, 为理解跨社交媒体中舆情信息流动与用户行为提供更为深入的认知, 弥补了传统社会网络分析与其他方法仅关注单一关系或属性的不足。
本研究打破了对于网络舆情在单一平台传播研究的边界, 聚焦于平台间存在实质性交互关系的跨社交媒体网络舆情。本文的研究结果能够为跨社交媒体网络舆情分析提供理论支撑, 为情报学领域进一步探索舆情跨平台传播方面的研究提供新的思路和方法论的创新。
在实践层面, 研究工作基于构建的超网络模型, 分别从核心的5层子网中提取了不同类型的关键节点, 可以帮助决策者更精确地定位舆情信息的重要发布者, 以及其在不同平台内和周期内的演化过程, 从而制定更为精准的舆情管理与应对策略。知晓不同节点在舆情中起到的作用, 能够使利益相关者针对关键节点进行重点监控与干预, 以达到更合理地分配舆情监控资源的目的。跨社交媒体舆情话题的走向与情感互动反馈是检测舆情情感脉冲的关键, 主题节点与情感节点的识别能够帮助管理者更全面深入地理解民众的需求, 更好地应对和管理舆情, 实现科学有效的舆情信息传播与公众互动。
研究中也存在一定的不足之处。研究工作仅采用了平台内用户在该话题下直接发布的舆情文本数据进行分析, 未来可以针对更丰富的舆情类型(图片舆情、短视频舆情等) 以及更复杂的交互关系(二级用户跨平台的评论文本)展开更深入地分析与探索。