基于多尺度时效模体度的虚假信息传播机制
2023-02-15于运铎徐铭达许小可
于运铎,徐铭达,许小可
(大连民族大学信息与通信工程学院 辽宁 大连 116600)
虚假信息[1]在互联网场域中呈现出数量多、传播速度快、传播范围广等特点,带来诸多负面影响[2-3],因此研究网络中的虚假信息传播机制具有重要意义。
基于网络结构的虚假信息传播分析是其中一种研究视角。文献[4]最早提出了谣言源的网络结构定义;文献[5]在该定义上根据网络拓扑结构进行网络划分,使算法更具普适性;文献[6]采用了基于联合谣言中心性的统一推理框架,解决了以往算法中存在节点没有被表达的问题;文献[7]提出了利用部分节点信息结合节点被感染的概率来推测谣言源的方法;文献[8]提出了局部谣言中心性概念,使新方法更符合实际情况;文献[9]引入了时间积分窗口,将动态网络转化为一系列静态网络,解决了以往研究没有考虑时间属性特征的问题,但该研究并没利用时效网络的结构特性来检测虚假信息。
时效网络为深度研究虚假信息传播机制提供了更多的可能性。文献[10]对时效网络进行了定义,即加入时间维度且连边随着时间会间断性地出现和消失的网络;文献[11]提出了时效网络作为静态网络的延伸可以涵盖时间信息,可以对随时间推移连边发生变化的网络建模;文献[12]指出时效网络中的指标更有利于抑制流行病的传播。
本文基于时效网络的结构特征,提出了时效模体度探究虚假信息传播机制的方法。该方法将时间信息添加到传播网络的结构中,相对于仅使用基于模体度等网络结构统计量的方法更能刻画虚假信息的传播机制。通过多个实证数据集证明了该方法的鲁棒性。本研究丰富了信息传播的刻画方法,进一步提高了人们对于虚假信息传播机制的理解,为虚假信息的早期治理、降低其负面影响等方面提供更有效的参考。
1 时效模体度结构特征定义
用G={A,E}表 示社交网络,其中A是所有用户的集合,E是用户之间关系的集合。在时效网络中E可 用 (i,j,t,∆t)四 元组表示[10],即节点i从t时刻发送消息至节点j,并持续 ∆t的时长的信息传播过程,如图1 所示。将 ∆T定义为时间尺度,通过分析不同时间尺度下传播网络中时效模体数的变化情况,来探究虚假信息的传播机制。
图1 信息传播过程
定义时效广度模体度和时效深度模体度两个时效网络结构性指标,如图2 所示。图2a 中节点S在t0时 刻将信息转发至节点V1和V2, 节点V1和V2分别在t1和t2时刻将信息转发至其他节点,两节点分别用时 ∆t1和 ∆t2, 其中 ∆t1=t1−t0, ∆t2=t2−t0。图2b中节点S在t0时 刻将信息转发至节点V1, 节点V1在t1时 刻将信息转发至节点V2, 用时 ∆t1, 节点V2在t2时 刻将信息转发至其他节点,用时 ∆t2,其中∆t1=t1−t0, ∆t2=t2−t1。
定义 1 时效广度模体度(the degree of temporal breadth motif, TBM)。时效网络中节点符合图2a 时效广度模体结构,且持续时长 ∆t1、 ∆t2均小于规定的时间尺度 ∆T,由单个节点产生的时效广度模体数量即为该节点的时效广度模体度,网络中所有节点的时效广度模体度之和为该信息传播网络的时效广度模体度。
图2 时效广度传播模体结构与时效深度传播模体结构
定义 2 时效深度模体度(the degree of temporal depth motif, TDM)。时效网络中节点符合图2b 时效深度模体结构,且持续时长 ∆t1、 ∆t2均小于规定的时间尺度 ∆T,此时时效网络中由单个节点所能产生的时效深度模体数量即为节点的时效深度模体度,网络中所有节点的时效深度模体度之和为该信息传播网络的时效深度模体度。
在利用静态模体度研究整个传播网络的宏观特征时,忽略了传播网络的时效性[13]。时效模体度则充分考虑到传播网络中的时间属性,以多个不同的时间尺度为考察指标,能够更深入和准确地探析网络特征,有效弥补静态模体度的不足。
2 基于时效模体度的虚假信息分析与检测
2.1 数据说明
本文采用两类数据集:1) 四分类数据集:twitter15和twitter16 数据集[14]。数据集分为非谣言、虚假谣言、真实谣言(被确定为谣言)、未经证实的谣言4 类,参数如表1 所示。2) 二分类数据集:微博数据集[15]、gossipcop 数据集[16]和politifact 数据集[17],数据集分为虚假信息和真实信息两类,参数如表2所示。这两类数据集具有大量的用户节点和信息,使得到的结果更具鲁棒性。
表1 四分类数据集基本参数
表2 二分类数据集基本参数
2.2 时效模体度对虚假信息传播的影响
为了研究时效模体度与虚假信息传播的关系,本文从群体和个体两个层面来进行分析,并采用多个时间尺度,即50、100、200、450、900、1 800、3 600、7 200、10 800 s。
在群体分析中,将微博数据集中所有信息的时效模体度绘制成散点图,进而分析时效模体度对于虚假信息的传播是否具有明显的影响,如图3 和图4 所示。在个体分析中,将50~900 s 定义为小时间尺度,900~3 600 s 定义为中时间尺度,3 600~10 800 s 定义为大时间尺度,并从微博数据集中选取一条真实信息和一条虚假信息,将真假信息不同时间尺度下的时效模体度进行对比。
图3 时效广度模体度在不同时间尺度下的真假信息分布情况
从图3 和图4 可以看出,随着时间尺度的取值逐渐增大,时效模体度的数量也不断增长;同时,真假信息的时效模体度分布情况也随之变化,且真假信息的区分度越来越明显。此外,虚假信息的广度时效模体度始终小于真实信息,虚假信息的时效深度模体度比真实信息更趋近于理论最大值。综上所述,在群体层面上,时效模体度对于虚假信息的传播具有较为明显的影响。
图4 时效深度模体度在不同时间尺度下的真假信息分布情况
真假信息在不同时间尺度下时效模体度的变化如图5 所示。可以看出与时效模体度相比,静态模体度没有考虑到时效性,只能根据整个事件的时间跨度来进行分析,无法考虑虚假信息在不同时间尺度上的传播特性。因此,基于模体度分析虚假信息的传播方法较为局限,而基于时效模体度的方法可以得到真实信息与虚假信息之间的多时间尺度上的差异,得到的结论更具有鲁棒性。
图5 真假信息在不同时间尺度下时效模体度的变化
根据图5a,在小时间尺度上(50~90 s),真实信息的时效广度模体度增长幅度大于虚假信息,且比虚假信息更快地趋于稳定;但在大时间尺度上(3 600~10 800 s),虚假信息的时效广度模体度增长幅度大于真实信息。从图5b 可以看出,在小时间尺度上(50~90 s),真假信息的时效深度模体度不具有明显的区分性,但是真实信息的时效深度模体度也更快地趋于稳定,在中时间尺度(900~3 600 s)和大时间尺度上(3 600~10 800 s),虚假信息的时效深度模体度值的增长幅度大于真实信息。
由此可以得出,真实信息在小时间尺度上的广度传播速度大于虚假信息,而虚假信息在大时间尺度上的广度和深度传播速度都大于真实信息。真实信息传播结构趋于平稳时,虚假信息仍呈现蔓延趋势,进而证实了虚假信息比真实信息传播范围更广,持续时间更久。
2.3 基于时效模体度方法对虚假信息分类的作用效果
本文将微博数据集中的真实信息和虚假信息,在不同时间尺度下的时效模体度均值进行对比,如图6 所示。将twitter16 数据集中的非谣言信息、虚假谣言信息、真实谣言信息及未经证实的谣言信息,在不同时间尺度下的时效模体度均值进行对比,如图7 所示。
图6 二分类数据集下时效模体度对虚假信息传播的影响
根据图6 可以看出,在小时间尺度上,真假信息的时效广度模体度的区分度大于二者的时效深度模体度。且真假信息随着时间尺度的取值逐渐增大,真假信息的时效深度模体度的区分逐渐明显。根据图7 可以看出,在不同时间尺度上,4 种信息的时效模体度均存在差异性。虚假谣言和真实谣言在小时间尺度上的时效广度模体度十分相近,但二者的时效深度模体度相差较大。非谣言和未经证实谣言的时效广度模体度在任何时间尺度上都有较为明显的差异,但二者的时效深度模体度几乎相同。
图7 四分类数据集下时效模体度对虚假信息传播的影响
综上所述,利用基于时效模体度的方法不仅适用于二分类数据集,也可将四分类数据集中的信息在不同时间尺度上区分开,证实了该方法具有较广泛的适用性,刻画了真实信息与虚假信息在传播机制上的本质差别。
2.4 基于时效模体度的虚假信息检测
针对微博数据集,本文将时间尺度为50、100、200、450、900、1 800、3 600、7 200、10 800 s 时的时效模体度,结合XGBoost 模型[18]对真假信息进行分类,分类准确性结果如表3 所示。
表3 微博虚假信息检测准确率
可见,相比于模体度检测方法,融合了所有时间尺度的网络结构特征的多尺度时效模体度,具有更高的准确率。因此,运用时效模体度方法能够在微博等在线社交网络平台中更准确地识别出虚假信息。
进一步,计算twitter15、twitter16、gossipcop、politifact 这4 个数据集的检测准确率,来验证基于时效模体度方法在其他社交网络平台上的分类准确性。为了确保检测结果尽可能客观和全面,将多尺度时效模体度的检测性能与结构异质性特征、结构病毒性特征、静态模体度特征进行比较。其中结构异质性特征(structural heterogeneity)指标反映了传播网络与其大小相同的星型网络之间的差异[9],结构性病毒特征(structural virality)指标是基于所有节点间的最短平均距离[19]。检测准确率结果如表4 所示。可以看出,时效模体度方法的准确率均高于其他网络结构特性方法。
表4 虚假信息检测准确率
此外,使用2.2 节中选取的真假两条信息,计算二者发布后经过不同时间下广度模体度和深度模体度的数量,如图8 所示。可以看出随着信息发布时间的推移,真假信息的区分度逐渐提高,且广度模体度比深度模体度出现差异的时间更早。
图8 不同信息发布时间下的模体度
为了进一步探究在信息传播早期虚假信息的检测能力,本文计算出微博数据集中真假信息自发布后,经过10、20、30、40、50、100、200、450、900、1 800、3 600、7 200、10 800 s 时的广度模体度和深度模体度数量。将广度模体度、深度模体度及两种模体度作为特征进行虚假信息检测。随机选取数据中的90%作为训练集,10%作为测试集。重复随机选取100 次训练集和测试集,所得结果的平均值以及标准差如图9 所示。
图9 不同信息发布时间下的检测准确率
可以看出,在信息发布后短时间内,广度模体度可以很快达到较高的检测准确率,然而深度模体度并不能有效检测出虚假信息。综合使用两种模体度特征的方式,不仅可以在信息传播早期具有较高的检测准确率,而且随着信息发布时间的增长虚假信息识别能力不断增强。
3 结 束 语
本文提出了一种基于时效模体度的虚假信息传播机制研究方法,以微博数据集中典型信息为例,结合二分类和四分类数据集的检验,对时效广度模体度与时效深度模体度进行详细分析,发现了基于时效模体度的方法能够在时效网络方面更深入地探析虚假信息的传播机制,从而在虚假信息检测上体现出更高的准确性。根据5 个广泛使用的真实数据集得到的虚假信息检测评分来看,基于时效模体度的虚假信息检测方法均比使用其他结构性特征的方法更准确,尤其与基于模体度特征相比,所有数据集的检测准确性均有所提高。基于时效模体度的虚假信息检测方法能够有效识别虚假信息,及时干预虚假信息的传播,最大限度地降低虚假信息的危害。