基于模体度的社交网络虚假信息传播机制研究
2021-07-23徐铭达张子柯许小可
徐铭达 张子柯 许小可
1(大连民族大学信息与通信工程学院 辽宁大连 116600)
2(浙江大学传媒与国际文化学院 杭州 310058)
3(杭州师范大学阿里巴巴复杂科学研究中心 杭州 311121)
社交网络(social networks)是一种典型的复杂网络[1],它包含了一定范围内人与人之间的联系,其中个人用户可以抽象为网络中的节点,联系抽象为节点间的链接[2].在线社交网络中,海量信息通过用户的交互和转发行为进行传播,社交媒体作为信息传播的载体,既可以使人们快捷地分享信息流获取时事新闻,方便人与人之间的思想交流与信息交互,同时也可能成为虚假信息泛滥蔓延的重要渠道.
虚假信息中通常充斥着具有误导性质的谣言[3-4],大多数人在网络中面对大量信息往往不能准确判断信息的真伪,导致了虚假信息的广泛传播.新浪微博是我国用户阅读新闻信息、分享个人日常的重要平台,用户作为信息传播的生产者与传播者,不仅可以通过接受信息带来的影响,也可以通过发送推文的方式获得影响.用户通过在社交媒体散布虚假信息,可能会影响舆论、政治[5-6]、经济[7]等诸多领域.
虚假信息通常也伴有主观形式的偏见[8]与情感的煽动性,因此在热点事件爆发的同时,往往也是虚假信息酝酿与扩散的重要时机,成为信息传播中几乎不可避免的副产品.在信息技术快速发展的今天,如何避免大量摄入虚假信息,准确识别信息源的真实性,揭示微博信息的传播重要性度量及虚假信息检测机制已然成为复杂网络领域的热点研究方向.对虚假信息网络传播特性深入挖掘,有助于分析在线社交网络中虚假信息的传播机制,因此研究虚假信息传播机制具有非常重要的科学意义与实际应用价值.
本文对社交网络中信息传播结构进行定量分析与刻画,将模体度的概念应用于微博社交平台的虚假信息传播研究,具有重要的现实意义,主要贡献有3个方面:
1) 提出了广度模体度和深度模体度的模体度传播特征概念来量化微博的传播特性.模体理论可从微观尺度提取网络中重要的局部结构特征,通过广度模体度与深度模体度构建的二维模体度量化指标,精细刻画微博的广度与深度传播特性,进而分析微博中虚假信息的传播规律;
2) 通过将模体度和其他网络传播重要性指标的相关性分析,表明基于模体度的网络传播重要性计算是对传统网络结构指标中传播规模与传播深度指标的进一步拓展,相较于结构性病毒特征更全面地测度了网络结构的复杂性和传播模型的多维度重要性;
3) 模体度重要性指标可揭示微博网络中虚假信息传播模式,信息传播是由广度传播与深度传播共同作用,深度模体度主要影响虚假信息传播的网络结构复杂性,广度模体度在真实信息传播中起主导作用.相对于传统网络结构特征的虚假信息检测方法,基于模体度结构特征的虚假信息检测算法具有更高的准确性.
广度和深度模体度可应用于的虚假信息传播机制分析与检测、遏制虚假信息的早期传播以及虚假信息传播规模预测等实际场景中.
1 相关工作
虚假信息传播通常作为热点事件传播的附加产物,在不确定、焦虑性和轻信性的共同作用下出现[9].虚假信息表现出比在线真实信息更具有病毒特征[4],研究证明虚假信息传播网络具有独特的结构特征,例如,虚假信息具有长穿透直径传播模式,且该模式不受限于多种社交平台[10-11].虚假信息所带来的“负偏见”在无形中可能导致虚假信息的后期传播,从而表现出与真实信息传播本质上的不同.传统的研究中,新闻信息的传播与社交平台账号的朋友数量和粉丝数量相关.然而,无论发布信息作者是人类还是机器人用户,由于用户特征对真实信息的传播具有较大影响,因此仅从用户特征的角度无法充分解释虚假信息更易传播的事实[12].
现有的虚假信息检测研究多基于机器学习或深度学习的相关算法,如基于用户对于微博新闻观点的谣言检测算法以及基于微博新闻文本的情感分类算法.Liu等人提出了一种通过对信息传播路径进行分类在社交媒体上早期检测虚假信息的模型[13];Jin等人基于传播行为建模,对虚假信息的传播游走轨迹跟踪,以及通过图模型和演化模型中针对特定虚假信息的进一步调查,最终发现识别虚假信息的关键传播者,对于减轻社交媒体的传播范围至关重要[14];Chuai等人根据在线传播信息时的情绪因素,采取在社交媒体上标记情感的措施,从源头上减缓或防止虚假信息传播[15];Ma等人提出基于RNN的谣言检测模型,性能优于手动寻找特征的谣言监测模型,速度与准确性均领先于现有的在线谣言揭穿服务[16];也有学者Liu等人通过提取信息推文中图片内嵌文本内容的方法,提出了基于深度神经网络的多模态网络谣言检测的方法[17].
基于黑盒的机器学习算法,虽然通常具有较高的识别准确率,但往往仅使用虚假信息的网络结构特征来提高识别虚假信息的可能性,而忽略了与真实信息网络结构的对比.从复杂网络的角度看待虚假信息检测是基于网络结构特征,通过信息转发情况可以构建完整的级联网络结构,计算得到复杂网络中的多种拓扑统计量,如传播的深度和广度、传播的速率和扩散率、传播的规模和级联率等特性都可以作为基于网络拓扑结构的信息重要性度量指标.虚假信息网络通常具有鲜明的结构特征,Goel等人提出了一种计算所有节点间的平均距离算法的结构性病毒式传播特征,该方法通过引入病毒性传播特征,来解解释Twitter网络中信息具有病毒式传播这一现象[18].Zhao等人提出网络异质性、网络层级比率、平均距离等指标,能够在早期阶段高效、准确地识别虚假信息的信号,有助于防止虚假信息对现代社会的负面影响,并且发现了虚假信息可以多颗星型网络的形式传播,而真实信息通常具有高耦合性且围绕一个信息来源进行广播传播[19].
在复杂网络领域中,模体是一种网络子图[20],通常由少数几个节点组合连接构成,这些模体被定义为网络中发生频率较高的节点交互子图,用以研究在时间级联拓扑结构中节点之间的交互模式.基于模体的复杂网络研究能够揭示网络的结构演化和功能特性,被广泛应用于节点重要性、链路预测等相关研究中.模体分析除了有助于深入理解复杂网络的局部结构和功能[21],也可以从微观的角度来探索社交网络的信息传播模式.Sarkar等人使用模体来描述社交网络的扩散过程及级联生命周期,并通过对模体的组合对未来短期的网络结构进行了预测[22].然而,虽然已有实验探索了社交网络和信息内容的结合,但很少有研究涉及基于模体的虚假信息传播机制与真实信息的异同,因此从社交网络的模体结构作为出发点,在揭示社交网络的虚假信息传播机制,探索影响虚假信息检测精度等方向将具有实际应用前景.
2 模体度结构特征的定义
2.1 广度模体度与深度模体度的定义
广度传播和深度传播的概念源自信息转推网络中的2种主要但独特的信息传播模式.首先,广度传播是指大量个人直接从同一社交媒体用户接收信息,信息源经过意见领袖广播发送到大量受众,因此其扩散模式类似星型网络.由于原始用户的信息大量转发,该信息迅速传播.这个过程是一个“一对多”过程,社交媒体用户会围绕一个话题迅速传播来影响大众的观点和行为[23].社交媒体上的第二种传播方式是深度传播.深度传播具有病毒性,其传播形式具有传染机制,即信息通过多代和多分支向更纵深的方向扩散[24],深度传播的典型特征体现在内容通过人与人之间“一对一”的影响而后达到了流行,其传播往往依靠人与人之间的链式感染,传播链条会更趋向于增加结构的复杂性而不是扩大广播形式.
以往研究中往往侧重于将单个节点作为信息传播过程的影响因素[25],而忽略了多节点同时产生的潜在影响.本文根据每个节点所构建的广度传播模体与深度传播模体,计算传播网络中所构成2类模体的数量和,将其作为网络广度传播特性与深度传播特性的度量,定义模体度这一网络结构特性来度量网络的广度传播与深度传播特性.本文为了能够准确地刻画上述2种方式的传播特点,分别基于2种模体识别算法[26]的定向无环三节点模体,定义了广度传播模体与深度传播模体结构.本研究选取2种三节点模体基本结构如图1所示:
Fig. 1 Motif structure of breadth and depth diffusion图1 广度传播模体结构与深度传播模体结构
图1的2类模体中,图1(a)中节点S作为信息源,将信息广播至节点T1与T2,此时S作为网络中的上级节点,T1,T2为转发节点,而在下一级传播中,T1,T2可能作为上级节点进行信息的再传播.图1(b)中信息传播遵循链式传播特征,“一对一”的层级传递使网络向纵深方向发展.在线社交网络中,广度和深度传播往往是共同存在的,因此我们基于这2类传播,提出了模体度的符号定义和解释.
定义1.广度模体度(breadth motif degree,BM).广度模体度是反映了信息传播过程中的广播效应,是星型网络结构的主要构成成分.典型扩散传播特征是由于单个有影响力的节点i所致,由节点i所能产生的广度传播模体数量即为节点广度模体度bmi,而网络中所包含的节点总数n对应的节点广度模体度bmi之和为该网络的广度模体度BM,广度模体度的取值范围为BM∈[0,(n-1)*(n-2)/2],当BM取极大值时网络结构为深度为1的完全星型拓扑结构.
(1)
定义2.深度模体度(depth motif degree,DM).深度模体度反映了信息传播过程中的深度传播效应,其中节点仅直接影响相邻的分支,深度传播模体将信息传播至网络的更深层,使网络结构的塑造更趋于复杂,节点间的距离更长.同样的,由节点i所能产生的深度传播模体数量即为节点深度模体度dmi,节点总数n对应的节点深度模体度dmi之和为该网络的深度模体度DM,取值范围为DM∈[0,n-2],DM取极大值时有2种情况:1)网络完全为链式结构网络;2)根节点只发生一次转发,而其子节点只进行信息的广度传播.
(2)
网络的广度模体度与深度模体度是传播网络的全局结构特性,该指标忽略了网络中节点本身的属性差异,只考察整个传播网络的宏观特征.
2.2 模体度的计算过程
本节将重点描述模体度的计算过程.首先构建转发关系数据集,该数据集包括源节点S以及目的节点T,然后读取数据构建单条微博级联的传播结构,对每个网络结构,遍历其包含的节点,计算以每个节点为源节点能够构成的2类有向模体数量,将其记为节点模体度,最后将所有节点模体度进行求和得到网络的广度与深度模体度.模体度算法具体流程如算法1所示:
算法1.模体度算法(G).
输入:网络G;
输出:网络广度模体度BM、深度模体度DM.
①bm←∅,dm←∅;
/*初始化节点模体度储存列表*/
② for all (v∈G.nodes) do
③node_list←∅,node_i←∅;
/*初始化节点存储列表*/
④ if (v.successors≠∅) then
⑤node_list.push(v.successors);
⑥bm.push(len(node_list)*len(node_list)-1)/2);/*计算每个节点的广度模体度*/
⑦ for all(node_j∈node_list) do
⑧ if (node_j.successors≠∅) then
⑨node_i.push(node_j.successors);
⑩ end if
/*计算每个节点的深度模体度*/
3 基于模体度的虚假信息分析与检测
3.1 实验数据说明
本研究使用Ma等人收集的基于事件的微博公开数据集[16],该数据集收集了虚假谣言和真实信息的转发传播数据.合计为4 664个微博事件源微博的完整转发数据,其中包括2 313条虚假信息微博,2 351条真实信息微博,涉及到2 746 818个用户节点、3 805 656次微博转发.虚假信息来自微博官方网站,如果微博的源用户所报道信息为虚假信息,则该微博即视为虚假信息.该数据集包括源微博id、微博上级用户id、微博转发用户id、微博发布与转发时间、以及微博文本内容等信息.为了创建级联转发网络,选择微博用户作为网络节点,去除2个节点间的重复连边只保留一次有效转发.根据用户间的转发行为构成了链式传播关系,首先提取2类数据,以获取虚假信息和真实信息的各种特征:
1) 微博上级用户.信息传播的父节点,与转发用户为传递关系,同时在网络中也标记了根源用户节点,该节点为信息散布的最初节点.
2) 微博转发用户.定向转发上级微博信息的唯一用户节点,转发用户具有传播信息、扩大源微博影响力的功能.
我们发现,由于个别微博涉及用户节点数量级庞大,传播时间较长,少数热点事件的源微博传播时间达到了2~4年,类似这种极值在信息传播过程中具有特殊性,其复杂的网络结构会对数值计算以及整体分布会造成较大影响.而对一定范围内的数据样本进行采样将具有代表性,本文也将仅讨论在相同传播范围内的微博网络虚假信息传播特征.
因此,在微博总体的4 664个事件数据中,本文将只研究用户节点数量在2 000以内的微博事件样本,最终使用数据集为2 133个虚假信息微博事件与2 213个真实信息微博事件.该样本数据占总体数据的93.4%,可以反映在一定传播范围内的普遍规律,基本不会对整体数据的分析过程造成影响.
3.2 微博网络的传播重要性指标定义
定义3.微博传播深度(depth).假设微博在传播过程中形成有向无权图,相邻节点距离为1,那么从根源用户节点到其他节点的最长距离即为该微博的传播深度.
定义4.微博传播规模(scale).微博的传播规模定义为微博传播网络中所有节点的数目之和.
定义5.结构性病毒特征(structural virality).该指标基于所有节点间的最短平均距离,其被定义为
(3)
其中,V是所有节点的集合,d(s,t)表示网络中节点s到节点t之间的最短路径长度,n表示网络中节点的数量.当结构性病毒特征趋近于2时,其网络结构趋近于完全广播的星型结构.Goel等人提出的结构性病毒传播特征,主要考察的是传播机制导致的网络结构特性[18].信息的传播能力可能不仅取决于传播规模,传播形成的网络结构复杂程度也能反映信息的病毒传播特性,结构性病毒特征可以度量传播结构的多样性与复杂性.
3.3 网络结构特征相关性分析
若一条微博的传播方式属于广度传播,通常这条微博的扩散深度较低.如果该微博的传播具有深度传播特性,该信息经过多级转发,那么该信息就具有较大的传播深度.为了探索微博网络的模体度指标的传播特性,本文计算并使用每条微博的传播深度、传播规模、结构性病毒特征等指标构建了每个微博事件传播网络的度量,并将这些指标与网络广度模体度、深度模体度进行基于皮尔逊系数的相关性分析.
根据已构建的微博传播网络,使用皮尔逊相关性系数来度量2个变量之间的线性相关程度.皮尔逊相关系数已广泛应用于聚类和特征分析中,其定义为
(4)
根据统计的虚假信息和真实信息的微博网络结构特征指标,特征相关性热力图如图2所示,相关性热力图中颜色的深浅表示对应行列元素相关性的强弱.
根据图2的结果可知,在微博传播网络结构特征中,广度模体度与微博的传播规模具有强正相关性.由于微博信息发布之后庞大的受众群体会加快信息的广播效应,微博信息会围绕一个信息源进行扩散,所以广度播模体度数值也相应增大.同时相关性分析显示,深度模体度也与传播规模和传播深度具有一定正相关关系.在全部样本数据中,随着传播规模的扩大,通常会伴随微博网络结构的复杂化,网络的深度也会随之增加.
Fig. 2 Correlation among network structure features图2 网络结构特征之间的相关性
3.4 网络结构特征分析
在图3中展示了真实信息微博与虚假信息微博中传播规模大于100的网络的互补累计分布函数(complementary cumulative distribution function, CCDF),图3中纵坐标轴CCDF反映了对应变量的概率分布,是对离散的变量中,所有大于x轴上的某一值,其出现概率的和,图中即表示传播规模及结构性病毒特征大于某一值时,对应的概率之和.我们发现相对真实信息的传播,虚假信息的传播规模可以变得非常庞大,虚假信息更容易吸引指数级的转发与传播.同样图3(b)真假信息的结构性病毒特征也明显反映了微博信息在传播过程中的巨大差异,结构性病毒特征的取值范围分布展现的差异性,也说明了真假信息的网络结构总体上具有区别明显的特征.
Fig. 3 Distribution of diffusion scale and structural virality图3 传播规模和结构性病毒特征的互补累计分布
真假信息在传播模式上产生的差异,会直观地反映在所构成的网络结构上,就结构性病毒特征而言,虚假信息比真实信息(K-S test~0.610,p-value~0)更具病毒性,且平均路径更长,在传播深度上,虚假信息的平均深度要大于真实信息(K-S test~0.438,p-value~0),同时该验证在整体微博数据集上也依然成立,具有一定的普适性.表1统计了真假信息数据的详细信息,其中数值表示虚假信息与真实信息网络结构特征的均值:
Table 1 Features of Weibo Network表1 微博网络数据统计
表1数据说明了虚假信息与真实信息网络在相同传播规模内的样本数据具有明显的差异,虚假信息网络在结构上表现出具有更深的传播深度与相对较小的传播规模,就模体度而言真实信息往往广度模体度数值更大,深度模体度小于虚假信息网络.
在信息扩散的早期,微博网络结构表现出不稳定性,虚假信息也可能形成星型结构,但在整体生命周期中,2类信息所呈现的结构特征便具有一定的差异,如表1所示.虚假信息多以更深层更复杂的网络结构传播,表现在虚假信息网络传播深度更深,可能是由于熟人之间的牢固联系导致了更多的转发,真实信息大多数更多的是围绕着一个信息源,例如大V认证用户、官方账号、政府组织等权威机构,也存在一部分非官方用户进行真实信息的散布,进而实现信息的爆发广播.可以说虚假信息更具有煽动性,会存在偏见以及不稳定性,因此与真实信息的传播方式呈现出明显差异.
当然,虚假信息的传播也涉及到新闻学、心理学与社会学范畴,其传播模式不仅仅取决于文本内容与节点信息,例如有研究发现:谣言是人们更感兴趣的且更觉得重要的话题[2].这种话题的重要性越高,虚假信息的流行度也就越广,且谣言越具戏剧性与煽动性越容易引起人们的关注.人们往往对具有戏剧性或者具有娱乐性质的信息更具偏好,多数虚假信息的内容与人们对客观事实的认知背道而驰,可能是它易吸引人们关注的原因之一.如果有人制造谣言,与大家的预期相悖,得到转发的可能性会更高,因为在参与话题讨论的过程时,往往会无意识地推进了谣言的传播,进而导致了虚假信息的泛滥蔓延.
我们观察到近似相同传播规模的微博可以具有截然不同的网络结构,为了定量分析在近似相同的传播规模内的微博网络的传播影响因素,筛选出传播规模在[99~111]区间的5条微博,构建传播层级结构,如图4所示.图4(a)与图(b)网络为真实信息微博,图4(c)~(e)等网络为虚假信息微博.根据微博网络结构分析,在近似相等的传播规模下,发现信息扩散可以完全通过广度传播来驱动,所有用户都从一个来源接收到一条消息;也可以具有较大的传播深度,信息通过多个后代和分支传播,形成较长的链式结构.
图4(a)微博网络中,信息的传播完全是由广播形式的来驱动的,该类微博多表现为认证账号发布的公共信息,例如人民日报、新华社等公共机构账号,通常只存在大量低深度转发,将信息广播扩散到所有听众,而不会触发多层级深度转发.在图4(c)~(e)等网络中,通常表现为朋友亲属之间小规模转发行为,但会伴随着多级“一对一”形式的信息传播,最终形成的微博网络会表现出较强的深度传播特性,往往会形成多个星型结构或长链式传播的复杂网络.上述网络均为所有微博网络中的特殊情况,但实际上绝大多数微博的传播过程最终会形成图4(b)与图4(c)等形式的网络结构,即2种传播模式的混合是驱动信息进行扩散的主要原因,这表明信息传播是由广度和深度传播机制的共同驱动作用的.
Fig. 4 Structure of the network at the same diffusion scale图4 有相同传播规模的网络结构
3.5 虚假信息网络模体度分布分析
由于微博生命周期不同以及信息内容的差异,最终形成的拓扑结构差异明显.为了刻画模体度分布以及模体度与传播规模的具体影响,我们分别将真假信息微博的广度模体度和深度模体度投影到二维平面,并以该投影点到坐标系原点的欧氏距离归一化作为度量网络传播重要性的指标,该指标反映了微博传播中所产生的影响力.影响力越强的内容与事件越容易得到大量转发与传播,同时广度传播与深度传播也会对微博网络结构相应产生一定影响.绘制模体度散点分布热力图如图5所示,红色实线为深度模体度的平均值,绿色实线为广度模体度的平均值.整体分布情况而言,虚假信息微博的深度模体度要高于真实信息,真实信息微博的广度模体度的平均值也要高于虚假信息.传播重要性强的网络往往是广度传播与深度传播共同作用的结果,广度传播占有主导作用.
Fig. 5 Motif degree scatter heat map图5 模体度散点热力图
为了探索虚假信息与真实信息网络传播规模的主要驱动因素的差异,以及进一步分析造成这种差异的规律,我们通过图6来反应不同信息与传播规模的关联.图中黑色实线分别为当前传播规模下级联达到星型网络和链状网络的模体取值范围的理论极大值,当广度模体度取理论极大值时,那么规模为n的网络对应的BM为(n-1)×(n-2)/2,深度模体度的理论极大值为n-2.微博网络中在相近似传播规模条件下真假信息模体度有较明显区分,真实信息中星型网络的广度模体度与对应传播规模呈线性关系.与虚假信息相对比,图6(a)中相同传播规模下真实信息的广度模体度整体上要大于虚假信息,分布更为集中,因此真实信息更多驱动于广度式的传播形式.图6(b)中虚假信息网络深度模体度相对更收敛于深度模体度极大值,而真实信息分布极为离散,这表明虚假信息网络结构受深度传播形式主导.
Fig. 6 Comparing the motif degree for false and real information图6 真假信息的模体度比较
为了更直观地观察模体度分布差异,将网络模体度进行离差标准化(min-max normalization)处理,通过将模体度缩放至[0,1]区间内,统计各模体度区间内网络所占比例,进而反映模体度分布对应真假信息的可能性.结果如图7所示,虚假信息网络的深度模体度分布较集中于数值较大的区间,相较于真实信息分布区分较为明显,相对的真实信息中广度模体度数值较大的网络也具有更大的占比,该结果也进一步说明了在微博平台上,虚假信息网络的深度模体度相对较大.结合深度模体度定义分析,如果一个网络的深度模体度越趋近其理论极大值,那么该网络所对应内容为虚假信息的可能性也更大.这也揭示了虚假信息网络结构较复杂,而真实信息网络表现出更稳定的结构布局,单传播源的广度传播占据整个传播过程的主导作用.
Fig. 7 Motif degree distribution of false and real information network图7 虚假信息与真实信息网络模体度分布
3.6 基于模体度的虚假信息检测
目前基于内容的微博虚假信息检测方法主要是从文本信息、用户属性以及时序特征的角度,通过识别推文文本特征、用户属性以及时间变化趋势,使用机器学习及深度学习分类算法,进行谣言检测.这些方法通常具有较高分类准确精度,但是忽略了网络结构特征在虚假信息网络检测时的作用.Zhao等人提出的结构异质性特征(structural heterogeneity)是一种基于网络结构的度量方法,该指标反映了传播网络与其大小相同的星型网络之间的差异,且该方法未知类型的微博网络在相对较短的转发时间内,具有相对较高的识别精度[19].
本文提取微博传播网络的模体度特征,基于XGBoost模型构建有监督分类模型对真假信息进行分类.XGBoost模型是基于特征选择法的封装法,通过训练分类器模型,可以根据分类器的性能对特征进行评价[27].研究中将基于广度与深度模体度特征的检测方法,与基于结构异质性特征的检测方法以及结构性病毒特征做对比,对微博信息数据的完整生命周期(第1次转发到最近1次转发)和信息发布的前3 h进行特征计算,使用准确率Accuracy指标比较3种基于网络结构特征以及融合3种网络结构特征的虚假信息分类准确率.结果如表2所示,发现基于模体度特征的虚假信息检测方法,相对于结构异质性特征和结构性病毒特征,在微博网络的完整生命周期以及传播早期均具有更高的分类准确率.并且融合3种网络结构特征后,模型预测准确率得到进一步提升.
Table 2 Detection Accuracy of Weibo False Information表2 微博虚假信息检测准确率
为了进一步验证在更多社交媒体平台虚假信息传播网络数据中,使用基于模体度的结构特征进行虚假信息检测的有效性与泛用性,实验使用基于Ma等人发布的2个Twitter公开数据集:Twitter15和Twitter16.该数据集将谣言数据细分为4种类型[28],并根据Twitter谣言信息的转发关系以及时序先后,可构建级联传播树,该数据集统计汇总如表3所示:
Table 3 Statistics of Twitter Datasets表3 Twitter数据集统计
我们将Twitter15与Twitter16数据进行预处理后合并,使用全部的2 308条Twitter,采用与微博数据相同的特征提取方法,进行了基于XGBoost多分类模型的Twitter虚假信息的检测准确率对比.表4汇总了4分类的结果,同样在基于3种网络结构特征的分类准确率对比中,模体度特征具有更好的识别精度,并且融合的网络结构特征可以更有效地进行Twitter网络的虚假信息检测.
Table 4 Detection Accuracy of Twitter False Information表4 Twitter虚假信息检测准确率
基于微博与Twitter平台的研究结果表明,即使不构建文本特征、用户属性特征与时序特征,基于网络结构特征也可以得到较高的虚假信息检测准确率,并能够在信息传播的早期实现对虚假信息的检测.由于Twitter数据数量较少,且网络结构呈现出较小的差异,基于网络结构特征虚假信息检测准确率相对较低,但基于模体度特征的分类检测仍具有一定的参考价值.
4 总结和未来工作
本文提出了一种基于模体度的社交媒体虚假信息检测方法,对微博传播网络中的热点事件进行了基于广度模体度与深度模体度构建的二维模体度量化.通过对模体度重要性指和其他经典网络结构特征之间的相关性分析,发现基于模体度重要性指标的计算方法是对传统网络结构影响力指标的一种改进与拓展.模体度细致刻画了真假信息的网络结构特性,可用于分析微博网络中虚假信息的传播机制.
微博平台的真假信息传播机制差异明显,真实信息更趋近于广度传播,而虚假信息网络结构更为复杂.基于模体度的虚假信息检测方法可有效地区分真假信息,并可以根据早期网络结构特征实现对微博虚假信息的分类.而由于Twitter平台数据量较少以及网络结构差异相对不明显等原因,网络结构特征的检测准确率相对较低,但基于模体度特征的研究在未来的虚假信息传播工作中仍将具有一定的参考价值.需要注意的是,信息早期传播结构的不稳定性会增加虚假信息检测的难度,并且考虑到虚假信息内容的复杂性与多样性,未来基于模体度结构特征与文本信息相结合将可能构建出一个更具鲁棒性的虚假信息检测框架.此外,基于模体度特征对微博平台之外的社交媒体信息传播进行分析也具有广泛的应用前景.