社交网络基于意见领袖的谣言抑制方案
2023-01-05陈雄逸张欣欣尤玮婧
陈雄逸 许 力 张欣欣 尤玮婧
(福建师范大学计算机与网络空间安全学院 福州 350108)
随着移动智能设备的快速发展,互联网由传统媒体向社交网络等新型媒体演进,代表性的社交网络产品如:Facebook、微信和微博,日活已经分别达到了19.68亿、6亿多和2.53亿.信息数据不断由社交网络中大量的用户产生,并在社交网络中发挥着巨大的作用.在2012年的美国大选中,奥巴马充分利用社交网络发布竞选信息,最终赢得了大选[1].因此,信息内容具有重要价值,亟待有效保护.
在社交网络中,一些恶意用户产生并传播的恶意内容是网络中信息内容安全面临的重要潜在威胁[2].谣言信息是带有不良目的、凭空捏造的虚假信息[3],即网络中恶意用户产生并传播的恶意内容.由于社交网络具有结构复杂性、群体的大规模性以及信息产生的海量性、快速性、难以追溯等特点[4].攻击者可以便捷且低成本地发送大量的谣言信息.大量的谣言信息充斥着整个社交网络,和正确信息相互竞争以取得用户的信任.但谣言比正确信息传播得更远、更快、更深、更广,病毒性很强[5].如果对于谣言信息的传播不加干预,将导致谣言信息在社交网络中泛滥成灾,这不仅会误导用户的观点和行为,甚至会对政治、经济和社会的安全稳定产生严重的威胁[6].例如,2019年出现的新冠肺炎疫情发展至今,已经构成了全球性“大流行”,与之相伴的则是信息瘟疫的到来,大量谣言在社交媒体平台上衍生并广泛传播,这些谣言不仅严重危害到公众的生命安全,同时给社会带来了极大的恐慌和不稳定因素[7].因此,如何在社交网络中有效地抑制谣言信息的传播以保护社交网络中的信息内容安全十分重要.
目前,抑制谣言的方法分为2种:基于信息源头的谣言抑制方法[8]和基于传播路径的谣言抑制方法[9].后者又分为基于阻隔和基于澄清的2种谣言抑制策略.基于阻隔的谣言抑制策略是通过阻隔社交网络中散播谣言的用户和谣言传播的路径实现的.虽然该方法能够显著抑制谣言传播,但由于阻隔时会破坏社交网络的结构,网络中正常信息的传播也会受到严重影响,这大大降低了网络中用户的体验感,会导致社交网络中的用户大量流失.因此,在实际应用中通常采用基于澄清的谣言抑制策略,通过在社交网络中传播正确信息以抑制谣言信息的传播.这由He等人[10]首次提出并总结为影响阻塞最大化问题:在社交网络中找到1组种子节点,并通过这组种子节点传播正确信息澄清谣言,最后使得网络中接受谣言信息的节点数量达到最少.
在基于澄清的谣言抑制策略的研究过程中,Chen等人[11]提出了MIA算法,利用贪心算法和蒙特卡罗模拟,迭代选取每轮中谣言抑制效果最好的节点加入种子节点集合中.Arazkhani等人[12]提出了基于节点中心性指标的算法,以找到1组合适节点抑制谣言传播,相比于Chen等人[11]提出的贪心算法,该算法的时间成本大大降低.Lv等人[13]提出了基于社团的算法,首先对社交网络的结构进行社团划分,接着根据每个社团内谣言节点的数量确定对应的种子节点数量k,最后找到对应社团内影响力前k的节点加入种子节点集合中,从而解决了影响力局部扩散的问题.Tong等人[14]提出了一种近似算法,利用采样的方法替代贪心算法,在保证算法性能的同时降低了算法的时间成本.以上方法只考虑了社交网络的结构属性,但社交网络是由用户之间的交互形成的,以上方法没有考虑到用户的社交属性.其次,以上方法在进行仿真实验时采用的是IC[15]和LT[15]传播模型,这2种模型仅考虑到单实体传播的情况,但在现实中往往是多种不同的观点在社交网络中同时传播,并且观点之间相互竞争以取得用户的信任,采用IC和LT传播模型不能准确地模拟现实传播情况.
针对目前研究存在的不足,本文提出一种基于意见领袖的谣言抑制算法,不仅考虑了社交网络的结构属性,而且考虑了用户的社交属性,识别出对于网络中信息传播起到主要作用的意见领袖,并采用多实体的竞争性独立级联模型(multi-entity competitive independent cascade, MCIC)[16]进行仿真实验:本文首先从社交网络的结构属性出发,基于支配集找到网络中的关键用户作为网络中意见领袖候选集;接着结合用户的社交属性,提出了用户影响力计算公式识别网络中的意见领袖群体;最后利用MCIC传播模型模拟现实中多实体竞争的传播场景,并在真实数据集下与其他谣言抑制算法进行对比.实验结果证明本文方案在合理的时间成本下能够起到更好的谣言抑制效果,并且随着网络中谣言数量的增加对于谣言的抑制效果呈上升趋势.
1 基于意见领袖的谣言抑制算法
为了在社交网络中尽可能广泛传播正确信息以抑制谣言传播,本文提出基于意见领袖的谣言抑制算法,通过选取对网络中信息传播起主要作用的意见领袖抑制谣言传播.本文方案首先利用社交网络的结构属性找到网络中的意见领袖候选集,接着利用用户的社交属性定义了用户影响力计算公式,并对候选集用户按照影响力大小进行降序排序,最后选择前k个用户作为意见领袖传播正确信息.
1.1 意见领袖
社交网络中的意见领袖可以抽象表示为网络中影响力前k的用户集合.他们在社交网络的信息传播过程中产生巨大的作用,其发表的言论、持有的态度等一系列行为和后续影响力可以通过用户之间的链接关系产生逐层裂变式扩散,这种扩散效果促使意见领袖对于预测信息传播状态、监督和引导舆论以及影响网络信息扩散趋势起着极其关键的作用[17].用户的影响力定义为个体在与他人或群体的互动中,导致自身的思想、感觉、态度或行为发生变化的现象[18].因此,可以通过用户影响力找到社交网络中的意见领袖.在社交网络中,人与人之间的联系可以抽象成一张有向无环图G(V,E),图中的节点集合V代表社交网络中的全体用户,图中的边集合E代表社交网络中用户之间的关系.节点v的影响力可以抽象表示为相信节点v所传播观点的节点数量.本文通过计算用户的影响力找到排名前k个用户作为社交网络中的意见领袖.
1.2 结构属性
社交网络可以称为行动者之间连接而成的关系结构[19].因此,从结构属性出发可以快速找到网络中与其他用户联系紧密的关键用户群体作为网络中意见领袖的候选集,避免对于网络中大量普通用户的影响力计算.
在社交网络中的关键用户,如政府部门、权威机构等,这类用户的影响力可以触达网络中的每个角落.在图中可以表示为关键用户的节点集合与网络中剩余节点都存在至少1条连边,这与图论中支配集的定义相似.因此,本文将网络中的关键用户用支配集表示.
定义1.在图论中,支配集DS(dominating set)指的是在图G(V,E)中,对于集合DS的补集S中的任意一个节点,其邻居集合中至少有1个节点属于集合DS.
如图1所示,灰色填充的节点集合{4,6}为该图的1个支配集,剩余节点的邻居节点集合中都至少有1个节点属于支配集.
图1 支配集示例
1.3 社交属性
社交网络中的关键用户节点对于网络中的剩余节点具有控制作用,但每个关键用户的影响力大小并不相同,如同为微博关键用户的微博大V和小V,显然大V更适合作为意见领袖.由于社交网络是通过用户之间的交互而形成的网络结构,因此可以通过节点的社交属性衡量关键节点的影响力,进而找到网络的意见领袖.在影响节点信息传播范围的社交属性中,本文主要考虑节点的朋友数量和朋友关系这2个属性,其中前者主要影响该节点所传播信息能够触达到的节点数量,后者主要影响收到信息的节点接受并转发信息的意愿.结合以上2个属性,本文提出用户影响力计算公式以计算意见领袖候选集节点的影响力,并通过选取影响力最高的1组节点,找到社交网络中的意见领袖.
根据Christakis等人[20]提出的3度影响力原则:社交中相距3度之内是强连接,强连接可以引发行为.因此,社交网络中对于与某一节点的距离在3度范围内的所有节点,该节点有机会影响其对于谣言的态度.但信息在传递的过程中存在损耗,通过蒙特卡罗模拟可以排除信息损耗的干扰,计算出该节点可影响的节点数量.因此,定义节点的影响集节点数量|N3(u)|如定义2所示.
定义2.节点u的影响集节点数量|N3(u)|.在给定的社交网络G(V,E)中,对于节点u∈V进行多次蒙特卡罗模拟.|N3(u)|指的是被该节点成功激活,并且位于该节点3跳范围内的节点数量的平均值.
节点u的影响集节点数量衡量了该节点所传播的信息可影响到的节点数量.节点u的影响集节点数量越多,该节点的影响力越大.
社交网络中不同节点的影响集可能存在重叠的部分,为了准确区分候选集中每个节点的影响力大小,并找到影响力最大的节点集合作为意见领袖,本文在定义2的基础上定义了邻居数量.
定义3.邻居数量NN(neighbor numbers).在给定的社交网络G(V,E)中,对于任意节点u∈V,指的是根据算法1剔除全体候选集节点的重叠影响力后,节点u的影响集的节点数量(下文中如无特别说明,节点的邻居仍指在给定的图G(V,E)中与节点存在连边的节点集合).
算法1.剔除节点重叠影响力算法.
输入:全体候选集节点的影响集{N3(u1),N3(u2),…};
输出:剔除影响力重叠部分后的全体候选集节点的影响集{N3(u1),N3(u2),…}.
① 按照节点影响集中的节点数量对候选集中的全部节点进行降序排序;
② FOR 对于每个节点u
③ FOR 对于每个排名在节点u之前的节
点v
④ 节点u删除自身影响集中与节点v的影响集重复的全部节点;
⑤ END FOR
⑥ END FOR
在社交网络中,处于某一节点的影响集中的节点虽然能够收到来自该节点传播的信息,但并不会因此简单地接受该节点的信息,这是由于这2个节点之间可能是弱联系.Bakshy等人[21]通过实验证明了这种说法,并且发现在社交网络中如果信息通过熟人进行传播更容易扩散,即2个节点间关系越亲密,节点越容易接受对方的信息并转发.在社交网络中,如果2个节点的社交圈重合度越高,即2个节点的共同好友数量越多,那么这2个节点之间越有可能产生更多的交集,进而拥有更亲密的关系,由其中一个节点传播的信息也就越容易被另一个节点接受并转发.因此本文通过节点相似度定义节点的邻居关系.
定义4.节点相似度.在给定的社交网络G(V,E)中存在连边的节点u和节点v,节点u和节点v的节点相似度表示为2个节点共有的邻居数量与总邻居数量的比值:
(1)
N(u)和N(v)分别表示节点u和节点v的邻居节点.
定义5.邻居关系NR(neighbor relationship).在给定的社交网络G(V,E)中,对于任意节点u∈V,该节点的邻居关系NR(u)指的是节点u和所有与其存在连边的节点v的节点相似度NR(u,v)之和与该节点邻居数量|N(u)|的比值:
(2)
邻居关系衡量了节点与其邻居节点关系的亲密程度.邻居关系的值越大,节点与邻居节点关系越亲密,节点的观点越容易被邻居节点接受.
依据定义3邻居数量和定义5邻居关系,本文提出用户影响力计算公式LI(local influence):
LI(u)=pNN(u)+(1-p)NR(u).
(3)
根据式(3),本文计算社交网络中的每个意见领袖候选集节点的影响力大小,以此识别出前k个节点作为社交网络中的意见领袖节点.
1.4 基于意见领袖的谣言抑制算法
基于1.2节中网络的结构属性和1.3节中节点的社交属性,本文提出了基于意见领袖的谣言抑制算法,流程如算法2所示:
算法2.基于意见领袖的谣言抑制算法.
输入:社交网络G(V,E);
输出:社交网络意见领袖节点集合.
① FOR 任意子集D∈V
② IF 任意节点u∈VD且至少存在一个节点v∈N(u)&&v∈DTHEN
③ 子集D是网络关键节点集合;
④ END IF
⑤ END FOR
⑥ FOR 对于每个节点u∈D,计算LI(u),并按照计算结果降序排列 DO
⑦ 识别前k个节点作为社交网络意见领袖节点;
⑧ END FOR
算法2展示了基于意见领袖的谣言抑制算法的详细的流程:首先,根据支配集的定义找出网络关键节点集合作为网络中意见领袖的候选集;接着,根据用户影响力计算公式分别计算出候选集中每个节点的影响力,并按照计算结果对节点进行降序排列;最后,选取前k个节点作为社交网络中的意见领袖.
2 实验结果与分析
本文方案采用基于澄清的谣言抑制策略,通过主动传播正确信息的方式以抑制谣言的传播,因此仿真实验采用MCIC传播模型能够有效地刻画出社交网络中的影响力节点主动识别谣言后传播正确信息澄清谣言,以及之后网络中的正确信息和谣言信息相互竞争,以取得用户信任的过程.实验通过算法2选取网络中的意见领袖节点作为MCIC模型中的正向节点,识别谣言并传播正确信息以抑制谣言传播,最后对实验结果进行分析并与经典谣言抑制算法的实验结果进行对比.
2.1 竞争性独立级联模型MCIC
如图2所示,在MCIC传播模型中,每个节点有3个状态:正向、中立和负向,分别对应着社交网络中用户相信正确信息、中立和相信谣言信息的3种状态,并分为激活和非激活2种情况.模型随机选取1组节点作为网络中初始的负向节点,将其激活以传播谣言,同时选取1组节点作为网络中初始的正向节点.正向节点可以主动识别谣言,在其邻居节点变为负向状态时被激活,并主动向网络中传播正确信息以抑制谣言.在模型中,正向和负向节点可以多次向中立的邻居节点发送信息尝试将其激活.当网络中同时存在正确信息和谣言信息时,2类信息会以不同概率通过独立级联模型进行传播并相互竞争.当节点变为正向状态后,该节点在这次舆论事件中会一直保持该状态,对应现实中用户一旦被辟谣,便会对谣言信息具有免疫力,不再相信谣言.当网络中不再有节点状态发生改变时,传播停止.
图2 MCIC模型中节点状态转化
2.2 仿真实验
本文实验的环境配置为Windows10操作系统、16 GB内存、Intel®CoreTMi5-7300HQ CPU、Python3.8.11.实验数据来自于网络公开数据集(https://networkrepository.com/index.php),其中,Facebook Network是从Facebook中提取的基于用户关系的4个大小不同的社交网络,Social Network是从2个不同规模的网络社区中提取的基于用户的社交关系的社交网络.表1示出本文实验数据集的具体信息,其中节点代表社交网络中的用户,边代表网络中不同用户间的友好关系.
表1 实验数据集属性
图3 不同方案谣言抑制效果对比
图3所示为在上述6个真实网络的数据集中,本文方案与RNR[22],IMRank[23],Degree[15]和PageRanK[24]这4种方案对于谣言信息的抑制效果.图中的横坐标表示信息传播的时间间隔t,纵坐标表示谣言信息的数量,图中折线展示随着时间的不断增加,网络中谣言信息数量相应的变化过程.
图4 网络中不同初始谣言数量的谣言抑制效果
从图3可以看出,在网络规模从1 400~7 000的6个真实网络中,本文方案(DS)在MCIC传播模型下都能控制网络中最终的谣言数量达到比另外4种方案更低的效果.其中,在Social Network sochamsterster网络中本文方案的抑制效果最为明显,该网络的节点数为2 426,边数为16 630,平均度为13,网络的规模较小,且网络中节点之间的联系较为稀疏.对于该网络,从图3(b)可以看出,本文方案(DS)在MCIC传播模型下,从时刻t=0开始,网络中的谣言数量先是缓慢增加.到时刻t=4时,由本文方案选出的初始正向节点开始展现出明显的谣言抑制效果,网络中谣言的数量开始较为迅速地下降.从时刻t=8时开始,直至网络中谣言的数量趋于稳定,本文方案抑制谣言的效果都显著优于其他4种方案.
图4所示为上述6个真实社交网络中,在保持网络中初始正向节点数量不变的情况下,随着网络中初始谣言数量的增加,本文方案挑选的初始正向节点在MCIC传播模型下对于网络谣言信息的抑制效果.图中的横坐标表示网络中初始存在的谣言数量,纵坐标表示网络中谣言数量收敛时谣言数量占初始谣言数量的比例,即最终的谣言抑制效果.为了使实验更具有一般性,本文实验将初始的正向节点和谣言数量都设置为网络节点数量的5%,并且横坐标上初始谣言的增加值也是网络节点数量的5%.为了使实验符合现实情况,本文实验设置网络中初始的谣言数量不超过网络节点数量的一半.从图4可以看出,本文方案在6个真实社交网络中,随着网络中初始谣言数量的增加,网络中最终谣言的数量呈现下降的趋势,并且在此过程中平均有5%的降幅.
上述的实验表明本文方案在MCIC模型下,可以控制网络中谣言数量最终收敛时比其他方案更低,并且随着网络中初始谣言数量的增加,本文方案的谣言抑制效果有比较明显的提升.这说明,本文方案在社交网络中能够有效地抑制网络中的谣言,并且对于网络中谣言信息数量更多的情形能够达到更好的效果.但在实际的舆论控制中应用时,不仅需要考虑抑制谣言的效果,同时也需要考虑方案的时间成本.
在表2中,本文方案与RNR[22],IMRank[23],Degree[15]和PageRanK[24]]这4种方案的时间成本进行了比较,表中的数值单位是s.表2的行展示不同的方案,表2的列展示不同的网络.从表2可以看出,RNR,Degree和PageRank方案的平均时间成本最低,在1 s的量级上;本文方案的平均时间成本相较于前3个方案略高,在10 s的量级上;而IMRank的平均时间成本最高,在1 000 s的量级上.由于本文方案考虑了节点的社交属性,能起到更好的谣言抑制效果,因此相较于RNR,Degree和PageRank方案稍高的时间成本是合理的.
表2 算法时间分析 s
3 总 结
本文综合考虑了社交网络的结构属性和节点的社交属性,采用多实体的竞争性独立级联模型,提出一种基于意见领袖的谣言抑制算法.首先基于支配集找到社交网络中的关键节点作为网络中意见领袖候选集,接着结合节点的社交属性,进一步找到候选集中影响力最大的1组节点作为意见领袖.实验结果证明,本文方案选取的意见领袖能够有效地抑制社交网络中的谣言信息数量,并且对于网络中谣言信息数量更多的情况有更好的谣言抑制效果.