基于复杂网络的在线社交网络特征与谣言抑制
2017-11-28田伯凯岳跃振
田伯凯 岳跃振
摘 要:电子信息技术的发展与互联网的普及,促进了信息的快速传播。虚拟网络舆论相对于传统媒介而言,更广泛地提高舆论社交普遍性、快速性、监督性的最大值。然而,在网络舆论日益凸显其监督的正面性的同时,一些异化现象假借正面性来行使其负面效能。鉴于在线社交网络具备许多的复杂网络特性,而用户的线下社交网络与虚拟世界社交网络表现出高度相关性。线上行为的可记录、易计算等特性使得对虚假网络舆论的传播预测成为可能。文章在总结复杂网络结构的特征指标和传统传染病传播模型的基础上,综述了近年来用户的在线社交网络和信息传播规律的相关研究,指出了社交网络研究面临的挑战,然后分析了谣言抑制算法在当前社交网络中的可能应用模式,最后展望了该领域需要解决的关键问题以及可能的应用前景。
关键词:复杂网络;网络结构;社交网络;信息传播;传染病模型
DOI:10.16640/j.cnki.37-1222/t.2017.23.225
1 引言
近年来,旨在架起信息技术与社会科学之间的桥梁的社会计算研究领域开始得到广泛的关注,特别是社交网络(如Facebook,Twitter,新浪微博和微信等)的盛行,给人们的社会交往方式带来了新的变革,社交网络拥有改变人类进行交流、通信和合作方式的巨大潜力,甚至能够影响到我们对自身和社会的认识。一方面,社交网络逐渐渗透到人们生活的方方面面,人们借助社交网络平台联络朋友,发表观点,讨论公共话题等,社交网络成为了现实社会的延伸。另一方面,随着社交网络的不断完善以及对人们生活渗透作用的增大,当量变引起质变的时候,社交网络也可以看作是对现实社会关系网络的重建。这种重建的社交模式既平行于现实社会,又与现实社会紧密相连,由于在社交网络中个体的行为和状态更容易被记录、获取和分析,有利于发现网络中各用户之间的作用机制及信息传播机理,因此对社交网络的结构特性的分析研究成为了社会计算领域的重要研究内容。
但随着越来越多的人喜欢在社交平台上交流互动,同时也热衷于从社交平台中获取信息并进行转发评论。而这些信息中,一些未经求证的谣言泛滥成灾,因此而造成的恶意事件也逐渐增多,影响和干扰着人们正常的生活秩序。谣言在社交网络中的肆意传播,严重影响到社会稳定、经济发展,有效地控制社交网络中信息的传播具有重要意义。
把复杂网络理论与谣言控制的迫切需要相结合,关键的技术是根据社交网络的数据对用户群体的关键节点既舆论领袖进行分析和预测,同时把节点信息广泛应用到社会计算的其他领域,这对于网络谣言的控制有着巨大的价值。
本文第2节介绍识别社交网络中舆论领袖的标准与方法,并论述社交网络分析的理论基础;第3节分析谣言传播模型,以及综合分析其与传统传染病模型的异同;第4节从数据获取,社交网络建模和传播模型几方面综述近几年对社交网络谣言抑制所做的研究;第5节对谣言抑制算法在社交网络中的可能应用进行了讨论;第6节对整篇综述内容进行了总结,并对未来的研究和应用进行了展望。
2 舆论领袖节点的识别
获取合适的数据并建立相应的复杂网络模型,是实现社交网络舆论领袖节点识别的首要前提。本节重点介绍实证数据的获取与分析,复杂网络的建模标准,以及通过亲密度判断舆论领袖节点的方法。
2.1 数据的获取与处理
截止2016年6月,新浪微博的月活跃用户量为2.82亿,其数据适合用于研究社交网络。在数据获取的过程中,采取“滚雪球”的方法[1],将同一行业或相关行业的的人群建立用户组。根据每个节点“关注”与“被关注”的情况,建立二值矩阵P,矩阵“行”代表关注者,“列”代表被关注者。Pij=1表示i用户关注了j用户,反之则为未关注。根据节点间互相关注的情况,文献[1]将现有有向网络分解为入度网络,出度网络和无向网络。
2.2 数据分析
分析一个节点的重要性不能只考虑其参与网络的总水平而不考虑与其相连的的邻居节点所具有的重要性对其影响的数量。基于此考虑,引入了度中心性,紧密度中心性,K-Shell,介数中心性,特征向量中心性5个参数。这5 种指标通常均应用于衡量节点在网络中的重要程度。但这几种参数各有长处和不足
介数中心性与度中心性以及紧密度中心性相比能够更准确地识别出关键节点,并且适用于更广泛的网络应用场景。K-shell方法需要对网络中的所有节点进行一遍一遍的脱壳处理,过程慢且识别出的节点是粗粒度的,相比介数中心性准确度较低。介数中心性在识别邻接矩阵不对称的网络模型时,较特征向量中心性更具有优势。由于在社交网络中用户之间的关系具有有向性,所以基于介数中心性识别舆论领袖节点更为合理。
2.3 基于节点亲密度的谣言抑制方法
在社交网络中信息传播的过程中,用户节点通常会受到朋友节点的影响。Bakshy[2]以及Onnela [3]通过实验证实了这种说法,并得出信息通过用户节点间的链路进行传播的结论,即熟人传播,因此社交网络展现了“口碑效应”的影响。具体分析时在社交网络中引入了亲密度的概念,并衡量不相邻节点之间的影响力大小,利用在介数中心性算法的基础上实现舆论领袖节点的识别,并通过对网络中与邻居节点均具有较高的亲密度的节点进行谣言的控制,都会达到较好的效果。
分析节点间的亲密度可以从3个方面入手:(1)交互频率;(2)交互类型;(3)节点间跳数。
在结合节点之间的交互频率、好友类型和跳数时延三方面综合量化之后,得到最终的节点之间亲密度评估方法。因为在计算网络拓扑中最短路径时,链路上的权值越小表示路径越短,所以將节点间的亲密度量化结果也表示为值越小则亲密度越高。根据介数中心性的大小识别舆论领袖节点,增加了对网络图加边和更新权值的过程,这个过程的时间复杂度是随着节点的增多线性增加的,对每个节点及其邻居节点进行一遍计算。所以整个基于亲密度的舆论领袖节点识别算法的时间复杂度是在Brande算法的基础上加上更新过程的时间复杂度。endprint
3 谣言传播模型
3.1 SIR 模型
在经典的SIR 传染病模型中,将节点状态分为易感染状态(susceptible)、感染状态和治愈状态(recovered)。社交网络中除传染源之外的节点初始状态均为易感染状态。当处于易感染状态的节点接触到感染节点后以一定的概率变为感染状态。当处于感染状态的节点在接触到易感染状态的节点时,又会以一定的概率将其感染。但当处于感染状态的节点以一定的概率被治愈后,将处于治愈状态,并具有免疫能力,不会再被感染。主要的节点状态转化过程如图2 所示。
该传播模型在传染病传播过程中得到广泛应用。适用于当个体感染到病毒后都有成为病原体的机会,并且成为病原体的个体康复后则具有永久免疫能力的情况。
3.2 传染病模型改进
通过向社交网络中的舆论领袖节点注入真相从而控制社交网络中谣言的传播。因此在这一部分将社交网络中节点传播的状态进一步细化,其中包含了当节点接收到真相后的各种状态:
(1)易感染状态;(2)感染状态;(3) 治愈状态;(4)免疫状态(defended)。
通过上述对抑制谣言过程中节点状态的分类,总结社交网络中节点状态变化过程,如图3所示。上述过程在SIR 模型的基础上增加了免疫状态,更形象地描述了社交网络中的节点直接相信真相的过程。
3.3 分析结论
基于上述的传染病改进模型,结合亲密度的概念可知社交网络中处于免疫状态的节点与其邻居节点之间的亲密度越大,则处于免疫状态的节点传播的真相信息更容易被其邻居节点接受,从而使真相能够在整个网络中迅速传播,进而达到快速控制谣言的目的。
4 社交网络中的谣言抑制
早期研究人员对社交网络的研究局限于单一节点参与网络的总水平,而忽视了其相邻节点的重要性对其影响的数量。同时因为缺乏体现社交网络中节点影响力的量化标准,使得对社交网络的认识存在局限性。
鉴于复杂网络理论中已有的度中心性,紧密度中心性,K-Shell,介数中心性,特征向量中心性等参数可以反映复杂网络中节点的重要性,那么利用这一理论对社交网络中的舆论领袖进行预测也应该具有可行性。
已有的研究表明,目前的大部分网络谣言的传播规律与传统传染病模型有一定的相似度。通过仲天键等人的研究,现在我们掌握了一种与社交网络谣言传播规律对应的传染病改进模型。根据此模型结合亲密度的概念,可以得到控制社交网络中谣言传播的一般规则,既处于免疫状态的节点传播的真相信息更容易被其邻居节点接受,从而使真相能够在整个网络中迅速传播,进而达到快速控制谣言的目的。
5 谣言抑制在社交网络中的应用模式
一方面,现有的人类社群大致可分为线下组织,线上组织,线下组织在线上的延伸和线上组织在线下的延伸四类。而谣言抑制是基于对社交网络中的舆论领袖节点的识别实现的。在未来应用中,可以尝试通过以上社群在线上的交流实现对社群中舆论领袖的识别,因而这一技术可以使有关部门在反恐、维护国家安全等方面取得新的优势。
另一方面,因为谣言的抑制是通过对社交网络中舆论领袖节点注入真相实现。但舆论领袖的作用并不限于在谣言传播时宣扬真相。通过对舆论领袖节点的识别可以对一个社交网络中的信息流通有所把握,而与舆论领袖节点合作则可以引导社交网络中的信息流通。因此这项技术在当今的商业推广中也可以发挥相当大的作用。
6 展望
社交网络谣言抑制可以使得大范围控制言论传播成为了可能,而社交网络人格预测使得人格信息对大规模应用和学术研究成为了可能。当前社交网络的大部分研究都涉及到对用户行为及属性的分析和预测.例如,对商品的个性化推荐是预测用户潜在的购买行为、对广告的个性化推荐是预测用户的点击行为、影响力建模是评价用户的影响力属性、社区发现是按照某种属性对用户个体进行聚类等。
社交网络的人格预测与谣言抑制均属于社会计算领域。因此我认为在未来发展中,谣言抑制算法应该实现与用户人格预测技术的结合。单一的谣言抑制使管理者永远处于被动的状态,而二者相结合将能够通过用户人格预测实现谣言易感人群和谣言产生人群的定位,必将大大提高谣言控制的效率。另一方面,对用户言论类型的记录可以进一步扩充人格预测的数据基础。二者的结合应用将比单纯的谣言抑制更有发展前景。
参考文献:
[1]雷宏振,贾悦婷.基于复杂网络的在线社交网络特征与传播动力学分析[J].统计与决策,2015(02):114-117.
[2]曹坤宇.基于亲密度及影响力的微博社交興趣圈挖掘算法研究[D].天津大学,2013.
[3]仲天键,兰国兴.一种基于改进SIR的网络谣言传播模型研究[J]. 信息与电脑,2015(24).
作者简介:田伯凯(1995-),河北人,本科在读,研究方向:经济管理。endprint