APP下载

基于区块链的网络谣言甄别模型及仿真研究

2021-03-15王晰巍韦雅楠

情报学报 2021年2期
关键词:挖矿谣言舆情

王晰巍,张 柳,黄 博,韦雅楠

(1. 吉林大学管理学院,长春 130022;2. 吉林大学大数据管理研究中心,长春 130022;3. 吉林大学国家发展与安全研究院,长春 130022;4. 吉林大学计算机科学与技术学院,长春 130022)

1 引 言

根据2019 年全球数字报告显示,全球有超过43.9 亿人在使用互联网。其中,社交媒体的使用持续快速增长,全球社交媒体用户数量在2019 年初已增长到近35 亿人,截至2019 年7 月9 日,新增用户2.88 亿人,全球渗透率高达45%,并且32.6 亿用户通过移动设备来使用社交媒体平台[1]。随着Web 2.0的出现,社交网络已经成为互联网信息传播的重要媒介。社交网络源自网络社交,是一个能够相互交流、相互沟通和相互参与的互动平台,可以为大众提供娱乐、休闲、生活服务,并进行信息分享和交流的网络平台[2]。由于社交媒体这种自由宽松的网络空间,使得网络上的谣言也层出不穷,严重危害社会以及网络秩序的稳定。因此,网络谣言的甄别和治理成为当前舆情管理部门及学者们关注的新问题。

近几年国内外学者展开了网络谣言方面的研究。Liu 等[3]通过观察社交媒体环境中用户的特性及谣言在社交媒体中的传播模式来区分谣言与非谣言;Zubiaga 等[4]使用自然语言处理和数据挖掘技术,提出一个由谣言检测、跟踪、分类等组成的谣言分类系统,并对解决谣言提出建议;Moin 等[5]设计了基于Facebook 话题评论数据的谣言检测模型,并通过实验分析对比机器学习在识别谣言监测的优越性。洪小娟等[6]以2013 年食品安全微博谣言为实证研究对象,运用社会网络分析方法研究了微博谣言的网络结构特征;邓胜利等[7]从用户信任视角构建了网络谣言预测模型,并分析了用户信任对网络谣言生产与传播的影响;兰月新等[8]构建了网络谣言传播主体演化模型,运用定性分析的方法分析了突发事件网络谣言传播机理。从国内外学者的研究现状来看,现有的相关研究主要分为两类:一类是利用社交网络的图结构,以复杂网络分析为理论基础,研究网络谣言的传播模式;另一类是利用自然语言处理的相关技术,以用户的评论信息作为数据基础,实现基于内容的谣言识别。然而,目前尚未有研究尝试运用区块链技术实现社交网络结构的重构,并基于评论信息进行谣言的甄别。

本文试图解决以下三个方面的研究问题:①如何基于区块链技术对社交网络结构进行重构?②如何运用区块链技术对网络谣言的发布者进行追溯?③怎样基于评论信息对网络谣言进行甄别?因此,本文基于区块链构建网络谣言甄别模型,以新浪微博中“塑料大米”作为研究对象进行仿真研究,验证模型的有效性与优越性。本文的理论贡献在于运用区块链技术重构社交网络结构,基于评论信息进行网络谣言的甄别,并提供一种去中心化的可信任机制。在实践中,这种基于区块链的谣言验证方式,提供了一种基于工作量证明机制的谣言甄别方法,使得网络对谣言有一定的自动过滤能力。

2 相关理论

2.1 网络舆情和网络谣言

网络舆情以网络为载体,传播和扩散众多网络用户情感、态度、意见和观点的集合[9]。在网络舆情环境中,许多内容生产者,尤其是缺乏深度思考的部分新媒体会寻求通过“标题党”、娱乐化、断章取义、夸大歪曲等方式,获得阅读量、转发率和点赞量,成为热门内容,继而被广大网民所知,形成网络谣言。

网络谣言,通常是指通过网络传播介质(如微博、微信和论坛等)进行传播,没有事实根据,且带有一定的攻击性和目的性的话语[10]。由于互联网技术的发展,人们对网络谣言的传播不受时间、地点和空间的限制[11]。人们会以不同的方式对谣言做出反应、互动和回应,通常认为个人层面的不确定性和轻信度是网络谣言传播的决定因素[12]。网络谣言与新闻的最大区别在于谣言本身是未经证实的,与此同时,谣言往往是人们感兴趣的或与自身利益相关的热点问题[13]。网络谣言传播具有突发性并且流传速度极快,其传播与流行病的传播很相似[14]。如果不能对网络谣言进行及时的甄别、管理和控制,将会对正常的社会秩序造成不良影响,并可能引起不必要的恐慌和混乱,更严重的甚至引发社会动荡[15]。因此,对网络谣言进行追踪溯源和及时甄别,可以减少不必要的负面舆情的发生。

2.2 区块链在网络谣言识别中的应用

区块链最初起源于比特币,是比特币的底层技术。其本质是一个去中心化的数据库[16]。区块链技术不依赖第三方,通过自身分布式节点,结合共识机制、密码学、时间戳等技术来进行网络数据的存储、验证、传递和交流,具有点对点传输、去中心化、开放可追溯和安全不可窜改等特点[17]。区块链技术被认为是互联网发明以来最具颠覆性的技术创新,其依靠密码学和数学,巧妙地运用分布式算法,在无法建立信任关系的互联网上,不需要借助任何第三方中心的介入即可使参与者达成共识[18]。采用全民参与和全民记账的方式,共同维护一个十分可靠的巨大账本,即一个大的分布式数据库,以较低的成本解决了信任与价值的可靠传递难题[19]。基于区块链的共识机制可建立信任网络,以抑制网络谣言信息的进一步传播[20];区块链的中心化数据系统,可代替原有的第三方托管策略,从而提升了原始信息的安全,在信息源头上遏制了恶意的谣言攻击[21]。已有学者对以区块链为架构基础的Stee‐mit、Matters 平台应对网络谣言的功能设置和运行机制进行了分析[22],这些研究较少有较成熟的理论模型。

2.3 基于区块链技术的网络谣言甄别模型的提出

由于区块链重新定义了网络中信息的存储和传播方式,从而保证了网络中的数据不被非对称加密算法窜改和伪造,使得网络用户对区块链数据信息的状态达成一致。从现有区块链的研究和发展现状来看,区块链技术不仅仅适用于经济金融领域,更应用在信息加密、知识产权、电子商务等方面。而且,区块链技术将会从技术层面帮助网络舆情进行传播内容、传播方式、网络安全和隐私安全等进行优化与创新。在应对虚假新闻等网络谣言方面,区块链技术的可追溯性,使得其非常适合用来追溯谣言信息的源头。而通过设计基于评论内容的工作量证明机制,可以有效地构建甄别模型,从而进一步增强其识别网络谣言的能力。传统的非基于区块链的网络谣言甄别模型中,大多使用机器学习对信息进行真实性的识别[23],而本文旨在利用区块链技术重构社交网络结构,以保证信息在社交网络中传播的可追溯性。在此基础上,本文利用评论信息进行谣言甄别,提供一种去中心化的可信任机制。根据节点间的语义相似度动态调节节点接入区块链的难度,并利用区块链中的工作量证明机制,使得社交网络对网络谣言传播具有一定的自动过滤能力。

3 区块链属性及工作方法

3.1 区块链UML图

区块链技术提供一种去中心化的可信任机制,其思想是以众多网络节点替代可信任的权威机构,即实现全网共同见证,最终达成一个共识机制[24]。在网络谣言的甄别中,这种共识机制是全网大多数用户对某一信息的共同认知。以区块链技术为基础,对于一条需要确认的信息,可通过区块链的工作量证明机制进行认证。在网络舆情环境中,这种认证方式可应用于“意见领袖”对权威机构发布的信息进行的转发和评论等行为。具体实现方式为:随机找到一个可信的第三方节点,通过第三方确认消息,再运用广播机制,由该第三方节点向全网扩散,通过全网大多数人的共同认知,来辨别网络传播信息的真伪。以下用UML 图来说明本文所使用的区块链技术,如图1 所示。

图1 区块链技术UML图

3.2 区块链属性

在图1 中,Block 表示区块链的源节点,每个区块中都包含8 个属性。其中,BlockNo 表示区块编号,为区块的唯一索引,此处可认为是该区块的一个数字签名;data 表示区块中所存储的信息。由于区块链本身为比特币的技术支撑,一般存储的信息为交易记录[25],本文将其运用在网络舆情谣言甄别模型中,用于存储社交网络中的舆情信息;difficul‐ty 为挖矿难度,决定了该区块计算随机数的复杂度,其复杂度越高,计算的开销越大,链入区块链越困难;nonce 是用一次的随机种子,用来产生一个唯一的随机数;hash 为哈希值,既可以作为区块的唯一标识,也能用来检验该区块是否可靠[26];next 为指向下一个区块的指针,使得区块与区块之间像链子一样串联起来;previous_hash 为指向前一个区块链哈希值的指针;timestamp 为时间戳,用于表示存储节点的时间信息[27]。

区块类还包含两个方法:一个是初始化方法,即将新产生的舆情信息保存在该区块中[28];另一个方法是哈希算法,本文所使用的是SHA-256 散列函数。SHA-256 函数能够生成一个唯一的256 位的数[29]。哈希算法的输入为5 个部分的unicode 编码之和,这5 个部分分别为:区块的随机种子nonce、区块所存储的数据data、前一个区块的哈希值previ‐ous_hash、时间戳timestamp 和区块编号BlockNo。这样的计算方式大大提升了后续算法中“挖矿”计算的随机性,使得散布谣言的网络节点很难窜改原始内容。

以网络谣言的视角来看,BlockNo 提供了用户的身份标识,以证明用户的身份。由于本文的区块链模型是在原有社交网络平台的基础上进行的区块链重构,这种方式可以有效地利用原有平台的身份验证信息。data 代表了用户的评论信息,而评论信息的发布则看成是一个接入区块链的过程。difficul‐ty 这一挖矿难度确定了其接入区块链中的难易程度,由评论信息本身决定。在本文中利用了相似度函数来动态调节挖矿难度。区块链中的散列函数由用户的签名、评论信息、时间戳等因素决定。这既保证了区块的随机性(即生成一个“第三方”的区块),也保证了数据的安全性。

区块链(BlockChian),即“不同区块Block 连成的链”。本文所使用的区块链,其源节点为舆情信息发布的源节点。由图1 可知,区块链类包含5个属性,其中difficulty 为其所有子区块中挖矿难度的总和,maxNonce 为最大随机数,用来表示随机算法计算开销的上限,具体计算公式为

其中,tgt 表示目标(target)哈希值可接受的范围;diff 为子区块中挖矿难度(difficulty)的总和。

从计算方式可以得出,如果某一区块的计算复杂度越高,那么哈希值的范围就越小,即接入区块链也就越困难。区块链上每一个区块的加入经过“挖矿”方法随机计算得出。每一个区块的挖矿难度根据其与信息源文本相似度不同而变化,相似度越高,则难度越低;反之,相似度越低,则难度越高。区块链将所存储的舆情信息经过SHA-256 散列运算后转换成哈希值,使数据的安全性大大提升。

3.3 区块链工作方法

区块链包含了两个工作方法:一个方法是随机挖矿算法;另一个方法是添加节点。本文采用“随机挖矿算法”,即工作量证明机制(proof of work,POW)。工作量证明机制简单理解就是一份证明,是用工作结果来证明工作过程的机制,也是目前广泛应用于去中心化系统的机制[30]。同时,工作量证明又被称作“挖矿”,以挖到的“矿”的量来证明其“挖矿”的过程[31]。区块链相当于一个“矿区”,区块链上的每一个节点相当于矿区中的一个“矿工”,工作量证明机制是以节点计算得到的哈希值来证明节点真正参与了计算,就像矿工用采到的矿来证明其参与了采矿的过程。在不同节点计算能力相同的假设下,某一区块挖矿的复杂度,仅由难度来决定。

4 基于区块链的网络谣言甄别模型构建

4.1 基于区块链的网络谣言甄别模型的前提假设

4.1.1 前提假设

基于对区块与区块链的设定,本研究提出了3条基于区块链的谣言甄别模型的前提假设:①网络舆情的源节点需为权威机构所发布的真实信息,时间戳最早。若某节点的时间戳早于源节点,则直接判定为谣言[32];②存在某相似性计算算法,衡量新舆情与源节点处舆情的相似度[33];③有足够多请求接入区块链的节点,且不同节点的计算能力相同[34]。

社交网络中的舆情传播大致分为直接转发和评论转发。有学者将区块链的不可窜改、可追溯机制应用于社交媒体中转发谣言的研究,而并未对社交网络中评论信息进行甄别[35]。因此,本文将针对这两类传播途径进行详细阐述,以及区块链如何通过节点时间戳,递归地追溯信息源节点,进而有效地甄别谣言信息。

4.1.2 直接转发的网络谣言甄别

若网络谣言的传播途径为直接转发,则网络谣言的甄别过程较为容易。由于区块链的不同区块中包含了源节点时间戳,对于早于源节点时间戳的区块可直接判定为谣言,并禁止接入区块链(仿真实验过程中,将区块的挖矿难度调至最大即可)。此外,区块链的结构特性也保障了对传播路径的有效验证,由于每一个区块都有previous_hash,因而存储了其父节点的信息,谣言甄别时可以一直遍历到头节点。如果头节点并非源节点,则需要参照评论转发的方法进行甄别。

4.1.3 评论转发的网络谣言甄别

若网络谣言的传播途径为评论转发,则甄别过程相对复杂。评论转发经常被网络谣言传播者利用。通常网络谣言传播者转发某一权威机构的信息,再别有用心地断章取义,从而造成网络谣言的传播。由于这类网络谣言是转发自权威机构的评论信息,甄别此类谣言也相对复杂,但区块链的存储结构,对这类网络谣言可以做到有效地预防和甄别。

首先,需要判定该评论信息与源节点处信息的相似程度,可通过相似度计算函数进行比较。一般认为,文本相似度可表示为[0,1]区间的实数,该实数可通过计算语义距离获得。相似度同语义距离成反比关系,相似度越高则语义距离越小;反之,相似度越低则语义距离越大[36]。可形式化地表示为

(1)6个版本螺旋数量范围是3~5个,间隔时间范围0~6个学期,不同学段之间的间隔时间比同一学段内的间隔时间长,平均间隔时间范围是2.5~6个学期.不同版本内容的螺旋间隔差异较大.

其中,Dis(SA,SB)表示文本SA、SB之间的非负语义距离;α为调节因子,为保证语义距离为0 时的计算意义,本文取α=10-6。

本文基于词袋模型的隐狄利克雷分布(latent Dirichlet allocation,LDA)方法计算文本相似度[37]。词袋模型的基本思想是不考虑词语在文档中的出现顺序,仅将文档表示成词语的组合,这种假设非常适用于上下文信息不充分的社交网络评论信息中。LDA 主题模型为一个三层的贝叶斯概率模型,包含文档、主题和词的三层结构。采用其计算评论信息相似度的基本思想是:对评论信息进行主题建模,并在主题对应的词语分布中抽取词语,得到评论信息的主题分布,再依据这个分布计算JS 散度,用作相似度的度量方式。具体如公式(3)、公式(4)所示:

其中,P(x)、Q(x)表示了不同评论信息的主题分布。通过这样的距离函数,可以计算节点与源节点的相似程度。如果相似程度较高,则降低该区块的挖矿难度;反之,如果相似程度较低,则增加该区块链整体的挖矿难度。通常情况下,若某一节点为谣言传播者,其信息与源节点的相似度较低,且网络谣言传播者一般会持续地散布谣言。

在区块链模型的设定下,该条区块链上的挖矿难度会不断提升,由于一条区块链的挖矿难度直接决定了该区块接入主区块链的可能性,在有足够多节点请求接入区块链的前提下,散布谣言的节点由于其挖矿难度的不断提升,是很难接入区块链的。区块链挖矿算法的存在,加强了对这类节点的甄别。

4.2 基于区块链的网络谣言甄别模型

一个健壮的网络谣言甄别模型,自身需要具备谣言过滤算法,以保证能够进行谣言的自净。本文基于区块链构建了网络谣言甄别模型,如图2 所示。

4.3 网络谣言甄别过程

4.3.1 舆情爆发期及区块链审核

舆情爆发期,即舆情萌芽阶段,此时的舆情话题本身就有可能是谣言。此阶段,舆情话题信息需要经过权威机构发布后才能认证为真实信息。此时,可以通过区块链技术进行舆情审核,可以先构建区块链源节点Block(“Genesis”),这个节点代表权威机构。初始舆情话题经过权威机构审核后发布舆情信息。若初始舆情话题被认证为谣言,则需要进行辟谣。

4.3.2 舆情发酵期及次级区块链剪枝

在舆情的发酵期,可能会形成次级区块链。此阶段,每条次级区块链的头节点代表了较早参与舆情传播的网络用户,在不考虑源节点的情况下,其时间戳最早。依照本文所建立的假设,若其时间戳早于源节点的时间戳,则直接判定为谣言信息。同时,每条次级区块链依照舆情的转发关系链接而成,为降低分析的复杂性本文只考虑直接转发这种情况。若是评论转发,相当于以该节点为次级区块链的源节点,从而该节点衍生成为主区块链,因而可依照区块链的递归结构进行构建。由于区块链的安全性,转发过程中的信息是不可窜改的,这样就保证了转发信息的真实性。

此阶段可通过区块链实现舆情的过滤:依照相似度算法和挖矿算法,从各条次级区块链尾端的节点开始,沿前向指针遍历区块链,累积挖矿难度,最终将挖矿难度的累计值存储到该条次级区块链的头结点处。挖矿难度越高的区块链头结点,其接入区块链源节点的可能性也就越低。由于挖矿算法的随机性,在给定相似度算法有效的前提下,经过足够长的时间,由谣言信息组成的次级区块链将被有效地剪枝,从而无法接入主区块链。

图2 区块链的网络谣言甄别模型

4.3.3 舆情扩散期

舆情进入过滤期后,随即进入舆情的广播期,广播操作相当于一种共识机制,从区块链数据结构的角度而言,相当于进行区块链剪枝。经历广播操作后,区块链中的每一个节点,都将存储整个区块链的舆情信息,从而构建成整个网络舆情的共识机制。由于区块链在经历足够长时间的过滤期后,能够有效地过滤掉网络谣言,使得在广播后的舆情网络具备高度的真实性。从舆情传播的角度而言,此时的舆情网络对于谣言有着较强的抵御力。

5 仿真分析

5.1 仿真数据来源

新浪微博是由新浪网推出的一款为大众提供娱乐、休闲、生活服务的信息分享和交流平台,并且已成为众多微博平台中在线人数及影响力最为广泛的网络社交媒体[38]。在2018 年中国微博用户规模及使用情况中,中国微博月活跃用户4.62 亿,是当下网民广泛使用的社交平台[39]。在网络谣言代表性信息源的选择上,本文选择公众关注的新浪微博热点网络谣言食品安全类的话题作为信息源采集研究对象,建立话题空间。根据《食品谣言治理报告》发布食品药品类谣言敏感程度,选取“十大食药谣言榜单”中“塑料大米”这一网络谣言话题[40]。之所以选择这一谣言话题,是因为这一话题是广大网民非常关注的食品安全问题,与群众的生活息息相关,具有广泛的受众。同时,“塑料大米”这一话题,涉及较多的专业知识,对缺少相关知识背景的网民来说具有一定的误导性,容易造成信息不对称。截至2018 年3 月,微博“塑料大米”话题3326.7 万阅读,讨论数共计3.9 万,在该话题空间下,“央视新闻”关于该话题的转发共计3545 条,评论数为2776 条。“人民日报”下关于该话题的转发为2759 条,评论数为1091 条。

5.2 仿真实验

为对前文所构建的基于区块链的网络谣言甄别模型做进一步的验证,采用谣言信息和真实信息这两类仿真数据来验证本文所构建的区块链甄别模型的有效性,在仿真实验中,迭代次数代表了网络舆情中舆情的传播过程。在本实验中,假定迭代次数为0~10000 次时,为基于区块链网络谣言甄别模型的舆情爆发期,10000~100000 次为区块链网络谣言甄别模型的发酵期,100000 次后为区块链网络谣言甄别模型的舆情扩散期。

本文将“塑料大米”话题空间下2018 年5 月21日的用户评论信息作为节点信息,共计4598 条评论信息。将“新华视点”转发的农业农村部部长韩长赋发表的“中国大米是安全的,塑料大米绝无此事”作为源节点信息,采用第4.1.3 节中提到的LDA 主题模型作为相似度衡量函数,衡量评论信息与源节点信息的相似度,设定阈值为0.8,大于阈值的定义为谣言信息节点,共计1617 个,小于等于编辑距离的定义为真实信息节点,共计2981 个。

根据上文提到的算法,将真实信息与谣言信息分别作为两类不同的区块,通过挖矿算法,以真实信息节点、谣言信息节点作为类别划分,统计这两类节点在不同的舆情传播时期接入区块链的总数和平均挖矿次数。

假定模型中存在合适的相似性计算函数,能够较为合理地度量真实信息与谣言信息的相似程度。依照网络谣言甄别模型的设定,若某节点传播的是谣言信息,则其与源节点所传播的真实信息的相似度就会很高,导致其挖矿难度增加。根据模型的设定,这使得这类谣言节点需要经过更多轮次的迭代才能命中随机数,也就意味着其“挖矿”时间的延长。这将导致此类节点在过滤期,其挖矿的次数要明显高于传播真实信息的节点。随着整个区块链模型的不断迭代,谣言节点的挖矿难度不断累加,仅仅依靠单一节点的计算能力已经无法完成挖矿,使得谣言接点失去了接入区块链的能力。与此同时,传播真实信息的节点,随着迭代次数的增加,其挖矿难度会逐渐降低,加之谣言节点的挖矿难度的提升,真实节点接入区块链的概率会大大提升。在足够长的时间内,区块链中的谣言节点数量会远远少于真实节点的数量,从而实现了基于区块链的网络谣言过滤。

5.3 仿真结果

图3 表明了区块链网络谣言甄别模型中不同节点的哈希次数。其中,横轴表示迭代次数,单位为千轮;纵轴表示哈希次数,代表节点接入区块链的难度指标,单位为万次。从图3 可以看出,在舆情爆发期的初期(横轴迭代次数0~15),由于真实节点与网络谣言节点接入区块链的概率呈现出一定的随机性,网络谣言节点与真实节点的平均挖矿次数相差无几。但随着迭代次数的增加,通过相似度函数的计算,导致真实节点的挖矿难度不断降低,而谣言节点的挖矿难度不断上升。根据本文的前提假设,挖矿难度直接决定了节点接入区块链的可能性,难度越大可能性越低;反之,难度越低,接入区块链的可能性越高。这导致了舆情发酵期(横轴迭代次数15~80),通过区块链的过滤网络谣言节点的平均挖矿次数明显高于真实节点,使得网络谣言节点越来越难接入区块链。当网络舆情进入扩散期时(横轴迭代次数80 以后),网络谣言节点的挖矿次数已经远远高于其他真实节点,在网络中节点数足够多的情况下,网络谣言节点已经几乎不可能接入区块链。在实际应用中,此时可以整合区块链上的绝大多数节点信息,发布舆情。

图3 区块链网络谣言甄别模型仿真迭代次数

6 讨论与分析

6.1 甄别模型保证舆情信息传播的安全性及可追溯性

某些网络谣言是通过对源信息的窜改而传播的,而基于区块链的网络谣言甄别模型从设计上杜绝了这种可能性。由于每一个节点的哈希值计算都依赖于其前一个节点的哈希值,若要改变区块链中的某条信息,则相当于暴力破解SHA-256 算法。由于哈希值计算的不可逆性,从而保障了区块链一旦生成,想通过窜改中间传播过程而达到散播谣言的行为几乎是无法实现的[41]。区块链中的每一个区块,或直接转发自源节点,或是所存储的信息与源节点处的信息高度相似,从而保证舆情传播过程中信息的真实性。

此外,由于区块保留了时间戳信息,因而可以递归地对舆情信息的传播追溯到父节点。在舆情信息传播过程中,由于时间戳的存在,网络谣言信息的伪造将变得极为困难。同时,时间戳也是哈希函数的输入,节点的哈希值计算也依赖于时间戳,这就进一步增强了网络信息传播的安全性。在区块链的网络谣言甄别模型中,既可以依靠时间戳来递归地甄别某一节点信息来源,又由于引入了时间戳而增强了节点数据的不可窜改性。

6.2 甄别模型净化网络谣言和保证舆情信息完整性

以往在网络谣言甄别模型的研究中,这些模型主要依赖于深度学习等监督模型进行分类,从而达到甄别谣言目的,但这些模型往往需要大量的标注样本,而无论是人工标注,还是类似深度学习对模型的训练,都需要大量的时间。从舆情传播的角度而言,这将不利于有关部门在第一时间对相关舆情进行管控及引导。

本文所构建的区块链网络谣言甄别模型,仅需要在舆情爆发期通过权威机构来构建区块链源节点进行区块链审核,并通过相似性计算函数及随机算法来有效地进行模型构建;到舆情发酵期,网络谣言节点由于其累计挖矿难度的不断提升,已经很难接入区块链,从而丧失了舆情传播的能力。这种方式使得区块链技术相较于其他模型,具备一定的网络谣言自净能力,剔除虚假的网络谣言发布节点,使得在网络舆情在传播过程中具有更强的信息真实性。

同时,由于区块链具有分布式的存储特点,可以让每个区块节点有效地记录了整个网络的舆情信息,这使得舆情信息的完整性得以最大程度的保存,使得网络舆情信息的存储不再依赖于一个传统的中心性数据库,而是分布式地存储于区块链的每一个节点,极大地增强了网络舆情信息存储模式的整体健壮性。

6.3 甄别模型在仿真中发现的需要改进环节

首先,本文构建的区块链网络谣言甄别模型选用的相似度函数是一个相对粗糙的方法。这种相似度的计算仅设计字符串的编辑距离,导致一些具备原创性的节点与源节点的相似度被压得很低,这会造成整个网络节点的趋同。从舆情信息传播的多样性角度出发,这会对一些见解独到非网络谣言的舆情信息造成较大的传播限制。其次,基于区块链构建网络谣言甄别模型并没有考虑信息存储上限,由于区块链的分布式记账存储信息的能力,使得每个节点更新的信息会让所有节点都进行存储,这就使得存储的信息量越来越多,这无疑增加了区块链的空间开销成本。从实践角度来看,区块链网络谣言甄别模型需要较为强大的物理设备作为支持。最后,由于挖矿难度的不断累积,哈希值的计算过程也是一个非常耗时的任务。只有一部分节点能够接入区块链,虽然这有效地过滤了谣言节点,但对那些参与挖矿计算而又没能接入区块的节点而言,无疑造成了较大的资源浪费。

7 研究结论

在理论贡献层面,本文构建了区块链网络谣言甄别模型。该模型提供了一种去中心化的可信任机制,通过“矿工”对信息进行加密、校验、广播和存储,识别网络源头,并对网络谣言进行甄别和溯源,形成网络谣言自净机制,为网络谣言的研究提供新的理论研究支撑。在实践贡献层面,本文以新浪微博热点网络谣言话题食品安全中的“塑料大米”为信息源,根据语义距离划分真实话题节点与谣言话题节点,通过仿真实验对基于区块链的网络谣言甄别模型进行验证及分析,运用区块链的特点追溯网络源头并对网络谣言进行甄别。仿真实验以评论数据为载体,验证了区块链网络谣言甄别模型在控制谣言传播方面的有效性,从而为舆情监管部门利用区块链技术对网络谣言进行甄别及网络舆情管理起到一定的指导和推动作用。在未来研究中,笔者还将把考虑运用计算词向量的余弦距离算法,使得大部分的非谣言节点都能接入区块链。

猜你喜欢

挖矿谣言舆情
合力攻坚 全面治理高校“挖矿”
多措并举 全流程整治“挖矿”
中国使馆驳斥荒谬谣言
挖矿木马的攻击手段及防御策略研究
当谣言不攻自破之时
挖矿的史蒂夫
谣言
舆情
舆情
谣言大揭秘