基于RNN的网络舆情谣言判断研究

2020-09-26王淼郭阳明陈泽林钟林龙

电脑知识与技术 2020年24期

王淼郭阳明陈泽林钟林龙

摘要：【目的/意义】对网络中大量的舆情进行真实与虚伪信息的判断，保留真实，去掉虚假，同时为政府舆情工作者提供谣言判断进行借鉴。【方法/过程】采集微博的谣言与非谣言的主题、回复等数据作为数据集，使用Paddle Fluid API编程，并配置循环神经网络模型（Recurrent Neural Network），使用数据集进行模型训练，最后进行模型分析检测。【结果/结论】通过RNN模型训练和数据分析，使舆情中的谣言事件数据化，挖掘文本中的虚假信息特征集，从而进行更好的谣言判断，同时也能使舆情工作者更好的控制谣言。

关键词：网络舆情;循环神经网络;谣言判断

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2020）24-0018-03

1 引言

根据中国互联网协会2019年发展报告[1]，到2018年底，中国网民的规模上涨到8.29亿，新增5663万人，普及率高达59.6%，与2017年底相比增长3.8%，比全球的平均水平高2.6%。伴随着中国因特网产业的不断发展，因特网在人们生活中的普及程度不断提高，使得更加便利的新兴产业也在迅速发展。与此同时，信息爆炸的时代，新闻传播变得更加重要，网络信息传播越来越快捷和方便，不仅让公众更容易发布信息，也缩短了信息传播的时间，但也使得舆论容易受到大众的影响，产生不同程度的谣言和虚假信息。因为多方面的原因，有些事件刚刚发生，尚未被人们充分认识，一些虚假的言论往往会影响公众的态度，从而导致突发事件的舆论在短时间内迅速发酵[2]，引发社会动荡。所以对网络舆论中谣言判断的研究就显得非常重要，这有利于维护社会稳定，营造良好的网络舆论氛围。目前对于我国的舆情的研究现状[3]，存在多种研究方向，其中包括：研究舆情指标体系、演化模型、舆情传播途径[4]、舆情识别分析、舆情数据分析、舆情预警等，在数据分析中又可以分为几个小类，包括但不限于：用户情感分析、用户行为分析、谣言检测判断等。谣言检测判断的工作对于舆情工作者来说，重要性不低于舆情识别与舆情预警，有一个完善的谣言判断机制可以大大节省舆情工作的时间和精力。根据以上情况，本文通过对微博的谣言与非谣言的主题、回复等数据进行分析，通过循环神经网络对虚假数据的文本信息进行捕捉和分析，对该谣言的特征集有一个更直观清晰的认识，并对其进行总结概括，寻找其不足和成熟之处。科学有效地进行谣言的甄别，为政府研判、预警机制建立以及应急方案的确立等提供理论依据。通过对网络舆情谣言的判断检测的深入研究打下基础，促进对于网络舆情实时监控[5]、正确引导和科学控制的发展，以达到降低或避免因负面突发事件网络舆情带来的社会危害。

2 相关谣言判断方法分析

目前在谣言识别领域主流的三种模型分别是基于内容的建模如面向知识库以及基于社交网络的模型，下文主要介绍面向知识库、面向内容风格、基于社交网络这三种谣言判断方法。

2.1 面向知识库

面向知识库，即根据现有的专家系统进行研究，加以利用，从而实现谣言判断。事实确认[6]系统与谣言识别[7]系统有些相似。该系统校真了文章中描述的观点和目标。与QA系统类似，它是NLP相对复杂的领域，作为知识的表达和知识的推理。知识数据库数据集具有集中式分区方案。 1）专家系统[8]：由各个领域的专家创建的知识数据库。显然，这种方法的效率和可扩展性很差。但是，对于垂直类别（生物学，历史记录），可以尝试使用更客观的事实进行分类。 2）集体智慧[9]：从用户的集体知识的反馈中建立的一系列知识数据库。在1和2可用之后，可以使用类似的检索方法来评估新内容的相似性，并充分利用累积的历史内容特征。 3）算法分类[10]：使用知识或案例图来评估内容的可靠性。当前，最主要的开放知识图谱是DB Pedia和Google Relation Extraction的数据集。

2.2 面向内容风格

面向内容风格的谣言判断方式是指：使用文章内容本身的写作风格来保留句子的句法结构，并通过上下文无关的语法或其他深层的NLP模型（例如RST修辞依赖理论）来捕获语法信息。根据所记录的文字信息的描述类型，作者分为两类。这检测了欺骗的程度以及主观和客观解释的程度（更客观和更公平的可能性更大）。令人震惊体的标题党属于这一类。其中，可以与欺骗性新闻也许会使用的特征包括常规特征和聚合特征两类。常规特征，例如页面，文本，图像，标题等。聚合特征是几种常规特征和子模型问题的有监督训练的结合。这些子模型的输出可以用作欺骗消息区域中的聚合函数。图1显示了使用的主要特征集，主要通过图文静态内容的样式维度、文本维度[11]、图片维度[12]、标题维度四个维度特征进行分类判断，再通过对这四个维度特征进行细化分类，最终得出判断方式。

2.3 基于社交网络建模

基于社交网络主要是根据用户在社交网络中的行为和谣言传播的轨迹构建模型的一种建模方式。分为两种，基于立场和基于传播行为的。前者主要是基于用户对内容的操作（评论，点赞，举报等等）构建矩阵或者图模型。而基于传播行为对对象建模，类似 PageRank [13]的行为传递。1. 对虚假新闻的传播游走轨迹跟踪，以及通过图模型和演化模型中针对特定假新闻的进一步調查;2. 识别虚假新闻的关键传播者，对于减轻社交媒体的传播范围至关重要。

3 模型构建

3.1 数据采集

本次实践所使用的数据是从新浪微博不实信息举报平台抓取的中文谣言数据，数据集其中包括谣言2458条、非谣言2206条，其中数据格式都为json格式。如下图中，text中字段为原文文字：

数据的处理准备阶段的整体流程如图2所示：

1）解压数据，读取数据并解析，生成all_data.txt文件。需导入的包分别为：zipfile、os、random、PIL中的Image、PIL中的ImageEnhance、json

（1）原始数据的解压，将数据解压为.txt文件格式，并且提取其中中文字段为数据元组。

（2）划分谣言与非谣言数据并将谣言与非谣言进行标记并统计，将谣言数据、非谣言数据、全部数据分文件放入。并且将谣言标注为0，非谣言标注为1，同时运用遍历数据的方法解析谣言、非谣言数据总量，分别统计谣言、非谣言数据总数。最终统计结果为：谣言数据总量为：2458，非谣言数据总量为：2206。

（3）之后将全部数据进行乱序排列，写入all_data.txt中。

2）生成数据字典。

需导入的包分别为：os、multiprocessing中的cpu_count、numpy、shutil、paddle、paddle.fluid、PIL中的Image、matplotlib.pyplot。生成数据字典：读取全部数据、并将数据生成一个元组，随后将元组转换成字典，保存在本地。

3）生成数据列表，并且对训练集以及验证集进行划分。

对训练集和验证集进行划分：创建序列化表示的数据，按照比例划分训练集以及验证集，将其分别存放至eval_list.txt和train_list.txt。

3.3 模型配置与训练

3.3.1 循环神经网络的介绍

循环神经网络是深度学习的算法之一，是一类以序列数据为输入，在序列的推进方向进行递归且所有循环单元以链式连接的递归神经网络。其中双向循环神经网络和长短期记忆网络是比较常见的两种循环神经网络。主要运用于语音识别、语言建模、机器翻译等领域，同时也可以处理包含序列输入的计算机视觉问题。

3.3.2 模型配置

在数据准备的工作之后，我们就搭建了一个循环的神经网络，并且对其中的文本特征镜像了提取，完成微博谣言的检测。其中，paddlePaddle API中dynamic_lstm接口已经给我们实现了LSTM[14]。并且还定义了损失函数[15]以及准确率的函数。

（1）搭建循环神经网络[16]。

首先定义长短期记忆网络，以数据的IDs作为输入，以softmax作为全连接的输出层，大小为2，也就是正负面。

（2）定义数据类型。

定义输入数据，lod_level不为0指定输入数据为序列数据

（3）定义损失函数和准确率函数。

① 定义了一个损失函数之后，还有对它求平均值，因为定义的是一个Batch的损失值。定义损失函数的作用是衡量模型预测的好坏。

② 我们还定义了一个准确率函数，这个可以在我们训练的时候输出分类的准确率。

（4）循环神经网络的训练与评估。

对模型进行训练，在每一轮训练结束之后，使用验证集进行验证，并求出相应的损失值Cost和准确率acc，并展示训练曲线以及训练结果。

经过以上步骤之后得到准确率，表2展示的是损失值及准确率。

图3为模型训练过程中的曲线图，由此可以看出，当损失值Cost值越小时，准确率acc值越高，最终的准确率达到84%。

4 研究结果与讨论

本文的研究从面向知识库、面向内容风格、基于社交网络建模这三方面在理论上方面说明了谣言的判断检测可以从不同的方法路径去了解文本数据的信息，获取虚假信息的特征集。以微博的谣言与非谣言的主题和回复等数据作为数据集，采用Paddle Fluid API编程，并配置循环神经网络，经过定义网络、定义损失函数、定义优化的方案等来训练谣言与非谣言数据集，最后经过模型的评估，来对信息进行谣言的甄别。研究的结果显示，经过训练后的模型，在一定程度上可以通过虚假数据的特征集，从而来征甄别谣言和非谣言。同时，为了更好地判断谣言，可以选取以下特征集来进行谣言判断：

（1）非官方报社的轰动型消息。网络中出现的大新闻，例如：某癌症被攻克，某卫星将撞击地球，需确定此类消息的来源，如果是某小媒体，或者个人消息来源，官方还为发布，这就是谣言。

（2）非共识的恐吓。人对于未知的事物，本能地害怕。什么危险会危及生命，基本上都是主流的专家专注领域，大体都会有全社会的共识，比如对于心脏病、车祸、癌症等这些危害，大家都有一个共同的认识。但面对未知的领域的威胁，大众选择了“相信它的危害，而不相信它的无害”，而没有精力和时间去研究这些问题的真相。因此，只要你夸大事实，恐吓他人，并且主流科学和媒体没有明确地断定有害，那就是谣言。

（3）来历不明的信息。所有信息都要看发布人的身份，凡事假扮内行，往往就是谣言。专家们会在他们的领域里有独到的见解，但在其他领域里可能会出错。即使是著名记者，如果他的信息不是来自专业领域的权威专家，也不值得相信，比如张杰，作为一名歌唱家，根本就不是一名物理专家，那么他在物理领域的洞察力就不可信。即使是同一门学科的不同门类也不能含糊，如呼吸科对骨科所发表的见解，基本上也是隔行如隔山，没有可信度。

参考文献：

[1] CNNIC. 中国互联网络发展状况统计报告[EB/OL].http：//www.cac.gov.cn/2019-02/28/c_1124175677.htm，2019-02-28.

[2] 张玉亮.基于发生周期的突发事件网络舆情风险评价指标体系[J].情报科学，2012，30（7）：1034-1037，1043.

[3] 蒋研川，肖铁岩，凌晓明. 新媒体环境下高校校园网络舆论的现状及引导策略研究[J]. 重庆大学学报（社会科学版）， 2012（1）：142-148.

[4] 赵剑华，万克文.基于信息传播模型-SIR传染病模型的社交网络舆情传播动力学模型研究[J].情报科学，2017，35（12）：34-38.

[5] 唐涛. 基于情报学方法的网络舆情监测研究[J]. 情报科学， 2014（1）.

[6] 熊炎. 反驳改述谣言能够消除事实幻觉效应[J]. 现代传播， 2018， 040（003）：74-79.

[7] 贺刚，吕学强，李卓，等.微博谣言识别研究[J].图书情报工作，2013，57（23）：114-120.

[8] 刘汉波. 作为风险文化的微信谣言——"无知羞耻"下的信息互酬与角色扮演[J]. 民族艺术， 2017，（5）：36-41.

[9] 占欣，夏志杰，罗梦莹，等. 影响群体智慧抑制社会化媒体谣言传播的因素研究[J]. 图书馆， 2018（8）：85-90.

[10] 林荣蓉. 基于敏感词库的微博谣言识别研究[D]. 中南财经政法大学， 2018.

[11] 姜赢，张婧，朱玲萱，等. 网络谣言文本句式特征分析与监测系统[J]. 电子设计工程， 2017， 025（023）：7-10，15.

[12] 邓胜利，付少雄. 社交媒体附加信息对用户信任与分享健康类谣言的影响分析[J]. 情报科学， 2018，36（3）：51-57.

[13] Zhiwei Jin， Juan Cao， Yongdong Zhang，等. News Verification by Exploiting Conflicting Social Viewpoints in Microblogs[C]// Thirtieth Aaai Conference on Artificial Intelligence. AAAI Press， 2016.

[14] 陳帆. 基于LSTM情感分析模型的微博谣言识别方法研究[D]. 重庆大学，2018.

[15] 杨桂元，唐小我. 一种新的预测评价方法——损失函数法[J].预测，1998，17（3）：38-40.

[16] 刘礼文，俞弦. 循环神经网络（RNN）及应用研究[J].科技视界，2019（32）：54-55..

【通联编辑：梁书】