基于机器学习的网络谣言检测技术研究

2020-01-04李胜丁振左玲

科学与信息化 2020年36期

李胜丁振左玲

中南财经政法大学，信息与安全工程学院湖北武汉 430073

引言

现代网络技术的高速发展使得越来越多的人开始使用诸如微博、微信、twitter、Facebook等通信社交媒体软件，这也是人们获取信息和发布信息的重要平台。但是社交媒体的开放性和便捷性给社会带来好处的同时也出现了一些问题，某些营销号或者个体账号会发布一些未经证实的推断或者不真实的信息，这就导致了谣言的产生。于是，在这个天然大数据的环境下，社交媒体又缺乏有效的信息审核制度，谣言可能会在网络上大量快速地传播。根据报道，微博上超过三分之一的热点新闻都含有虚假成分信息[1]。谣言在社交媒体的疯狂传播会将不真实的信息快速在网络上发酵歪曲和误导群众，严重影响社会安定，甚至可能会影响地区和国家安全。

鉴于谣言带来的巨大危害，越来越多的研究人员开始探索谣言检测技术。现有谣言检测技术主要分为三类：人工检测方法，基于机器学习的检测方法和基于深度学习的检测方法。人工检测方法准确率高，但具有明显的滞后性，无法适应社会网络中海量数据。机器学习方法将社会网络谣言问题看作有监督学习中的二分类问题，自动化程度高，有效地弥补了人工检测方法的不足，但该类方法依赖于人工提取与选择特征，且得到的特征向量鲁棒性[3]也不够健壮。深度学习方法可以获得更好、更本质的表征性，从而能实现更好的分类效果。相信经过人们不断的探索和进一步研究，谣言能够快速并准确的被识别并给出警告，社会也会越来越安定。

1 谣言检测过程

一般来说，目前我们更习惯于把谣言检测类问题看成一个二分类问题。这个问题可以被看作为：给出一个新闻故事或者推文集合，如E = {e1, e2, e3…en}，还有一个判断是否为谣言的类别标签P = {p1, p2}，其中，p1代表是谣言，p2代表不是谣言。我们要做的就是通过大量的数据集学习出一个分类模型M出来，使得对给出任意一条推文，都能预测出一个p1或者p2，从而达到检测谣言的目的。

社会网络谣言检测过程通常包含：数据处理、特征选择与提取、模型训练与谣言检测四个阶段。

数据处理包括原始数据的收集与数据标注，数据收集的作用主要有两项：第一，用于构建模型训练的数据集；第二，对社会网络进行监控，获取待检测的社会网络信息。数据标注则是根据问题及需求的不同对数据进行不同的标注。

特征选择与特征提取是从收集的原始数据中选择与构造出最能代表数据的特征向量集合。对于机器学习方法而言，特征选择与提取的重要程度甚至超过了模型选择的重要性。因此现有基于机器学习方法的重要工作是以找到更有效的特征作为提升谣言检测准确率为主要思路．基于深度学习的谣言检测具有很强的特征学习能力，其无需对特征进行人工提取即可得到比传统机器学习更高维、复杂、抽象的特征数据。模型训练是指根据具体的问题场景从已有的分类模型中选择模型，并根据模型在训练数据集上的分类表现调整参数以找到一个最优模型的过程．对于社会网络谣言问题，如何在充满噪音且不均衡的海量数据信息中训练出准确率高的分类器是当前社会网络谣言检测问题面临的最大挑战。

2 数据处理

数据处理是谣言检测的一个非常重要的环节，数据处理包括了数据数据采集和数据标注两个部分。

2.1 数据采集

目前关于网络谣言的数据一般分为三种数据来源：

（1）通过网络平台的API接口获取数据

目前，几乎所有的社会网络平台都向用户提供了完善的RESTAPI接口，REST即表述性状态传递（Representational State Transfer，简称REST）是一套新兴的WEB通信协议[2]。这样方便用户从社会网络平台中获取到用户发表的微博、好友关系等社交信息。

（2）利用爬虫技术获取数据集

利用网络爬虫技术可以以更灵活的方式获取所需的数据。如：在Facebook中从某一用户开始不断搜寻其好友，对整个社交平台的数据进行爬取。

基于爬虫技术的获取数据优点就是能够获取到足够大的供研究的数据，但也有两个缺点和挑战：①可能会面临法律风险，如果擅自爬取未经授权的Web数据，就可能触犯其所在国家的法律；②面临的技术难度大，爬虫技术需要编写者了解网络层的各种协议和技术。

（3）通过公开数据集获取

利用公开数据集可以轻易且合法地获取标准数据，例如来自于新浪微博和Twitter两个平台的公开数据集。此外，清华大学自然语言处理与社会人文计算机实验室的数据集也较为知名，其数据来源主要为：中文社交媒体谣言数据抓取、中文社交媒体谣言自动识别以及用户提交，目前仍在不断更新。

2.2 数据标注

数据标注主要是在进行谣言检测阶段的前一个工作，主要是为了能更好地训练出一个较优的二分类模型，目前大致有两种数据标注方式。

（1）人工数据标注

人工标注指的是在获取到需要的数据集后，专门依靠人力去对初始数据集进行标注工作。该方法简单方便，但需消耗大量人力和时间，且人工标注也可能会出错，这主要和标注者的经验水平有关。

（2）基于半监督学习的标注

由于人工标注存在大量人力时间的消耗，研究人员提出了在谣言检测问题中引入半监督学习自动标注的方法，在仅需要少量的人工标注数据下，引入了一种CERT框架，该框架联合聚类数据、选择特征和训练分类器实现数据的分类。基于半监督学习的自动标注方法简单且易实现，在一定程度上缓解了人工标注方法存在的问题，但该方法的先决条件太强，需要研究者能准确地估计数据分布信息。

3 谣言检测方法

现阶段的谣言检测技术主要分为三种，即：基于人工的谣言检测、基于机器学习的谣言检测和基于深度学习的谣言检测。

3.1 人工谣言检测

目前在大多数的社交媒体平台上主要还是用的人工谣言检测，平台在用户或者业内人员的帮助下进行信息核实，谣言甄别。

我国主流社交媒体新浪微博设计了一个举报处理功能，用户被鼓励举报那些有可能是谣言的虚假文章，微博平台的专业人士组成的团队则会仔细做出甄别，并会定期在“微博辟谣”这个官方账号里公布那些耸人听闻的谣言。

Facebook的方法是在用户和外部事实核查人员的帮助下给假新闻贴标签，用户会提醒平台可能出现的谣言，平台就会将这些疑似谣言的新闻发送给管理员进行核实。

Twitter采用的是，在基于用户们对每个推文的真实度评价后，Twitter设计了一个结合自动评估和众包注释的半自动策略来自动标记可能的虚假推文。

人工检测谣言的方式准确率较高，但是也存在一些问题：①人工检测会耗费大量的人力，不断需要人们去社交媒体的信息进行甄别判断；②这种方式的检测质量也直接和判别谣言的人们的学识，能力等因素挂钩，存在因个人原因误判的可能；③在大数据时代，社交媒体产生的推文多到我们无法想象，无法仅靠人工完成检测工作。因此研究自动识别谣言的方法已势在必行。

3.2 基于机器学习的谣言检测

在早期的谣言检测阶段研究者们就开始了试图用机器学习的技术识别谣言。机器学习技术检测谣言通常包含以下三个部分：①获取到谣言相关的数据集并划分训练集和测试集，然后开始进行特征工程进行特征提取；②利用提取过的特征在训练集上面训练出一个分类模型；③利用训练好的分类模型，经过不断评估和优化，对测试集进行分类预测。

在机器学习技术检测谣言的过程中，特征工程是极其重要的环节，其很大程度上决定了机器学习识别谣言的精度。现有用于检测网络谣言的特征提取方式主要包括：①基于单一信息的特征提取方式，通过提取单条数据的特征来处理数据；②基于事件级特征提取方式，通过挖掘数据之间层次性关系来提取数据之间的潜在联系。

3.3 基于深度学习的谣言检测

与传统分类器相比，深度学习在许多机器学习问题（例如，对象检测，情感分类和语音识别）中表现出明显的优势，于是研究者们开始尝试了用深度学习技术进行谣言识别。根据神经网络的不同结构，可以将神经网络方法进一步分为两类：

（1）递归神经网络（RNN）

基于RNN的结构，这种方法将谣言数据建模为顺序数。关键是RNN中各个单元之间的连接形成一个直接循环并创建网络的内部状态，这可能使它能够捕获具有谣言扩散特性的动态时间信号。

（2）卷积神经网络（CNN）

CNN由堆叠的卷积和池化层组成，其结构有助于对重要的语义特征进行建模。基于CNN的方法假定CNN不仅可以从输入实例中自动提取局部全局重要特征，而且可以揭示那些高级交互。下面将介绍基于这两种深度神经网络的谣言检测方法。

4 结束语

谣言检测技术经过多年发展，目前的检测效果在不断提升中，但是也面临了一些问题和挑战如下：

（1）早期检测。在社交网络上传播的故事的生命周期很短，一些研究表明该故事还不到三天。而且，谣言会在几秒钟或几分钟之内传播开来。至关重要的是，要尽早发现谣言。但是，大多数现有研究都通过假设谣言在谣言的整个生命周期中都具有全部内容来对其进行检测。谣言开始时的资源非常有限，以至于在早期发现它非常具有挑战性。虽然于等。提出一种解决该问题的方法，性能不能满足早期检测的需要。

（2）面对突然的大量数据和大量信息的处理效果不够，目前的方法应对这种多篇数据信息的推文和长篇具有丰富语义信息的推文应对能力还是不够，检测时间长，误差大，会出现“冷启动”的问题。

（3）在训练集出现了数据分布不均衡和小样本的情况下，现有的谣言检测方法处理起来误差也较大。因此面对这种偏、怪的数据时，仍需要研究者们设计出一个更好的策略，以应对网络上的各式各样的数据集。

在Web2.0时代，自动谣言检测技术已经是刻不容缓了。面对海量数据的今天，研究者们仍需为更好的谣言检测方法而努力，净化网络里的糟粕垃圾。也希望谣言检测技术能不断更新迭代，实现更精准全面的检测。