基于多模双线性池化方法的虚假新闻检测模型
2021-12-09李国栋彭敦陆
李国栋,彭敦陆
(上海理工大学光电信息与计算机工程学院,上海 200093)
0 引 言
信息技术手段的飞速发展极大地改变了人们获取新闻的方式,传统上人们一般通过纸质报纸或电视新闻节目获悉新闻内容,而新社交媒体平台的兴起使得新闻传播变得更为简单及时,同时也更加广泛,人们可以获悉世界各地所发生的新闻事件。但随之带来的负面影响也逐渐增多,传播方式的便捷使得虚假新闻大量地充斥在各种社交媒体上,同时由于新型的新闻内容更加全面,包含了传统报纸新闻所不具备的图像、音频甚至是视频用来更详细地描述新闻事件。新社交媒体平台上的虚假新闻通过夸张的文字或图像来吸引读者的注意力,其一般是通过篡改图像内容或是配上与图不相符的文本描述[1]。由于新闻描述与对应图像有较大的相似度,而普通群众并不都具备分辨的能力,故促使读者成为了加速虚假新闻传播的一分子,大规模的虚假新闻传播会带来重大的负面影响,有些甚至能够操纵重要的公共事件。这些现象使虚假新闻检测成为新时代新闻领域中一个重要的挑战,同时随着人工智能技术的发展,研究人员期待通过技术手段完成虚假新闻的检测工作,以此来遏制虚假新闻的传播。
1 相关工作
现有的对虚假新闻研究主要是针对新闻内容[2]进行真假性质检测。最初的研究方法是对新闻内容的文本内容描述提取出语言特征来检测新闻[3]。而后来由于深度学习技术的发展与引入,虚假新闻检测的手段也由早期的传统学习方式[4-5]发展到现今的深度学习模型[6-7]。深度学习模型相较于传统方法具备出色的特征提取能力,使检测结果得到了极大提升。
描述同一新闻事件通常具备多种不同模态,其之间往往是密切相关的,新闻信息的不同模态之间能够起到相互补充的作用。因此研究人员尝试将图像数据引入到虚假新闻检测工作中,期望图像信息能与新闻文本描述相结合获取融合特征[8-9]以得到更优的检测结果。Jin等人[10]引入神经网络将新闻的不同模态特征融合并引入注意力机制[11]来抽取上下文相关信息用于虚假新闻检测工作并取得了良好的结果。Wang等人[12]则提出了源于对抗网络的鉴别器用于学习不同新闻事件之间的公共特征,通过消除特定事件中的特定特征来提高模型的泛化学习能力。Khattar等人[13]则使用了变分自动编码器用于学习新闻多种模态的融合特征表示,并使用此中间表达向量完成虚假新闻检测任务。
综合之前的研究内容,已有的虚假新闻检测已经将多种模态的新闻数据融合,从多模态的角度来获取用于检测工作的特征表示,但由于文本特征与图像特征之间具有较大的差异性,仅通过多种模态特征向量之间的简单拼接完成融合特征的表示并不足以表达多模态数据之间的互补及差异性,会导致最终在检测任务表现有所偏差。因此在现有研究的基础之上,本文针对特征融合方法进行研究,在新闻各模态数据特征提取的基础上,结合多模双线性池化算法,对多模态的新闻特征表示进行有效融合获取融合特征表示,构建起新型融合特征表示的虚假新闻检测模型,完成虚假新闻检测工作。
2 基于多模双线性池化的虚假新闻检测模型构建
2.1 多模双线性池化
新闻事件中的文本信息和图像信息均是为了详尽地描述核心信息的媒介,新闻文本和图像之间对特定事件描述的同时存在着互相补充的联系,一般是图像附属于文本信息或图像是对文本信息的补充说明。新闻图像通常是以视觉效果展示出新闻事件发生的具体信息,而对应的文本描述则是以语言文字描述新闻事件,两者之间具有较紧密的关联关系同时又各自具备自己的特定特征。以读者认知的角度来看,无论是文字还是图像信息实际上会带来不相同的效果,文字特征通常是以线性描述的逻辑展开,而图像更偏向于空间上的描述,两者特征之间的差异若仅通过普通拼接方式会有信息的冗余或者缺失。为实现文本特征与图像特征之间更优的融合效果,本文采用基于特征向量外积的多模双线性池化方法,其核心思想是充分结合文本与图像每一位置的独特维度信息,将图像与文本信息充分融合,结合降维方法将文本和图像数据的特征映射为低维空间上的特征向量进行外积计算获得融合特征。由于虚假新闻本质上属于二元分类问题[14],模型输入一般是包含文本和图像的新闻推文,输出为对应的真假新闻标签,0为真实新闻,1为虚假新闻。本文分别使用不同的特征提取方法提取文本和图像的高维特征,最终使用经多模双线性池化方法融合后的特征向量用于虚假新闻检测,模型总体框架如图1所示。
2.2 模型构建
1)文本特征抽取。
文本信息在虚假新闻检测工作中具有至关重要的作用,其所抽取的特征表示直接影响到虚假新闻检测的准确率。对于每一条新闻推文,在经过预处理之后采用Text-CNN[15]抽取文本特征。由于Text-CNN具有不同窗口大小的多个卷积过滤器,因此可以捕获不同细粒度的文本特征用于识别虚假新闻。详细过程为将文本内容中的每一个单词均表示为一个词向量(Word Embedding),从而得到一个句子的向量表示T1:n,经过窗口大小为h的过滤器将句子中连续h个单词输出为特征向量,最终得到句子的特征向量表示为t,对所有的特征向量t使用最大池化运算取其最大值便得到每一个句子中最为重要的信息特征,由于Text-CNN具有多个不同大小的过滤窗口(设定为c个),且为了提取到不同细粒度的文本特征,对应特定大小的窗口还拥有nh个不同的过滤器,将最终得到的文本特征表示为RTc∈c·nh,为保持文本图像特征维度一致,最大池化运算后结合全连接层,操作如式(1):
FT=σ(Wtf·RTc)
(1)
其中,FT为最终获取到的文本特征,Wtf是全连接层的参数,σ表示激活函数。
2)图像特征抽取。
新闻推文中的图像内容通常是为了补充说明新闻事件,以视觉化效果将具体新闻事件展现给读者,其在虚假新闻检测工作中占有较大的比重,同样是检测工作中不可或缺的信息。现有的视觉特征提取方法中,本文选取应用最为广泛的VGG-19[16]用于图像特征提取。为了保证与文本特征相同维度,在其网络最后一层基础之上添加全连接层,具体操作如下:
FV=σ(Wvf·RVvgg)
(2)
其中,FV为最终的图像特征,RVvgg为经过VGG-19得到的图像特征表示,Wvf是全连接层的参数,σ同样表示激活函数。
3)多模双线性池化特征融合。
ψ(x⊗q,h,s)=ψ(x,h,s)*ψ(q,h,s)
(3)
其中,x和q分别表示来自2种特征提取器所提取的特征,而其中的h与s分别表示2个初始化向量h∈{1,…,d}n和s∈{-1,1}n,它们用于高维空间(假设为n维)特征x和q向低维空间(假设为d维)的映射转化,即将特征映射到低维空间进行外积计算[20],*表示卷积操作,同时卷积定理中指出时域上的卷积等于频域上的乘积操作,故而可以将卷积x′*q′(通过公式(3)得到)写作FFT-1(FFT(x′)⊙FFT(q′)),其中⊙表示逐元素相乘,继而对得到的不同特征向量进行外积相乘,最终获得融合特征,此方法具体过程如图2所示。
图2 MCBP特征融合过程
将提取到的文本特征和图像特征分别经过Count Sketch方法进行降维,降维后特征通过FFT(快速傅里叶变换)后再进行逐位相乘,最终经过FFT-1(逆快速傅里叶变换)得到所需融合特征。
于是本文使用这种多模双线性池化方法对文本特征FT和图像特征FV进行融合之后获得融合特征F用于最终的虚假新闻检测工作中:
F=MCBP([FT,FV])
(4)
最后,本文采用带有Softmax函数的全连接层对融合特征输出结果进行分类以完成虚假新闻检测工作。
3 实 验
3.1 实验数据
为了验证本文所提融合方法的有效性以及模型对于虚假新闻检测工作的性能,采用来源于Twitter和Weibo这2个社交媒体平台的数据集,这2个数据集均具备文本与图像结合的新闻推文,适用于本文研究。其中,Weibo数据集[10]来源于中国新浪微博社交平台且经由中国新华社进行人工标注,同时经过微博官方谣言系统的核查后将其划分为虚假新闻和真实新闻,且从已有的工作[6,21]来看,该数据集具有较强的可信度。Twitter数据集[22]是来自于Mediaeval任务,其目的是为了自动检测社交媒体中的虚假内容,包含了来自于17个新闻事件的推文合集以及其他的约2000条推文,其主要包含了文本内容、附加图像内容等。本文对这2项数据集进行了预处理工作,保证其不再包含重复的内容,将数据集按照7∶1∶2的比例划分为训练集、验证集和测试集,最终获取到的数据详情如表1所示。
表1 实验数据集 单位:条
3.2 实验设置
实验在Windows 10操作系统+Python3.6环境下进行,采用TensorFlow深度学习框架构建虚假新闻检测模型进行训练,机器的详细配置为搭载了英特尔i7-8700K的CPU,拥有64.0 GB内存和1080Ti型号的GPU。
实验需要提取文本特征,本文采用预训练好的Word2vec表示单词[23]并将嵌入词向量的维度设为32,则新闻文本部分每一个单词都能够获得32维的词嵌入向量,对于Text-CNN的过滤器窗口大小,则会设置1~4大小不等的过滤器窗口进行特征过滤。图像特征则使用预训练的VGG-19网络进行提取。训练阶段使用50个实例的批处理大小,周期设置为50。
3.3 实验结果分析
实验采用了Twitter和Weibo这2个数据集来验证多模双线性融合方法的性能,同时,对比已有的多模态融合方法模型。采用分类任务常用的准确度(Accuracy)、精确率(Precision)、召回率(Recall)和F1指标来验证检测模型性能。实验通过设置对照组检验不同特征融合方法模型的性能,并选取当前多模态虚假新闻检测任务的EANN模型作为对照,最终实验结果如表2所示。
表2 虚假新闻检测结果
从表2可以得出,本文提出的基于多模双线性池化方法模型在Twitter和Weibo这2种数据集中性能表现大部分略优于已有模型。与普通的特征向量拼接方法对比,本文提出的方法在各项评价指标上均表现得更为优异,这表明多模双线性特征融合方法在虚假新闻检测工作中明显优于传统向量拼接方法,说明本文所提多模双线性池化检测模型相较于传统特征拼接方法检测模型更有效。这是由于此种特征融合方法相较于传统拼接能够更好地融合文本与图像特征表示,从而提升了检测任务结果。通过与已有的多模态虚假新闻检测模型进行对比,该融合方法在准确率及F1值上略优于已有检测模型,这个结果说明,不同的深度学习方法对于融合特征的表示学习会有差异性的效果,需要不断研究得到更好的融合特征表示以此提升最终的检测结果。综合以上考虑,谨慎得出基于多模双线性池化特征融合方法在虚假新闻检测领域具有较好的特征学习能力,且其在虚假新闻检测领域有效的结论。
4 结束语
虚假新闻的广泛传播不仅会给普通民众的日常生活带来影响,而且会引导网络舆论的偏向,甚至会损害新闻媒体的公信力,对社交媒体的发展有着巨大的危害。本文针对虚假新闻检测工作,综合考虑了文本及图像2种不同模态的新闻数据,通过神经网络及应用于多模态融合的双线性池化算法构建出虚假新闻检测模型,有效地提升了多模态特征之间的融合表示,提升了虚假新闻检测性能。且与之前的多模态检测模型对比发现,提升多模态数据之间的融合特征表示能够更有效地区分新闻真假。而特征提取方法与深度学习算法导致的特征表现在新闻检测工作中起到了重要作用,因此在之后研究中需要进一步提升新闻文本与图像内容之间的相关性,并且在更多的新闻数据中验证其有效性,这将是未来虚假新闻检测工作的重点。