高斯混合模型与文本图卷积网络结合的虚假评论识别算法
2024-03-21刘贵娟陈志豪
王 星,刘贵娟,陈志豪
(1.中国人民大学 应用统计科学研究中心,北京 100872;2.中国人民大学 统计学院,北京 100872)
0 引言
在互联网快速发展的数字经济背景下,优质可信的在线消费者评论(Online Consumer Review,OCR)在需求侧消费者的购买决策和供给侧企业获得用户反馈、提高产品质量和改善服务等方面发挥着至关重要的作用[1]。然而,虚假评论现象广泛存在于各类在线购物及点评网站中,严重阻碍了电子商务的真实性,降低了消费者的信任度[2]。鉴于虚假评论数量大、信息复杂和隐蔽性强等难点,识别和过滤虚假评论成为学术界和业界共同关注的研究热点,亟须“去伪存真、去粗取精”[3]。
在虚假评论的识别问题中,常规的深度学习算法通常将它视为自然语言处理(Natural Language Processing,NLP)领域中的常见任务。Ahmed 等[4]在虚假评论智能检测的开创性研究中指出,可通过词向量对评论做矢量化表示的方式获得虚假评论特征的感知。此后,许多学者沿着词向量特征的方向,提出诸多从评论文本中提取敏感词汇识别虚假评论的深度学习算法,为虚假评论的识别作出贡献。代表性的研究进展主要有两类:一类通过Word2Vec 和上下文预训练的BERT(Bidirectional Encoder Representation from Transformers)进行向量词特征表示[5-6];第二类则将预训练的词向量用于深度学习训练,如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和残差网络(ResNet)等[7]。特征矢量表示方法的局限性多表现为依赖于大量高质量的人工标注,成本高、噪声多、质量低[8]。此外,为尽可能纳入更多的特征,大量的非官方用语、缩写词汇等信息源的出现会干扰特征空间,极易稀释多标签组合特征,导致丢失辅助语义理解的完整信息[9]。另外,这些算法主要处理经转换为欧氏空间有限维度的结构有序的词向量表示数据,难以处理维度可变、搭配无序的关联语义。由于缺少特征间必要的关联组件,这些算法对虚假评论的理解深度不足,导致治理虚假的决策行动陷入响应滞后的困境[10]。
作为净化网络评论生态的基础,首先需要明确虚假评论的关键信息源和敏感的词汇影响类型,这对制定识别虚假评论算法的语言感知域至关重要。国内外学者对此已有大量研究。虚假评论的源头一般分为评论作者来源和自然语言来源两类,两者不孤立。Zhang 等[11]指出,虚假评论的作者并非真实的消费者,而是由机器人大批量生产,存在强伪装性和数量激增等诸多隐患。制造虚假评论的动机主要是为了影响消费者的购买决策,通过渗透错误印象来刺激消费者;而正常评论则更注重消费后的用户理性认知。根据印象感知和理性认知的不同,早期大量的规则学习和机器学习重点围绕评论中的情感用词、聚焦主题和质量误导话术等做矢量化语义明线索解析,丰富了虚假评论的信源感知理论[12]。然而,虚假评论具有显著的累积性和后发性,单纯依靠信源明线索难以遏制隐线索的破坏式渗透,智能检测十分必要。
近几年,通过图表示的图神经网络(Graph Neural Network,GNN)和图卷积网络(Graph Convolutional Network,GCN)[13-14]在虚假评论识别中的应用受到越来越多的关注。在GCN 虚假监测的技术研究中,检测的问题类型主要集中在虚假新闻、谣言监测和垃圾邮件识别等,构造GCN 的信源主要为用户类型[15-16]、网络结构[17-18]和多层传播邻居[19-20]等方面。GCN 的作用主要体现为两方面:一是学习评论之间的社交关系;二是结合GCN 与其他深度学习模型,以提高虚假评论识别的准确性。目前的虚假评论研究多为新闻和谣言类,对电商经营中的虚假评论研究却不多见。与虚假新闻和谣言等识别问题相比,商品评论更需要理解内容中潜藏的丰富的用语搭配和长程单词依赖的句式在语义技术上的支持,需要增强评论文本中词的关联信息,捕捉内容之间的语义关系。GNN 和GCN 在NLP 的常规内容分析任务中已展现出强大的语义理解技术优势,典型的如关系推理[21-22]、文本分类[23]、复句识别[24]、机器翻译[25]和序列标签[26]等。相关的虚假评论的语义研究表明:融合评论捕捉全局语义信息网,将文本特征与用户行为特征等进行非矢量化语义表达将有助于促进虚假评论检测理解[12],非矢量化语义特征之间的关系信息正成为理解虚假评论模式的新热点。
Yao 等[10]提出了基于文本的图卷积网络(Text GCN)用于文本分类,在基准数据集中取得良好性能。与传统的矢量特征方法相比,新兴的Text GCN 模型以图结构的方式解析文本中各语言元素间的丰富关系,通过GCN 学习词结构以捕获深层的语义关联[10],可用于感知虚假评论的结构与文本相结合的关联信息。然而,在构建文本图的过程中,设计Text GCN 非常有挑战。将Text GCN 用于虚假评论的识别目标是找到它与正常评论之间稳定的关联结构差异,该过程成功的关键取决于能否控制虚假评论相对于正常评论的信噪比不至于过小,而在输入信源边权信噪比较低的前提下,这有赖于Text GCN 预处理阶段的窗口选择。在Text GCN 的窗口设计中忽视对虚假评论结构信号强度的感知,易丢失关键结构,导致效果虚高而结构泛化识别不足的问题。
在实际算法训练中,受制于人工打标的保守性,导致虚假评论的训练样本相对于正常评论通常呈现数量明显偏少的情况,需要有效学习虚假评论丰富的语义特征并提高结构关联识别能力。针对当前Text GCN 对稀疏词结构选择能力的不确定性,考虑到用词量、词特征、词与词以及词与非文本特征的多模态组合关联结构的不确定性,在预处理阶段引入基于高斯混合分布的虚假结构信号感知检测模块,对虚假评论和正常评论实施非破坏性结构检验。综上所述,本文在Text GCN 的基础上,提出一种用于电商购物平台虚假评论识别算法F-Text GCN(Fake-review Text GCN)。
1 图卷积神经网络的虚假评论识别模型
1.1 Text GCN
相较于传统的基于特征表示和联系上下文语义的深度学习方法,基于文本内容引入文档-词的图表示学习能更清晰地表示文本结构所包含的深层语义关系。对于虚假评论识别任务,引入良好的图结构信息既能克服短评论中信息强度弱的缺点,又能降低模型识别过程中的混杂噪声。
1.1.1 GCN
本文研究的GCN 模型是Kipf 等[27]在频谱卷积神经网络(Spectral CNN)和切比雪夫网络(ChebNet)的基础上提出的,是将传统的谱方法中的节点参数化方式扩展到对谱域的卷积操作[28]。为获得更多邻域和更长程的关联信息,通常需要集成多个GCN 层堆叠。假设图结构表示为G=(V,E),|V|=n,当使用多层GCN 获取邻域信息时,层间的更新方法为:
其中:j表示层数;L(0)=X∈Rn×m表示初始节点特征表示矩阵,每个节点的初始特征维数为表示第j层节点特征矩阵表示第j层权重矩阵,用于调整每层的特征维数提取特征表示归一化的对称邻接矩阵,ρ表示激活函数。根据式(1)计算可得出第j+1 层节点特征矩阵L(j+1)。
1.1.2 Text GCN
Text GCN 模型由文本图构建和GCN 训练两步构成。
1)文本图构建。
根据词在文档中的出现率和词在整个语料库中的共现率构建词节点连边。模型中,文档与词节点间的边权定义为术语频率-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)值[29],用于评估单词在文本中的重要程度。对语料库中所有文档使用由边权阈值控制的窗口,收集共现词频统计数据,用于刻画全局词汇共现关系。衡量词关联的方法是计算点对点的互信息(Pointwise Mutual Information,PMI)[30],用于表示两个词节点间的权重。根据Yao 等[10]提出的带权值邻接矩阵表示如下:
其中:TF-IDF 由词在文档中出现的次数和评论总数除以包含该词的评论数所得的商取对数两部分构成。词节点对(i,j)的PMI 值计算如下:
其中:p(i,j)表示词节点i与词节点j共现的概率,p(i)是在滑动窗口下词i出现的概率,#U(i,j)是同时包含词节点i和词节点j的词频数,#U(i)是语料库中包含词节点i的词频数,#U是语料库中词频总数。当语料库中单节点对的语义相关性较高时,PMI 值为正;当语义相关性很小或没有时,PMI 值为负。据此,构建词节点赋边时只考虑PMI 值为正的词节点对,PMI 值为负的节点间不连边。邻接矩阵A的各部分组成如图1 所示。
图1 Text GCN中邻接矩阵A的示意图Fig.1 Schematic diagram of adjacency matrix A in Text GCN
在文本图的构建过程中,Text GCN 考虑的重点是词节点对之间以及词节点-文档节点对的关系,并未对文档节点对间的关系进一步考虑。
2)GCN 训练学习。
在构建文本图时,使用GCN 提取节点邻域信息。通过叠加GCN 的层数,获取更高阶的邻居节点信息。Text GCN将构建文本图输入双层的GCN 中,以获取二阶邻居节点信息。嵌入第一层节点信息时,使用ReLU(Rectified Linear Unit)作为激活函数降噪特征。嵌入第二阶节点信息时,需匹配目标维度大小与标签集维度大小,输入softmax 分类器:
其中:D是测试数据;p是输出的特征维数,也称为类别数,在虚假评论的例子中是2 维;Ydi表示真实的响应变量特征表示矩阵;Zdi表示式(4)输出的向量。为便于受到长度限制而缺失了部分词汇的文档也能对虚假评论的固定长句式提供证据,GCN 将层数设定为双层,以利于支持间隔两步之内的节点之间的信息传递。短文档可借助全局语料中与长文档所包含的固定句式的词汇节点形成密切的节点连接信息。同理,双层GCN 还允许在两个文档对之间交互信息,重要词节点信息通过交互节点对获得信号增强。由于虚假评论比真实评论更容易呈现词汇的固定组合,在单条评论信息有限的情况下,Text GCN 的设计将更容易捕捉到虚假评论的用词差异,挖掘更全局的语义结构信息。
1.2 F-Text GCN算法
1.2.1 虚假评论词关联结构的统计特征
将Text GCN 用于虚假评论的识别目标是找到它与正常评论的稳定的词关联结构差异,由边权阈值控制的窗口大小的选择十分关键。窗口边权阈值的大小规定了寻找关联关系的视野宽度,会直接影响词节点i的词频和与词节点j的共现次数,继而影响邻接矩阵A中PMI(i,j)的数值。过小的窗口阈值将引入太多的低频连接,导致U(i,j)较小,PMI(i,j)较小,无效的关联噪声将导致虚假评论中真实的关联信号过于稀疏,破坏了长距离的词关联结构,容易产生较高的假阳率;过大的窗口边权阈值虽然能捕捉到较强的词关联信号,却容易遗漏与高频信号连接的中、低频词的关联结构,破坏了虚假评论语义的完整性,导致较高的虚假评论假阴率。为了确保在使用边权阈值控制的窗口提取虚假评论与正常评论中的有效词关联结构时,能完整、有效地获取虚假评论的语义结构,本文需要对虚假评论的结构进行均衡性设计。通过这种设计,窗口边权阈值能在提取虚假评论和正常评论的过程中保持稳定性,从而提高识别虚假评论的准确性。
图2 是本文实证研究数据集中抽取的一个由3 200 条正常评论和800 条虚假评论的边权按4∶1 构成的示例数据分别拟合的分布密度图。
图2 虚假评论与正常评论边权分布密度示例图Fig.2 Example diagram of edge weight distribution density between fake reviews and normal reviews
由图2 可见,当边权较小时表示弱连接低频噪声结构,较大的边权表示高频强连接语义结构。虚假评论和正常评论都会出现多个分层弱关联噪声结构,可用分布表示信噪结构。虚假评论厚尾特征明显强于正常评论,随着阈值的增加虚假评论的信噪比由小到大的速度先快后慢,而同样的阈值用于正常评论信噪比具有改变不明显的特点,运用高斯混合模型(Gaussian Mixture Model,GMM)分解出的均值、方差和比例等分布信息可有助于虚假评论相对于正常评论的信号结构感知。为此,本文使用GMM 作虚假评论的最大噪声过滤,通过边权阈值的边缘检测确定最优边权窗口阈值,以最大可能保留核心关联结构捕获的完整性,同时剥离干扰虚假评论核心关联结构的噪声。
综上所述,经边权阈值作用后的虚假评论和正常评论的分布是否有差异,是考察边权阈值是否有效的必要条件,那么均衡性对窗口选择有怎样的影响呢?为此,本文分别考察虚假评论比例均衡和虚假评论比例不均衡的两种情形下,经GMM 分离噪声后的两类边权分布的主要统计特征随边权阈值变化的情况。设计如下两种情形比较实验:情形1 是均衡的数据设定,虚假评论数和正常评论数各取1 000;情形2 不均衡情况下的虚假评论数取800,正常评论数取3 200,不均衡比设为1∶4,与本文实证研究部分的实验用例比例一致。
图3(a)为在不同关联强度阈值过滤下,虚假评论与正常评论在比例均衡情形下的固定词关联图的边权分布的均值与方差随阈值的变动情况。经GMM 分离后的虚假评论词关联边权分布均值与方差几乎在所有的边权阈值下都高于正常评论,虚假评论的均值和方差都高于正常评论的,显示出虚假评论的结构联系更加紧密的强连通结构特征。随着边权阈值的增长,虚假评论信号增长,词汇节点间的关联信号更强,这样的关联结构与Text GCN 的识别目标相吻合。
图3 两种评论情形下经GMM分离噪声后的边权分布均值与方差随窗口边权阈值的变化Fig.3 Changes in mean and variance of edge weight distribution with edge weight threshold window after GMM noise removal for two types of reviews
图3(b)是虚假评论占比相对于正常评论比例偏少(1∶4)的情形下,经GMM 作用后虚假评论与正常评论稳定词关联结构的边权分布。虚假评论的边权均值与方差仍高于正常评论,均值在虚假评论和正常评论之间的区分度明显降低,方差在区分虚假评论和正常评论的边权分布上的作用优于均值;但与比例均衡情况相比,虚假评论和正常评论间的分布差异有逐渐缩小的趋势,这表明边权阈值较大时,通过边权结构提取虚假评论核心词关联结构的任务面临虚假评论相对于正常评论的信噪比优势消失现象,这就需要紧抓阈值这个结构感知的调节工具,在边权阈值较小的一侧设计更精细的窗口边权阈值。
1.2.2 基于GMM的噪声感知的窗口预选择模块
基于在一个小样本上的探索性分析,无论在均衡还是非均衡的数据条件下,窗口边权阈值的设计都十分必要,将这个过程称为噪声感知的窗口预选择模块。引入强关联结构与弱关联结构在关联强度上的显著性差异检验过程。先对所选的窗口边权阈值实施自助法GMM 统计特征估计,再实施信号分离强度检验,将具有强关联信号表现能力的滑动窗口作为Text GCN 的窗口边权阈值。
具体方法如下:给定窗口边权阈值集L=对于在确认的训练集中随机抽取虚假评论与正常评论各n条,重复B次。对于第j次抽取(1 ≤j≤B),统计虚假评论与正常评论在SLi下各词汇的共现次数,分别得到虚假词汇共现矩阵,记为CijF,正常词汇共现矩阵,记为CijN。给定边权窗口阈值s,保留CijF和CijN中大于边权阈值s的连边,分别拟合二元GMM 如下:
为感知虚假评论信号的强度,记录B次重复实验中拒绝原假设的次数nf,对预先指定的阈值γ(0 <γ<1),建议取γ≥0.5。令nf/B=γ1,取I={i:γ1≥γ,1 ≤i≤k}且则记录将作为Text GCN 的结构感知窗口。
1.3 F-Text GCN
对于虚假评论识别任务,评论者的相关特征通常是值得引入的重要信息,比如平台会员更倾向于发布真实评论而非虚假评论。这些在评论/文档层面上的特征不仅直接提供信息,还有利于加强评论间的交互关系,填补Text GCN 在文档交互层面的空白。
在Text GCN 基础上,本文引入用户会员M、评论图片C和评论视频T 这3 个与评论者行为相关的非文本特征标签,共同参与构建多类型异质网络结构感知模块,这些特征以元路径方式引入,丰富节点的关联结构。F-Text GCN 在构建邻接矩阵A*时,增广原邻接矩阵A,基于用户会员M、评论图片C 和评论视频T 添加评论与评论者特征节点间的关联关系,如图4 中橙色部分,关联关系的添加规则如下:
图4 F-Text GCN中邻接矩阵A*的示意图Fig.4 Schematic diagram of adjacency matrix A* in F-Text GCN
其中:aMR表示用户会员特征与评论之间的权重;aCR表示评论图片特征与评论之间的权重;aTR表示评论视频特征与评论之间的权重。非文本特征取值1 表示非文本特征节点与其他评论节点存在连边关系。
F-Text GCN 对虚假评论识别的结构流程如图5 所示,具体内容如下:
图5 F-Text GCN框架流程Fig.5 Framework flow of F-Text GCN
1)对所有评论进行分词,构建词汇表。对所有评论分词,构建全局词汇表。给出一组待选择的滑动窗口大小集,通过GMM 感知分离的窗口大小预选择模块,选择合适的滑动窗口。
2)确定图节点并建立连边。每条评论、词汇表中的每个词、用户会员标签、评论图片标签、评论视频标签分别均视为图节点。若评论包含词汇表中的某词,在该评论与该词之间建立连边;根据预选择过程中窗口大小设置滑动窗口。在该窗口内,对共同出现的词分别建立连边;若发布评论的用户是会员,则该条评论就与用户会员节点建立连边;若某评论中有图片,则该条评论与评论图片节点之间建立连边;若某评论中有视频,则该评论就与评论视频节点之间建立连边。
3)生成文本图。将评论信息转化为图中的节点,生成评论文本图。
4)GCN 训练学习。基于上述规则构建文本图后,将图输入双层GCN 中。GCN 的二阶节点嵌入维度与标签集维度具有相同大小,并输入到softmax 分类器中输出分类结果。
2 数据来源和网络差异
2.1 数据集的构建
本文的研究数据来自国内某大型电商平台手机相关产品评论数据。对虚假评论认定采用的方法是先排除系统自动生成的默认好评,例如“您没有填写内容,默认好评”;再通过业内专家构建中文虚假评论识别数据集。为保证虚假评判标准的一致性,尽量避免主观判断的基本原则,安排3 位业内专家参与认定。认定规则如下:评论数据至少经过2 次评判,若评判结果不一致,再由第3 位专家追加认定。根据大多数投票表决认定虚假评论,认定的依据参照国内外学者通用的数据质量标准,主要包括评论对象的真实性,语言逻辑性、附件与文字描述的一致性和预警性字符特征。本文研究构造的中文数据集共包含126 086 条评论,其中虚假评论数为26 783 条,其余为正常评论99 303 条,虚假评论占比为21.24%。数据分析中虚假评论的标签值设为1,正常评论标签值设为0。
虚假评论相对于正常评论出现不均衡比例偏低的现象主要有两方面的原因:1)实证研究所使用的数据来源于真实的电商平台,是经平台系统自动检测清洗过滤后仍无法消除的虚假评论,数量相对偏少;但比例相对于正常评论已累计达到1∶4,规模不容忽视,本文算法将用于推进监测力度,改进和完善平台统计质量标准,完善漏检流程。2)实证使用的虚假评论产品主要针对智能手机类电子产品,智能化对这类产品的可靠性提出巨大挑战,功能繁多、服务类型多造成评论词汇面广、语义结构复杂、虚假评论和正常评论共用词比例较高造成虚假评论人工排查难度较大、实际获得的虚假评论训练数偏低,这表明需要深入挖虚假评论本身的信息,以提升识别虚假评论的算法效力。
2.2 虚假评论与正常评论的差异性分析
2.2.1 文本信息差异
根据虚假评论相关研究可知,虚假评论与正常评论的差异主要来自文本信息差异和评论者特征差异。相较于特征构建的深度学习网络,构建图关联信息进行结构探索的Text GCN更有利于分析虚假评论与正常评论间的文本信息差异。
为说明Text GCN 在提取文本信息结构上的有效性,本文以评论中频数较高的关键词“满意”和“购买”为条件,筛选出50 条虚假评论和50 条正常评论,分别构建词汇共现矩阵表进行评论差异的可视化分析。通过设置不同的连边阈值(5~60),当词汇共现次数大于等于指定连边阈值时,构建关联关系,得到各阈值下词汇共现网络图(如图6、7 所示),网络密度、连边数和节点数随阈值窗口的变化如图8 所示。
图6 虚假评论词汇共现网络图示例Fig.6 Example about co-occurrence word network of fake reviews
随着连边阈值的增加,虚假评论和正常评论网络图的规模逐步减小。在阈值提升的初期,正常评论网络规模的下降速度明显高于虚假评论,主要原因是,相较于正常评论,虚假评论的词节点间存在更强的关联关系;并且两类评论中大量的弱关联关系被剔除,造成网络密度急剧下降。而由于虚假评论的词节点间更容易存在强关联关系,词节点的剔除速度远小于正常评论,如图6(b)虚假评论的网络密度下降更为明显。当连边阈值继续提升时,两类评论的非核心关联节点逐渐被淘汰,核心结构逐渐披露,网络密度出现回升,甚至超过初始密度。
由于评论者发布虚假评论时,常出现调用模板和固定句式等加工套件,虚假评论间的结构相似度高,导致词节点间关联关系强;而正常评论中,评论者个体语言风格差异较大,词节点间关联联系较弱。因此,在相同的高连边阈值筛选下,虚假评论的节点规模仍能呈现完整的句式结构,而正常评论的词汇仅存留部分短语关联结构,详情参见图7(d)、图8(d)。
图7 正常评论词汇共现网络图示例Fig.7 Example about co-occurrence word network of normal reviews
2.2.2 虚假评论的二阶网络图统计分析
为进一步说明虚假评论与正常评论之间的区别,本文以“满意”关键词为中心,加工出与“满意”关键词建立一阶连边邻居节点词子网络,又延展出一阶邻居节点的邻居加工出词共现网络图的二阶邻居子网络,再按会员和非会员作对比分析,详见图9。
图9 评论词汇共现网络二阶图示例Fig.9 Example of second-order diagram of co-occurrence word network for reviews
从节点的用词来看,虚假评论中与“满意”关键词建立连边的一阶邻居节点词有“特别”“便宜”“购物”“价格”“东西”“收到”“喜欢”“宝贝”“值得”“购买”“质量”“不错”“真的”“打开”“商品”,而正常评论中与“满意”关键词建立连边的节点词有“拍照”“流畅”“超级”“效果”“做工”“收到”“系统”“不错”“手感”“手机”“充电”,只有“不错”和“收到”两个词是虚假评论和正常评论共有,虚假评论的语义表现为多态复杂性,既有主观对话往来用语(如购物),也有表态用语(如喜欢、值得),更有客观产品功能(如拍照、充电、流畅)。除主观表态外,还混杂了多种关于产品功能等相互关联的表态语义,通过简单的特征提取是不易分辨的。
从图9 可观察到,正常评论的网络节点数远多于虚假评论。正常评论中,由于评论者个体异质性,遣词造句时涉及的词汇较广。从节点词来看,正常评论中与“满意”连边数较多的节点词有“手机”“超级”“满意”“充电”“流畅”“拍照”等,与购买的产品、产品功能和使用体验等反馈意见密切相关,而虚假评论中连边数据较多的节点词聚焦于“满意”和“质量”,与“满意”相连的多与购物过程和价格等有关。二阶关系进一步扩大了虚假评论和正常评论的节点词间的差异。
为说明图结构对虚假评论识别的有效性,本文基于上述评论集,整理出虚假评论典型句式如表1。类型Ⅰ出现了系统默认昵称“宝贝”,盲目夸赞的无逻辑短语堆叠现象比较明显;类型Ⅱ中,夸大服务感受和诱惑导购型搭配语句成串出现。
在Text GCN 模型下,固定搭配信息通过图二阶邻居节点作关联结构的信息传递。通过图结构的关联关系,即使句子不完整,仍可通过隐性的典型特征结构识别虚假评论。典型的虚假评论图结构如图10 所示。
图10 虚假评论典型句式图结构Fig.10 Typical sentence pattern structures of fake reviews
2.2.3 评论者特征差异
除文本信息差异外,虚假评论和正常评论的差异还体现在评论者特征上。从本文采集的126 086 条评论的评论者特征(非文本特征)中,发现用户会员M、评论图片P、评论视频V 这3 个评论者相关特征与虚假评论占比存在显著关系。对于评论者为会员用户、评论时包含图片或视频的评论,其虚假评论的占比较低。为引入与虚假评论产生相关的评论者特征及其关联信息,本文对非文本特征节点与评论节点的关联关系作如下设计:在双层GCN 的作用下,产生“评论-非文本特征-评论”关联关系的评论节点更容易属于同类节点并交互信息。
综上所述,虚假评论和正常评论在词关联强度、词关联结构和评论者特征上存在明显差异。通过词汇网络图可提取正常评论和虚假评论之间在结构上和用词上的差异,并且二阶邻接矩阵相较于一阶邻接矩阵能提供更多的差异性信息。F-Text GCN引入图结构信息和评论者特征,可提取评论中的文本内容差异,提升模型的识别能力。虚假评论的语义表现为多态复杂性,既有主观对话往来用语,也有表态用语,更有诱导夸大客观产品功能的现象,传统的特征提取则不易于分辨。
3 实证研究
实验主要在Windows11 环境下完成,基于Pytorch 框架,CPU 为Intel Core i7-4790K CPU @ 4.00 GHz 4.00 GHz,编程语言为Python3.8。基于GMM 的滑动窗口与选择模块的编程语言为R4.0.2,其中GMM 的使用参考Mclust 包。F-Text GCN 模型包含双层GCN,将第1 个卷积层的嵌入大小设置为200,窗口大小设置为20,学习率设置为0.02,dropout设置为0.5,L2 损失权重设置为0。随机选择10%的训练集作为验证集。使用Adam 训练Text GCN 最多200 次迭代,若验证损失连续10 次迭代都没有减小,则停止训练。本文使用准确率(P)、召回率(R)和F1 值(F1)作为评价指标,计算公式如下:
其中:TP表示将虚假评论类判断成虚假评论类的数,FP表示将正常评论类判断为虚假评论类的数,FN表示将虚假评论类判断成正常评论类的数。
3.1 有效性实验
为验证F-Text GCN 在识别虚假评论上的有效性,本文将在信息源是否引入非文本特征标签上将它与Text CNN 比较,只含纯文本的图卷积结果记为Text GCN,不含图卷积的卷积记为Text CNN;将引入非文本特征并经GMM 作用的新图卷积算法记为F-Text GCN,不含图卷积的普通卷积记为F-Text CNN,以BERT 作为基线模型。将数据集中的126 086条评论,按8∶2 的比例对虚假评论和正常评论独立划分,将划分得到的80%的虚假评论和80%的正常评论组合为训练集,并将剩余的虚假评论和正常评论组合为测试集,实验结果如表2 所示。
表2 几种模型评论识别性能比较 单位:%Tab.2 Comparison of review detection performance among different models unit:%
由表2 可知,与Text CNN、F-Text CNN 和BERT 相比,Text GNN 和F-Text GCN 模型准确率、召回率和F1 值均较高。F-Text GCN 识别虚假评论的F1 值达到82.92%,比BERT 提高了10.46%,比Text CNN 提高了11.60%,比F-Text CNN 提高了11.24%,比Text GCN 提高了2.94%。由表2 还可知,F-Text GCN 的虚假评论召回率比Text GCN 提高了5.82%,表明评论者特征的引入改善了模型对虚假评论的识别效果。除引入了非文本特征信息外,还更新了文本网络图结构,在一定程度缓解了数据的稀疏性,增强了虚假评论特征的信号强度,有助于虚假评论的识别。
3.2 基于不同的窗口边权阈值的敏感性实验
引入图信息的虚假评论识别模型,对虚假评论图信号强度的把控至关重要。为验证Text GCN 和F-Text GCN 对窗口边权阈值的敏感性,本文设置了一组窗口边权阈值,观察新提出的F-Text GCN 的效果随窗口边权阈值变化的情况。实验结果如图11 所示。
图11 不同的窗口边权阈值测试时召回率和F1值Fig.11 Recall and F1 values of testing with different window edge weight thresholds
由图11 观察到,F-Text GCN 测试召回率和F1 值随着窗口边权阈值的增大而增加,当窗口边权阈值大于20 时,召回率和F1 值上升缓慢。这一结果验证了本文提出的通过GMM 预训练模块选择窗口边权阈值的有效性,实验窗口大小在15~20 比较合适。
3.3 难分辨评论的稳定性对比实验
为进一步确认图卷积类算法对虚假评论识别方面的性能稳定性,并探究识别能力效果提升的原因,将Text GCN 和F-Text GCN 两种深度学习算法与主流的虚假评论识别浅层模型进行比较。实验中,为获得难区分相似样本的学习情况,将SVM 训练时易错的13 065 条评论按训练数据与测试数据8∶2 的比例拆分,其中训练数据10 452 条和测试数据2 613条,两组的虚假评论和正常评论比例保持在1∶4,对Text GCN 和F-Text GCN 训练和测试,重复20 次训练得到测试结果如表3 所示。
表3 难区分数据上的Text GCN和F-Text GCN实验结果Tab.3 Comparison of experiment results between Text GCN and F-Text GCN with confusing data
从表3 结果可以看出,文本图卷积算法在使用浅层模型难分辨的评论作为训练集时,能取得较好的识别效果;Text GCN 和F-Text GCN 的标准差均小于0.05,表明模型稳定性也较好。
综上所述,对于SVM 性能不佳的难识别评论,F-Text GCN 和Text GCN 的识别效果均有显著提升,且F-Text GCN 对虚假评论识别准确率略高于Text GCN,这与F-Text GCN 引入的非文本特征标签有关,引入的非文本特征标签丰富了模型的文本图节点和关系信息。
3.4 消融实验
为探究非文本特征引入模型的影响,本文设计消融实验,将三类非文本特征对应的连边关系及其组合引入图结构,实验设计如表4。
表4 消融实验设计和结果 单位:%Tab.4 Design and results of ablation experiments unit:%
从表4 可知:整体上,三种非文本特征关联关系的引入后在准确率上与Text-GCN 基本持平,都在85%以上。本文所提的F-Text GCN 对于虚假评论的识别效果在准确率和召回率上都是最佳的。对虚假评论的召回率,相对于其他模型有3%~5%的提升,表明引入GMM 预训练模块和非文本特征可有效降低虚假评论的漏检率。值得注意的是,会员+图片、会员+视频比单独使用会员标签时都出现了准确率略微下降的现象,准确率下降造成的假阳率略微升高是由于虚假评论在人工标注的执行规则较为严格所致,假阳率略微升高检测出的虚假评论经专家判断应为高度疑似虚假,可作为推进虚假评论监测治理力度的有力证据。
4 结语
本文提出用GMM 与Text GCN 合成的F-Text GCN 识别虚假评论,引入窗口预选择模块,将组合评论文本中的词汇和非文本特征进行多标签节点构图,对节点的文本标签信息和节点之间的一阶和二阶邻域信息进行延伸表示,通过词汇网络图,提取正常评论和虚假评论之间在结构上和用词上的差异。研究表明:
1)F-Text GCN 模型将文本以图的形式表示,显著提升了虚假评论的识别效果。
2)基于混合高斯分布估计和自助检验方法设计的窗口边权阈值的选择方法,增强了模型对虚假评论词关联结构的分离感知能力。
3)虚假评论与正常评论的差异表现为:虚假评论在词汇丰富程度上低于正常评论;虚假评论词库与正常评论词库存在一定重叠,但在一阶及二阶的词汇用词与结构上存在明显差异。实验结果表明,词库上的差异体现在F-Text GCN 可有效提取二阶固定句式特征,有助于通过固定搭配预报虚假评论的决策管理。
4)F-Text GCN 模型引入了评论者特征(非文本特征)信息,添加了评论节点间的关联结构,能通过发现非会员属性提升虚假评论的识别效果。在SVM 预测错误的难区分评论识别中,F-Text GCN 和Text GCN 性能明显更优,稳定性更好。
F-Text GCN 模型在虚假评论识别任务中取得了较好效果。本文仅探讨二元高斯分布的噪声分离能力,在算法方面可继续关注影响图卷积漏检特征的参数调节问题,进一步可以研究由多分支构成的混合高斯分布在检测虚假评论中的词语结构的作用;在引入非文本特征关联时,关于关联关系中防止过平滑性风险的参数设定也是值得考虑的问题;在信息提取方面可进一步研究包括虚假评论固定搭配的层次提取和随时间的动态演化规律等。本文采用虚假评论相较于正常评论比例偏低的数据实证研究,暴露了虚假评论仅依靠人工打标的局限性,能为现有虚假评论自动检测提供广泛的技术实践支持。