基于无监督图嵌入算法的虚假评论检测
2020-10-09彭明夷
摘 要 近年来,国内外众多学者对虚假评论检测进行研究,本文针对虚假评论人进行检测,利用无监督图嵌入算法(node2vec)获取评论人向量,进而获得评论人之间的距离,根据距离计算出评论人的作弊度。同时将评论人特征融合为作弊先验,有效地筛选出了有对产品进行虚假评论的评论人。
关键词 虚假评论检测;图嵌入;无监督学习;特征融合
针对虚假评论检测问题,本文构建评论人图结构模型,使用无监督图嵌入算法(node2vec)将评论人图中的节点嵌入到低维向量空间中,使得图中的评论人节点转化为向量,通过计算评论人之间的Frobenius距离以估计评论人在向量空间中的距离,以此衡量评论人的作弊度并排序。
1相关算法
1.1 node2vec算法
node2vec算法[1]是图嵌入方法的一种。该算法指定了两个参数,p,q。参数p称为返回参数,控制重复访问刚刚访问过顶点的概率,p值较高,概率较低。参数q称为进出参数,控制着游走方向,实现指定游走趋向于DFS还是BFS,q>1倾向于BFS,q<1则更倾向于DFS。
1.2 特征融合
一组评论特征F{xl1,xl2…xlF},将F融合为一个作弊分数。后使用经验累积分布函数统一为可比较的尺度和分布。
经过上述步骤后,不同特征极性均转化为f(xli)的值,越低表示作弊嫌疑越高。
随后将评论先验转化为评论人先验。采用Abbr、RD、EXT、DEV、ETF、ISR等特征[2]将该评论人所有评论的最大先验作为该评论人的作弊先验 。
2算法模型分析
2.1 图结构建立
假设有包含了m个评论人U={ui,i=1,2,...,m}对n个产品P={pk,k=1,2,...,n}的所有评论构成的数据集。数据集包括:评论人id,被评论人所评论的产品id,评论人对产品的打分评级,以及打分时间。如图1所示,评论人ui对产品Pk撰写了评分为ri的评论Vik,這一系列行为可以用一个元组的形式表示为vik=(ui, pk, rik)。
算法需要有效的虚假评论人的特征,并且当一个产品在短时间内突然接收到的评论量暴增时,往往会有大量的虚假评论人参与其中[2-3],这就涉及团体评论作弊活动。
为描述团体作弊活动,基于协同评论行为构建评论人图模型,如图1所示。两条协同评论的紧密度通过两者的评论vik和vjk计算得到。用协同行为紧密度来衡量评论紧密度如定义一。
定义1:给定评论同一产品的两个评论人ui、uj,撰写了评论Vik,Vjk,两条评论的时间差Δt、打分差Δr,定义评论间的紧密度为:
评论人可能评论多个目标产品,因此通过多个协同评论行为定义评论人的紧密度。
定义2:评论人紧密度,给定两个评论用户ui、uj,Pi为评论人ui所评论的产品集合,两个用户间的紧密度:
2.2 图结构算法模型
为计算每一个评论人的作弊度建立评论人-评论人图模型,如定义3所示。
定义3:评论人图,令U={u1,u2,u3…um}表示m个评论人的节点集合,根据公式得到评论人之间紧密度,建立评论人-评论人图G=(V,E),E={(ui,uj)│collu(ui,uj)=1,ui,uj ∈U}。
3实验结果分析
结果表明,本文方法与FraudScan方法相比充分利用图结构信息,考虑协同评论行为,从全局到局部对虚假评论进行筛查,AP值,精度,NDCG值均有有效提升,并能有效降低筛查误差。本研究提出的方法可有效应用于实际中,也可为设计基于无监督图嵌入检测方法的研究提供参考。
参考文献
[1] GROVER A,LESKOVEC J.Node2vec:scalable feature learning for networks[C].Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining.San Francisco,California,USA:ACM,2016:855-864.
[2] Wang Z,Hu R,Chen Q,et al. ColluEagle: Collusive review spammer detection using Markov random fields [J]. Data Mining and Knowledge Discovery,2019(10):723.
[3] S. Rayana, L. Akoglu. Collective opinion spam detection: bridging review networks and metadata [C].In Proceedings of KDD,Sydney,Australia,2015:985-994.
作者简介
彭明夷(1996-),女,辽宁省大连市人;沈阳理工大学在读硕士研究生,专业:计算机技术,学历:工程硕士,研究方向:大数据原理及应用。