基于隐含语义分析的电商虚假评论识别方法初探
2021-09-22郭恺强曹丽
郭恺强 曹丽
如今在网络社会的高速发展下,电商平台也迎来了高峰,给人们日常生活的购买也提供了较为快捷的方式,人们越来越喜欢在网上购物,网络购物如今已成为人们生活的一份子,基于大数据时代的背景下,很多电商网站不仅给人们带来了许多的方便,但是由于网络的复杂性与繁多进而导致了消费者很难对所要购买的商品有一个真实的了解性,许多电商网站秉承着消费者为上帝这一原则,但是随着网络时代的发展,也有许多电商在利益的诱惑下,会通过雇佣刷好评人员对自家店铺商品进行虚假好评等多种现象,同时大部分电商网站也允许消费者对所购买的商品进行言语评论,书写所购买到的商品的感想,例如产品质量的好坏,物流速度的快慢,客服的态度进行评价,虚假评论的识别方式大部分都是通过评论者的言语以及图像文本的形式特征来进行识别,网络的迅速发展提高了社会的经济发展,同时也对于电商网站也遭受了不平等的形式。
随着计算机科技技术的发展,电商时代也越来越丰富,很多平台为了店铺的利润,对于消费者也开放了多种评论功能,就目前而言,大部分消费者的购买商品方式多半是源自于评论区的评论, 据市场研究公司 Jupiter Research 的调查结论,超过75%的消费者在线购买商品之前,会参考在线评论信息。但是,在经济利益的驱动下,有些用户会对商品发表欺骗性的评论信息或者雇佣专门人员来撰写虚假在线评论,从而蓄意提升自己或打压、诽谤他人的产品。在对在线评论缺乏有效监管的情况下,处于各种目的的虚假在线评论充斥着互联网,模糊事情的真相,干扰人们的判断。基于此,提出基于语义分析的电商虚假评论识别方法,在顾客言语评论的基础上进行评论语言的语义分析方法,能够更好的识别恶意评论,提升商品的准确性。
虚假评论(Fake Review)也称为Opinion Spam、Review Spam,是由一些用户蓄意发表的不真实的、有欺骗性质的评论,从而提高或者毁坏某一产品的声誉,误导潜在消费者,使其作出风险性的购买决策。虚假评论包括正面或负面的不真实评论、与产品无关的评论。发表此类评论的用户称为Review Spammer、Opinion Spammer 或者Fake Reviewer。这一群体则被称为Spammer Group,他们针对某一商品共同发布旨在宣传或诋毁该商品的虚假言论。
虚假评论可以分为三类:(1)作弊评论(Untruthful Opinions),指蓄意提高或毁坏产品声誉的不真实的评论,过度吹捧产品的评论;(2)品牌效应评 eviews on Brands Only),指评论的对象仅仅是品牌、生产商、销售商等与产品本身无关的评论;(3)非评论信息(Non-reviews),如广告、读者的问题和回复等。根据文字层面的相似度,虚假评论还可以分为重复评论(d plicate review)和非重复评论(singeltonreview)。根据语义层面的相似度,可以分为相同语义评论和不同语义评论,从语义褒贬层面可以分为赞扬性评论和诋毁性评论,从语义与主题相关性层面,可以分为主题相关评论和主题无关评论,还可分为宣传造势类、恶意诋毁类、以优抵差类。
部分学者将“虚”和“假”分开定义,其中“虚”是指滥发没有任何价值的评论信息。等同于无关评论以及非评论信对于消费者和商家的误导作用较弱,在平台的意见挖掘系统中也极易识别,并不会影响评论的情感分析和效用排序系统的稳定性。由于信息具有时效性,在一个较长的时间段,商家的服务可能发生了改善,之前的差评也失去了对消费者决策的指导意义,这种失效的评论也构成虚假评论。
一、做好有关隐含语义分析的电商虚假评论识别的相关工作
顾客对于所要购买的商品参考评论进而决定,是对于购买决策的关键性,当然,在这一基础下,并不是所有的商品评论都是可信度高的,很有可能是虚假评论,当然也有些评论是真实的顾客所书写的,也有些评论是刷出来的虚假评论,虚假的评论对于顾客决定购买商品的正确方式是存在一定的误导性的,因此,针对虚假评论这一问题的分析是很有必要的,做好虚假评论的主要识别方法要从评论者的特征以及言语来研究,针对评论内容的长度和情感词等多个因素,把评论者和内容相互融合进行研究虚假评论是当前评论方法较好一种方式。比如:2012年,学者便使用基于概率的上下文无关文法规则特征,用支持向量机分类器进行真实与虚假在线评论分类,并在标准数据集上获得了验证。还有研究侧重分析文本内容中蕴含的情感特征,如果情感表现得过于吹捧或诋毁,则存在虚假在线评论的可能性。但是 Hu 和 Liu发现评论内容及情感特征对识别其真实性的作用有限,因为虚假在线评论会在文辞上模仿真实评论。学者李霄等从评论、评论者、商品三个方面选择 11 个特征值,使用支持向量机模型中的核函数进行虚假在线评论的识别,对识别效果较好的核函数中的参数进行优化,从而提高了识别准确率。
再者就是根据评论者的等级程度,有些评论者的等级越高,内容也较为全面,感强词也比较丰富,对此这一评论要谨慎结合,由于评论中的情感词个数决定了情感的背离度,最后使用逻辑来分类。具体来说,可运用联结评论者、评论、店家的社会图谱来分析评论者行为,通过分析評论者信誉水平、评论内容可信度、店家信用度之间的强化关系,量化评论者可信度,从而识别虚假在线评论者。线评论者。最后,虚假评论者会进行分段式的虚假评论内容的提交频率,每个时间段的虚假评论需要提交够一定词数的虚假评论才能够完成任务,对于虚假评论内容的研究主要是利用评论者的特征信息,来显示确定某一特征的结合的虚假评论,针对虚假评论这一关键性问题,采取利用隐含语义分析的方法来进行特征的隐含选择条件,主要展现在两个方面,第一方面是通过用户与评论的显示方式来得到评论可信度的一个排序,第二个方面则是通过奇异值的分解化进而对评论内容的处理使用概率隐含语义分析方法的隐含识别的方式,缓解虚假评论内容的高维度和稀疏度。一般来讲,所有的语言都具有它本身相对独立的韵律与词汇组合等,有些虚假评论者会利用词图的输出模式来夸大商品存在的优点之处,较大程度提高商品的利益与消费者的好感。基于此,针对特征关键词汇进行筛选,减低特征的关键词汇表达形式。