基于在线交易的虚假评论与网络水军研究综述

2019-08-21武雅利徐勇焦梦蕾许崇汪倩

现代计算机 2019年21期

武雅利，徐勇，焦梦蕾，许崇，汪倩

（安徽财经大学管理科学与工程学院，蚌埠233030）

0 引言

据2019 年2 月发布的《第43 次中国互联网络发展状况统计报告》显示，截至2018 年底，我国网民规模达8.29 亿，网络普及率不断提升，高达59.6%。其中，我国网络购物用户高达6.10 亿，占网民整体的73.6%。随着线上购物的兴起，网购所产生的在线评论成为研究热点。

在线评论作为用户生成内容（User Generated Content，UGC）的一种存在形式，一直是电子商务平台重要的研究对象。在文献[1]一文中，给出了用户生成内容（UGC）、电子口碑（EWOM）、在线评论和在线推荐的金字塔模型，其概念逐渐地细化，信息的质量也在不断提升。在线评论作为金字塔的中坚力量，对在线推荐奠定了很好的基础，同时也是网络电子口碑不可分割的一部分。部分网络商家为营造出虚假的繁荣，会进行“刷单”操作，且雇佣网络水军做出虚假评论，而在线评论的真实与否，对整个电商平台的环境至关重要[2]。因此，针对虚假评论和网络水军的识别工作至关重要。创建于2000 年“猫途鹰”（TripAdvisor），是全球领先的旅游点评软件。2018 年9 月，意大利的Promo Salento公司因雇佣员工在“猫途鹰”中从事虚假好评并出售，被判处9 个月监禁，且付出8000 欧元的经济赔偿，成为全球首例因虚假评论被判刑的案件。

图1 UGC、EWOM、在线评论和在线推荐概念图

1 基本概念

电商平台中，虚假评论通常是指与事实不符的信息，即与商品本身特征不相符的评论。如今，网购在很大程度上便捷了人们的生活，但信息不对称现象一直存在于卖家与买家之间[3,4]，而在线评论的存在就是为了缓解这一矛盾。通过在线评论，顾客之间形成一种交流与互动，有购买意向的潜在消费者可以通过浏览已购买用户的在线评论，从而对自己是否购买做出决定，不再只关注卖家的一面之词，大大地降低了购物过程中的风险。在线评论推动了线上和线下业务逐渐增长，那么商家势必会采取各种方式提升自己的好评率，虚假评论顺势而生。虚假评论属于垃圾评论的一种，此外，垃圾评论还包括无关评论。相较于无关评论，虚假评论更易被误认为真实评论，不易鉴别。

网络水军是指网络环境中，出于利益驱使、或恶意扰乱网络环境的不良动机，经常性发布虚假言论的用户个体。网络水军具有若干特征[5]。首先，网络水军进行对商品进行虚假评论往往是为了获得经济利益，而正常用户是为了表达真实的购物体验以及为其他用户提供帮助；其次，网络水军数量较大，为了取得明显的效果需要利用水军软件、傀儡账号，或雇佣大量账号；最后，网络水军行为异常，会短时间聚集于目标商品的评论区，并且这些评论通常具有很强的情感倾向。网络水军的不断“进化”，使普通用户越来越难以辨别，因此网络水军的识别工作愈加艰难。

2 虚假评论的识别问题

2.1 基于语法分析

针对用户生成内容、在线评论等研究兴起于国外，国内起步较晚但研究热度较高。不同于由独立单词构成的英文评论文本，针对中文评论文本的研究更为艰难。从语法上来说，构成中文语句的基本单位是“词”，而词的结构不固定，在分词阶段易出现信息遗漏、歧义等问题[6]。语法分析包括对文本进行词袋特征分析及词性特征分析[7]。根据中文结构，文本分析可分为词汇层、句子层和文本层[8]，语法分析在这三个层面上都存在一些问题。如缺少完善的实验语料、实验平台；大多研究仅仅通过主题词、短语、语法等信息判定语句的极性，未能加入词语所在语境的硬性；在文本情感分析过程，无法准确地辨别除情感词外的词语对语句情感极性是否有影响等。

2.2 基于语义分析

语义，是指语言的意义。计算机在理解在线评论所包含的意义时，需要将评论文本转换为机器可以识别的语言。现有的文本表示方法，通常利用谷歌公司于2013 年发布的Word2Vector 工具，将单条在线评论转化为词向量。针对每个词进行语义信息改进，又可生成词的语义特征向量[9]。

情感作为评论内容隐含的因素，可作为区分正常评论和虚假评论的途径[10]。通过将LDA 的结构由原来的三层拓为四层，形成文档、主题、情感、词四层结构，并结合评论的主题信息，汪建成等将评论提取为6 维特征，提出了一种基于主题对立情感依赖模型（TOSDM）实现对虚假评论的检测[11]。针对评论情感分析中的文本稀疏问题，M.H.Arif 通过对XCSR 分类器的扩展，改进了评论中带有情感特定词的分类效果，但仍存在局限性[12]。

2.3 结合用户主体分析

电商平台中，在线虚假评论的发起人可能是正常用户，也可能是网络水军。信誉极低的用户，其发布的评论也很可能是虚假评论[13-14]。金燕通过挖掘、分析用户以往信息活动中的UGC 创建、转发、评论等历史行为，为用户建立起个人信息行为动态信誉评级模型。并根据用户的信誉等级，对用户今后UGC 质量进行预判[15]。对虚假评论检测任务，李璐旸等主要从虚假评论文本、虚假评论发布者及虚假评论群组三个角度开展研究。该文将依次对三类研究进行归纳分析，具体分别从特征设计、模型方法、数据集、评级指标等方面进行了对比总结。基于文本分析的检测研究包含三类检测方法，分别是基于语法分析、基于语义分析和基于文体元数据分析的虚假评论文本检测。

3 网络水军的识别问题

3.1 基于用户行为的网络水军识别

用户在网络中的行为都会被记录，如浏览商品、商品收藏、评价点赞等行为。通过对这些行为进行分析，可以刻画出用户的真实画像。现有学者分别针对股民、社交用户等网络用户群体进行用户画像的刻画，且取得不错成功[16-17]。以微博平台为例，齐超等通过对用户转发、评论和提及三种行为进行综合分析，运用统计分析方法就微博用户的不同行为对传播影响力的贡献进行度量，提出一种基于行为权值分配的PageRank 算法，对传播影响力大小进行定量的分析。并通过真实数据进行实验，结果得到了准确率更高的用户影响力判断，且分析出转发行为是用户影响力判定的重要因素[18]。

3.2 基于用户关系的网络水军识别

类似于现实社会的人际关系，网络用户存在着千丝万缕的联系。微博平台用户之间的关注、评论、点赞、转发等行为[19]；电商平台中用户的商品推荐、商品收藏、评论点赞等行为；知识问答社区的提问、回答、关注等行为。基于“六度空间理论”，网络用户之间同样存在着“强关系”与“弱关系”[20]。网络用户的关系可视为一个加权无向图，其中节点表示用户，边表示用户之间的关系，边的权值表示用户之间的关系强度，徐志明等将用户关系强度定义为用户之间的相似度[21]。王大玲等梳理了“用户”与“资源”量大两大实体间的关系，包括用户与用户的联系、用户与资源间的操作利用以及资源间的相似性[22]。从用户关系或用户行为任一孤立的角度解决网络水军识别，都是存在缺憾的。因此，将网络用户与网络资源相结合可以将网络水军识别工作更加完善。

4 虚假评论防范问题

《中华人民共和国电子商务法》的立法进程于2013年底正式被启动，2018 年8 月正式颁布，并与2019 年1 月1 日起正式实施。该法案对信用炒作、虚假交易及限制竞争等行为提出惩戒原则，规范网络市场秩序。《反不正当竞争法》中也指出，经营者不得通过组织虚假交易等方式，帮助其他经营者进行虚假或者引人误解的商业宣传。纵观近年来网络水军参与的网络事件，网络水军虽然对社会舆论、商业环境产生一定不良影响，但未能完全操纵舆论，究其原因是网络拥有自净化机制自组织效应[23]。

国家相关部门颁布的相应法律法规，对在线商品的虚假评论、网络水军有一定震慑作用。与此同时，还应加强广大网民的思想道德建设。网络环境中，用户所发表的言论具有一定随机性、匿名性、海量性等特点，致使网民忽视了UGC 的版权问题[24]。加强全民版权保护意识、UGC 主体的版权意识，依靠学校教育、社会教育，以及UGC 网站中对UGC 版权的宣传。

5 结语

本文基于语义、语法和用户主体角度，总结了现有虚假评论识别方法。基于用户行为和用户关系两方面，描述网络水军的识别方法。指出净化网络环境和提升用户素质角度，对虚假评论和网络水军现象进行治理。虚假评论检测和网络水军识别一直是自然语言处理的研究热点，除此之外，如何及时发现虚假评论、实时网络水军识别是下一步需要解决的问题。