基于买家评论文本分析的C2C电子商务推荐信任研究

2018-11-15王兴芬杜惠英

中国流通经济 2018年11期

王兴芬，杜惠英

（北京信息科技大学，北京市100192）

一、引言

近年来，电子商务发展迅速，伴随着互联网的发展逐渐渗透到人们生活的方方面面。中国电子商务研究中心发布的《2017年中国电子商务市场数据监测报告》显示，2017年中国电子商务交易额达到29.16万亿元，同比增长11.7%，电子商务交易规模继续扩大并保持高速增长态势。网购用户已经达到5.33亿人，同比增长14.3%。我国电子商务在快速发展的同时，投诉率居高不下。据统计，2017年零售电商投诉占比最高，达到60.59%，同比增长7.91%。由此引发了诸多社会问题，其中信任问题最为严峻，对用户决策具有重要影响。

电子商务以互联网为媒介，可使交易变得更加便捷、快速、高效，但依然无法解决信息不对称问题，阻碍了用户信任感的提升，且随着互联网传播速度的加快，用户在线购买意愿也受到了极大影响。交易平台设计的信誉系统可在一定程度上缓解这种状况，对提高用户对平台的信心和信任感具有重要意义，然而其有效性却一直饱受诟病。

本文基于相关研究理论与成果，结合当前研究存在的问题与不足，针对评论文本分析和信任模型开展深入研究，构建新的信任推荐模型，通过以电子商务平台数据为支撑的实证分析为买家决策提供一定支撑，为电子商务平台提高信任度提供一定借鉴。

二、研究现状综述

迄今为止，已有众多学者对信任进行了研究，并结合当时的背景和环境融入个人理解给出了各种不同的定义和解释，其中有几类得到了广泛采用。社会学家卢曼（Luhmann N）等[1]认为，信任是一种广义上的期望，期望他人能够保持自己的人格，这种人格至少是他已经显露且为社会看到的人格，在这种期望下他会控制自我、控制欲图非分之举的内心，这表明信任是主观的、乐观的，且不对期望值进行估计的的一种感性行为。科泽（Coser L A）等[2]从三个方面入手对信任进行了解释。首先，相信自然秩序、社会秩序是公平的、有利于自身的；其次，相信对方有能力胜任其扮演的角色；其三，相信对方是负责任的，并且会履行义务。

当前有关信任的研究主要集中在两个方面，一是对信任影响因素的研究；二是对信任计算模型的深入研究。信任影响因素主要从消费者对环境、技术、安全、制度等的感知层面入手进行研究；采用的信任计算模型大多为基于反馈评分的累加模型。

有关信任影响因素的研究成果非常丰富，研究人员从不同的角度和层面入手进行了深入的挖掘和总结。金（Kim D J）等[3]从六个维度入手研究了电子商务信任的影响因素，包括内容维度、产品维度、交易维度、技术维度、消费者行为维度。坦（Tan F B）等[4]从三个维度入手阐述了信任的影响因素，包括个人维度、制度维度和人际维度。其中，个人维度指个人特征、家庭环境和文化因素等；制度维度包括网络经历和保护认知因素两方面；人际维度包括有关竞争力、可信度、善良对待他人和忠诚度的知识。瓦尔楚赫（Walczuch R）等[5]将影响信任的因素分为个体因素、认知因素、经历因素和知识因素。邵兵家等[6]将影响信任的因素归纳为企业自身、企业网站、消费者个人因素和环境因素。耶尔文佩（Jarvenpaa S L）等[7]将影响信任的因素分为施信方过去的经历、战略定位、信任倾向和对控制的感知。杰芬（Gefen D）[8]认为，信任受对受信方熟悉程度以及个人信任倾向的影响，并由此推断信任与施信方个人特征及对受信方的感知存在较大关系。

信任模型是一种量化的评论体系，使得平台的信任程度可用数值进行衡量。国内外有关信任计算模型的研究已经取得了较多成果，提出了各类拓展的信任度量模型。通过梳理各类信任模型相关文献，根据直接交互信任计算方式的不同，将之分为基于概率论的信任模型和基于评分累加的信任模型；根据应用范围的不同，将之分为P2P电子商务信任模型、文件共享信任模型、数据管理信任模型和协同计算信任模型。其中，甘早斌等[9]构造了一个信任网络，以形式化语言进行描述，认为信任由直接信任和间接信任两部分组成，同时提出了影响信任的时间衰减因子，采用评论相似度来衡量信任推荐的可信度。李道全等[10]对推荐节点进行扩展，除考虑具有直接交易关系的节点外，还引入了二层节点即有间接交易关系的节点，综合考虑时间、金额、交易失败次数等因素，针对交易失败次数设置惩罚因子，该模型在理论上能够提高推荐的准确性并有效遏制恶意节点的攻击，但二层节点的推荐权重问题并未得到解决。巴尔加瓦（Bhargava K）等[11]对评论内容进行分析，根据情感分析结果修正评分，提出了基于评论内容分析的信任模型，该模型能够挖掘评论文本所表达的主观信息，减少根据客观评分判断买家情感出现的偏差，但对评论本身是否具有推荐价值缺乏考虑。波恩特拉科（Porntrakoon P）等[12]采用神经语言程序学（NLP）方法对评论文本进行信息抽取，得出评论所涉及的维度，对不同维度赋予不同权重，对每一个维度结构（中心词，修饰语）中的修饰语进行情感分析，计算该维度信任得分，结合各维度权重获取每条评论的信任得分，最后对所有评论信任得分进行求和获得对该商家的信任值，在各维度权重的选取上，只是根据该维度评论条数占所有维度评论总量的比重来确定，其合理性和必要性有待进一步研究。应志恒等[13]考虑交易时间、金额等因素的影响，引入反馈机制，建立了全新的信任推荐模型，该模型能够有效挖掘评论的真实推荐价值，提高计算所得信任值对买家决策的参考价值，且具有较高的可靠性。

基于已有研究成果，本研究以真实的消费者对消费者（C2C）电子商务交易过程为出发点，结合交易现状开展研究。

首先，对当前研究存在的问题进行了归纳：一是买家购物后发表的评论通常为习惯性好评，买家交易信息获取难度大；二是买家之间几乎没有交流，无法建立有效的熟悉度关系；三是多数买家仅在第一次与某商家接触时才会进行信任判断，若是发起第二次交易，则说明买卖双方信任已经建立，而如果第一次交易失败，那么买卖双方将无法建立有效信任。买家对卖家的初始信任一般通过其他买家对商家的推荐建立，而推荐的主体便是买家在交易完成后给出的评论信息。在信任研究中，对评论信息的利用通常是凭借评论标签，即好评、中评、差评进行信任的累加，并没有对评论信息的内容进行分析，而根据观察，评论标签与实际评论内容存在不相对应的情况，好评标签下的评论内容可能并非好评，存在评论内容反映信息较少的情况，无法产生推荐效果。

接下来，对评论信息进行有针对性的分析，对评论信息分析算法进行拓展，挖掘其真实推荐价值。具体评论信息分析步骤如下：

第一步：标准评论信息词组的确定。选定标准评论信息，涵盖物流、商家、产品、服务四个方面，取四个词的相关词语各十个，形成标准评论信息词组。

第二步：推荐权重的确定。依据评论文本与标准评论词组的相似度，确定评论推荐权重。

第三步：评论文本情感分析。对评论文本进行情感分析，得到评论的真实情感倾向，进而综合考虑时间、金额等信息，建立推荐信任模型。

三、评论文本相似度分析

标准评论信息词组是某一维度评论词语的集合，这组词语能够较为准确、全面地代表该维度可能出现的评论内容。因此，这组词语所代表的评论内容对消费者具有较高价值。如果某一文本内容与有关词组相似，那么相似程度越高，评论文本对消费者的推荐价值就越接近，利用相似度，我们可以较为准确地衡量两个文本内容的接近程度。文本的相似度指两个文本特征的匹配程度。当前计算文本相似度较为常用的方法主要可分为两类：一类是基于统计的方法，包括基于向量空间模型的词频—逆文档频率（TF-IDF）算法、基于汉明距离的相似度算法和基于隐性语义索引的相似度算法；另一类是基于语义理解的相似度算法，这类方法依赖于语义词典。对于买家评论，评论文本一般篇幅较短，包含的词语较少，反映文本特征的特征词也比较少且频数低，利用统计的方法无法通过有限的特征词来表达文本的主题，因此将文本相似度的计算转化为特征词之间相似度的计算是一种较为合理的方法。本文采用的是基于知网语义词典的相似度分析方法，其优势在于不需要复杂的计算，不必考虑数据稀疏问题，且对语料的依赖程度相对较低，对电子商务网站评论信息的分析具有较好的适用性。

（一）词语相似度

在知网语义词典中，收录了1 618个义原，这些义原按照上下位关系形成了层次体系严密的义原树，所有义原形成了多个义原树，分别是事件、实体、属性、属性值、数量值、次要特征、语法、动态角色与特征。其中，前面七个为基本义原，后面两个分别为语法义原和关系义原，此外在描述概念的语言表达式中还会包含一些符号，称为符号义原。实词的语言描述表达式均由基本义原（Basic）表达式、语法义原（Grammar）表达式、关系义原（Relation）表达式、符号义原（Symbol）表达式组成，其中基本义原表达式是必要的，而虚词的语言描述表达式则由关系义原表达式或语法义原表达式组成。

假设存在两个词w1和w2，它们的义项集分别为和c22，…，c2m）。规定w1和w2之间相似度的计算方法为，取中的任意一个义项c1i和中的任意一个义项c2j进行相似度计算，所得到的最大相似度即为w1和w2的相似度sim（w1，w2），即：

其中，wu1x、wu2y为c1i、c2j中的两个义原，k为两个义项同类义原按相似度最大原则匹配的义原对的数量。当m＜n时，k=m；当m＞n时，k=n。x≤m，y≤n。

义原在知网词典表达体系中均有各自的相对位置，因此两个义原的相似度可根据它们在义原树中的相对位置加以衡量。假设两个义原之间的相对距离为d，那么义原的相似度sim（wu1，wu2）可以表示为：

其中，θ为可调节参数。

（二）文本相似度

评论由词语构成，评论的相似度取决于词语间的相似度。传统向量空间模型容易产生纬度高、数据稀疏、计算复杂度高等问题。本文根据语言表达的特性（即每一个短文本都由几段用标点符号分隔的短句组成，每一个短句都表达了一个中心意思），将两条评论文本D1和D2按照标点符号切分为，取中的一个短句s11和中的任意一个短句s2j计算相似度，与相似度最大的短句组成相似对similars11（s11，s2j）。同理，找到其他所有相似对，组成相似对集合相似对similars1i的计算式为：

其中，w1i、w2i分别表示s11、s2j中的词语。当m＜n时，k=m；当m＞n时，k=n。

假设共有N个相似对，则文本相似度sim（Di，Dj）的计算式为：

（三）相似度方法实现流程

选择标准评论文本的第一步是确定主题词。本研究以U盘为交易产品，选定的主题词是物流、商家、产品、服务。根据主题词搜索相关词，包括名词和形容词，最终形成四个主题词组。形成主题词组的方法为，首先获取评论文本，然后进行分词，以分词文本作为语料库，应用词向量（word2vec）模型进行训练，该模型能够根据语料将词语表示成向量模式，并用向量之间的余弦值衡量词语的相似度[14]，以主题词作为输入，输出与主题词相关的若干词语，即可从中选择相似度较大的词语和主题词一起形成主题词组。

利用爬虫工具获取某电子商务网站10万条评论作为训练语料，经过训练，输入主题词后得到相关词语表，从中筛选出语义相近的10个词语作为标准评论语句，得到物流词组seglogis、商家词组segseller、产品词组segproduct、服务词组segservice分别为：

seglogis=（物流，送货，发货，快递，配送，货物，服务，运送，自营，态度）

segseller=（商家，店家，厂家，卖家，负责，答复，提供，爱理不理，投诉，不负责任）

segproduct=（产品，商品，品质，物品，质量，东东，信得过）

segservice=（服务，态度，售后服务，一流，配送，周到，小哥，优质，良心，掌柜）

根据确定的标准评论文本词组，结合本文设计的文本相似度算法，分别得到各评论文本与标准评论文本的相似度。具体实现流程参见图1。评论文本和标准评论文本均为词组形式。其中，评论文本表示为segD1=（s11，s12，…，s1m），标准评论文本表示为segstd=（seglogis，segseller，segservice，segproduct）。将s1i与segstd中的词语进行相似度计算，取最大的一对进行匹配，已经匹配过的不再进入匹配，由此形成最优匹配。

四、评论文本情感分析

图1 相似度算法流程

每一条评论都表达了评论者的感情，或正向，或中性，或负向，网络购物平台将这些评论分成了好评、中评、差评三类。然而，有些带有好评标签的评论其内容却可能为中性或带有负面情绪，中评和差评标签所对应的评论内容也存在类似情况。很多信任模型在汇集评论信息时，并没有考虑到这一点，在信任累积过程中直接对好评、中评、差评进行加1、加0、减1的操作，这样是无法反映评论者真实情绪和商家实际情况的。因此，本文对评论内容进行情感分析，通过分析得到正向、中性或负向情绪，并对不同情绪下的信任累积进行不同的处理，以更加真实、有效地反映商家的实际信用状况。

（一）情感分析方法设计

借助知网语义词典推进本文的研究。知网语义词典中存在一些具有贬义或褒义的词语，其中褒义词汇包括褒义评论词和褒义情感词共4 566个，贬义词汇包括贬义评论词和贬义情感词共计4 370个，对不同的词语分别赋予不同的情感值senV以表达不同的感情。

对评论文本Di按照标点符号进行分割，可以得到几个短句，即segDi=（si1，si2，…，sin），每个短句都表达了一个主题。比如，对评论文本“这也太坑人了吧，买的64G怎么只有57.9G，少了6.1G，少了10%，这就是大品牌的U盘？果然很垃圾”进行分割，可以得到si1={这也太坑人了吧}，对si1进行分词，去掉虚词、指示代词得到相应的词组sci1={“太”，“坑人”}。与之类似，可以发现，这类词组一般包括1～5个词语，而词语之间的组合可以达到20种之多。对存在程度副词和否定副词的词组应当予以特别重视，因为这两类词语能够加强某些词组的情感强度或者造成语义反转。

对文本Di进行分割后得到对其中的短句sij进行分词，对每个短句进行情感分析，得到每个短句的情感极性值规定整个文本的情感极性值为：

假设短句sij中存在组合A+B，则对于A+B情感极性值senti（A+B）的计算可对照以下几种情况进行：第一，如果文本中词语A的情感极性值已知，直接取已知情感极性值senti（A）；如果A的情感极性值未知，比较A与各情感极性值已知词语term的相似度sim（A，term），取最大值max（sim（A，term）），则A的情感极性值为senti（term）×max（sim（A，term））。第二，如果A是程度副词，B是中心词语，则A+B的情感极性值senti（A+B）=level（A）×senti（B）；如果A是中心词语，B是程度副词，则A+B的情感极性值senti（A+B）=level（B）×senti（A）。第三，如果A是否定副词，B是中心词语，则A+B的情感极性值senti（A+B）=（-1）×senti（B）；如果A是中心词语，B是否定副词，则A+B的情感极性值senti（A+B）=（-1）×senti（A）。第四，如果不存在程度副词和否定副词，则A+B的情感极性值senti（A+B）=senti（A）+senti（B）。可见，对于组合A+B的情感极性值senti（A+B），其计算式为：

而短句si j的情感极性值可根据其词语组合的具体情况加总得到。

（二）情感分析方法实现流程

运用分词工具，采用Python软件的分词模块jieba0.39对文本进行分割，得到，继而对进行分词，去掉停用词后得到表征文本情感的几个词语组合。将词语组合中的词语与所建立的情感词典进行匹配，如果检测到包含正面词语、负面词语、程度副词或者否定副词，则按照相应的规则进行处理，并在所有词语组合匹配完毕后对词语组合的情感值进行加权平均，得到文本的情感极性值。情感分析流程参见图2。

图2 文本情感极性值计算流程

五、推荐信任计算模型

信任受诸多因素影响，梳理相关文献发现，影响推荐信任权重的因子有交易时间、交易金额、反馈评分、交易失败次数等。重点考虑初次交易时买家对商家的信任，将交易时间、交易金额作为影响信任的因子，并引入评论中心度因子、评论情感因子进行综合考量。

（一）交易时间因子

按照常识，当前时间的成功交易更容易使买方对卖方产生信任感，随着时间的流逝，其信任感会慢慢变弱，商家的行为也会发生变化。因此，对于买家给出的评论，一段时间之前的评论可能无法准确反映卖家当前的实际情况，而在一定的时间之内，这种信任感的弱化会比较缓慢。用时间窗Δt来衡量这段时间，即在当前交易时间Δt内，信任感不会变化，当间隔大于Δt时，信任感就会随着时间间隔的增大呈加速弱化状态。那么，时间因子T（Δt）Di可以表示为：

其中，e为欧拉常数，v表示交易的时间窗。

（二）交易金额因子

在大额交易情况下，买方通常会在仔细斟酌的基础上进行交易决策，交易完成后对产品情况的反映也相对认真，给出的评论往往能够比较真实地反映交易的实际情况，且大额交易中商家的态度对于反映商家真实的信誉状况也极其重要。本文认为，交易金额越大，其评论的参考价值越高，推荐的可信度越高。金额因子MDi可表示为：

其中，Mn为第n次交易的金额，n为交易的总次数。

（三）评论文本中心度因子

每一条评论的内容都不尽相同，不同的买家其表达的方式不同，表达的情绪不同，表达的内容不同，都会导致评论价值的差异。不同的评论其参考价值也截然不同，有的评论简短，有的评论涉及内容很多，有的评论仅仅表达购物心情，有的评论与购物内容无关，它们对推荐信任累积的重要性也不同。按照本文设计选定标准评论文本，随着两者相似度的不同，其推荐的重要性也会产生相应的变化。因此，根据公式（5），设置评论中心度因子RDi：

其中，Dstd表示标准评论文本，Di表示任一评论文本。

（四）评论情感因子

多数研究者按照好评、中评、差评的标签进行推荐信任累积，即好评加1，中评加0，差评减1。这种方式简单、便捷，有利于快速计算卖家信用度，但没有考虑大量的评论标签与评论内容不相符的情况。比如，好评标签对应的内容有中性的，有表达不满情绪的，差评标签对应的内容也有中性的，中评标签对应的内容有表达肯定态度的，仅仅按照评论标签进行推荐信任累积并不合理。本文设计了情感分析方法，分析每一条评论所表达的情绪，确定每一条评论的情感倾向，获取情感极性值。评论表达的情感包括正向、负向和中性三种情况，不同的情感对评论推荐作用具有不同的影响。根据公式（6），评论的情感因子sDi可表示为：

在网络购物中，买家初次购买时，由于缺乏与商家交易的历史经验，加之双方信息不对称，很难对商家有一个准确的把握。在这种情况下，买家往往很难进行购物决策，而其他买家的评论正好可以帮助其了解商家、产品、物流等相关情况。因此，评论对获取信任具有非常重要的作用，而每条评论因属性不同其参考价值也不同。本文提出了交易时间、交易金额等因素，并引入评论中心度和评论情感两个因子，进而分析其对推荐信任的影响。推荐信任是所有评论产生的信任值的累加，本文规定推荐信任RT的计算式为：

其中，n为选取的评论条数。

六、模拟仿真

研究数据来源于某知名电子商务网站，共选取10家销售U盘的店铺，每个店铺选取1 000条评论数据。得到的信息包括买家用户名、买家信用等级、买家评论等级（好、中、差）、评论文本、产品类型、产品规格和评论时间，形成了多属性的样本数据。仿真内容为对比直接按照好、中、差评标签累积信任值和按照本文模型进行信任累积的变化趋势。采用Python软件对实验进行模拟仿真。结合样本数据和研究对象特点，选择表1所示的主要参数和取值。

（一）信任累积趋势分析

信任的累积指通过好评加1、中评加0、差评减1的方式，对所有相关评论进行累加求和，以获取消费者对商家的信任值，信任值的高低可在一定程度上反映商家的可信程度。本节选取了1 000条评论，其中好评500条，中评300条，差评200条，模拟随着评论的增加一般信任累加模型与本文模型信任值的变化情况。

一般信任累加模型根据评论标签所对应的分值进行信任累加。由图3可以清楚地发现，一般信任累加模型的信任累加值仅反映了评论数量的变化，而本文模型的信任累加值则呈曲线变化趋势，累加速度更缓慢，更符合实际信任增长情况。

此外，还模拟了对信任取平均值时信任值随交易次数增加而产生的变化情况。对信任取平均值时，一般信任累加模型的信任值没有任何变化，本文模型能够根据评论的内容动态反映信任值的变化。因此，本文模型能够更加真实地反映信任值在交易过程中的变化。

表1 本文参数取值

图3对信任值的求和模拟过程展现了不同类别评论的混合累加，好评和差评产生的累加速率较一般信任累加模型低，中评也对信任累加产生了影响。因此，一方面，本文模型有效区分了好评、中评、差评三类评论对信任累加的影响；另一方面，本文模型不同于一般信任累加模型，体现了对某一类别不同评论的区分。在对信任值取平均值的实验过程中，选取某一类评论进行分析，结果发现本文模型能够打破既定评论类别划分界限，挖掘评论文本潜在意义。综合以上分析，说明模型既符合信任累加的一般规律，又体现了优化信任累积的效用。

（二）交易成功率分析

交易成功率指总交易次数中成功交易次数所占的比重，抽取20家店铺共20 000条评论，以好评数作为成功交易次数，对本文模型与一般信任累加模型进行比较，即在信任值相同的情况下对本文模型的信任值与一般累加模型的交易成功率进行比较。

图3 信任累加趋势（求和）

图4 交易成功率分析

由图4可以看出，在信任值相同的情况下，交易成功率高于一般信任累加模型，即在交易次数相同的情况下，为使本文模型的信任值与一般信任累加模型一致，需要数量更多的好评。因此，本文模型能够更加真实地反映真实信任的积累，所得到的信任值也更具可信度，具有较好的适应性与实用价值。

七、总结与启示

（一）研究结论与局限性

目前有关推荐信任的研究大多基于买家评分，却没有考虑评分与评论内容的一致性，即没有分析好评的内容是否表达了积极情绪，中评的内容是否完全中性，差评的内容是否表达了负面情绪，因此直接进行评分累加将导致信任评估失准。而且，当所有评论都是好评时，计算得到的信任值将无法体现商家的实际信用状况。此外，没有考虑评论文本是否具有推荐价值，即评论所表达的主题与购买商品是否相关或具有一定的相关性。而本研究则解决了上述问题，主要结论如下：

1.在理论上，本文从评论文本分析入手建立了新的推荐信任模型，通过比较评论文本与选定标准文本相似度，分析评论文本情感值来确定文本推荐价值，并引入评论文本中心度和评论文本情感因子作为信任的影响因子，此外还考虑了交易时间、交易金额等因素，使模型更具客观性。

2.设计了合理的情感分析方法。本研究借助了知网语义词典，其中存在一些贬义或褒义词。对评论内容进行情感分析得到正向、中性和负向情绪，对不同词语分别赋予不同的情感值senV以表达不同的情感，对不同情绪下的信任累积分别进行处理，以更加真实、有效地反映商家的实际信用状况。

3.在情感分析实现工具上，本文采用Python软件的分词模块对文本进行分割，去掉停用词后得到表征文本情感的几个词语组合，将词语组合中的词语与所建立的情感词典进行匹配，对词语组合的情感值进行加权平均，得到文本的情感极性值。

4.在实证分析上，本文采用Python软件对实验进行模拟。仿真结果表明，与一般信任累加模型相比，本文模型的信任累加值呈曲线变化趋势，累加速度更缓慢，更符合实际信任增长情况。从平均信任累计趋势看，一般信任累加模型的信任值没有任何变化，本文模型能够根据评论的内容动态反映信任值的变化。从交易成功率看，在信任值相同的情况下，本文得到的交易成功率高于一般信任累加模型，因此本文模型能够更加真实地反映真实的信任积累，得到的信任值也更具可信度，具有较好的适应性和实用价值。

综上所述，在理论方面，本研究拓展了文本分析方法，对文本相似度分析算法和情感分析算法进行了研究和优化，基于评论文本分析提出了综合考量文本相似度、文本中心度、评论文本情感等因素的信任影响因子体系，对研究电子商务平台信任具有一定的理论意义。在实证分析方面，以电子商务网站实际评论数据为支撑，结合Python算法编程加以实现，验证了算法的有效性，形成了切实可行的算法体系，具有一定的实践指导意义，为电子商务网站提高信任度和帮助用户购买决策提供了科学合理的理论支撑。因此，本文模型对推荐信任模型构建具有重要指导意义，能够为消费者提供有效的决策支持。

当然，本研究仍然存在很多局限性。评论文本相似度分析采用基于语义的方法，基于语言表达特性对评论文本按照标点符号进行切分，匹配出最大相似度对，并以所有匹配对相似度的算术平均值作为两个文本的相似度，并没有对匹配对的内容进行识别，即两个匹配对可能均为针对同一维度的评论，因此后续研究需要对匹配对的内容进行预处理。在情感分析方面，评论文本中包含很多表达特定情感的中性词，为准确识别评论所表达的情感倾向，还需要进一步扩充情感词典。此外，本文对恶意差评、共谋评论识别能力有限，需要对这些类型的评论加以特性分析并进行相应处理，以提高评论的可靠度。