基于模糊综合评价的线上商品评论状况研究

2021-01-22童仕宽郭嘉祺余雅霖

武汉理工大学学报(信息与管理工程版) 2020年6期

童仕宽，高越，郭嘉祺，余雅霖

(1.武汉理工大学理学院,湖北武汉 430070;2.武汉理工大学计算机科学与技术学院,湖北武汉 430063)

随着电子商务与现代物流行业的蓬勃发展，网上购物因其安全、便捷、价格低廉、选择多样等优点逐渐得到广大消费者的青睐。不同于线下购物的低互动性，消费者在线上购物后可以对商品进行评级和评论。调查研究显示，线上评级与评论已成为消费者在购买商品前了解商品与服务信息的重要渠道。因此，通过挖掘商品评论信息的潜在价值，厘清消费者的显性和隐性需求，从而帮助企业优化产品设计、制定销售策略、开拓新兴市场，具有深远的研究意义与应用价值。

近年来，一些学者对提取商品评论中蕴含信息的方法进行了深入研究，搭建了多种理论模型。考虑到商品评论信息的多样性与复杂性，多数学者将评价状况总结为单一评价指标。如张野[1]以商品声誉作为衡量电子商务中商品信誉的标准，得到衡量商品声誉的评价模式。CARRILLO-DE-ALBORNOZ等[2]通过识别评论中的商品相关特征，以预测模型的形式对商品的总体评分进行预测，得到了更完善、更准确的商品评论状况指标。王乾等[3]提出综合文本评论与数值评分的综合评分计算方法，针对矛盾性评价引入LSTM-AE神经网络与支持向量机，得到了既可中和矛盾性评价差异，又不影响非矛盾性评价的评分结果。在对评论信息单一化整合的基础上，也有学者对评论具体信息及其之间的关系进行了讨论。如HU等[4]通过建立多元方程模型，得到了评论与销售状况之间的相关关系与具体的影响模式。袁海霞等[5]结合新产品扩散理论，采用动态线性模型，对消费者产品评论和微博口碑在新产品扩散过程中的动态对比影响进行研究。徐硼等[6]采用多元回归模型和结构方程，得到了艺术品网购中消费者感知风险影响因素的作用机理，以及在线评论显著正向调节感知艺术品信息的不对称性对感知风险的关系。关于评论的动态变化方面，周莎莎[7]采用回归分析方法，从评论者与评论环境各因素的调节效应及其前后各指标交互效应的角度，对过去与后续产品评论之间的影响进行讨论。闻超[8]对酒店在线评分的动态变化进行了研究，将评论区分为前期和后期，得出了不同时期评论相互之间的影响机制。

目前的评论信息整合主要关注指标的提取，极少考虑不同评价者之间的差异。同时已有研究多侧重于直接研究评论数据，忽略了评论与评级之间的关系。因此，笔者对商品评论信息进行整合，考虑到不同评价者的可信度差异，基于模糊综合评价模型得出商品评论信息的评价方案。由词频推测出商品成功的预示信号，并采用断点回归、相关性分析等方法，对评论与星级之间的关系进行进一步的分析，使得结论更具有现实性和可用性。

1 商品评论信息的提取

1.1 商品评论数据收集

数据来源于2020年美国大学生数学建模竞赛C题中给出的数据，该数据为亚马逊市场2003年3月至2015年8月吹风机、微波炉和奶嘴3类产品的客户评价数据，由亚马逊网站提供，包括产品编号、用户评价星级(1～5星)、“有帮助”投票数、总投票数、是否为“vine”用户、是否购买、评论标题、评论内容等。

需要说明的是：亚马逊市场为用户提供了评价星级，表达对产品的满意程度，星级越大表示对产品越满意，同时可以在评论中表达对产品的意见和建议。另外，用户可以对其他用户的评价进行投票，表达该评论是否对其有帮助。亚马逊市场还基于用户已发表的有效评论，邀请一些用户成为“vine”用户，向其免费提供产品样例以帮助他们给出更准确的、有见地的评论。

1.2 商品评论数据的预处理

收集到的评论数据具有数据量大、数据类型复杂的特点，无法直接用于统计分析。因此，在系统研究之前对收集到的数据进行预处理。

1.2.1 缺失与异常数据的处理

针对缺失数据，将该数据的其余项与数据组中的完整数据进行比较，选择最相似的一条进行补全；针对异常数据，对检索到的不符合定义的数据条目做删除处理；针对部分文字型数据含有的表情符号信息，选择与该表情含义相似的单词进行替换。

1.2.2 研究对象的初步提取

经过初步处理后，得到了便于分析的数据形式。为增强数据的有效性，对研究对象进行初步提取，具体操作如下：①删除数据组中研究价值与区分度不高的冗余项，包括销售市场、产品所属目录、产品系列编号等。②根据产品名称项中对产品名称的描述，删除不属于该类产品的数据。③不考虑同一客户对两件商品进行评分的情况，且由于产品系列编号对后续研究意义不大，仅选取产品编号作为研究对象。④由于评论标题和评论内容两项数据类型相同且相似度较高，因而将其合并为一项进行研究。

1.2.3 自然语言数据的处理

由于自然语言数据难以进行计算和分析，笔者采用了自然语言处理算法，使用工具包NLTK[9]内置的情感分析模块nltk.sentiment.vader，从评论中提取出语言的情感分数，基于该数据进行后续研究。

1.2.4 数据的标准化

对所有数据进行标准化处理：将是否为“vine”用户和是否购买中的“N”与“Y”分别用0和1替代；对星级、“有帮助”投票数、总投票数均使用最大最小值法进行标准化处理。

2 模糊综合评价模型

2.1 模糊评价原理

模糊综合评价[10]是在模糊环境或模糊系统中基于模糊数学设计多个元素或指标的综合评价方法。运用该方法建立模糊综合评价模型，具体步骤如下：

(1)确定因素集。确定用于评判评价对象的因素，即确定评价指标集合U={u1,u2,…,um}。

(2)确定评价集。评价者对评价问题进行评价，形成评价集V={v1,v2,…,vn}。

(3)求解模糊关系矩阵。因素集中各指标隶属于评价集中不同评价的程度称为隶属度。计算各因素对各评价的隶属度，得到从U到V的模糊关系矩阵R：

(1)

其中，rij(i=1,2,…,m,j=1,2,…,n)为评价系统中因素ui对vj等级模糊子集的隶属度。

(5)多因素模糊评价。选择合适的合成算子合成权重集A与模糊关系矩阵R，得到模糊综合评价结果B。

B=A·R=(b1,b2,…,bn)

(2)

其中，bj为评价对象对vj等级模糊子集的综合隶属程度。

(6) 分析模糊综合评价结果。将综合评价结果B转换为综合分值，根据分值大小对多个评价问题进行排序和对比分析。

2.2 综合评价模型的建立

由于不同评论的可信度具有一定差异，笔者基于评论的“有帮助”投票数、总投票数、是否为“vine”用户和是否购买定义了评论可信度Reliability和综合评论情绪RE。

Reliability=w1z1+w2z2+w3z3+w4z4

(3)

RE=Reliability×e

(4)

式中：z1、z2、z3、z4分别为评论的“有帮助”投票数、总投票数、是否为“vine”用户、是否购买经预处理后的值；w1、w2、w3、w4分别为各项权重，笔者采用主观定权与熵权法[11]相结合的方法确定指标权重；e为评论情绪分数。

以星级RA与综合评论情绪分数RE作为指标，建立模糊评价模型，得到因素集U={RA,RE}。产品的星级和综合评论情绪分数决定了评语集，由产品的星级和综合评价组成评价矩阵R，结合权重矩阵得到综合评价结果，取其中数值最大的隶属度对应的评语作为最终产品的评价结果。

2.3 评价结果

基于上述模糊综合评价模型，得到衡量商品评论状况的综合评价方案。使用该方案对吹风机、微波炉、奶嘴3类产品的评论数据进行评价。3类产品的“有帮助”投票数、总投票数、是否为“vine”用户、是否购买4项指标的权重如表1所示。3类产品的评价结果分别如表2～表4所示。

化学和生活情境相结合并不意味着化学本身只需要理论作指导.我们要看到其实践性的本质，尽可能地发掘化学实验和生活的结合之处，比如在焰色反应的化学实验中，不同颜色的金属会产生的颜色也不一样.烟花就是其在生活中具体应用的一个例子.可以通过让学生观看烟花的视频，分析化学其本身存在的化学原理，也可以根据烟花的颜色试分析烟花中存在的化学成分.让学生理解化学是如何来源于生活却又高于生活的，化学反应中可以应用这些化学原理，但是又不能完全应用，让学生自己探索发现生活和课本中知识运用上的差距，从而让学生对化学学习有一个更为深刻的领悟.

表1 指标权重

表2 吹风机产品评价结果(部分)

表3 微波炉产品评价结果(部分)

表4 奶嘴产品评价结果(部分)

3 评论指标提取与指标间关系分析

3.1 有效跟踪指标的提取

新产品上市后，对产品在市场中呈现的信息进行追踪，将有利于后续产品与销售策略的改进。

3.1.1 初步指标提取

考虑未处理的评论数据，根据各指标的权重提取出重要性较强的评论指标用于初步研究。由表1可知：①对于吹风机产品而言，是否为“vine”用户和“有帮助”投票数的权重之和占总权重的80%以上。其主要原因可能是：“vine”用户的评论往往更加客观且具有专业性；“有帮助”投票数常被作为网站评论排序的依据，越高者往往越易受到消费者的支持与认可。②对于微波炉产品而言，微波炉因其功能的多样性，对评价者的专业水准要求更高，是否为“vine”用户的权重达到了51%，权重最高，“有帮助”投票数次之，总投票数与是否购买的权重最低且相差不大。③对于奶嘴产品而言，受使用舒适程度的影响，是否为“vine”用户与“有帮助”投票数的权重最高且较为相近；由于奶嘴属于涉及婴儿安全的产品，未购买者的评论更不受信任，因而是否购买的权重极低。

综上所述，“有帮助”投票数和是否为“vine”用户对评论重要性的影响最大。故新产品上市后应着重追踪“有帮助”投票数较多和“vine”用户的评论。

3.1.2 新指标提取

(1)即时声誉与累积声誉。评论情绪在整个产品的销售周期中会不断发生变化，仅考虑给定条件及上述研究指标得出的结果是不全面的。因此，笔者定义了t时刻的即时声誉Reputation(t)和累积声誉Reputation*(t)：

(6)

其中，Score(t)为t时刻产品评论的即时综合评分。

对收集到的评论数据求解即时声誉和累计声誉，发现整体上产品的即时声誉波动较大，而累计声誉变化相对稳定。对于优质产品，其即时声誉波动范围小，累积声誉几乎呈线性增长；对于劣质产品，因不合格率较高，购得良品与劣品的可能性都显著存在，即时声誉的波动极大，累积声誉上升速度较慢。

(2)成功水平。为进一步提出综合考量产品状况的指标，将产品评论综合评分与累计销量进行组合，作为衡量产品是否成功的标准，定义t时刻的成功水平Success(t)为：

Success(t)=Score(t)×Sale(t)

(7)

其中，Sale(t)为产品在t时刻的累计销量。

对收集到的评论数据求解成功水平，发现优质产品的成功水平曲线总体稳中有进，且存在较多的激增段，即拥有更多的声誉和销量急剧增长的机会；而弱势产品的成功机会很少，即时声誉或销量稍有增长很快又会跌落至初值附近。

3.2 产品潜在成功可能性分析

为发掘产品的未来发展状态，初步预测产品潜在成功的可能性，对成功水平曲线峰值附近的数据进行挖掘。以优质产品B00132ZG3U为例，其80个月内的成功水平如图1所示，可以看出在第50个月成功水平出现了较高峰值。笔者将分别考虑星级和评语暗示与潜在成功的关系。

图1 80个月内产品B00132ZG3U的成功水平

图2 80个月内产品B00132ZG3U的累计星级

(1)星级与潜在成功的关系。产品B00132ZG3U的第一条评论后80个月内累计星级的变化如图2所示，由图2可以看出累积星级一直处于稳步上升的状态，没有可以反映有效信息的显著变化，无法将其用于预测产品的潜在成功可能性。

(2)评语暗示与潜在成功的关系。统计产品B00132ZG3U第一条评论后0～40月、40～50 月评论中各单词词频，绘制直方图，如图3所示。

图3 产品B00132ZG3U的评论词频

由图3(a)可以看出，部分包含积极情感的单词虽有较高的词频，但与包含不确定性或中性含义单词的词频无明显差异，如“好”与“产品”的词频相近，“将会”的词频比图3(b)中高，“喜欢”的词频比图3(b)中低。不同单词的词频分布更均匀，情感积极的单词并未展现出显著的高词频状态。这说明长期时间以后的成功更不容易通过评论内容的词频状况得到，稳定性与可靠性相较于短期成功均相对减弱。

由图3(b)可以看出，在成功水平峰值前的短期时间内，“喜欢”“好”等单词的词频最高，此类单词为情感较温和的、积极的动词或形容词。而“爱”“极好的”等包含强烈情感的积极单词，相较于情感温和的单词词频较低。这可能是由于当包含强烈情感的积极单词出现时，往往意味着成功水平已经到达了峰值点。因此，情感较温和的、积极的单词有较大的可能预示短期内潜在成功的可能性。

3.3 过去星级与后续评论之间的因果分析

3.3.1 过去星级的影响

相关研究显示，过去星级状况会给后续客户的评论产生积极或消极的心理暗示。考虑到浏览网站时的实际状况，客户在查看星级时容易看到一定时间内的星级状况，同时“vine”用户和“有帮助”投票数较多的评价星级更容易被客户看到。因此，笔者选取t时刻前一周内评级状况的加权平均值来表示过去星级的影响，记为star_past(t)。

(8)

式中：zk1、zk3、RAk分别为第k条评论的“有帮助”投票数、是否为“vine”用户和星级标准化处理后的值；ω1、ω3为采用熵权法计算得到的权重；nt为t时刻前一周内的总评论数。

3.3.2 基于断点回归的因果分析

断点回归[12]是仅次于随机实验的一种经验方法，可以利用现实约束条件有效地分析变量间因果关系，其主要原理为：当一个变量大于某个临界值时，处置效应被接受，否则不接受处置效应。断点回归包括确定型和模糊型两类，确定型断点回归有确定的临界值，而模糊型断点回归，临界值附近的观测值以单调随机的概率接受处置效应。

笔者采用确定型断点回归，对过去星级与后续评论之间的因果关系进行分析。将过去星级与后续评论分别记为x，y，设断点为常数c，则分组规则和断点回归方程分别为：

(9)

y=α+β(x-c)+δD+γ(x-c)D+ε

(10)

选取3类商品中销量较高的产品(吹风机产品B003V264WW、微波炉产品B0052G14E8、奶嘴产品B0045I6IAY)进行分析，确定过去星级的断点c=0.5，断点回归的结果如图4所示，求得δ的估计值分别为0.148 0，0.059 2，0.095 9，可以看出过去星级与后续评论之间存在显著的因果关系。

图4 3种产品的断点回归结果

3.4 情绪特征词与星级之间的相关性分析

3.4.1 情感程度分的定义

考虑评论中出现的如“enthusiastic”、“ disappointed”等情绪特征词，笔者对情绪特征词与星级之间的相关性进行研究，以期为企业有效提高商品星级提供帮助。选择Github平台中的情绪词典，挑选出其中表达情绪的12个词语，分别对其情感程度进行分级，如表5所示。

表5 情绪特征词情感程度表

在产品评论中进行情绪特征词的筛选，将情绪特征词的情感程度分进行叠加，便可得到该条评论的特征词情绪水平。

3.4.2 相关性分析

采用斯皮尔曼相关系数对已求得的特征词情绪水平与星级进行相关分析。

(11)

式中：ρ为斯皮尔曼相关系数；h为同一位置两个变量由大到小排列的秩次差；np为评论的样本容量。

以吹风机产品B000R80ZTQ、奶嘴产品B0045I6IA4、微波炉产品B0058CLNBU为例，采用SPSS软件，对特征词情绪水平与星级的相关性进行分析，结果如表6所示，可以看出吹风机产品B000R80ZTQ的特征词情绪水平与星级在0.05水平下显著相关，而奶嘴产品B0045I6IA4和微波炉产品B0058CLNBU的特征词情绪水平与星级在0.05水平下不具有相关性。

表6 特征词情绪水平与星级相关性

为进一步分析上述结果产生的原因，更直观地判断情绪特征词与星级之间的相关性，笔者基于上述3个产品的不同特征，分别绘制评论情绪特征词与星级的散点图，如图5所示。

图5 评论情绪特征词与星级的散点图

(1)评价适中的产品。吹风机产品B000R80ZTQ的综合评分适中，各类评论比例较为均匀，因此散点图呈现出平行四边形。情绪水平较低的客户会打出低星，情绪水平较高的客户会打出高星，较多数据集中在情绪水平与星级均居中的位置，可以直观地看出情绪特征词与星级呈近似的正相关关系。

(2)评价较好的产品。奶嘴产品 B0045I6IA4的散点图呈现出倒三角形。这是由于该奶嘴产品的综合评分较高，客户情绪水平较低且星级较低的状况较少，因此其散点图左下角相较于平行四边形存在一定缺失，导致了斯皮尔曼相关系数较低。但在未缺失部分中，除星级与特征词情绪水平均较高处的散点较多外，整体散点分布与图5(a)相近，表明了情绪特征词与星级的近似正相关关系。

(3)评价较差的产品。微波炉产品B0058CLNBU的散点图呈现出正三角形。这是由于该微波炉产品的综合评分较低，客户情绪水平较高且星级较高的状况较少，因此散点图右上角相较于平行四边形存在一定的缺失，导致了斯皮尔曼相关系数较低。但在未缺失部分中，虽散点数较少，但整体散点分布与图5(a)中相近，表明了情绪特征词与星级的近似正相关关系。

4 结论

(1)笔者对亚马逊网站提供的产品评论数据进行分析，建立了模糊综合评价模型，得出了可以代表商品评论状况的综合评分。基于该综合评价模型的参数与结果，指出新产品上市后应着重追踪“有帮助”投票数较多和“vine”用户的评论。定义即时声誉、累计声誉，提出了成功水平作为不同商品潜在成功的衡量标准，并研究了评语暗示作为预测产品成功与否指标的可行性，发现“喜欢”“好”等褒义词以较高频率出现时，将在短期内显著提高商品成功的可能性，但长期预测效果稳定性较差。此外，通过断点回归和相关性分析发现，过去星级与后续评价存在显著的因果关系，情绪特征词与商品星级有显著的相关关系。

(2)根据上述结果，笔者提出如下建议：①新产品上市后，应重点关注“有帮助”投票数较多和“vine”用户的评论，基于评论内容对相应的产品设计问题进行有针对性的改进。②关注即时声誉、累计声誉与成功水平的变化，当即时声誉的波动较大、累积声誉上升速度较慢时，表明该产品亟待改进，应加强质量管理，降低次品率，放大产品优势点，优化产品设计与功效，合理定位目标客户，适当调整产品价格。③当评论中情感较温和的积极情绪词频繁出现时，表明该产品有较大的成功可能性，可适当加大产品的生产与宣传投入。④过去星级状况较好或较差时，应根据后续评价对商品评估结果进行适当调整，避免过分高估或低估，同时基于该因果关系对客户评论进行积极的引导。⑤考虑情绪特征词与商品星级之间的相关性，在提高商品星级的规划中，应关注消费者情绪的变化，适当加大广告设计投入，加强服务环节的质量把控，提高服务意识。

(3)笔者的研究为线上商品评论信息提取与分析提供了方法指导，以评分结果与客观指标呈现商品的评论状况，避免了分析的主观性。通过对各项指标间关系的分析，可为企业有针对性地完善管理与决策提供理论依据，提高优化效率。