基于用户反馈的网络商品声誉估算及销售策略制定模型
2020-06-10张乐民王鑫王宁宇柳庆新
张乐民 王鑫 王宁宇 柳庆新*
(1河海大学计算机与信息学院 江苏省南京市 211100 2河海大学理学院 江苏省南京市 211100)
在电子商务中,商家经常使用产品售后评价机制,了解公众对特定产品的评价。在一般的评估机制中,被称为“星级”的个人评级使购买者能够使用1分(低评级,低满意度)到5分(高评级,高满意度)来表示他们对产品的满意度。此外,客户可以提交基于文本的消息(称为“评论”)来表达更多关于产品的意见和信息[2]。
显然,这些用户反馈会影响产品在其他购物者心中的印象,最终形成产品的声誉[3]。本文收集了亚马逊的上市场上三类产品(吹风机、微波炉、奶嘴)的用户评级和评论数据,通过识别与其他竞争产品相关的过去客户评级和评论的关键模式、关系、指标和参数,构建出特定商品在时间测度上的声誉模型,并更改销售策略,并识别潜在的重要设计功能,以增加产品吸引力。
1 模型准备与思路概述
1.1 星级评级与评论的关系
一般来说,买方给出的评级代表着对产品的整体评价,但对评级具体含义的解释因人而异,即每一个星评级的标准是不同的。但评论不同。每个人用的词都能准确地表达情感。例如,如果人们认为一个产品是一般水平的,则一般会用“不差”而不是“优秀”,也就是说,日常的交流让我们形成了一个公认的词义标准。此外,由于假设没有人在撒谎,当买方不喜欢产品时,他不会写一篇表达满意的评论,因此我们给出以下前提:
前提:所有三个数据集中出现的形容词评论将代表客户的真实情绪。
没有形容词的评论大多是事实陈述,不能轻易判断顾客的情绪,这里不讨论。我们知道没有数字可以直接定义评论所传达的情感。换言之,只能通过衡量词语的效果来间接确定本文作者所表达的情感。
本文认为,真实情感以某种不确定的方式影响评级,评级也在一定程度上反映了真实情感,真实情感可以通过评论直接表达[4]。如果知道评论是如何影响星级评级的,就可以大致衡量真实的情绪,并对给出具体的解释。因为评级数据是确定的,所以客户的总体评级可以通过解释星级评级来反映。
1.2 情绪分类及星级的重新赋分
对于评论中的形容词,我们把它们分为两类:褒义词和贬义词。我们使用Flink批处理过滤出评论中最常用的形容词,得到的一组褒义词A是:
由此产生的一组贬义词D是:
根据这两种情况,将客户分为“满意”和“不满意”两大情绪阵营。超过80%的评论使用了给定两个集合里的词,出现同时使用两个集合的评论时通过阅读确定其阵营。
两个阵营都有自己的评分规则,对于集合中的k个词,假设“满意”阵营的平均评分是“不满意”阵营的平均评分是我们有:
其中Ai和Di表示集合中第i个单词的加权评分值。找到所有包含第i个单词的评论(这些评论属于同一阵营),并建立一个评论集,假设这些评论中给出的n星级评级占总评论集的百分比为Pn,Ai的计算公式(Di的计算方法相同):
到目前为止还没有对这两个阵营的评级进行明确的划分。可以假定两个阵营的理论评级分离点为并给出的定义:
由于评价范围是固定的,评价中点的选取必然使评价范围不均匀。可以看出,目前两大阵营的比例关系是:
希望星级评级越极端,对应的情绪越强烈,两个阵营的情绪测量最好保持对称关系。因此对星级进行缩放。对于的评级,更新的评级分数为:
表1:综合评价值
表2:吹风机不同颜色的满意情况
表3:吹风机不同内部材料的满意情况
结果是:1星->-1,2星->-0.65,3星->-0.15,4星->0.17,5星->1,此时,我们可以在一个标准上最大程度地测量所有客户对产品的看法。
1.3 数据解释及划分
1.3.1 评论主体分析
从数据集中可以看出,每个客户反馈包含多个参数,我们将这些参数分为三个部分:
产品信息:产品类别、产品描述;
用户信息:“有帮助”投票数,是否为受邀评论员,是否低价购买;
评价信息:评论文本主体,星级评级。
产品信息是被评价的对象,用户信息是反馈信息作者的身份,评价信息是评价的内容主体。关于数据中的“总票数”和“有帮助票数”,我们认为总票数由两部分组成,即被认为有帮助的票数(同意)和没有帮助的票数(不同意):
1.3.2 产品类型分析
三个数据集中的产品信息主要是通过三个角度来描述:产品品牌、产品类型和产品特征。同一行业不同品牌之间可能存在相同的产品特征。
因此,选择按产品品牌和特征对数据进行分类。经筛选,吹风机数据中有19个品牌,13.6%的数据没有准确的品牌信息;奶嘴数据中有13个品牌,23.6%的数据没有品牌信息;微波炉数据中有9个品牌,8%的数据没有品牌信息。选择三个在每个行业反馈最多的品牌进行分析。
1.4 建模思路概述
主要分为产品信誉评价和产品潜在成功预测两个阶段来解决。在声誉评价中,将评论和评级融入个人情感价值观,将各类客户信息融入评价影响,进而对产品在一段时间内的声誉进行预测。
在潜在成功预测中,通过对产品在不同情况下的品牌和产品特征的分析,预测不同情况下的声誉变化,预测在一定时间内最具潜在成功的产品。
2 模型的建立与求解
2.1 声誉评估模型
2.1.1 声誉函数
假设本文所讨论的声誉价值R只受到在线顾客反馈的影响,每条顾客反馈对R的影响可以从两个角度来分析,一个是个人视角的情感表达,另一个是对顾客群体的影响。
具体来说,一条顾客反馈信息所表达的情感只代表了对客户的个人评价,而这种反馈信息将影响其发布后其他顾客的反应[5],人们对这种反馈的认同度越高,也越专业,它对整个客户群的影响越大,最终决定了个人评价在声誉体系中的权重。
第i条顾客反馈的个人评价因子定义为Ei,反馈影响因子定义为Mi,如果考虑的信息集C中有Kc条信息,则特定集c的整体声誉值Rc如下:
在此基础上,我们讨论了如何将评论文本与星级评分相结合,以反映顾客对产品的感知程度和情感强度。因此,这里的Ei值可以用重新分配的星级表示。我们将在以下章节中深入探讨影响Mi的决定因素。
2.1.2 用户反馈影响力函数
如前所述,第i条顾客反馈的影响因素主要由投票人对信息的态度和该信息的专业性构成。这两个方面主要体现在客户信息上。
(1)权威值。对于反馈信息i的专业性,我们使用权威的价值来描述它。权威值Ui与此反馈的作者是否是亚马逊特邀专员直接相关,我们给出了定义:
其中,vinei代表反馈中的“vine”值。
(2)其他用户的帮助值。关于投票者对反馈i的态度,我们用帮助值Ti来描述。它应该准确反映投票结果。具体来说, 的值范围可以完美地表示和区分所有不同的投票情况。我们分析了这种投票机制,认为投票结果可以从两个方面来区分:一方面是得票还是失票,即哪一方得票多,还是平手,另一方面是双方的比例。我们给出了以下算法。
(3)评论长度值。当人们看评论时,他们通常会对较长的评论感到好奇,因此他们更容易受到长评论的影响[6]。设置长度因子Li。我们使用Flink来计算评论文本的长度,发现长度范围为1到1899,我们将每个区间赋值为:
图 1:吹风机品牌声誉随时间的变化
(4)购买参数。此外,我们发现,虽然基本上亚马逊vine会员将通过折扣购买,普通客户将以全价购买。但仍有一些情况,如亚马逊Vine会员以全价购买,因此我们设置购买参数Bi,并认为以全价购买的客户会更认真地写评论:
(5)主成分分析[7]。对三类产品的反馈信息进行集中处理,计算出四个因素的相关值。首先,对所考虑的四个因素进行标准化,以获得标准化指数和标准化指数向量(xj)。
其中rqq=1,rqj是第q个指数和第j个指数之间的相关系数,k是反馈的数量。这是三类产品的总反馈,共27500条。
然后你可以得到特征值和特征向量。我们选择前三个主要组成部分,并基于三个向量的权重,综合评价值可计算得结果如表1所示。
反馈影响因素函数现在可以通过四个因素的计算得出:
3.2 潜在成功性预测模型
如果想知道在当前时间段一个产品是否为未来的潜在成功产品,应该总结出最近时间段内该产品表现出的“潜在成功因素”。本节中,将产品品牌和产品特征知名度作为一个组合来预测潜在的成功性。
3.2.1 商品受欢迎特性的提取
对于一个行业来说,没有大规模技术的改进,其生产的产品特性不会发生重大变化,在长期的市场运作中,特定的产品特性往往会占据市场份额和用户群。以吹风机的专业特点为例,大部分具有专业性能的吹风机都是由理发师等专业人士购买的。
本文认为,流行的产品特性并不意味着具有此类特性的产品销售最多,但具有此类特性的产品在特定客户群中具有较高的声誉,因此也更成功。
通过以上分析可知,在判断有一定特征的产品潜在成功性时,不需要在时间维度上分析产品的特性,所以我们考虑整个数据集,筛选出不同特性的产品进行受欢迎度分析。
为了将客户的相关评价和评论结合起来,我们将具有一定特征的产品的受欢迎程度定义为“满意”阵营中的评论数与集合中的总评论数之比,即:
其中Kri表示在方面r中第i件产品特性的“满意”评价的数量。篇幅受限,这里仅给出吹风机的特性分析结果。吹风机的特点考虑到颜色、内置材料。
从表2和表3可以看出,黑色、非电离客户群最大。但就受欢迎度而言,这三个方面里,粉色、非电离有着更高的受欢迎程度。但其实,紫色和粉红色的受欢迎程度差别不大。
3.2.2 品牌的受欢迎值
与产品特性不同,产品的品牌知名度会随着时间的推移而变化。这个性质很容易理解。各品牌的市场份额并不是一成不变的。广告投资、产品研发、品牌效应都会影响品牌的声誉。根据声誉评价模型,我们可以显示出三四大品牌吹风机、奶嘴和微波炉的声誉变化。
从图1中可以看出,同一品牌在不同阶段的声誉价值与其他品牌不同,因此在一段时间内有热门品牌。我们假设吹风机的目标品牌是b。对于时间间隔T,有:
其中bi为第i个品牌在T时间段内的好评率,可按(15)计算。
4 模型的结果与运用
假设客户反馈信息的数量大致代表产品销售,那么很容易知道每种类型的功能所占的用户组的比例。本文认为,在市场需求不变的情况下,简单地购买具有一定特点的产品是不明智的。如果你想在仓库里更好地销售产品,就应该保持每一个特点的数量,合理调整产品的品牌比例结构,才能制定出最佳的销售策略。
以吹风机为例。从2016年到2017年,时间间隔T=1年的数据集中,Conair品牌是四个吹风品牌受欢迎程度最高的。可以得出结论,这段时间Conair品牌中具有“粉色/紫色、陶瓷/非陶瓷和非离子材料”特点的产品最受欢迎。因此在2018年,商场老板可以考虑扩大具这个品牌中具有一定特性的商品的进货量。
5 结语
利用文本的形容词处理方法提取了关于评论本身的元信息,并将用户情绪划分为两大阵营。将星级评定转化为星级评定,使星级评定的标准统一。在分析产品的潜在成功因素时,通过比较不同产品类型和不同属性的两个层次,有效地筛选出有可能成功的产品。
在判断评论的情绪时,由于不能处理一般句子的确切意思,删除了没有形容词的评论,但这种情况通常表示对产品的不满。因此,不同词汇的统计数据可能存在一定的误差。微波炉产品统计数据过少也可能影响统计结果。