电子商务用户评价信息有效性研究
——基于淘宝服装类商品
2019-12-30武新丽令狐大智
武新丽,李 柔,令狐大智
轻敲几下键盘,点几下鼠标,或者摆弄一下手机,然后安心在家等“宝贝”送上门来。在过去一年中,多少人有过网购经历?答案是6.39 亿人次[1]。商务部数据显示,2018 年中国网络购物市场交易规模突破9 万亿元,同比增长25.4%,实物交易占社会消费品零售总额的比重达18.4%[2]。我国网络购物正在飞速发展,但由于网上交易的不确定性和商品信息的不对称性,电子商务欺诈问题仍然比较严重。国家工商行政管理总局数据显示,2018 年全国工商和市场监管部门受理网络购物投诉168.2 万件,同比增长126.2%,连续多年排在服务类投诉首位。同时,安全联盟数据显示,2016 年网购欺诈占网络消费欺诈总投诉量的35.23%[4],投诉占比较高的是虚假广告、假冒伪劣、质量不合格、经营者拒不履行合同约定等[3,4]。
网购欺诈成为用户使用电商类应用的主要障碍,也成为我国电子商务发展的瓶颈,影响了电子商务的可持续发展。因此,消费者在网络购物活动中,除了进行传统的货比三家之外,也会查看商家和商品的现有评价信息,期望从中了解商品的真实信息,便于进行最终的购物决策。因此,商品的网络评价逐渐成为影响消费者进行线上购买决策的重要因素。中国网络购物市场研究报告指出,77.5%的用户认为影响其网购决策的主要因素是网络评价,消费者认为用户生成的内容更加可信[5]。如何规范和充分利用网络评价成为电商平台和众多学者关注的焦点。
多年来,各大电商平台通过引入消费者评论打分机制建立商家和商品的评价体系,希望缓解网络消费欺诈现象和减少商家与消费者之间的信息不对称。如淘宝平台针对商品的“用户总评价”指标和针对商家的三级动态评分体系,以及文本评论系统;京东商城的商品好评度和三级店铺评分体系。便于消费者通过观察平台的评价数据,判断商家或商品的综合质量以指导购物决策。但是,在现实网络购物中,因评价体系设计和商家多种营销手段应用等原因,造成消费者对商家或商品的总评信息与文本评价(留言)存在差异。如购买者虽然对产品的质量、发货服务态度等方面存在不满,但也会给予卖家好评;也有商家通过“好评返现”引导购买者给予好评。陈红玲[6]在针对景区评价的研究中发现游客点评分值与评价内容存在差异。这些因素造成消费者难以通过评价分值直观地区分商家或商品的好坏。同时,海量的网络评论信息造成消费者信息过载,成为消费者网购时的决策负担。而网络文本评价摘要系统成为电商平台帮助消费者筛选评价主题的便捷工具。刘景方等通过对用户标签摘要系统的分析指出其在简化阅读评论任务的同时,增加了用户选择性偏见的可能[7]。
针对上述问题,国内外学者从构建新的信用评价模型及算法、分析评价指标间的关联和从大数据分析的角度对买家评价信息的有效性问题进行研究。郭亦涵等通过建立新的信用评价模型进行商家或商品的有效衡量[8]。朴春慧等在构建新模型的基础上,进一步通过权衡交易方的信用度和交易次数等信息,来衡量被评对象的加权平均分和信用度,以期得到较高的评价有效性[9]。施晓菁等利用评级和评论两种信息合成FRMA 模型,进行总体评价效用研究[10]。Ann 通过研究评论极性和评论等级间的关系,认为评价内容的完整性与评价星级共同影响评论有效性,而过度复杂的评论将降低评论的有效性[11]。刘景方等认为针对不同类型的商品,基于标签的摘要系统对消费者的感知有用性和满意度产生不同的影响[7]。Nathalia 等发现评论中负向评价比例显著正向影响消费者对评论有效性的判断,而比例越低则消费者对产品的认可度越高[12]。朱翊敏和于洪彦通过划分产品类型,分析了网络评价极性、评价类型和产品类型对评论有效性的影响[13]。蔡淑琴等对基于回归树和衰减函数的IMM-RTDF 模型进行评价有效性研究[14]。冯娇等通过建立社会学习模型,认为评论数量和等级在不同销售期对不同产品的购买决策有差异性影响[15]。钱敏等认为先评与追评的方向、时间距离对消费者感知评论可信度有差异化影响[16]。王建军等[17]认为陌生口碑和熟人口碑对消费者感知价值和购买意愿都存在显著影响。
当前,许多学者从多个角度对网络评价信息有效性问题进行了研究,取得了丰富的成果。但从消费者的网购决策过程来看,其主要是基于产品的总评价分值进行商品的初选。通过观察网络文本评价与商品总评价分值的关系发现,在商品的评价结论上两者会存在一定程度的差异。因此,研究商品的网络文本评价内容及其与点评分值间的关系将具有非常重要的意义,而当前对此研究较少。本文以内容提取和数据挖掘技术为基础,通过建立专用评价指标体系来分析网络文本评价信息,同时对比消费者对商品的点评分值,以揭示两者间的关系,进而更真实地获取消费者的评价意愿,并为指导消费者的商品选购,帮助商家和电商平台提升服务质量、加强管理提出有价值的建议。
一、指标设计与模型构建
(一)指标的设计
许多学者基于消费者视角,从商品质量、信息质量、配送质量和服务质量四个层面对卖家信用信息进行评价[8-12];淘宝、天猫、京东等电商平台也主要从这四个层面收集消费者的反馈和评价信息,并通过评分确定商家或商品的信用,同时进行展示。部分学者基于上述四个层面的信息,通过研究各指标的内在变化特性和相互关系,分析消费者评价对消费者购买行为的影响作用[10-17]。当前针对商家及其商品的通用评价指标的研究已经比较充分,也得到了理论界和产业界的认可。本文主要基于网络文本评价与点评分值之间的关系,研究消费者评价信息的有效性问题。因此,通用评价指标体系将借鉴前人的研究成果[8-17],结合当前实践,使用上述四个指标进行衡量。其中,产品质量描述消费者收货后对产品质量的体验评价,包含产品发货是否正确、产品是否为真品、产品是否完好三个细节层面[8-12]。信息质量描述消费者对商家宣传信息的一致性体验评价,主要指实际产品与网上宣传描述的一致性程度,用产品与描述是否相符来评价[8-12]。配送质量描述从商品下单到收到货物过程中消费者的心理接受度评价,考虑到当前各商家主要通过第三方物流配送,因此只评价商家的出货速度,即卖家的发货速度[8-12]。服务质量则从商品的售前售后两个角度衡量,考虑到电商平台的特殊性和买卖双方沟通集中在销售前后的短期内,售前评价主要考虑买卖双方的沟通便利程度和商家对消费者问题解答的满意度;售后评价主要衡量商家的售后服务态度,体现消费者对售后咨询和商家短期退换货应对的相关满意度[8-12]。具体见图1。
图1 通用评价指标体系[8-12]
考虑到服装类商品的特殊性,其信息质量更多依赖于消费者的主观感受,如色差、模特气质特性、个人穿着舒适度要求的差异等;同时文本评价中,消费者更多地突出描述自己感触最深的因素,往往对其他因素忽略不提[18]。因此,本文在通用指标体系的基础上,借鉴文献13—16 的研究成果,建立针对服装类商品的专用评价体系,新增指标包括:卖家信用等级、价格区间、价值、尺寸大小、是否再来和点评结论[13-16]。其中,卖家信用等级和消费者的信用水平用当前电商平台评价体系中的信用度表示,如淘宝平台的红星标志,每颗红星代表一个等级;基于对服装类商品的消费者文本评价数据分析,以及服装类电商品牌的快速兴起,本文将“产品是否为真品”与“质量与手工”做合一处理;价格区间刻画商品的价格范围,根据选取的数据对象范围,本文将0—50 元划分为1 区间,50—100 元划为2 区间,100—150 元划为3 区间,150—200 元划分为4 区间,200 元以上划为5 区间;“价值”表示消费者对商品物有所值的认可程度,以网络评价中的情感用词进行梳理,“尺寸”用于描述服装的合身程度;“是否再来”描述该消费者表达是否再来购买和推荐他人购买的意愿,点评结论表达买家对本次购物活动的整体性的最终评价;选用电商平台中该商品的消费者总评价进行刻画,其中T 表示好评,M 表示中评,F 表示差评。
本文采用正负极性判定[14-16],对网络评论的文本信息进行数字化处理,标注为0、1、2。其中,1 表示正向评价,如质量好,与图片相符,发货速度快,卖家态度好等;2 表示负向评价,如质量差,与图片描述不相符,发货慢,卖家态度恶劣等;0 表示中性评价或无描述,主要指文本评论中没有涉及的指标,因为未描述表示消费者认为该项内容达到预期,未带来过高或过低的“惊喜”[18]。
(二)数据来源及说明
考虑到淘宝网作为我国最大的C2C 电商平台,本文以淘宝网为分析对象,对淘宝网上消费者(买家)对商家(卖家)信用评价的数字化统计进行研究。消费者原始评价信息如图2 所示。通过对原始数据进行整理,获得评价信息383 条,其中差评125 条、中评122 条、好评136 条。在此基础上,随机抽取20%数据,作为测试数据集。
图2 消费者评价信息
(三)神经网络模型的构建
本节应用IBM Modeler14.2 神经网络节点,分别建立基于通用和专用指标体系的神经网络挖掘模型。其中,模型1 对应通用评价指标体系,模型2 对应专用评价指标体系,为便于描述,本文分别称之为通用模型和专用模型。
二、实证分析
(一)综合对比和指标重要性排序
本节对两模型的预测准确度进行对比分析,可得通用模型准确度为83.33%,专用模型准确度为85.95%。表明基于商品特性的专用指标体系优于通用指标体系,准确度提高了2.61%。
进一步对具体指标在预测中的重要性进行排序,结果见图3。从图3 结果可知:对两模型而言,质量与手工都占据重要性的首位,说明从文本评价角度来看,消费者首先关注的是产品质量;随后两模型其他的指标重要性排序出现差异——通用模型下,按指标重要性排序分别是卖家服务态度、产品与网上描述是否相符、产品是否完好、卖家发货速度、发货是否正确、售后服务;专用模型下,尺寸成为次重要指标,其他专用指标位于通用模型各指标的中间位置。
图3 指标重要性排序图
(二)评价指标重要性对比分析
1. 通用模型与文献[8]结论对比分析
对比文献[8]与通用模型的指标重要性排序结果,重要程度最高的都为质量,说明调查问卷的分析结论与针对文本评价的数据挖掘结论相一致,体现了消费者在网购中首先关注的是商品质量,也说明用户评价信息能够较真实地反映消费者的意愿。
与图片描述的相符度在通用模型中的影响程度高于文献[8]。考虑到本文的研究对象为服装,作为非完全标准化商品,受消费者观感的影响较大,需要消费者更多地感性认同。因此,当服装这类商品只能通过图片和文字的描述来判断时,买家对图片和文字的描述的相符度要求上升。
发货速度的要求相较于文献[8]也有所上升。这是由于在信息技术引领下,消费者从支付开始就可以知道物流各环节的时间信息,而商家从上传物流单信息到物流公司正式显示物流节点信息存在较长的时间差;同时,网购支付与收货间的时间差也是发货速度影响因素之一。从消费者心理而言,大都希望能够在付款后尽快看到实际物流信息和收到货物,因此对发货速度的要求上升。而在文献[8]的问卷设计中,没能很好地处理上述原因造成的消费者心理变化因素。因此,基于文本评论的挖掘,能够更好地反映消费者的真实购物体验。
售后服务的要求相较于文献[8]也有所上升,这也是由于消费者心理变化所引起。从消费者心理学来讲,大部分消费者在未真实购买产品前,缺乏对产品购买和使用的全方位考虑,后期维护在调查中常被忽略。而作为消费者评价信息,都由消费者购买后填写,评价信息更为完善、全面。因此,基于文本评论的挖掘,能够更好地反映消费者的真实购物体验。因此,对文本评价信息进行数据挖掘的结论更能够获得更真实的消费者商品体验数据,评价效果优于传统的调查问卷。
2. 通用模型和专用模型结论对比分析
针对图3 分析通用模型和专用模型中各指标权重变化。在专用模型中,质量与手工的重要性排第一位,第二位是尺寸,第三位是与描述的相符度。相比于通用模型,尺寸成为影响消费者体验的第二因素,描述相符度则成为重要性较低的指标,说明对于服装类商品,消费者更关注其合用性。这与该类商品的自身特性有关:消费者穿衣的宽松、大小习惯存在明显差异,而网购的服装不能试穿且标准化的尺码并不适合于所有类型服装,影响了消费者的使用体验,因此网购消费者对其关注提高。也说明,在进行服装类商品的网购时,消费者的心理承受力较大,更多关注是否能用,体现了消费者在网购中常基于商品的实用性进行取舍。而价值、是否再来、买家信用因素分别排在6 位、7 位、8 位,都用于衡量网购消费者的个人价值感受和对商品以外因素的期望,说明消费者在商品的文本评价中,更关注商品本身的使用体验,而对产品的价值和非商品体验则关注较少。
综合模型分析结果,可以得出:网购中,影响消费者网络评价的指标重要性受到商品品类特征的显著影响。对于服装类商品,网购消费者最为关注的因素分别为:质量和手工、尺寸、与描述相符度、服务态度和发货速度。因此,服装类商家应该重视这些指标,提高相应的服务水平和描述准确度。同时,根据Hawkins 和Convey 的“自我概念”理论[17],由于购买同一商品的消费者具有相近似的“自我概念”,其个人价值感受和对商品以外因素的体验具有等价性。因此,文本评价中的价值和是否再来指标也会影响消费者评分,商家可在做好基础指标的前提下,提高产品质量与消费者预期的相符度,实施消费者忠诚计划等。
(三)模型检验分析
利用两个模型和测试数据进行模型检验,并结合原始数据对预测结果进行分类汇总,见表1。由表1(a)可知,通用模型对差评数据的分类准确率为98.40%;好评数据的分类准确率为54.02%,错误率达45.99%;中评数据中91.67% 为差评,8.33% 为好评。从表1(b)可知,专用模型对差评数据的分类准确率为98.40%;好评数据的分类准确率为72.99%,错误率达27.01%;中评数据中92.50% 为差评,7.50%为好评。
表1 模型数据汇总
对比表1 结论并结合原始数据可知:在对用户的文本评价挖掘分析中,对于差评结论,网购用户综合打分与其文字评论的一致性较高;对于好评结论,两者的一致性较低,有较大比例数据判定结论与实际总评结果相反;对于中评结论,则更倾向于差评,因此可将其作为差评看待。
由于文本评价是消费者根据自身体验专门撰写的,结合前述分析,本文认为消费者的文本评价更能体现其真实购物体验。而电商平台的综合评分会受到商家或商品营销手段、消费者的同情心理和合用性心理的影响。如淘宝平台部分商家采取打出“5 分好评,返优惠券或返现”的营销行为。结论也说明在消费者网络评价中,差评及其评论的可信度更高,消费者在网购中可能会更多地关注差评。这是商家在进行网络营销和客户关系管理中需要重点关注的内容。
表2 卖家信用评价
(四)模型预测分析
随机抽取的某商家近一周的评价数据进行预测分析,原始评价见表2。
表3 模型评价对比数据
由表2 可知,商家1 最近一周服饰鞋包的好评、中评、差评比例为2347∶5∶2。根据前文结论,中评和差评可归为一类,则好评、差评的比例为339∶1;商家2 的相关比例为105∶1。
利用模型对商家评论信息、消费者文本评价进行分析预测,结论见表3。由表3 可知,原始数据各指标的好评中出现一定程度的差评,原因同前节论述;同样也可能因为部分网购消费者即便对商品存在一定程度不满意,仍勉强给予好评。因此,这类评价在商品总评中应是无效的。它会影响消费者对电商平台评价系统的认可度,无法让消费者对商品的好坏得出一个比较清晰的结论,也会影响消费者的网购体验。
同时,在经过两个模型进行数据挖掘后的结论更接近消费者的真实意愿。如好评T 中出现不满意“2”的情况远少于没有进行预测分析的结论;通用模型仅在服务态度中出现差评占1.17%,专用模型在尺寸大小中出现差评占0.9%。因此通过两个模型可以比较正确的判断商家或商品的信用评价,有利于买家对商品好坏的判断,提高电商平台评价系统的可信度,节约了消费者的隐性成本。
在预测准确度上,专用模型优于通用模型;专用模型中新引入指标的重要程度整体较高,且预测T(好评)中出现F(差评)的比例减少,再次说明专用模型优于通用模型。因此专用性的评价指标更有适于对评价信息的挖掘和利用。同时,也说明在进行商品评价体系的建立中,要综合考虑各类商品的自身特点,关注消费者对该类商品的特殊偏好。
三、结 论
本文针对网络购物中网络评价有效性低的问题,基于商品特性分别建立通用和专用消费者文本评价指标体系,基于数据挖掘技术对淘宝网数据进行分析研究。研究结果表明:(1)针对商家或商品的点评分值结论与消费者的文本评价结论存在差异,消费者更偏好于在点评分值上给予更加正面的评价,而在文本评价中表达真实购物体验。因此,差评数据能更真实地反映消费者购买体验,中评数据意味着消费者的真实评价更接近于差评,好评数据中有一些结论与事实相反。(2)基于文本评价的数据挖掘结论更接近于消费者真实感受,能够较好地消除评价中的非真实体验因素。(3)消费者对不同品类商品的关注点存在差异。对服装类商品而言,消费者更偏好于商品的合用性,实用是其进行网购点评的立足点。(4)针对商品品类的专用评价指标体系优于通用评价指标体系,其能够更真实和准确地获取消费者评价信息,实现对商品或商家的有效监管。研究结果也说明,在当前评价指标体系下,关注差评及其文本评价,可能更有助于发现商家或商品的真实信息。
因此,对于电商平台而言,应针对消费者对各类商品的特定偏好,建立完善的分类评价指标体系;同时,将基于数据挖掘的文本评价分析结论融入现有的评价体系,以更准确地获取和展现消费者评价,掌握商品或商家的信用信息,提高评价的有效性,提升评价体系的可用性和指导作用。
对于商家而言,应在关注消费者点评分值的同时,更多地关注消费者文本评价的内容,尤其是负面评价中的内容,更加积极有效地维护客户关系,并进行适当的评价解释和反馈。同时,商家应针对自身商品的特性,根据消费者的主要关注点进行商品品质改进和提升,以更好地适应消费者需求,减少中评和差评,提升消费者评价的一致性,以获取更多的销售机会。
同时,政府监管机构可以利用基于文本评价挖掘所获取的消费者体验和产品质量信息,实施更加主动和全面的监管。