基于语义相似度与PROMETHEE的生鲜电商服务质量评价
2023-05-08杨益兴许洪波
杨益兴,许洪波
(1.西南交通大学 交通运输与物流学院,四川 成都 611756;2.中南林业科技大学 物流与交通学院,湖南 长沙 410004)
生鲜市场对接居民的高频次刚性消费需求,是资本与行业巨头争相涌入的领域,但同时生鲜电商也面临货损高、同质化严重、盈利难等诸多问题[1]。在新冠肺炎疫情时期,严格的防控措施使电商活动难以正常开展,面临供应链中断、物流配送中接触感染、消费者对售后服务不满继而流失的风险;而在防控进入常态化阶段后,又出现深度线上化、社群化、碎片化和无人化的特征[2],可达性、响应性与安全性等受到严峻挑战。
服务质量评价是指研究者根据某类标准和规则,采用某种方法对服务质量优劣进行客观衡量的过程,即在建立评价体系后采用特定评价方法对主体的质量进行综合评估。评价体系的建立与样本数据的采集常采用文献研究、问卷调查与访谈等方法[3-5]。随着互联网与电子商务的发展,商品的评论区成为消费者购前参考与购后反馈的重要信息交互地点,海量的在线评论促成了主观需求与购物体验的合流与共振。Ben-abdallah E等[6]利用大量在线内容,提出了一种基于在线评论和情感分析的情境感知排名方法,结合直觉模糊集理论和PROMETHEE-Ⅱ对互联网云服务进行了排序。Yang Y X等[7]基于电商在线评论,在准自然实验框架下对新冠肺炎疫情期间“电商温度”进行特征洞见与安慰效果检验。李铭洋等[8]提出了一种结合随机占优准则与PROMETHEE-Ⅱ的服务质量评价方法,为PROMETHEE-Ⅱ的应用提供了新场景及更为全面的指标体系;而冯坤等[9]在此基础上利用LDA(Latent Dirichlet Allocation )模型提取了在线评论的主题,并将其运用到生鲜电商消费者满意度测评中。然而,基于熵权的权重难以反应消费者的真实感知[10]2493-2501,传统的情感聚类方法也忽略了语义与词序[11-12]。为此,本文将基于Word2vec的语义相似度与基于改进粗数法的PROMETHEE-Ⅱ相结合,对重大传染病疫情应急与常态化时期的生鲜电商服务质量进行综合评价,为其提升服务水平提供决策参考。
一、 基于语义相似度与DBSCAN的指标体系构建
(一)基于Word2vec的语义相似度
Word2vec是Mikolov T提出的一种基于深度学习的文本向量化方法[13],其通过求合的方式替代了神经网络中的投射层,将词库映射到更低的向量维度,从而解决one-hot等模型空间稀疏的问题,是一种分布式词向量。Word2vec提供了Skip-gram和CBOW两种训练模型,前者通过中心词预测上下词,后者通过上下词预测中心词,且在大样本下具有更好的模型精度。本文采用CBOW模型进行向量训练,目标函数为对数似然函数L[14]:
(1)
式中:Context(W)表示语句中词语W的上下文,其长度由滑动窗口大小决定;W是语料库C中的任意一个词语。
将文本转化为词向量后,通过计算词语间的余弦值来度量其语义相似度。计算公式如下:
(2)
式中:similarity(θ,η)为词θ与词η的语义相似度,介于-1与1之间,值越大越相似;q为语料库的维度;θt为词θ第t个维度的值;ηt为词η第t个维度的值。
(二)基于DBSCAN的主题聚类
在得到各词语间的语义相似度后,需利用聚类算法提取在线评论中的文本主题以构建生鲜电商服务质量评价指标体系。相比于k-means等经典聚类算法,DBSCAN不需要事先预设簇的数量。因此,本文采用DBSCAN算法进行主题聚类,具体流程为:第一步,确定由词间语义相似度构成的对象集D,随机选取一个对象p并查找其半径邻域内符合密度阈值的所有对象,即p密度可达的所有对象;第二步,若p为核心对象,即以p为圆心、为半径的圆内所包含的对象不少于MinPts个,则能确定一个簇;第三步,若邻域内的对象刚好等于MinPts个,则p为边界点,若小于MinPts个,则p为噪声点,即在任何一个确定好大小的领域内都无法使对象数不少于MinPts个,需重新寻找下一个对象进行核心对象遍历筛选;第四步,重复前三步,直到找不到满足条件的新簇时算法停止,此时可根据主题内的代表词语确定具体的指标名称,从而构建生鲜电商服务质量评价指标体系[15]。
二、基于情感词典的生鲜评论属性值计算
情感分析是指对非结构化文本数据进行极性判断,即数值量化。相较于问卷调查,受试者不用在刻板的数字间做出选择,具有较高的客观性。实现途径分为机器(深度)学习和基于词典两类,考虑前者需标注大量标签及短文本句子级、细粒度等特性,本文采用基于情感词典对在线评论的属性值进行量化,计算公式如下:
(3)
式中:Sentiment是某类生鲜商品的情感强度值,n是其包含的评论数目,commenti是第i条评论的情感得分;m是程度词的种类数(程度词词典见表1);npos与nneg是积极、消极情感词的个数,其中情感词典由各主题下的代表词与基于语义相似度的映射词构成;degreej是第j类程度词的权重,包括“很”“非常”等前向程度词与“极了”等后向程度词;basic是基础情感权重,值为1,而对含有“没”“不”等否定前缀的词语做反向极性处理,权重为-1。
表1 生鲜电商程度词词典
三、基于改进粗数法的指标权重设定
生鲜电商服务质量对消费者满意度的影响程度不同,需为不同的指标设置合适的权重值。确定指标权重的方法通常有两类:一是主观赋值法,如专家打分、层次分析法等;二是客观赋值法,如熵值法、均方差法等。这两类方法都存在一定不足,前者容易使评估陷入主观化与碎片化的误区,后者所得结果精确但解释性较差[16]。为了在客观的同时更真实表达消费者感知,本文利用改进粗数法确定指标权重[10]2493-2501,[17]。
假定U是论域,Y是U中的任意对象,即各评价指标。X是U中的评价对象,即不同时期的各生鲜品类。论域中描述属性的离散值包括c类,记为R={R1,R2,…,Rk,…,Rc},且存在大小关系R1 (4) (5) (6) (7) (8) (9) (10) 为了全面、客观地评价新冠肺炎疫情期间生鲜电商的服务质量,本文分别选取疫情应急时期(2020年1月20日至4月28日)与常态化时期(2020年10月17日至今)下冷饮冻食、新鲜水果、海鲜水产、精选肉类及蔬菜蛋品5个生鲜品类作为评价对象。评价指标通过基于语义相似度的情感聚类结果确定,其对应的属性值通过基于词典的情感分析获得。由此,可得到m个评价对象及n个评价指标的评估矩阵O(m×n)。 优先函数是指在效益型指标xj下,评价对象Ai优于对象Ar的程度(i、r=1,…,m)。PROMETHEE-Ⅱ提供了6种可供选择的优先函数,研究者可在具体的研究场景中根据实际问题与偏好来选择或重新构建准则。考虑到PROMETHEE-Ⅱ方法是基于流入流出的优先关系进行决策的,本文将基于参考点与随机占优的累积前景理论与其结合[18],用改进后的价值函数作为各指标的优先函数,具体形式为: (11) 式中:Pj(dir)为第j个指标下对象Ai到Ar的优先函数值,dir=xij-xrj(i,r=1,…,m;j=1,…,n),为第j个指标下对象Ai到Ar的距离。α和β分别表示价值函数在益损区域的凹凸程度,λ为反映规避损失的程度。Tversky A等[19]通过大量实验得出α=β=0.88,λ=2.25。在优先函数的基础上,优先指数可以定义为: (12) 式中:π(Ai,Ar)是对象Ai到Ar的优先指数,即同时考虑所有指标时Ai比Ar的优先程度;wj为改进粗数法得出的第j个指标的权重值。 在得到各评估对象间的优先指数后,进一步计算具体对象的各类型流量[20]。 (13) (14) φ(Ai)=φ+(Ai)-φ-(Ai) (15) 式(13)~(15)中:φ+(Ai)为对象Ai的正流量,即Ai优于其他对象的程度;φ-(Ai)为对象Ai的负流量,即其他对象优于Ai的程度;φ(Ai)为对象Ai的净流量,在PROMETHEE-Ⅱ中可通过净流量得到各对象的完全序。 地理探测器(Geodetector)是探索空间分异因子与事物影响因素的一种有效统计方法[21],自提出以来,被广泛应用于自然科学、经济及生态环境等多个领域[22-24]。地理探测器的基本思想为:将研究分为若干个子区域,若子区域的方差之和小于区域总方差,则存在分异;相反,若两变量的空间分布趋于一致,则两者存在统计关联性。由于地理探测器无线性假设,能同时探测主效应与交互效应,并在小样本量下具有更好的模型精度,因此其具有优雅的形式与明确的物理含义,而不仅限于计量经济学中的乘性交互。地理探测器分为因子探测器、交互探测器、生态探测器、风险探测器4个子模块,本文借助因子探测器和交互探测器进一步分析影响生鲜电商服务质量的因素。 因子探测器用于探测自变量对因变量的解释能力,用q值度量,模型如下: (16) 交互探测器是在因子探测器的基础上,根据各指标的q值进行对比,以得出交互效应的类型(见表2)。 表2 交互探测器 考虑到数据的代表性与可指导性,本文利用网络爬虫技术采集京东生鲜电商平台上冷饮冻食、新鲜水果、海鲜水产、精选肉类及蔬菜蛋品5个生鲜品类的103 048条在线评论作为语料库,在经过分词、去停等预处理后得到以词为基本单元的干净评论。 基于Word2vec的语义相似度模型,采用python编程并利用Gensim中的Word2vec包实现词向量与语义相似度训练。第一,选择CBOW训练模型(sg=0),并将模型维度(vector_size)设置为500,训练轮次(epochs)设置为15;第二,过滤掉出现次数(min_count)小于5的低频词;第三,选取前100的高频词作为样本,利用w2vmodel.wv.similarity计算其两两之间的语义相似度(见表3)。在得到高频词的语义相似度矩阵后,利用Sklearn中的DBSCAN包对其进行情感聚类,经过多次运行测试,发现将半径()设置为1.4、密度阈值(MinPts)设置为5时聚类效果最佳,且聚类数为6。为了便于观测,本文以二维聚类效果进行局部展示(见图1和图2)。 表3 语义相似度矩阵(部分) 图1 方便与自营基准下的聚类 图2 京东与速度基准下的聚类 根据每个簇内关键词的语义相似度差异,对主题进行划分后构建生鲜电商服务质量评价指标体系。在图3的第一个主题中,“方便”的相似度值远高于其他词,将其设置为便捷性指标;“价格”和“实惠”在很大程度上能代表第二个主题,具有相对独立性,将其设置为经济性指标;在第三个主题中,“口感”“味道”“完好”反映了消费者对实物与商品描述一致与商品包装完好的诉求,将其设置为可靠性指标;在第四个主题中,“很快”与“速度”的相似度值居于前列,将其设置为响应性指标;在第五个主题中,各词的相似度相差无几,但“新鲜”与“很快”的值仍位居前列,将其设置为新鲜度指标;体现消费者关怀的“服务态度”的相似度在第六个主题中远高于其他词,将其设置为移情性指标。由此,基于消费者在线评论,建立起一个包含便捷性、经济性、可靠性、响应性、新鲜度与移情性的生鲜电商服务质量评价指标体系(见表4)。 图3 高频词主题分布 表4 生鲜电商服务质量指标体系 根据在线文本内容的分析结果,本文提取了每个维度下正负语义的种子词,并利用Word2vec对其进行扩展,形成生鲜电商情感词典(见表5)。 表5 生鲜电商情感词典(部分) 构建情感词典后,根据式(3)及生鲜电商程度词词典,采用Python编程对新冠肺炎疫情不同发展时期的各类生鲜在线评论进行遍历计算,实现情感分析,从而构建评估矩阵(见表6)。 表6 评估矩阵 1.利用自然断点法将表5中各指标的情感值打断为5个水平等级,再根据改进粗数法计算每个指标的权重值(见表7)。 表7 基于改进粗数法的各指标属性值 2.根据式(11)~(12),在优先函数的基础上计算各对象间的优先指数。 3.利用式(13)~(15)计算各对象的正流量、负流量与净流量,进而实现新冠肺炎疫情不同发展阶段各生鲜品类电商服务质量的完全排序(见表8和图4)。 表8 各生鲜品类的优先指数与流量 图4 各生鲜品类净流量排序 如表7和图4所示:从疫情的发展阶段看,新冠肺炎疫情带来的低复工率、交通管制、社区封控、线下场所关闭造成了生鲜电商补货不足、商品发运缓慢、末端取货不便、售后不及时等问题。因此,应急时期服务质量的净流量均低于常态化时期。从商品品类看,在应急时期,冷饮冻食与精选肉类的净流量远高于其他品类,原因是这两类生鲜商品都具有严密的外包装且能进行真空处理,在途的磕碰也不会直接造成商品质量受损,因而新冠肺炎疫情对其造成的冲击相对较小;而水果、海鲜水产及蔬菜蛋品较易腐烂损坏,对响应性和完好性要求更高。在常态化时期,社会经济的有序恢复与免疫屏障的构筑为生鲜电商提供了稳定的运营环境,各品类的服务质量都得到了提升。然而,随着境外新冠肺炎疫情的持续蔓延及“物传人”链条得到证实,在常态化阶段,进口海鲜、水果等商品需进行额外的核酸检测,这在一定程度上造成了消费者的安全担忧与购买犹豫,因此,其净流量与对应的服务质量相较其他品类低。 如前文所述,本文将A1~A10作为研究样本,其对应的净流量作为被解释变量,通过自然断点法将其对应的评估矩阵(见表6)打断为“低—中—高”三个等级并作为自变量,利用地理探测器对其进行因子探测与交互探测(见表9、表10、表11)。 表9 因子探测结果 表10 交互探测结果(应急时期) 表11 交互探测结果(常态化时期) 如表9所示:在新冠肺炎疫情的应急时期,响应性与经济性能显著影响各品类生鲜商品的净流量得分,说明在应急时期消费者更注重商品的及时送达与相关的价格促销。原因是社区封控、交通管制等防控措施使供应链中断,“最后一公里”配送不便,商品的在途运输时间更长、更易变质腐烂。生鲜商品属于消费者的刚性需求,对电商物流的时效性更敏感。另外,根据公平理论,消费者预期也会影响满意度,消费者会产生与正常时期服务质量对比后的体验落差[25-26]。在此情况下,其对价格的容忍度降低,希望商家通过商品促销或物流费用减免来弥补受损的服务体验。然而,在交互效应中(见表10),各影响因素相对独立,尚未存在明显的交互作用,原因是应急时期消费者仅重点关注影响其基本生活与刚性需求的服务。当疫情进入常态化阶段,追溯原评论发现,便捷性成为该阶段的重要影响因素。例如,送货上门、预约送货等物流便捷,商品预处理、烹饪指南等操作便捷,简约审核、急速赔付等售后便捷。对于交互探测来说(见表11),响应性分别与可靠性、移情性具有较强的交互效应,存在“1+1>2”的增强效果。究其原因是生鲜商品易腐易消耗的特点不仅要求电商物流具备较强的时效性,还需包装完好、减少商品的在途损耗;同时,网购使消费者与商品在空间上分离,加之食用型的生鲜商品所包含的口味、大小、颜色等商品细节相较普通商品更具有隐匿性,因此,实物与商品描述的一致性也成为生鲜电商服务质量的重要影响因素。此外,在商品及时送达的前提下,商家与物流人员热情、耐心的服务态度能使消费者满意度得到额外的提升,也能使其在超时配送的不满中得到内心宽慰。 本文提出了一种基于在线评论的生鲜电商服务质量评价方法。该方法在数据的获取与量化上对大量在线评论进行情感分析,从而在短时间内以更低的成本捕获消费者的购后反馈,相较于传统调查问卷更具即时性与准确性。受新冠肺炎疫情影响,应急时期的生鲜电商服务质量整体低于常态化时期。在影响因素方面,应急时期响应性与经济性能显著影响各品类商品的净流量得分但不存在明显的交互作用;在常态化时期,便捷性是提升服务质量的关键,且响应性分别与可靠性、移情性具有较强的交互效应,存在“1+1>2”的增强效果。 利用基于语义相似度的情感聚类替代自上而下设立指标的研究方法,不仅使评价更全面,也弥补了经典主题模型处理短文本时向量空间稀疏与忽略词序的缺陷。另外,运用粗数与PROMET-HEE-Ⅱ的结合方法对服务质量进行排序,能在兼顾评价客观性与消费者主观感受的条件下展示新冠肺炎疫情不同时期的生鲜电商各品类商品的经营状况,使商家能及时、清晰地了解服务中存在的问题并加以改善。然而,基于词典的情感分析能以最直接的方式获取消费者细粒度的服务感知,但情感词典需根据不同的研究场景进行更新,构建过程也比较繁琐,情感得分很难完全诠释人类自然语言。因此,在后续研究中,可通过基于深度学习的方面级情感分析来加以改进,也可通过实体命名识别的方法来探索细粒度的消费者需求,进而提升情感分析模型的解释力。四、基于PROMETHEE-Ⅱ的生鲜电商服务质量评价
(一)确定评价对象、指标与评估矩阵
(二)确定各指标优先函数与优先指数
(三)确定各对象的正流量、负流量及净流量
(四)基于地理探测器的影响因素
五、实证分析
(一)数据获取与预处理
(二)生鲜电商服务质量评价指标体系构建
(三)基于生鲜在线评论的情感分析
(四)生鲜电商服务质量排序
(五)生鲜电商服务质量的影响因素
六、结论