APP下载

基于文本挖掘的生鲜电商顾客满意度评价体系研究

2019-11-07程航王东

物流科技 2019年10期
关键词:文本挖掘顾客满意度生鲜

程航 王东

摘要:随着生鲜产品在居民消费中比重的上升,顾客对生鲜电商的满意度评价吸引了越来越多的商家和研究者的关注。文章采用爬虫工具抓取了京东生鲜和顺丰优选的顾客评论,并采用文本挖掘的方法构建了从顾客角度出发的生鲜电商满意度评价体系,并且针对不同的生鲜品类设置了专门的评价指标和权重,为我国生鲜电商的顾客体验优化提供了有效的理论支持和参考作用。

关键词:电子商务;生鲜;顾客满意度;文本挖掘

中图分类号:F272 文献标识码:A

0引言

近年来,中国人民生活水平逐年提高,热爱尝试新鲜事物的中青年已成为了消费的主力军,这种年轻化的消费观念促进了电子商务行业的发展,其中,生鲜市场的巨大潜力吸引了众多电商巨头和创业人士的目光。生鲜电商的经营范围包括蔬菜水果、蛋奶肉禽等生鲜食物,这一领域已经成为了竞争激烈的电子商务中的最后一片“蓝海”。然而,由于诸多因素的制约,我国的生鲜电商的整体服务仍然处于不成熟阶段,其经营模式仍在发展,服务水平也良莠不齐,货品腐坏、错送漏送、运送不及时等问题频频发生,顾客满意度不容乐观。因此,从消费者的视角出发研究生鲜电商的整体运作情况,有助于生鲜电商了解自己所处的竞争环境和地位,发现行业的突破点所在,进一步调整自身的发展战略,使得消费者在生鲜商家的购买体验得到优化,更有助于提高该行业整体的绩效水平。传统的生鲜电商评价体系往往是基于已有文献的经验和专家的打分确定指标和权重,而随着网络和手机购物的普及,网络评论已经成为了商家收集顾客评价的重要来源,相比其他的数据来源具有广泛、全面、真实、贴近消费者的优点,因此,利用网络爬虫抓取顾客评论并利用文本分析确定顾客满意度评价体系已经成为一种新颖而便捷的研究方法。

1文献回顾

1.1文本挖掘的相关研究

在信息量巨大的当今社会里,人们时常面临着这样一种困扰:如何在浩如烟海的书籍、新闻和信息中快速而准确地筛选出自己所需的知识,文本挖掘技术的产生则很好地帮助人类解决了这类问题。自20世纪90年代初以来,文本挖掘技术逐渐深入到各个领域的研究之中,研究范围围绕聚类分析、关联分析等展开,主要的研究对象包括但不限于网络舆情、新闻报道、文学作品和网络评论。

陆晓云(2005)系统而全面地介绍了文本挖掘的常用流程和使用领域,并对传统算法进行了改进,提出了一种能够有效提高文本分类质量的挖掘方法。程春慧(2015)将文本挖掘的方法应用到了刑侦领域,针对公安办案过程中大量的犯罪案件文本数据进行了属性信息抽取和语义分析,这种应用有助于协助警方迅速归类案件,并且对同类案件进行系统的分析和比对翻。黄晓斌(2009)认为文本挖掘能够为网络上纷繁杂乱的非结构数据如舆情信息提供有效的研究方法,该研究系统地介绍了将文本挖掘用于网络评论的信息挖掘模型的分类和构建,并且利用实例展示了这种应用的可行性翻。

Tom Magerman(2010)介绍了文本挖掘技术(基于向量空间模型和潜在语义索引)的使用方法,并用以检测专利文献和科学出版物之间的相似性。他认为参与领域研究的专家将受益于检测文本相似性的技术,从而促进绘图和分类工作的开展搠。Van Driel M A(2006)在表型水平上展开研究,使用文本挖掘对在线孟德尔遗传数据库中所收录的五千多种人类表型进行了区分,他发现表型之间的相似性不仅能够反映相互作用的功能,还能展现基因相关的生物学模块。表型作图可用于基因水平上的疾病预测以及基因和蛋白质之间的功能关系。He w(2013)为了帮助公司了解如何进行社交媒体竞争分析并将社交媒体数据转化为决策者和营销人员的工具,展开了一项具体的案例研究,该案例研究应用文本挖掘来分析Facebook上的非结构化文本内容,针对3家最大的披萨饼连锁店(必胜客,多米诺比萨和Papa John's Pizza)的官方Twitter账号下的评论进行了分析,结果揭示了社交媒体竞争分析的价值和文本挖掘的力量是有效的。

1.2以文本挖掘为基础的电商顾客满意度的相关研究

由于文本挖掘具有数据来源广泛、时效性较强、客观全面等优点,这一方法时常被应用于网络评论的分析之中。正是因为顾客在购买商品时往往有浏览评论的习惯,因此无论是商家、消费者还是研究者都对在线评论所显示出的顾客立场十分关注,相关的研究也不在少数。

李艳红(2014)首先将分散在各个不同网络平台中的评论文本系统收集起来,然后运用文本挖掘的方法分析哪些特性是消费者在选购笔记本电脑最为关注的,随后据此确立了一套评价指标体系并使用多元回归方法建立了針对笔记本电脑的顾客满意度模型。该研究能够用帮助电脑生产商准确地了解消费者的心理期望和关注点所在,也能够帮助商家制定出更好地改进策略和营销方案。韩培文(2016)以京东书城的顾客评论作为主要的研究对象,选取了一本畅销书籍的在线评论作为数据来源,得出京东书城的消费者购买书籍时满意度的影响因素和权重。并且利用问卷调查的方式进一步验证了满意度评价体系的科学性和准确性。郭立秀(2017)以生鲜电商为研究对象,他选取了3家具有不同物流模式和运营情况的生鲜电商,使用Python爬虫分别抓取同一种商品的评论文本。全面而具体地分析了3家生鲜电商在不同的评价指标下的表现,帮助商家寻找自身的优势和弱点所在。

Hsiao Y H(2016)认为随着跨境电子商务的快速发展,跨境物流提供商必须致力于不断改进和差异化服务,以保持其竞争优势。研究展示了文本挖掘技术在分析跨境物流服务在线内容中的应用,能够满足客户对服务和产品的情感和情感认知,文章也为跨境物流服务商提供了具体的参考实例。Yan G(2014)认为顾客时常需要参考网络已有的顾客评论来做出购买和退货决策,因此作者开发了一个双语模型来处理电子商务网站上发布的中英文用户评论。文章主要介绍了中文分词、数据挖掘模型和系统设计的相关知识。通过英文和中文在线用户评论挖掘用户满意度情绪的实例说明了文章中开发的双语模型具有实际价值。

从上述国内外的研究成果可以总结得出,现有的研究主要存在以下两点局限:(1)研究主要从行业角度出发对生鲜电商的物流风险、运行状况进行评价,较少有从消费者角度出发的满意度分析。(2)大部分生鲜消费者满意度评价体系都没有对生鲜品类进行进一步的挖掘,而顾客对不同品类的要求是不同的,因此,一个笼统的指标体系已经无法满足日渐专精化的生鲜商家的要求了,所以,建立出更准确的指标体系并且针对不同品类设定不同的权重系数具有着十分重要的现实意义。

2研究方法

如图1所示,本文采用了文本挖掘的方法对抓取到的生鲜电商网络评论进行分析,主要的研究工作包括利用爬虫工抓取两家主要研究对象的顾客评论,利用结巴分词进行文本数据的预处理,通过词频确定关键指标,建立情感词和修饰词词典并通过情感分析评估顾客的满意度情况,最终构建出生鲜电商总体顾客满意度评价体系和6个商品大类下的专门评价体系。需要注意的是本文所采用的爬虫工具和文本挖掘工具均通过python编程进行实现。

3实证分析

3.1数据收集

本文数据主要来源于生鲜电商网站的顾客评论。本文选取顺丰优选和京东到家作为具体研究样本,根据生鲜的定义划分出6个商品大类,并选取每个大类下销量最高的代表性商品(如表1所示),选取的评论时间为2017年11月至2018年11月。以保证数据的时效性和代表性。本文根据需要对样本进行了筛选:(1)剔除同一消费者同一天内的多条重复评论;(2)剔除字数过少,不具有参考意义的无意义评论。得到的有效评论京东到家98590条,顺丰优选61743条。

3.2数据处理

本文得到的初始数据包括用户名、评论时间和评论内容,如表2所示。

首先本文对原始文本进行清洗,剔除无效数据,随后进行分词和去除停用词处理,除了对所有评论进行词频分析,还针对6个生鲜大类分别做了词频分析。具体操作为在所有词语中提取出词频在前100位的高频词语,并对其进行同义词合并。由于生鲜电商的顾客评论用词具有高度的口语性和不规范性,因此本文在参考同义词词典的基础上进行了人工合并同义词,随后加总同义词的词频,参考已有文献中的指标设置得出了顾客关注度最高的3个一级指标和8个二级指标,然而,本文在针对具体生鲜品类进行分析时发现不同的品类具有不同的关键词,将其命名为专有指标,如乳制品品类下词频较高的词语包括“脂肪”、“热量”、“无糖”、“低脂”,故在乳制品品类下增加“品类多样性”指标,而水产品类下存在高频词汇“澳洲”“进口”“产地”,故增加“产地多样性”指标,而冷冻食品品类下很多顾客提到“孩子”“宝宝”“娃娃”,考虑到水饺烧麦等冷冻食品常常作为孩子的早餐和夜宵,故增加“幼儿适宜度”作为指标,具体评价体系如图2所示。

情感分析也被专家称作倾向分析或意见挖掘,其分析的主体主要是带有主观倾向的文本。本文所做的情感倾向分析主要是判断评论文本的情感是正面(好评)、负面(差评)还是中性(中评),同时根据情感的强度计算出单句的情感得分。

首先,本文需要构建情感词、否定词和程度副词这3大词表。情感词和否定词都已有比较成熟和常用的词表,其中情感词词表的构建是在Hownet情感词词表的基础上加入一些生鲜行业中特殊的情感词使其更符合本文的研究主题。程度副词的权值设定在参考了经典文献后采用五段制,即分为“超级”(2)、“非常”(1.5)、“比较”(1)、“些许”(0.75)和“一点”(0.25),而否定词的权值为-1,否定词和程度副词都是位于情感词前后的修饰词。

其中:F表示所求单句的情感值,n代表单句中情感词的个数,f(x)是情感此表中可查询到的情感词本身具有的权值,aij是情感词的修饰词,i表示其个数。则计算整句评论情感值的步骤如下所示:

(1)读取评论文本库,对顾客评论一一进行分句;

(2)查找各个分句中的属性相关词,如“包装”、“质量”,记录下每句涉及的属性;

(3)查找各个分句里的情感词,记录其自带的情感值;

(4)查找与情感词位于同一句子内的程度副词,然后用情感值乘以程度副词的权值;

(5)查找否定词,若否定词为奇数个,则乘上-1,否则乘1;

(6)计算所有分句的情感值;

(7)计算各个指标下所有句子情感值的均值和差评(情感值小于0的评论)占该属性下所有评论的比例,输出情感值得分和差评率。

3.3评价指标权重确定

至此,本文已构建出总体顾客满意度评价指标及针对具体生鲜类别的评价指标,接下来要做的是指标权重的确定。已有研究的常见方法往往是直接采用指标词频作为权重,或是采用专家打分和层次分析法确定指标权重。然而第一种方法的缺点在于难以准确地展示出顾客真正的痛点所在,如商品品质是词频最高的指标,然而这一指标下的差评率很低,也即顾客对生鲜电商的此项表现基本满意,而售后尽管在所有评论中所占的频数较低,但是差评率极高,可见顾客在这一方面可能存在着较大的不满,因此商家应该投入更多的注意力在售后这一指标的表现上。本文采取的方法是在词频的基础上,利用差评率进行修正,得出最终的指标权重具有更强的实际意义。差评率修正权重系数如表3所示:

3.4实例对比

在进行两家生鲜电商的顾客满意度评价时,需要对各项指标(属性)下的情感值得分分别进行计算,将每项指标下的情感值得分总和除以涉及该指标的评论数量,所得的平均值基本介于0~2分之间。若cS代表总顾客满意度,Yi为每项指标的权重,ωi为每项指标下的满意度,则生鲜电商的总满意度可以用公式(3)来求解。

通过表5我们可以发现,两家生鲜电商的总体满意度在1分左右,整体运行状况良好,顾客整体评价呈现正面态势,京东生鲜的整体顾客满意度略优于顺丰优选。其中,京东生鲜的价格、促销活动力度、物流和品牌口碑的表现更好,但是各项指标之间的变现差异较大,而顺丰优选的商品品质、售后服务优于京东生鲜,并且整体表现比较均衡。然而,值得注意的是,两家生鮮电商的售后满意度得分均为最低,可见这一项的差评率最高,顾客满意度情况不容乐观。根据以上的研究情况,可以针对生鲜电商的运作提出这样的建议:

(1)根据本文所建立的针对某一生鲜品类的专门评价体系,商家可以洞悉顾客真正的关注点所在,从而制定精准的广告营销策略,例如在果蔬产品的宣传标语上更强调有机和健康,在冷冻食品的包装上做一些对儿童和主妇更有吸引力的设计等。

(2)生鲜电商应当调查自身的消费者满意度情况,并且针对不同商品大类和不同评价指标分析满意度情况,有的放矢地制定改进策略。如京东生鲜应专注于售后和包装的优化,顺丰优选应当提高发货时间和售后的水平,扬长避短,使得整体顾客满意度更上一台阶。

4结论与展望

网络评论保证了数据来源的可靠性和真实性,能够帮助企业和研究者更加快捷地获取消费者第一手的反馈信息。本文采用了文本挖掘的方法,不但构建了生鲜电商的总体顾客满意度,还创新性地针对不同商品品类做出了更细致的分析,以便对具有不同侧重市场的生鲜电商进行更公平的对比。根据本文构建的顾客满意度评价体系,商家可以更精确地得知消费者在不同消费品上的需求差异,并且有的放矢地制定营销广告策略、优化购物体验。这种研究方法同样可以适用于餐厅、酒店、手机应用等需要关注网络口碑的主体的满意度研究。

本文的研究也存在着一定的缺陷和不足,之后的研究者可以在这几点上进行进一步的探索:(1)在指标体系的权重设定上深入挖掘,进一步结合专家的意见。(2)研究不同地区、不同季节、ios端和安卓端的顾客满意度情况,并采用显著性分析来探究它们之间存在的差异。(3)本文仅采取了两家代表性的企业作为研究对象,之后的研究可以扩展研究对象的个数,建立更为精准和全面的指标体系,使得各生鲜电商能够横向比较并发现自身的优势和弱点所在。

猜你喜欢

文本挖掘顾客满意度生鲜
亚洲生鲜配送展
亚洲生鲜荟
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
温泉度假酒店顾客满意度的提升策略研究
乳制品品牌顾客满意度测评指标体系研究
从《远程教育》35年载文看远程教育研究趋势
慧眼识璞玉,妙手炼浑金
超市生鲜里的这些秘密你一定要知道
2014:生鲜电商的多样化生存