基于文本挖掘的JD 物流服务质量问题研究
2020-12-14郭艳艳任莹莹原白云GUOYanyanRENYingyingYUANBaiyun
郭艳艳,任莹莹,原白云 GUO Yanyan, REN Yingying, YUAN Baiyun
(河南理工大学 工商管理学院能源经济研究中心,河南 焦作454000)
(Research Center for Energy Economics, School of Business Administration, Henan Polytechnic University, Jiaozuo 454000, China)
0 引 言
随着互联网技术的不断提升,电商行业和社会化媒体的快速发展,消费者获得所需物品的方式发生改变,网络购物已经成为一种新的购物方式。电商平台为商家与消费者提供了沟通的桥梁,在线顾客评论中更是包含了消费者对电商企业、商品质量、物流服务等因素的购物体验信息。在线顾客评论是指交易完成后消费者对购买产品进行的即时反馈评价,能够直接反映出消费者对此次交易产品、服务质量等因素的满意情况。在线顾客评论不仅为其他消费者的购买决策提供重要参考意见,也为企业及时挖掘消费者的需求信息,提升顾客满意度,增加企业竞争力提供决策依据[1]。经研究表明,在线顾客评论中的负面评论对消费者行为影响更突出、参考价值更大[2]。根据电商行业发展特点可知,高质量的物流服务对消费者购买决策产生极大影响,提升物流服务质量已经成为电商企业竞争制胜的关键[3]。利用大数据、数据分析、机器学习等信息技术,从海量冗杂的评论数据中提取得到物流服务的关键信息,并加以有效利用是本文的研究方向。
本文利用文本挖掘的相关方法对京东(简称JD) 电商平台在线顾客评论数据中的中差评物流信息进行分析研究,从中发掘出物流环节的突出问题,分析影响顾客满意的JD 电商物流服务质量的问题,并提出改进物流服务的意见。
1 相关工作
1.1 物流服务质量相关研究
物流服务质量是消费者将感受到的物流服务与预期的物流服务进行对比评价的结果,是用来衡量物流企业满足消费者物流服务需求能力水平的评价尺度[4]。
有关电子商务背景下的物流服务质量是近年来学者们研究的热点。谢广营等[5](2016) 基于SERQUAL(Service Quality)量表和LSQ(Logistics Service Quality) 量表的基础上,构建了网购物流服务质量量表,并进行实证研究得到人员沟通质量、订单质量、配送可靠性、配送信息质量、订货便利性、货物质量、退货质量等7 个维度。权春妮等[6](2018) 以跨境网购为背景,以消费者感知为视角,从跨境物流服务质量的时效性、安全性、经济性、可靠性、配送人员沟通质量5 个维度出发,探讨物流服务质量对顾客满意度的影响。徐广姝[7](2019) 以生鲜电商物流为研究对象,基于顾客感知视角构建了以发货能力、信息服务质量、配送速度、产品质量、配送人员、增值服务、误差性8 个方面对物流服务质量进行评价。
传统的服务质量评价通常采用问卷调查收集消费者意见进行研究分析,评价内容很少是真实交易过程后的即时评价和意见反馈,评价结果也与问卷质量、受访者质量密切相关。随着社交媒体的发展,在线顾客评论隐含消费者的主要观点,具有真实性和即时性[8]。利用文本挖掘方法提取在线顾客评论数据中的隐含信息并加以有效利用,已经成为学者们关注的重点。王洪伟等[9](2017) 选取SF 和ST 两家快递在线评论数据进行实证研究,利用情感分析方法对快递物流服务质量进行评价,得到两家企业在快递物流服务质量各指标上的差异,为快递物流企业改进物流服务提供依据。施滢萍等[10](2019) 基于在线顾客评论语料,利用文本挖掘方法得到相关快递物流服务要素,研究结果找出了快递物流服务要素的优劣势,有助于电商企业筛选合适的快递物流公司。张振华[11](2019) 基于电商在线评论语料进行文本挖掘分析和研究,构建电商物流服务质量问题挖掘模型,识别出导致物流服务失误的关键问题,进而找到相应的解决方法,推动物流服务创新。
1.2 文本挖掘方法的选择
文本挖掘是一个涵盖多学科方法的新领域,涉及了数据挖掘技术、自然语言处理技术(Natural Language Processing,NLP)、机器学习、信息检索、图论等方法,从文本文件中抽取具有潜在价值的知识并组织信息的过程,是数据挖掘的一个分支。文本挖掘主要包括文本获取、文本预处理、文本挖掘分析、可视化等流程。
TF-IDF(Term Frequency-Inverse Document Frequency,TF-IDF) 是一种用于文本挖掘、特征词提取等领域的因子加权技术,其原理是某一词语的重要性随着该词在文件中出现的频率增加,同时随着该词在语料库中出现的频率成反比下降[12]。
TF(Term Frequency,TF) 是指词频,表示关键词(词条) 在文本中出现的频率。设tfi,j为词语ti在文件dj中出现的频率,TF 计算公式如下:
其中:ni,j为该词在文件dj中出现的次数。
IDF(Inverse Document Frequency,IDF) 是指逆向文件频率,用于度量某一词语的普遍重要性。IDF 越大包含该词条的文档数越少,表明该词条具有很好的类别区分能力。计算公式如下:
TF-IDF 是基于无监督学习算法的关键词提取。若某个词的TF-IDF 值越大,则该词越能体现出该文件的特点。TF-IDF 计算公式如下:
本文基于TF-IDF 算法,利用结巴(Jieba) 中文分词系统实现关键词提取,通过计算得到的TF-IDF 值确定关键词的优先级,以此为依据得到在物流环节过程中影响消费者满意的物流服务质量问题。
2 分析研究过程
2.1 研究对象
本文以JD 电商平台在线顾客评论数据为研究对象,以JD 电商物流服务质量问题为研究目标,具体分析3CE 数码电器、美妆、食品、家电、母婴产品的中差评评论数据中的物流相关评论文本信息。
2.2 研究框架
本文以顾客感知视角出发,通过JD 电商平台获取的在线顾客评论数据作为挖掘物流服务质量问题的依据。基于文本挖掘方法对当前JD 平台的物流服务进行分析,找出影响消费者满意的物流服务问题并提出改进意见,从而更好地提升顾客满意度和提高电商企业市场竞争力。具体的分析流程如图1 所示。
主要研究内容:(1) 数据获取。编写Python 程序对JD 电商平台选定商品进行中差评评论数据采集。(2) 数据处理:对评论数据进行数据清洗、筛选物流相关评论等。利用结巴分词对筛选后的物流评论数据进行关键词提取和词频统计并绘制词云图。根据关键词和词频统计结果,运用TF-IDF 算法确定关键词的优先级。(3) 数据分析:运用ROSTCM(6) 对物流评论数据进行社会网络与语义网络分析,绘制高频词共现网络图,发现各个节点在网络图中的位置,进而识别出消费者隐含观点。
3 实验验证过程
3.1 数据采集
图1 在线顾客评论文本挖掘分析流程图
本文使用Python 爬虫程序抓取JD 电商平台选定的商品评论作为数据源。由于JD 电商平台在商品评论数据采集中有限制,每款产品评论采集最多为1 000 条,抓取商品评论内容均为最近一年内的评论数据。为保证采集数据的全面性,避免研究对象片面化,本文选取JD 平台下5 种类型的京东自营品牌商品,分别为3CE 数码、美妆、零食、母婴、家电。每种类型各选取两个销量靠前商品进行中差评评论数据采集。
本次共采集10 种京东自营商品评论数据,共计17 307 条。通过收集归纳得到包含物流服务特征词的自定义列表共计208 条,如:“快递”、“送货”、“物流”、“包装”、“退换货”、“运费”、“配送速度”等,利用编写的Python 筛选语句与自定义列表进行匹配,进而筛选得到物流服务相关的评论数据共计3 045条。对物流评论数据进一步处理,如数据清洗、去缺失值、去除重复数据、短句过滤等,得到最终评论数据共计3 049 条。筛选结果如表1 所示。
表1 JD 商品评论数据统计
3.2 数据处理
3.2.1 数据可视化。根据筛选得出的3 049 条物流服务相关评论数据进行数据预处理。基本的数据预处理过程包括分词、去停用词、数据规范化等,目的是去除数据噪声,避免影响数据分析结果,提高数据参考价值。进一步通过Python 语句计算得出高频关键词统计结果并绘制词云图如图2 所示。
数据分词。本文采用Jieba 中文分词工具对采集数据进行分词处理,Jieba 分词系统自带词典但可能不包含一些专业词汇,为保证分词结果的准确性添加自定义词典,如“京东自营”、“上门取件”、“运行速度”、“快递小哥”、“么么哒”等词语共计123 条,确保分词结果准确可信。
去停用词。添加哈工大停用词表进行去停用词处理,然后进行分词处理。停用词表中包含无意义的符号和“了”、“哦”、“是”等助词、形容词,这些词语无法表达文本真正含义,去停用词后可以更精确的进行文本分析。
绘制词云图。进行词频统计得到高频关键词统计结果,并利用Python 程序中的Wordcloud 模块绘制词云图(图2)。高频关键词是指在物流相关评论中出现频率较高的词语,在一定程度上能反映出消费者对商品和服务关注的重点。根据物流相关评论的高频关键词绘制词云图,反映出消费者购物体验过程中不满意的重点内容,有助于JD 电商平台针对性的解决消费者关注的物流服务问题,提高物流服务能力。
词云图中字体的大小表明了评论数据中该词词频的高低,词频越高,字体越大。由图2 可知,“京东”、“包装”、“客服”、“退货”、“快递”、“售后”、“问题”、“降价”、“物流”等词语出现的频率较高。词云图结果表明在物流服务环节影响消费者满意的因素有物流配送、退换货、包装的完好程度、售后服务等。词云图有助于直观展现出在线顾客评论数据的重点,为进一步挖掘出JD 物流服务质量问题提供了思路。
3.2.2 关键词提取。关键词提取是发掘在线顾客评论数据中具有包含文本特征含义的词语,隐含评论内容观点。本文采用无监督学习的TF-IDF 关键词提取方法,利用评论文本中的词语统计信息抽取评论关键词,并进行TF-IDF 值优先级排序。本文选取词语长度大于1 并且TF-IDF 值前200 的关键词进行归纳,得到含有频次、权重值的物流关键词词表(如表2 所示),如“京东”、“包装”、“客服”、“快递”、“退货”、“差评”等。
图2 物流相关评论词云图
表2 物流关键词词表(部分)
3.3 数据分析
基于ROSTCM(6) 对物流相关评论关键词进行高频词共现与语义网络分析,得到共词矩阵与语义网络图(如图3 所示),网络图中的每个节点代表一个关键词,两节点之间的数字表示两个关键词同时出现的频数,分析物流评论的文档只取高频词前200 的词语,构建共词矩阵与语义网络图时取高频词前100 的词语。
根据图3 分析可知,共词频词较高的JD 物流服务词组有:“京东”与“包装”(169 次)、“京东”与“服务”(149次)、“售后”与“京东”(127 次)、“包装”与“打开”(124 次)、“京东”与“退货”(110 次)、“正品”与“包装”(106 次)、“包装”与“快递”(98 次)、“保价”与“降价”(100 次)、“态度”与“服务”(92 次)、“售后”与“问题”(69 次)、“送货”与“速度”(62 次)、“退货”与“问题”(59 次)、“时间”与“京东”(54 次)、“售后”与“联系”(53 次) 等。
结合前文物流关键词词表、物流相关评论词云图、共现语义网络图等,分析物流环节中基于消费者感知的物流服务质量问题如下:第一,在包装完好程度方面,顾客收到商品时出现包装是否打开、包装是否破损、包装是否简陋、包装是否有味道等问题。第二、在人员沟通质量方面,与JD 客服、商家客服人员的沟通效率,消费者反馈问题时是否与客服人员取得有效沟通,能否及时处理消费者的问题。第三,在配送可靠性方面,快递送货不及时,快递从业人员服务态度不好,送货联系不规范等问题。第四,在企业整体形象方面,JD 自营产品是否为正品,JD 电商平台产品保价能否做到,JD 电商平台给予顾客的承诺能否做到等问题。第五,在售后服务方面,退换货环节出现问题,如退换货困难、退货售后申请未得到同意、退换货运费谁承担等。
图3 物流高频词共现语义网络图
4 结论与建议
综上可知,影响JD 电商平台消费者满意的物流服务质量的关键因素为包装完好程度、人员沟通质量、配送可靠性、企业整体形象以及售后服务5 个方面,并以此为依据提出物流服务质量问题改善措施。
第一、规范快递包装业务,提高物流从业人员的专业技能确保运输过程中产品及产品包装的完好,避免过度包装,为产品提供最优的合理包装方案。第二、提高物流从业人员素质,满足消费者个性化服务需求,JD 电商平台应重视一线物流服务从业人员专业化培训,提升服务人员的服务意识与沟通能力,为消费者提供高质量的有效物流服务。第三、在配送过程中提供物流信息实时追踪服务,规范配送环节的服务方式,以顾客视角出发满足顾客个性化物流需求;加强JD 自建物流服务体系与第三方物流企业合作,提高偏远地区物流配送能力,高效整合物流区域资源。第四、JD 电商平台与商家形成战略合作,加强平台规范管理制度,确保平台售卖的产品质量和产品服务,积极响应JD 保价策略,提高消费者对电商品牌忠诚度,提升企业总体印象。第五、提高JD 电商平台企业售后服务能力,提高退换货服务能力,简化退换货流程,及时响应消费者退换货申请,缩短换货周期。
由于本文研究评论数据来源是JD 电商平台的5 种类型商品,且有关物流服务的中差评数据较少,研究结果可能出现局限性。在研究方法方面,TF-IDF 算法虽然容易实现,但是关键词提取结果无法考虑语义信息,无法处理一词多义或一义多词的词语,研究结果可能出现偏差。