APP下载

基于在线评论文本挖掘的用户满意度因素探究

2021-10-25黄春林肖群徐晨郝亚男

科技信息·学术版 2021年18期

黄春林 肖群 徐晨 郝亚男

摘要:如今,网络评论已成为消费者了解商品信息、购买商品的重要影響因素,海量用户的频繁交易形成了大量的在线商品评论,从而提供了极具价值的文本信息。本研究基于信息采纳模型的框架,以京东平台的数码影音产品为研讨对象,利用网络爬虫收集用户评论,然后对评论内容进行文本挖掘,概括出数码影音产品中影响用户满意度的六个因素:做工质感、商家服务、续航能力、音质音效、产品特色、佩戴感受。研究结果可帮助厂商、京东平台店铺制定产品的改进和营销策略。

关键词:在线评论挖掘;数码影音产品;用户满意度;LDA

引言

随着移动互联网技术的发展,电子商务凸显出巨大潜力,为人们的生活方式带来了巨大改变,也重塑了诸多行业的贸易机制。由于线上交易的虚拟性,继而催生了如用户生成内容(UGC)等许多独有的消费者行为,体现在网络购物市场上就是用户在线评论。有学者认为,在线上购物环境下用户在线评论已成为消费者了解商品质量信息、降低购买风险性进而确定是否购买的重要信息资源。因此,如何提高服务质量,进而提升消费者网购体验,成为维持用户满意度和持续增长重要因素。

CNNIC最新公布的《第47次中国互联网络发展状况统计报告》,截至2020年12月,我国的线上购物用户规模已经达到7.82亿[1];然而,根据《2020年度中国电子商务用户体验与投诉监测报告》显示, 2020全年,我国线上购物的投诉占全体投诉的59. 97%,网络购物领域如此高比例投诉量,除去其自身商业模式的影响,更体现出此行业依然存在大量消费体验不佳现象[2]。而当今的市场竞争愈发激烈,电商行业已经从抢占市场份额的战略逐渐向强调服务质量和用户体验的战略转移,同时总体市场发展的趋势也逐渐由“价格驱动”转向“服务驱动”,因此,如何帮助电商企业和经营商家提升网购顾客体验质量,辅助企业进行运营管理,成了急需解决的问题。

网购消费者在购买商品后,常会发表商品评价,一般包括购买商品与线上介绍是否一致、商品使用情况、商家服务质量和物流配送等内容。基于线上购物时商品的虚拟属性,用户了解商品信息的渠道单一,无法对商品情况进行全面了解,因此无形中增大了消费者购买风险,而在线评论根据真实用户的购买情况,包含了诸多额外的商品信息,能够帮助有购买意向的消费者,使其对商品信息有更全面的了解,所以在线网络评论更容易获得其他用户的信服和采纳,如何从大量用户评论中提取出影响用户选择行为的因素,成为了当前理论研究和企业发展急需关注的问题。

本研究选取京东平台作为用户在线评价的数据来源,以文本挖掘技术为基础,对数码影音商品的评论进行分析,分析影响消费者满意度的因素,进而找到提高电商平台用户网络购物体验的方法,这样企业也能根据用户需要逐渐改进商品和服务,从而进一步提升用户满意度,为企业和消费者带来双赢的局面 [3]。

相关理论

用户满意度理论

通过对国内外文献中用户满意度概念的研究和总结,发现它们的定义仍然存在差异。Oliver(1980)认为,用户满意度是指用户在进行商品和商家服务的购买或享受后,对商品和服务的现实感受与预期感知的比较[4]。当用户觉得商品或商品比自己期望的产品和服务更好时,就会支持产品,产生认同感,当用户觉得商品或商品并没有比自己预期的产品和服务更好时,就会有一种不以为然的感觉,这是一种事后的评价[4]。Davis F D(1989)认为,用户满意度的定义是从购买开始到使用产品和服务的全过程中的感受,表达了用户在整个过程中的心理[5]。

网络爬虫技术理论

网络爬虫,是指按照一定的规则自动地在万维网中抓取信息的一种程序或者脚本,其被用于自动提取网页[6]。

文本挖掘理论

文本挖掘(Text Data Mining, TDM),其含义是指为了实现发现知识的目的,从大规模文本库中抽取隐含的、有潜在价值信息的过程,作为数字化社会的产物,文本分析已成为大数据时代下的一种极受欢迎的新兴技术[7]。

数码影音评论数据采集

数据来源

本文选择平台上销量大、浏览量和收藏量高的产品为研究对象。在众多网购产品中,以耳机为代表的数码影音产品凭借广大数码产品迷的青睐,已经成为消费者最喜爱的商品之一。

在过去三年中耳机市场发生了一个重大的变化,由原本维持多年的音频产品转向了产品功能更加多样的智能电子产品。这个行业的巨大变化由此也引发了相关用户的消费观念、市场竞争等诸多的变化。发生这一变化之前,大多数用户都以使用手机标配耳机为主,很少一部分用户由于追求更好的音质等原因去购买其他的耳机,但自从2016年苹果AirPods问世,打破了原先耳机市场的平衡,一年后真无线耳机市场得到了突飞猛进的增长,耳机市场的销售额更是一举超过过去5年销售额度的总和,成为一个新的红海市场。其中,Strategy Analytics新兴终端技术团队最新公布,截止2020年全球蓝牙耳机的总销量将超过3亿部。然而,耳机市场的快速变化,质量参差不齐,市场监管不到位,由此也带来了诸多产品和市场问题。因此本文将选用耳机作为研究的对象。

同时,主打数码家电产品的京东电商平台以极高的营收增速位居各大电商平台的首位,显示出了巨大的发展潜力,故本研究选取京东平台作为用户在线评论的数据来源。

数据采集

本文使用八爪鱼爬虫程序,爬取了京东部分商店的数码影音用户的在线评论数据,总用户评论量存在7个CSV文件中,原始数据共约10万条数据。抓取数据时,首先对数码影音关键词进行检索,抓取所有数码影音商品列表用户评论页链接地址,之后通过循环此评论列表页的地址进入每个商品的用户评论页,对用户评论进行抓取。由于京东平台网页端对用户评论展示进行限制,故单个商品最多只能抓取100页的用户评论,约1000条。

笔者在查看京东平台商品评论区时,发现用户评论主要由用户名、会員标志、数码影音型号,数码影音颜色、评论时间、评价星级、评论内容和追评等板块组成。然后在进行正式评估之前,要对所采集的数据进行预处理,首先由于从网页中爬取的数据中会包含一些无效信息,如特殊符号、语气助词、表情符号等,需要去除无关数据,因此选取其中出现频次较高的关键词作为基本分析对象。由于这些因素与本研究没有太多益处,故剔除其他评论中的因素,只保留用户文本评论内容。

文本分析与数码影音用户满意度因素归纳

数据预处理——中文分词

中文分词是根据一定的规范将连续的字序列重新组合成词序列的过程[8]。本文所用的jieba分词器是一个第三方中文分词组件库,分词效果准确度较高,因此本文选用jieba组件进行分词。

文本词云统计

西北大学里奇·戈登在2006年提出“wordcloud”这个概念,通过形成“关键词云层”或“关键词渲染”,在图形上突出内容文本中出现次数较高的“关键词”。词云图通过去掉大量的文字信息,让网络访问者对文字的主旨一目了然。本文将分好的词进行频数统计后,采用Wordcloud库生成词云图,效果如图:

词云图中字体越大的词组的词频越高,也侧面反映出了该词组在该文本当中可能越为重要,但文本中一般会存在大量标点符号、日常语气词、副词等词,这些词与用户要表达的主题思想通常关系不大,一般做法是将其列为停用词列表,让真正的主题词(比如名词、动词)凸显出来。由上图,可以看出一些用户对于数码影音购买满意度的关注特征,例如音质、音效、质感、舒适度等特征,但仍有一些词如数码影音、能力、感觉等与主题表达无关的词,这些将在后续中进行优化。

用户满意度因素归纳

本小节使用LDA模型对数码影音评论进行主题分析,从而得出用户在购买数码影音产品中满意度的影响因素。LDA是文档主题生成模型,也被称为三层贝叶斯概率模型,其本质上是一种非监督机器型的学习技术,能够对大量文档内容集或语料库中潜藏的主题信息进行识别,LDA通过采用词袋的方法,将每一篇文档都看做成一个词频向量,然后对文本信息向易于建模的数字信息的转变有了极大的帮助[9]。

LDA生成过程

LDA对于语料库中的每篇文档都定义了以下的生成过程:首先从每篇文档的主题分布中抽取一个主题;然后从被抽到的主题所对应的单词分布中抽取一个单词;最后一直重复上述过程直到文档中的每个单词都被抽取过[9]。

语料库中的每个文档都对应于T的多项分布(multinomial distribution)(通过重复试验等方法事先给定),多项分布被记作θ。每个主题对应于词汇表(vocabulary)中V个单词的多项分布,并且该多项分布被称为φ。

LDA模型生成部分代码:

#lda模型,num_topics设置主题的个数

%time lda = models. ldamodel. LdaModel (corpus = corpus, id2word = dictionary, num_topics = 6, passes =100, iterations = 6000)

本模型中iterations意思为训练模型过程中试图推断文本主题的次数,通常在1000以上,设为6000次,passes意思为训练模型过程中遍历全部文本的次数,通常情况遍历次数越大,耗时越长,设为100次。

主题分析结果

实验过程中针对文本主题num_topic进行调整参数,最终确定6个主题,尽量做到不重不漏。下图2为主题分析结果。尽管该模型预测不能做到百分百准确预测主题词,但基本上各个主题的关键词相似度极高,皆有共同特征,可以视为同一个主题。

经整理,确定的6个主题如下,为:做工质感、商家服务、续航能力、音质音效、产品特色、佩戴感受。

研究结论

结论

本文通过文本分析的方法对京东平台数码影音产品的用户评论进行了研究,构建了相应的BOW文本词频向量,利用LDA算法对实验数据进行建模模拟计算,经过不断的调整参数,最终确定影响用户购买数码产品的6个因素,即做工质感、商家服务、续航能力、音质音效、产品特色和佩戴感受。这为商家和耳机产商优化产品、平台和商家服务以进一步提升用户满意度提供了参考建议。

对数码影音厂商和销售平台的建议

对耳机产商的建议

本文研究数据表明,在耳机产品方面,用户主要关注五方面的因素,即做工质感、续航能力、音质音效、产品特色、佩戴感受。针对这五个因素,本文提出以下建议:

1.对做工质感的建议

在做工质感类别中,出现频率较高特征词有做工、质感、颜色、手感、外观、很漂亮、材质、磨砂等词,各大耳机厂商在这些方面要多加注意,提升产品的质感、外观设计等元素,紧追前沿时尚,给用户以体验上的满足。

2.对音质音效的建议

音质音效在数码影音产品中的重要性一直以来都是比较高的,本实验也侧面佐证了这一点。耳机产商也都深知要提升音质音效,但产品有限的价位上,要重点提升哪些方面的音质音效,还需后续深入研究。本实验中,音质音效方面的关键特征词有低音、降噪、杂音、隔音、高音、重低音等词,故耳机厂商可重点提升这几个产品音质因素。

3.对续航能力的建议

续航能力在数码产品中是用户经常容易吐槽的点。对于无线耳机产品来说,厂商可优化产品的功耗、提升电池模组的性能、支持快速充电的功能等。

4.对佩戴感受的建议

佩戴感受方面的关键词有舒适度、佩戴、耳塞、入耳式等,厂商可重点关注耳机的佩戴感受方面,多进行用户佩戴实验,优化产品佩戴体验细节。

5.对产品特色的建议

每一个成功的产品大多都有自己的独立特色,故厂商要想让自己的产品大规模普及开来,也必须针对自己企业的技术和设计特点,设计自己产品的特色。此主题关键词包括好看、性价比、颜值、小巧、可爱、时尚、好用等,厂商可针对产品的外观设计、性价比、易用性等方面进行用户满意度的优化。

对京东平台和私营店铺的建议

商家服务主题的关键词为物流、京东、快递、客服、速度、包装、品牌、服务等,京东平台和私营店铺可以针对这些关键词,进行服务优化,提升快递配送速度、客服人性化程度等。

参考文献:

[1] 中国政府网,《第47次中国互联网络发展状况统计报告》[EB/OL].http://www.gov.cn/xinwen/2021-02/03/content_5584518.htm

[2] 网经社,《2020年度中国电子商务用户体验与投诉监测报告》[EB/OL]http://www.100ec.cn/zt/2021yhtsbg

[3] 徐冬磊.C2C电子商务中的顾客满意度影响因素分析[D].安徽大学,2010.

[4] Davis F D.Perceived usefulness, perceived ease of use,and user acceptance of information technology[J].MIS quarterly,1989:319-340

[5] 朱俊亚.用户满意度影响因素研究—基于产品创新的视角[D].西南交通大学,2017.

[6] 百度百科,网络爬虫[EB/OL].https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin

[7] 谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74.

[8] 丁蔚.基于詞典和机器学习组合的情感分析[D].西安邮电大学,2017.

[9] 孔振.基于VSM的文本分类系统的设计和实现[D].哈尔滨工业大学,2014.

基金项目:国家自科项目地区基金:基于信息不对称和行为偏好双重视角下的供应链决策与协调研究(71762031)