基于电商评论的网购商品特征提取及价格预测
2021-07-27普晟昱
普晟昱
摘 要:隨着电子商务的不断革新,网购消费者在众多同类型商品中挑选一件物美价廉的商品需要耗费大量时间和精力。本文以京东商城羽毛球商品为例,通过LDA主题模型从畅销商品的电商评论中挖掘用户购买羽毛球商品的需求信息,据此提取商品特征作为建立模型所需的解释变量,建立对商品价格的回归预测模型。得出结论,基于电商评论提取商品特征建立价格预测模型的方法可以较准确地预测商品平均价格,优化消费者购买决策过程,提升电商平台运营服务能力。
关键词:电商评论 LDA主题分析 特征提取 价格预测 随机森林
中图分类号:F713.36 文献标识码:A 文章编号:1674-098X(2021)02(a)-0124-06
Feature Extraction and Price Forecasting of Online Commodities Based on E-commerce Comments
PU Chengyu
(School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)
Abstract: With the continuous innovation of e-commerce, online shopping consumers need to spend a lot of time and energy to choose a product attractive in price and quality among many similar products. Taking the badminton commodities of Jingdong Mall as an example, this paper uses the LDA theme model to mine the demand information of users to buy badminton commodities from the e-commerce comments of popular commodities, and then extracts the commodity features as the explanatory variables needed to build the model and establishes a regression prediction model for commodity prices. The conclusion is that the method of building a price prediction model based on the extraction of commodity features based on e-commerce comments can forecast the average price of commodities more accurately, optimize the purchasing decision-making process of consumers, and improve the operation and service capability of the e-commerce platform.
Key Words: E-commerce comments; LDA theme analysis; Feature extraction; Price forecasting; Random forest
随着电子商务技术的不断革新,网络购物现如今已经成为百姓购物的主要方式之一。截至2020年6月,我国网络购物用户规模达7.49亿,较2018年底增长1.39亿[1]。电子商务的开放性和便利性让消费者用户足不出户就能“货比三家”,买到物美价廉的商品,商家也能获取到传统线下运营模式不能比拟的市场规模,越来越多的商家进驻电商平台使得商品数量和类型呈现井喷式增长。研究发现,用户是否购买商品,主要取决于在线商品性价比与消费者需求诉求[2]。从消费者的角度来看,繁多的同类型商品给消费者的选择带来困难,挑选一件性价比高的商品需要耗费用户大量的时间与精力。从电商平台的角度看,改善用户选择流程,提升用户购物体验能够显著提升平台用户忠诚度和推广购买转化率。
数据挖掘在电子商务领域的应用越来越广泛,在电子商务智能推荐服务中的关联规则算法[3],基于电商产品评论数据的文本挖掘方法[4],针对不同消费群体网购决策影响因素研究的聚类分析算法[5]等在电商大数据发展中起到重要作用。目前学者在针对电子商务领域的用户评论研究大多集中于评论本身所包含的信息,鲜有学者将电商评论挖掘出的信息更进一步运用到回归预测模型中。如严建援等针对在线评论内容对评论有用性的影响的研究[6],李涵昱等针对商品评论进行的情感倾向性分析研究[7],国显达等提出Gaussian LDA主题模型挖掘京东商城等在线评论中用户所表达可能的主题的研究[8]。
本文以京东商城的羽毛球商品为例,基于畅销商品评论挖掘用户需求,提取商品特征作为模型解释变量,建立商品价格的回归预测模型。为用户购买高性价比羽毛球商品提供参考,也为电商平台改善用户体验提供思路。
1 研究方法介绍
1.1 基于电商评论的商品特征提取及价格预测模型
本文提出了基于电商评论的网购商品价格预测模型,主要包括六个步骤,如图1所示。
(1)畅销商品评论抓取:抓取评论过万的畅销商品的最近评论,包含评论的内容、评论所属商品等信息。
(2)评论文本处理:包括文本去重、机械压缩去词、短句删除和文本分词等步骤。
(3)LDA主题分析获取用户需求:运用基于Gibbs抽样的LDA主题模型分析店商评论中用户可能的多个主题倾向,即用户需求。
(4)商品特征抓取:根据得到的用户需求在电商平台中抓取所有与之相关的商品特征数据,作为预测模型的解释变量,包括商品价格、店铺类型、评论数量等信息。
(5)变量预处理:对响应变量和解释变量进行预处理,包括正则表达式处理、缺失值处理和异常值处理等。
(6)建立商品價格预测模型:建立预测模型、评价模型。
1.2 LDA主题模型
LDA主题模型是Blei等于2003年提出的无监督生成式主题模型[9],假设待分析文档集D由M个文档组成,即;其中每个文档由个词组成,即;M个文档共分布了K个主题。
对于分布方面LDA模型假设主题在文档中的分布服从一个参数为的多项分布,词在主题中的分布服从一个参数为的多项分布,参数和分别来自服从超参数和的狄利克雷先验分布。则可定义一篇文档的生成过程如下:对于某个文档,首先从主题分布中抽取一个主题,再从主题z对应的词分布中抽取一个单词,如此重复次即得到文档。该生成过程可由图2中的模型结构示意图表示。在文档 条件下生成词W1的概率可以表示为:
(1)
其中表示词w1属于第s个主题的概率,表示第S个主题在文档dj中的概率。
基于该原理,利用Gibbs采样算法对参数和进行估计即可得到主题在文档中的多项分布和词在主题中的多项分布[10]:
(2)
其中,表示文档中包含的主题的个数;表示词在主题中出现的次数。
2 实例分析
2.1 畅销商品的评论获取
本文数据来源于京东商城体育用品分类下的羽毛球商品,利用八爪鱼网络爬虫工具爬取用户评论数据。考虑到评论过万的畅销商品包含优质评论的数量更多,更有利于从中提取用户需求信息,因此分别抓取这些畅销商品的最近评论,共收集到13419条评论数据,包含评论的内容、评论所属商品、评论时间等信息。
2.2 商品评论文本处理
文本预处理方法中的文本去重、机械压缩去词和短句删除被广泛运用于电商评论分析中,图3所示为上述预处理方法的步骤和示例。预处理后的评论语料用Jieba分词中的混合模型进行分词,它结合使用最大概率法和隐式马尔科夫模型,对中文文本的分词效果好。分词后的文本还需删除停用词,即删除“我”、“的”、“说”等不包含实际意义的词,以提升分析效率,减少噪声。经过上述评论文本的处理后,根据每个词在所有评论中出现的频率做出如图4所示的词云图,图中词的字体越大表示该词在所有文本中出现的频次越高。
2.3 LDA主题分析获取用户需求
由图4的用户评论词云图可以看出,经过分词后的评论确实能够反映出用户对于产品的需求,例如商品的包装、外观,球的飞行、速度、羽毛,物流情况等,因此进一步采用LDA主题分析模型将用户需求信息提取出来。本文用R软件topicmodels包中基于Gibbs抽样的LDA模型实现用户评论的主题分析。LDA主题模型建立的关键是确定主题数量,运用十折交叉验证方法计算平均困惑度和平均对数似然值,结果见图5。根据极小化困惑度和极大化对数似然值下减少主题数的原则确定提取主题数为15。
经LDA主题分析后输出每个主题对应的前十个高频特征词,限于篇幅,仅于表1中列出7个主题(每个主题5个词)的结果。结合实际意义,将每个主题对应的高频特征词分别总结凝练为一个主题词来概括表示该主题,如表1主题1中所示的高频特征词“配送、慢、收到”等词表达了用户对快递配送的需求,因此将该主题归为“快递”需求。依此类推本文分别得到的15个主题词(即用户需求)为快递、材质、耐打、服务、评价、做工、羽毛、球头、手感、包装、球速、飞行、品牌、店铺和售后。
2.4 商品特征抓取和变量预处理
在LDA主题模型确定的15个用户需求指导下,可以有目的性地从消费者的角度提取商品特征作为预测模型的解释变量,优化模型的变量选择过程。综合考虑专业运动员对羽毛球性能的解释和商品特征数据的易获取性,诸如表1中用户需求“售后”可由“售后服务分数”来反映;用户需求“耐打”主要取决于羽毛球的羽毛材质和库存存放时间长短即上市时间;用户需求“飞行”主要由羽毛球的羽毛材质、毛片形状、球头材质和商品毛重等多重因素决定等等。本文利用八爪鱼爬虫工具从电商平台商品详情网页中共提取到14个反映用户需求的商品特征作为模型解释变量,商品特征与用户需求的对应关系如图6所示。
由于商品名称的特殊性,所爬取到的商品详情信息中存在“羽毛球拍”、“羽毛球服”等无关商品信息,本文利用自然语言处理的正则表达式将这些信息剔除。另外为了分析的量纲一致性,商品售卖单位统一为市面常售的12只一桶装的鹅毛或鸭毛材质羽毛球。经初步筛选后,共保留1620条羽毛球商品详情数据。对于数值型变量缺失情况采用均值填充;分类型变量缺失情况将其他变量作为解释变量,缺失变量作为响应变量建立随机森林模型,用预测值填充缺失值。对于数据偏斜很大的评论数变量进行离散化,将评论数0~50记为销量较差、50~200为销量一般、200~1000为销量较好、1000~10000为销量很好、大于10000为畅销商品。预处理后的变量类型和取值见表2。
2.5 商品价格预测模型
根据LDA主题分析提取的解释变量对羽毛球商品价格建立回归预测模型。考虑商品特征中同时包含数值型变量和分类型变量,为确定合适的预测回归模型,本文分别选用统计上常用的集成学习、核方法和线性方法中最具代表性的随机森林模型、支持向量回归模型和多元线性回归模型对变量进行拟合,评估各模型在实际应用中的表现,选择最优模型。本文基于十折交叉验证方法,计算统计回归中常用的均方根误差(RMSE)和平均绝对百分比误差(MAPE)评估模型的泛化能力于表3列出。结果证明基于集成学习的随机森林模型在表现上优于支持向量回归和多元线性回归模型,因此最终建立基于随机森林的羽毛球商品价格模型,模型拟合优度为0.85,拟合效果较好。
图7显示了各解释变量在模型中的重要性条形图,可见前五个影响羽毛球商品价格的因素分别是商品品牌、评价数量、毛片分類、售后服务和物流履约。其中羽毛球商品的品牌在模型中重要度最高,其次是商品评价数量。是否京东自营和店铺类型在模型中重要度较低,说明羽毛球商品的价格与线上经营渠道的相关性不大。结合表2中各变量所描述类别来看,羽毛球商品价格主要由商品自身属性和售后服务决定,店铺的销售渠道和方式对其影响微乎其微。
3 结论
本文通过LDA主题模型从畅销商品的电商评论中挖掘用户购买羽毛球商品的需求信息,据此提取商品特征作为建立模型所需的解释变量。运用十折交叉验证方法计算对比随机森林模型、支持向量回归模型和多元线性回归模型的泛化能力,最终建立了基于电商评论的商品特征提取及价格预测模型。模型显示影响羽毛球商品价格的因素可以分为商品自身属性和售后服务两方面。对于商品自身属性而言,羽毛球品牌对价格影响最大,消费者在网购羽毛球商品时若选购不同品牌的羽毛球其价格差异会比较大,可根据自身水平决定购买何种档次,如大众品牌红双喜的羽毛球商品主要定位低端市场,价格总体较低,适合业余健身爱好者购买;而如日本品牌尤尼克斯的羽毛球商品主打中高端市场,价格总体偏高。针对水平较高的业余爱好者或者专业羽毛球运动员,可以进一步根据自身对羽毛球如飞行稳定性、耐打程度等性能要求,运用该模型计算出符合相应需求的羽毛球大致价位,对自己的购买提供参考,以达成更优质的运动体验。对于售后服务而言,商品包装、商家默认快递公司的服务、是否包邮等都对商品价格有一定影响,如京东自营的商品物流履约度极高,但价格相对同样产品的其他商家更高,且需要额外支付邮费。
综上所述,本文基于电商评论提取商品特征建立价格预测模型的方法可以较准确地给出商品平均价格,消费者在购买羽毛球商品时可以根据自身对售后服务和商品属性的要求结合预测价格选择适合自己的羽毛球商品,优化消费者购买决策过程。对电商平台而言,建立上述预测模型有利于提升用户购物体验,增强用户粘度,有助于提升平台对商品价格的管控,保质保价的同时提升平台运营服务能力,也能够帮助厂家认识消费者需求与价格之间的相关关系,为厂家生产运营升级提供有效支撑。
参考文献
[1] 中国互联网络信息中心(CNNIC). 第46次中国互联网络发展现状统计报告[R]. 2020-09.
[2] 韦建国,王玉琼.基于网购平台大数据的电子商务用户行为分析与研究[J].湖北理工学院学报, 2019, 35(3):34-38,57.
[3] Marcin Szymkowiak, Tomasz Klimanek, Tomasz Józefowski. Applying Market Basket Analysis to Official Statistical Data[J]. Econometrics, 2018, 22(1):39-57.
[4] 陈义.文本挖掘在网购用户评论中的应用研究[D]. 杭州:浙江工商大学, 2018.
[5] 陈梅梅,薛阳阳.基于消费群体聚类的网络购买决策关键影响因素分析[J].统计与决策,2015(3):49-51.
[6] 严建援,张丽,张蕾.电子商务中在线评论内容对评论有用性影响的实证研究[J].情报科学,2012,30(5): 713-716.
[7] 李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.
[8] 国显达,那日萨,高欢,等.基于Gaussian LDA的在线评论主题挖掘研究[J].情报学报,2020,39(6):630-639.
[9] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research (JMLR), 2003(3): 993–1022.
[10] 张良均,云伟标,王路,等.R语言数据分析与挖掘实战[M].北京:机械工业出版社,2015.
[11] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
[12] 刘敏,郎荣玲,曹永斌.随机森林中树的数量[J]. 计算机工程与应用,2015(5):126-131.