APP下载

基于文本挖掘的跑鞋用户评价及情感分析

2024-06-17罗向东强威张希莹吴梦

丝绸 2024年6期
关键词:文本挖掘情感分析跑鞋

罗向东 强威 张希莹 吴梦

User evaluation and sentiment analysis of running shoes based on text mining

收稿日期:2023- 12 -11;修回日期:2024-04-25

基金项目:教育部人文社会科学一般项目(22YJCZH246) ;陕西省重点研发计划项目(2023-YBGY-144)

作者简介:罗向东(1974),男,教授,博导,主要从事产品大数据与标准化的研究。

摘要:为了挖掘消费者在线购买跑鞋时的关注信息,文章用大数据分析视角,以“京东商城”为例按照销量排序分析了前600款跑鞋品牌定位、价格分布、优惠信息、标签占比,使用LDA模型对10万条跑鞋在线评论进行文本挖掘,对商品评论数据进行词频共现分析、主题聚类与情感分析,从品牌、技术和售后服务的维度分析了问题的原因并提出相关建议。研究表明:国产品牌跑鞋在各价位段布局完整,销量高的跑鞋多使用满减和商品券,自营和优惠券标签对跑鞋购买具较为显著的促进作用;消费者购买跑鞋时主要关注外观细节、功能属性、性价比、穿着感受、服务优惠等方面。

关键词:跑鞋;文本挖掘;LDA模型;聚类分析;情感分析

中图分类号:TS101.91       文献标志码:A 文章编号:1001-7003(2024)06-0108 -12

DOI: 10.3969 / j.issn.1001-7003.2024.06.012

随着网购消费模式日渐习以为常,消费者获取产品评价信息的途径从以往的口碑相传变为了在线评论。超过七成的消费者网购时会参考电商平台商品评价信息,九成以上的企业相信评论意见会对未来消费行为产生决定性作用[1]。产品在线评论不同于主观调研数据,不会受到调研过程中研究人员的主观判断,能够反映用户真实的使用体验与情感倾向。因此,研究用户评价大数据对于加快产品设计转向、促进市场营销和提高用户满意度等牵引产品设计研发的方式十分重要。

跑步作为一项不需要场地和技术要求的低门槛运动项目,兼具愉悦身心、降低体脂率和减少慢性疾病患病的风险,深受广大人群喜爱[2]。跑鞋在跑步中扮演着至关重要的角色,无论是专业运动员还是业余跑者,选择合适的跑鞋都是确保跑步效果和舒适度的关键因素。近年来,本土设计制造的崛起促使国产跑鞋在某些市场赛道实现了弯道超车,跑鞋也因其日常穿着舒适性和个性化设计受到了广泛的市场关注,也是中国体育运动产品中最受关注的品类之一[3-4]。当前关于跑鞋的研究主要包括以下三个方向:

1)以产品功能为核心,主要集中在设计、制造与测试的产品研发流程,其中主要包括结构设计和材料选择。跑鞋的结构涉及外底、中底、帮面、鞋舌和鞋带,设计时需要考虑功能与人体运动之间的协调性,减少运动时外力对人体造成的冲击[5]。近年来,有不少研究致力于在跑鞋对人体下肢的影响和跑步经济性之间寻求平衡[6-7]。跑鞋设计的重要目标是在保护跑步者身体的同时,提高跑步经济性。一些研究指出,过度缓震的跑鞋可能会减少跑步者的运动效率和稳定性,从而增加能量消耗[8]。另一些研究则表明,适当的缓震设计可以降低跑步时对膝盖和其他关节的冲击,减少运动损伤风险[9]。因此,跑鞋设计需要在缓震、稳定和支撑等方面寻求平衡点,以最大程度地保护跑步者身体健康的同时,提高跑步经济性。材料方面主要涉及帮面材料的透气性和舒适性[10],外底的耐磨性及中底的缓震性[11]。近年来,跑鞋制造技术更多是在方法寻求创新,目的是实现个性化定制[12]。在跑鞋的测试环节主要是验证功能性和舒适性是否达到了预期目标,主要用到的方法是实验法和主观评价法[13-14]。2)以鞋楦再设计为重点,旨在确保鞋类舒适性、耐用性和美观程度,目前研究主要集中在鞋楦曲面优化和个性化定制。鞋楦曲面优化包括三维曲面特征快速提取[15],曲面误差分析[16],脚型楦型匹配精度分析[17],曲面加工效率提升[16]等。鞋楦个性化定制主要解决脚部曲面和鞋楦曲面数据的匹配,主要用到了模糊层次分析法[18],点云相似度评估[19],人工神经网络[20]等。3) 以市场需求为导向,通过主观问卷和查阅相关文献资料的方式,借助需求分析模型和统计类方法确定跑鞋市场定位,发现潜在市场机会。有学者对鞋类需求要素分类并赋权,指导相关产品研发[21]。另有研究运用K-Means和ANOVA方差分析,发现了跑鞋各品牌中休闲身份认同与品牌来源国效应的共同作用[22]。也有学者通过深度访谈,从属性、结果和价值三级深层次挖掘了马拉松爱好者购买运动跑鞋时的内心价值和产品评价,但该研究只针对线下商超和专卖渠道[23]。至2020年疫情以来,因供应商问题导致全球运动鞋库存不足,各大品牌促销活动减少被迫全价销售,消费者购买热情降低,在整体电商市场低迷的情况下,跑鞋的线上销售热度却逆势上扬,2021年6月至2022年5月,中国跑鞋电商营业额累计429.9亿元[24]。因此,了解跑鞋的消费趋势和消费者偏好对产业发展和营销策略制定具有重要意义,但目前这方面的研究还相对较少,尤其是“大数据+跑鞋”方面的研究。

通过文献梳理可知,目前还鲜有学者从电商大数据角度探讨消费者在购买和使用跑鞋时的关注因素。因而,本文以“京东商城”为例采集跑鞋的销售特征信息和商品评论数据,分析京东平台销售前600跑鞋的销售特征并对10万条用户评论进行文本挖掘,探讨消费者购买跑鞋时的关注重点并提出相关建议,以大数据视角帮助商家和研发机构更好地了解消费者需求和市场情况,为产品战略决策提供参考,具有较强的创新性和实用意义。

1 研究方案设计

1.1 研究方法

文本挖掘是针对非结构化文本进行的数据挖掘,包括情感分析、词频分析和语义网络分析等,在评论分析等领域得到了国内外学者广泛应用[25-26]。邢云菲等[27]运用文本聚类算法和主题图谱理论构建了网络用户在线评论的聚类模型,利用图谱可视化揭示了不同地区酒店用户观点的差异,并对不同图谱的社会网络特征进行了分析。张艳丰等[28]运用语义特征分析、情感特征分析、词频共现分析和时间特征分析等方法,从内容上对手机在线用户追加评论文本进行了文本内容挖掘,研究了在线用户追加评论的内容情报特征与初始评论文本语义之间的关联和差异。Chunjeong等[29]首先根据评分将42款骑行裤的电商评论划分为正面评论和负面评论,然后运用词云图和共现聚类等方法,揭示了消费者对产品满意和不满意的方面。与传统调研方法相比,文本挖掘能够更方便快速地发现消费者的关注点和偏好,具有规模化、客观化、多维化和成本低等优势。

1.2 数据采集

京东商城作为中国第二大电商平台,拥有大量客户群体,

其在线评论模块十分全面、细致且便于消费者阅读[30];其次京东平台提供了丰富的API服务,支持获取评论数据和商品数据等,方便进行大规模的数据采集和分析。本文使用Python 3.11,于2023年11月1日收集京东商城跑鞋销售特征数据和用户评论数据:第一步,通过Python调用Requests第三方库发送按销量排序的跑鞋链接地址,获取到网页评论源代码。第二步,解析HTML内容。使用Lxml和Json第三方库进行数据解析并提取销售排名前600款跑鞋品牌、价格、优惠、标签和商品评论内容,提取评论时将每款跑鞋能够显示出的所有评论全部提取。第三步,进行分页处理。依据构造页码的请求地址,且以Maxpage为基准进行最大分页提取。第四步,储存提取的数据。调用Python中Pymysql库将数据储存为“xlsx.”格式[31]。要注意的是,获取数据过程中为了模拟真实的用户访问环境,需在构造函数前将其初始化,并将验证登录信息中请求头中的Uer-Agent和Referer模拟浏览器访问界面,使用UA、Referer和Cookie抓取当前评论。在获取数据过程中需遵守《中华人民共和国网络安全法》,不得对服务器造成压力,确保数据的合法性。由于跑鞋的价格和中底材料密切相关,而在部分跑鞋的商品参数页中并未明确该标识,需要依据商品详情手动补充。

1.3 数据预处理

由于用户评论文本属于非结构化数据,其中存在大量无关词汇、表情符号和无效评论,直接进行文本挖掘分析可能会导致效果不佳,因此需进行文本预处理。首先,需进行数据去重。本次总共收集跑鞋评论数据131 022条,去重后包括50个品牌600个鞋款在内的用户评论数据共计103 874条;接着,设置自定义词库、文本分词和去除停用词等预处理,以提高文本挖掘的准确性和有效性[32]。通过Jieba库中文分词系统中的精确模式,对在线评论文本进行分词处理,结果如表1所示。1.4 数据分析

完成数据预处理后,即可进行数据分析。本文首先使用Origin 2021对跑鞋销售特征基本信息进行绘图分析并提取评论文本关键词;然后利用LDA模型和Gibbs抽样对评论文本进行聚类,探究不同主题下的产品特征词分布。LDA模型是一种基于三层贝叶斯概率模型的方法,包括文档、主题和特征词三个层次。其核心思想是将每个文档表示为多个潜在主题的混合分布,而每个主题则是词汇表中所有单词的概率分布[33]。通过对高维单词的降维,形成由一组主题词构成的小维度主题空间,降低了文本相似性。首先,将分词结果转化为词典Corpus,基于Corpus运用LDA模型,设置主题数num_topics,获得LDA主题分析结果;接着,使用pyLDAvis模块,根据LDA模型、词典、语料生成主题可视化网页,直观展示各主题的词语分布、主题间关系等信息;最后,使用SnowNLP对文本进行情感打分,获得正面和负面标签,并基于情感标签进

行主题分析,比较正负面评论的主题分布差异,技术路线如图1所示。

2 跑鞋销售特征数据分析

运动科学的发展和对运动体验感要求的提升促使跑鞋不但要在功能设计上符合脚型特征和运动规律,而且在款式设计上要体现运动性、场景化和个性化特征。为保证商品信息内容完整且方便阅读,选取京东商城商品相关信息为数据来源,具有较强的代表性,且有利于后期信息数据分析。以“跑

鞋”作为关键词进行商品检索,将结果按销量从高到低排序,获取前600名鞋款的商品基本信息,包括品牌、价格、优惠等,目的是对跑鞋商品的销售现状作以基本了解。

2.1 品牌定位

通过对京东商城获取的跑鞋数据进行清洗,被列入的品牌包括“安踏、耐克、李宁、亚瑟士、鸿星尔克”等近50个品牌,由于其中27个品牌前600的销售鞋款低于2款,且销量排名靠后,为了使统计结果更具代表性,将这些较为冷门的鞋款不纳入品牌统计。品牌间的价格区间分布如图2所示,主销产品系列数量如图3所示。由于品牌定位及内部主销产品系列价格跨度的差异,各价格层级跑鞋品牌定位已形成同类聚集效应。首先,以“匹克、回力和迪卡侬”为代表的跑鞋主打价格在85~359元的入门市场,该价格段除“迪卡侬”其余均为国产品牌,其中,回力在79~120元布局了31款产品,远超该价位段所有品牌系列产品的总和,说明该价位段的跑鞋消费者在关注产品性价比的同时同样关注品牌效应。其次,以“安踏、斯凯奇、美津浓”等为代表的跑鞋主打价格在139 ~599元的中低端市场,其中安踏跑鞋以72款产品系列数量位居所有品牌第一。该价位层级逐渐出现了类似“必迈”的新兴品牌,

同时消费者在选购时较多地关注到了国外品牌。再次,以“特步、李宁、鸿星尔克”等为代表的跑鞋主打价格在89 ~ 1 299元的全品类市场。因为产品价格跨度大,所以该价位层级所有品牌主销产品系列数较多,且大部分为国产品牌,同时由于较强的品牌效应,该价位层级的高端产品依然受到了消费者的认可。随后,以“耐克和亚瑟士”为代表的跑鞋主打价格在429~1 870元的高端市场,他们凭借强大的品牌效应和专业的研发团队使其各系列跑鞋无论在销量还是售价上均处于市场绝对优势。最后,以“斐乐和安德玛”为代表的跑鞋主打价格在509~1 219元的中高端市场,需要说明的是此价位层级的跑鞋虽然在单价上高于大部分竞品,但其主销产品系列较少,定位于中高端市场中的较少特定消费群体。

2.2 产品价格区间分布

跑鞋的核心技术集中在中底的材质和加工工艺更好的支撑、回弹和滚动设计将服务于更高的跑步效率。图4为销售前600款跑鞋的价格散点图。中底方面,以EVA为单一基材的中底跑鞋主要分布在400元以下,具有更好回弹性能的ETPU和PEBAX材质主要分布在450 ~1 200元。同时,在平均价格385元以下跑鞋中底主要由单一的EVA材料发泡而成,售价越高,中底结构及工艺越复杂,以碳板和TPU支撑辅件为中底的跑鞋多分布在700元以上中高价位段。此外,销售排名前300中具有复合中底的跑鞋数量要高于300名以后的。EVA中底跑鞋价格从98元跨越到1 400元,跨度较大,有可能受到发泡工艺的影响。

2.3 产品优惠情况

在调研中发现,满减、商品券、赠品和折扣是常见的优惠形式。销售排名前600的跑鞋中有465款跑鞋参与优惠,其中383款跑鞋参与满减,322款跑鞋参与商品券的使用。由于“满300减30”有280款跑鞋,占比较大,为了呈现效果所以未显示于图5中,由图5可知大部分鞋款的满减条件低于400元,满减优惠在10~200元不等;商品优惠券方面,由于用“券99减10元”有91款跑鞋,“券6减5元”有25款跑鞋,“券249减20元”有24款跑鞋均占比较大,为了呈现效果所以未显示于图6中,由图6可知大部分鞋款的用券条件低于也400元,用券优惠在5 ~ 200元不等,用券优惠度高于满减,尤其是在部分高价位段,如在1 000 ~ 1 600元也存在一定数量的用券条件,尤其是耐克的五款跑鞋更是推出了“券1 000减400元”的大幅优惠。赠品主要有备用鞋垫和鞋带、清洗剂、袜子、logo挂件等。折扣分为一双5.9折、7折、8折、8.1折或8.8折,两双8折或9折。需要说明为了不使图中各价位的圆形区域叠加混淆,所以赋予不同的颜色,便于视觉区分。

2.4 产品各标签占比

分别统计销量前100和前600名的跑鞋的各标签占比,以研究高销量商品标签和整体的差异,如图7所示。高销量鞋款在自营、优惠券、门店有售和品质认证标签占比高于整体水平;在折扣、京东物流和品质溯源标签占比与整体基本持平;在赠品、新品和免邮方面低于整体。总体看,图7中自营和优惠券处前100标签占比要明显高于前600(蓝色区域面积

明显高于红色),说明该两类标签对跑鞋购买具较为显著的促进作用,与前100热销鞋款相比,新品标签的对购买影响不大(红色区域面积明显高于蓝色)。

3 跑鞋评论文本分析

为进一步挖掘跑鞋用户在线评论中的信息、了解消费者对跑鞋的关注点,本文采用LDA主题聚类与情感分析探索消费者对现有跑鞋商品的满意度,采用词频分析、主题聚类、情感分析、共现分析探讨消费者的关注重点。

3.1 词频分析

评论数据分词后存在一些与商品本身相关属性无关的重复词汇,如“好评”“很好”等,因此需要进行数据清洗,剔除与商品属性无关的评论信息并设置停用词表。词频—逆文本频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法不仅基于词频计算,而且引入了逆文本频率的概念,以提高关键词提取的准确性和代表性[34]。因此,该算法可以有效地衡量单词在评论文本中的重要性,并提取最具代表性的关键词。表2为部分与跑鞋商品属性相关的关键词及其词频信息。从词频统计中可以看出“舒服”一词的出现频率最高,表明消费者尤为关注跑鞋的穿着体验,特别是对舒适度的关注。其次是“做工”,反映了在穿着体验之外,跑鞋产品本身的设计和质量也会成为消费者关注的焦点。在词频排名前十中,“透气性”是消费者关注的另一重要的穿着体验,这关系到跑鞋的卫生性能,即帮面设计如何能够及时排出鞋腔内的水蒸气,保持内部湿度合适。另外,“尺码”“颜值”“细节”“鞋底”等跑鞋重要设计要素也是消费者评论关注的重点内容。使用TF-IDF算法分词功能提取评论文本的特征关键词后基于分词结果绘制词云图,如图8所示。

3.2 关键词共现分析

使用KH Coder 3.Beta.07e对上述跑鞋评论关键词做共现分析。通过分析关键词的共现情况,可以揭示不同关键词之间的关联性和相关性,有助于理解文本中的语义关系,发现隐藏的主题和潜在的关联[35]。在TF-IDF算法基础上,通过计算Jaccard相似性系数判断样本集中两样本之间的相似度,建立关键词之间的共现网络或相关性图谱[36]。图9为跑鞋评论中关键词共现图谱,圆圈大小表示该关键词的出现频率,关键词之间有链接代表其具有相关关系,数值代表关联度的强弱。由图9可以发现,关键词间的共现关系复杂,整体性和系统性趋势明显,说明在消费跑鞋过程中,消费者较为注重从品牌认同、产品、购物到售后的综合体验过程。跑鞋的舒适性是其功能的核心,也是产品宣传和销售话术中的重点[37],与“舒服”直接或间接相关度高的词有“舒适度”“脚”“透气”“包裹”“轻便”“外观”“质量”“服务”,可见消费者对舒适的体验是综合性评价的结果,不仅局限在产品功能层面,也会受到视觉及服务的间接影响。评价关键词中和“鞋底”高度相关的是“软”和“支撑”,链接强度分别是0.19和0.09,说明与回弹性相比,消费者更在意跑鞋鞋底的缓震功能;与关键词“好

看”高度相关的产品要素是“颜色”和“款式”,链接强度分别是0.10和0.08,可见相对于跑鞋款式,消费者更在意产品的配色设计。需要特别说明的是,在共现图谱中存在一些与其他高频词关联性差的频率较低的词汇,这是由于该类词语单独出现的概率较大,Jaccard系数较低,因此有利于关联词群之外。

3.3 聚类分析

利用LDA模型对销量前600的跑鞋用户评论文本进行分析,通过计算困惑度[38]得到了最佳主题数为7,最终设定为Topic =7,α=0.2,β = 0.03,循环迭代次数为4 000次,通过LDAvis得到主题聚类的可视化文档。

文档结果展示了跑鞋消费者评论中7个主题的分布情况和概率占比,在选中某个主题的情况下则会出现该主题下的30个代表性热点词,可用于确定主题内容。λ值表示词语与主题之间的相关性程度:当λ接近于1时,结果中将显示在该主题下出现最频繁的词语,有助于了解用户在该主题下讨论的热点词汇;当λ接近于0时,结果中将显示在该主题下相对独特的词语,可以了解该主题与其他主题的区别所在。通过调节λ值可以保证每个主题展现热点词的同时,凸显与其他主题的差异。表3列出了7个主题下的前10个特征词。

通过对每类主题热点词的反复对比筛选,按照热度排序最终总结出7个主题的名称,分别是外观细节、家庭、功能属性、性价比、穿着感受、售后服务、电商优惠。

外观细节:消费者比较在意跑鞋呈现的整体视觉效果,包括外观、款式、色彩、笨重,以及细节设计包括做工、瑕疵、线头等。外观细节能够展现个人的时尚品位和风格,消费者希望通过穿着漂亮的跑鞋来展示自己的形象,反映了广大跑鞋消费群体相对于穿着感受的功能属性,更加注重跑鞋的外在表征反映的社会属性。夏季是跑鞋销售和穿着的旺季,简约的服装搭配使得消费者更加注重跑鞋所呈现的视觉效果。

家庭:许多消费者将跑鞋作为礼物赠与家人,由此可见许多跑鞋的消费者并非使用者。当跑鞋作为礼品赠与家人时有以下特征:首先,跑鞋是一种实用的礼物,适合喜欢运动、需要运动的人士。其次,现代跑鞋不仅具有良好的功能性,还融合了时尚设计。鞋的各种款式、颜色和功能,可以根据家人的喜好和需求进行个性化选择。最后,跑鞋产品满足舒适的要求相比衣服要高很多,会受到个人的脚型、脚感及日常运动状等诸多因素影响。因此,只有高度熟识的人才会为对方购买跑鞋产品。

功能属性:舒适性是消费者最关注的功能,主要反映在鞋底舒适性和鞋面舒适性。鞋底分中底和外底,轻便、软和弹性主要是跑鞋中底的属性,反映了用户已从跑鞋单一的减震功能,上升到减震与回弹并重的综合性体验,而鞋底轻量化要优先于上述中底的功能性设计。防滑是用户最关注的外底功能属性,这表明部分跑鞋的使用环境已从运动步道扩展到了湿滑路面甚至是非铺装路面。对于跑鞋鞋面,透气性和耐磨性是消费者最关注的功能属性,也是影响跑鞋舒适度的重要因素。

性价比:对于大部分消费者而言,跑鞋仅被定义为日常生活用品或运动装备,对于价格较高的专业跑鞋,绝大多数消费者可能并不需要或无法充分发挥专业跑鞋的优势。因此,对于绝大多数消费者而言,普通的跑鞋已经足够满足他们的日常生活和一般运动需求,而专业的跑鞋则更适合那些追求高性能和专业水平的少数人群。另外,以“安踏、李宁、鸿星尔克和361°”为代表的国产品牌的崛起,极大地丰富了世界跑鞋的中端和平民市场,无论在外观款式和功能技术创新方面都让消费者有了更广泛的选择。

穿着感受:跑鞋的穿着感受与功能属性密切相关,舒适感仍然是消费者最为关注的话题。与静态试穿相比,消费者更加关注在跑步或行走中跑鞋的脚感,尤其是中底带来的推进感和回弹感,以及鞋面带来的包裹感、跟脚感和透气感。跑鞋的轻量化设计给运动带来的轻松也是消费者关注的重点。

快递服务:物流发货速度被认为是消费者非常重视的因素,在下单跑鞋之后,消费者希望能够尽快收到他们购买的商品。服务质量在消费者心中也占有重要地位,消费者期望在购买跑鞋过程中得到良好的服务体验,包括售前咨询、售后支持等。同时,精美的包装可以给消费者带来额外的愉悦感,同时也传达了跑鞋的品质和价值。友好、耐心且专业的客服和卖家上门服务也是消费者相对比较在意的。

电商优惠:跑鞋消费者非常重视购物节、促销活动和打折优惠。“双十一”和“6 · 18”是中国著名的购物节,许多消费者会在这些时间节点期待能获得较大的折扣和优惠。许多年轻的跑鞋消费者追求时尚和新潮,通常对新品跑鞋感兴趣。赠品和包邮作为一种购物促销手段,也会引起部分消费者的关注。

整体而言,消费者在线购买跑鞋时会重点关注跑鞋的外观细节和功能属性,同时性价比、快递服务和优惠策略也是消费者重点关注的内容,对购买决策会产生重要影响。

3.4 情感分析

使用Python中的SnowNLP情感语料库将跑鞋用户评论数据划分成了积极和消极评论[39],在此基础上,利用LDA主题模型对潜在的主题、主题下的关键词进行数据挖掘并确定最优主题数,最终生成产品好评、差评不同主题的关键词列表。通过计算不同LDA各主题间的平均余弦距离判断主题相似度,相似度最小时的主题个数为最优主题数[40]。图10为主题数2 ~ 10中每个主题的平均余弦值,确定正面和负面评论最优主题数为5和4,最终生成正面和负面的主题聚类可视化文档。表4和表5列出了5个正面主题和4个负面主题下前10个特征词。

3.4.1 正面评价主题分析

消费者正面评价聚类结果如表4所示,正面评价包括5个主题。1)外在品质:大部分消费者认可市场上的跑鞋在舒适度和外观要素上的表现,尤其是跑鞋实际尺码的工艺细节。2)实用功能:消费者对目前跑鞋鞋底的功能表现满意,包括轻量化、回弹、柔软和耐磨等,这也和近年来国产跑鞋科技进步有关。同时,对知名品牌跑鞋的认可度较高。3) 使用场景:许多跑步爱好者对目前商场上跑步的运动表现满意,部分消费者认为跑鞋在常规使用中如通勤或久站体验较好。4)产品服务:消费者对产品的物流速度到货准时性较为满意,对产品的包装质量和客服的态度也较为认可。5)产品优惠:消费者对“京东”现有跑鞋的价格和优惠政策比较满意,热衷于定期推出优惠活动,对价格合适、物有所值的跑鞋兴趣较高。

3.4.2 负面评价主题分析

由于跑鞋差评的数量远小于好评,因此主题仅代表少数消费者,负面评价聚类结果如表5所示。1)穿着感受:少数消费者对于穿着感受的负面评价主要集中在舒适度和匹配性方面,舒适度不足体现在压脚、不透气和磨脚,主要的原因包

括鞋楦造型不合理及鞋面材料舒适度不佳。匹配性弱指消费者脚型与鞋型不匹配,造成偏瘦或偏胖和脚趾不适等问题,主要原因包括个体脚型差异及楦型设计不合理。2)产品质量:部分消费者认为跑鞋有异味问题,主要来自鞋底的发泡材料及胶水,开胶的原因是鞋底和鞋帮黏接不牢。跑鞋不耐脏也会引起消费者的不满。3)产品服务:少数消费者会因为服务态度、耐心和回复时间对客服不满,在收货过程中会因为包装破损或快递人员送货问题产生不满情绪。4)产品宣传:少数评论认为产品实物与宣传不符,甚至会出现售卖假货的行为。

4 结 语

本文对“京东商城”销售前600的跑鞋线上销售的品牌定位、价格区间、产品优惠和标签进行分析,总结了跑鞋电商销售特征,同时用LDA主题模型对10万条商品评论进行词频共现分析、聚类分析和情感分析,挖掘消费者的关注因素,并针对相关问题提出合理化建议。

1)国产跑鞋从入门市场到高端市场具有完整的产品布局,但是由于世界品牌效应、技术积累和用户口碑,相较于销量靠前且主打中高端市场的头部品牌“耐克、阿迪达斯和亚瑟士”仍有一段距离。销量排名靠前的跑鞋大多参与满减和优惠券活动,且在自营、门店有售和品质认证标签占比高于整体水平,销量高的跑鞋多使用满减和商品券,自营和优惠券标签对跑鞋购买具有较显著的促进作用。

2)消费者在线上购买跑鞋时主要关注外观细节、功能属性、性价比、穿着感受、服务优惠等方面。大部分消费者在上述几个方面持满意态度,少数消费者对跑鞋的穿着感受、产品质量及服务宣传的态度不佳。

3)在信息透明化的时代,产品在线评论成为消费者购买前了解和对比商品的重要渠道。因此,跑鞋行业及相关企业需要科学应对并做出相应调整。首先,相关跑鞋生产企业和研究部门要形成用户需求驱动产品研发的思维模式,相比一味地宣传品牌的“黑科技”,深入挖掘网购用户评论信息对产品进行优化十分必要。其次,对于跑鞋在销售和使用过程中出现的产品质量及穿着主观感受不理想等未检测出的问题,企业要高度重视,在加强产品质量监管的同时要做好消费者“最后一公里”服务。最后,企业要严把产品服务和宣传环节,建立线上服务人员服务标准体系,避免夸大宣传和价格大幅波动,加强与物流人员的沟通与培训,为线上消费者营造良好的购物体验。

本文还存在以下不足:第一,由于用户评论内容里未深入涉及有关跑鞋功能技术分析的内容,致使聚类结果中的功能技术分析指标不够细化。第二,未探讨不同电商平台下跑鞋的销售和评论特征,具有一定的局限性。第三,由于京东平台的信息保护机制,未能建立特定消费群体和评论主题之间的关联。未来可以根据消费者各个特征开展深入研究,在采集用户评论大数据的基础上,通过对年龄、地域、职业等用户信息的进一步挖掘,使评论主题能够映射至特定用户群体,有助于满足特定消费群体的定向研发和精准营销的实施。此外,为了使结果更具普适价值,未来需继续增加数据量,使模型更好地理解各种主题、领域和语境,从而提高结果的信度和效度。

参考文献:

[1]沈长霞,车万留,桂海霞.基于贝叶斯网络的电商客户满意度影响因素分析:以京东运动鞋为例[J].数学的实践与认识, 2020,50(23): 285-294.

SHEN C X, CHE W L, GUI H X.Analysis of influencing factors on customer satisfaction of e-commerce based on Bayesian network:Taking Jingdong mall as a example[J].Mathematics in Practice and Theory, 2020, 50(23): 285-294.

[2]向勉,易本顺,周丙涛,等.利用惯性传感器与多模态网络解析跑步参数[J].武汉大学学报(信息科学版),2023:10.13203/j.whugis20220229.

XIANG M, YI B S, ZHOU B T, et al.Analyzing of running parameters using IMU and multi-modal networks[J].Geomatics and Information Science of Wuhan University, 2023: 10.13203 / j.whugis20220229.

[3]蔡丽玲,季晓芬,王若瑾,等.国内运动鞋网络社区用户创新价值评价研究[J].丝绸, 2020, 57(5): 47-52.

CAI L L, JI X F, WANG R J, et al.Research on user innovation value evaluation of sneaker network community in China[J].Journal of Silk, 2020, 57(5): 47-52.

[4]董红刚,易剑东,任慧涛.运动鞋服企业治理的国际经验借鉴及晋江转型发展路向[J].武汉体育学院学报,2021, 55(10):33-39.

DONG H G, YI J D, REN H T.International experience of governance of sports shoes and clothing enterprise and transformation and development road of Jinjiang [J].Journal of Wuhan Sport University, 2021, 55(10):33-39.

[5]相亮亮,梅齐昌,李建设,等.不同缓冲(能力)跑鞋对跑者膝、踝关节局部动态稳定性的影响[J].中国体育科技,2023, 59(4):84-93.

XIANG L L, MEI Q C, LI J S, et al.Effects of running shoes with different cushioning capacities on the local dynamic stability of runners knee and ankle joints [J].China Sports Science and Technology, 2023, 59(4):84-93.

[6]李秋捷,万祥林,刘卉,等.慢跑鞋前掌屈曲刚度对男性跑者的跑步经济性及下肢关节功的影响[J].成都体育学院学报,2022,48(6):101-106.

LI Q J, WAN X L, LIU H, et al.Effects of forefoot bending stiffness of running shoes on the running economy and joint work of lower extremity in male runners [J].Journal of Chengdu Sport University, 2022, 48(6):101-106.

[7]孙冬,宋杨,全文静,等.跑鞋抗弯刚度调整对下肢生物力学表现及跑步经济性的影响研究[J].中国体育科技,2022, 58 (7):68-75.

SUN D, SONG Y, QUAN W J, et al.Effect of running shoes bending stiffness alteration on lower extremity biomechanical performance and running economy [J].China Sports Science and Technology, 2022, 58(7):68-75.

[8]张燊,崔科东,张希妮,等.后跟着地跑步技术对足弓肌肉力量的影响[J].中国运动医学杂志,2019,38(11):955-959.

ZHANG S, CUI K D, ZHANG X N, et al.The effects of rear-foot strike running on the muscle strength of the longitudinal arch [J].Chinese Journal of Sports Medicine, 2019, 38(11):955-959.

[9]叶靖怡,陈海荣,宋杨,等.跑鞋纵向抗弯刚度调整对青少年下肢生物力学影响的研究[J].应用力学学报,2022, 39(2):209-217.

YE J Y, CHEN H R, SONG Y, et al.Effect of running shoes increased longitudinal bending stiffness on lower limb biomechanics of adolescents runners [J].Chinese Journal of Applied Mechanics,2022, 39(2):209-217.

[10]魏书涛.不同鞋帮类型足球鞋对踝关节稳定性的影响[J].皮革科学与工程, 2021, 31(1):69-74.

WEI S T.Football shoes collar types effect on ankle stability [J].Leather Science and Engineering, 2021, 31 (1):69-74.

[11]王家雨,傅凤琴,谢志浩,等.不同EVA中底气泡结构对跑步过程中下肢生物力学特征的影响[J].医用生物力学,2021, 36(增1): 417.

WANG J Y, FU F Q, XIE Z H, et al.Effects of different EVA midsole bubble structures on lower limb biomechanical characteristics during running [J].Journal of Medical Biomechanics, 2021, 36(S1): 417.

[12]李勇,刘远哲.3D打印技术下的运动鞋设计发展趋势[J].包装工程, 2018, 39(24): 152-157.

LI Y, LIU Y Z.Development trend of sports shoes design under 3D printing technology[J].Packaging Engineering, 2018, 39 (24):152-157.

[13]弓太生,郭思逸,高倩,等.护踝抗扭转功能鞋靴的运动稳定性测试[J].皮革科学与工程,2022,32(2):88-93.

GONG T S, GUO S Y, GAO Q, et al.Kinematic stability testing of ankle protection and torsion resistance functional footwear [J].Leather Science and Engineering, 2022, 32(2): 88 -93.

[14]汤运启,郭新宇,王勇,等.鞋靴主观舒适性评价方法研究进展[J].皮革科学与工程, 2022, 32(2): 47-53.

TANG Y Q, GUO X Y, WANG Y, et al.Research progress on subjective comfort evaluation methods for footwear [J].Leather Science and Engineering, 2022, 32(2): 47-53.

[15] CHEN X, ZHANG X.Shoe last free-form surface reconstruction technique based on reverse engineering: Advanced research on computer education, simulation and modeling, PT D [Z]//LIN S,HUANG X.International Conference on Advanced Research onComputer Education.Simulation and Modeling, 2021: 176, 396.

[16] BIAN X J, LI X L, et al.A new error analysis and accuracy synthesis method for shoe last machine[J].Sensors & Transducers,2014, 170(5): 256-261.

[17] HINOJO-PEREZ J J, DAVIA-ARACIL M, JIMENO-MORENILLA A, et al.Automation of the shoe last grading process according to international sizing systems [J].The International Journal of Advanced Manufacturing Technology, 2016, 85(1 -4): 455-467.

[18]任怀艺,王伯雄,罗秀芝.基于模糊层次分析的足楦匹配算法在鞋楦定制中的应用[J].光学精密工程, 2014, 22(6): 1677-1685.

REN H Y, WANG B X, LUO X Z.Application of FAHP-based foot-last matching algorithm to customization shoe-last [J].Optical and Precision Engineering, 2014, 22(6): 1677-1685.

[19] SAMBHAV K, TANDON P, DHANDE O S.Computer aided design and development of customized shoe last [J].Computer-Aided Design and Applications, 2011, 8(6): 819-826.

[20] GERMANI M, MANDOLINI M, MENGONI M, et al.Tools for design and validation of shoe lasts for diabetic patients [J].Footwear Science, 2012, 4(3): 221 -241.

[21]罗向东,强威,张希莹.女士皮鞋外观设计需求驱动方式建构[J].包装工程, 2024: 10.19554 / j.cnki.1001-3563.2024.02.034.

LUO X D, QIANG W, ZHANG X Y.Constructing a demand-driven approach to ladies leather shoes appearance design [J].Packaging Engineering, 2024: 10.19554 / j.cnki.1001-3563.2024.02.034.

[22]邢晓燕.体育健身驱动下的体育用品消费:我国大型城市马拉松参赛选手跑鞋品牌市场细分的实证研究[J].中国体育科技,2017, 53(1): 27-37.

XING X Y.Sports goods consumption driven by physical fitness:An empirical study on running shoe brand segmentation of runners at a large city marathon in China [J].China Sports Science and Technology, 2017, 53(1): 27-37.

[23]李凌,张瑞林.方法目的链在体育消费行为领域研究中的应用与适用[J].天津体育学院学报,2021, 36(1):67-75.

LI L, ZHANG R L.Application of means-end chain theory in the field of sport consumption behavior [J].Journal of Tianjin University of Sports, 2021, 36(1): 67-75.

[24]覃思悦.2022年全球球鞋销量增长放缓,但跑鞋产品仍疯涨[EB/OL].(2023-02-08) [2023-12-11].https: / / finance.sina.com.cn/jjxw/2023-02-08 /doc-imyeyhrw3162832.shtm.

QIN S Y.Global sneaker sales growth slows in 2022, but running shoe products still rise wildly[EB/OL].(2023-02-08) [2023-12-11].https: / / finance.sina.com.cn / jjxw /2023-02-08 / doc-imyeyhrw3162832.shtm.

[25] XIAO Y, LI C D, THURER M, et al.User preference mining based on fine-grained sentiment analysis [J].Journal of Retailing and Consumer Services, 2022, 68 (9): 103013.

[26] PETER D A, LIANG D C.Modeling customer satisfaction through online reviews: A flowsort group decision model under probabilistic linguistic settings [J].Expert Systems with Applications, 2022(195): 116649.

[27]邢云菲,曹高辉,陶然.网络用户在线评论的主题图谱构建及可视化研究:以酒店用户评论为例[J].情报科学,2021, 39(9):101-109.

XING Y F, CAO G H, TAO R.Research on the construction and visualization of topic mapping of online users online reviews:Taking hotel users reviews as an example [J].Information Science, 2021, 39(9):101-109.

[28]张艳丰,王羽西,彭丽徽,等.基于文本挖掘的在线用户追加评论内容情报研究:以京东商城手机评论数据为例[J].现代情报, 2020, 40(9):96-105.

ZHANG Y F, WANG Y X, PENG L H, et al.Research on information of online users additional comments based on text mining: Taking the mobile phone review data of Jingdong Mall as an example[J].Journal of Modern Information, 2020, 40(9): 96-105.

[29] CHUNJEONG K, YOUNGJOO N.Consumer reviews analysis on cycling pants in online shopping malls using text mining [J].Fashion and Textiles, 2021, 8(1): 1 -21.

[30]刘佳锴,李敏.基于文本挖掘的蚕丝被在线评论分析:以京东商城为例[J].丝绸,2023, 60(8):11-20.

LIU J K, LI M.Analysis of online reviews of silk quilt based on text mining: Taking Jingdong Mall as an example [J].Journal of Silk, 2023, 60(8): 11-20.

[31]张皓,吴梦洁,陈星宇,等.整合视域下卫生服务“以人为本”的语义解构、建构与实践指引:基于Python爬虫搜索的文本分析[J].中国卫生政策研究, 2022, 15(12): 9-17.

ZHANG H, WU M J, CHEN X Y, et al.Semantic deconstruction,construction and practical guidance of “ people-oriented ” health service under the integration perspective: A text analysis based on Python crawler search [J].China Journal of Health Policy, 2022,15(12): 9-17.

[32]李春晓,李辉,刘艳筝,等.多彩华夏:大数据视角的入境游客体验感知差异深描[J].南开管理评论,2020, 23(1):28-39.

LI C X, LI H, LIU Y Z, et al.Colorful Huaxia: A deep description of the differences in the perceived experience of inbound tourists from the perspective of big data [J].Nankai Business Review, 2020, 23(1):28-39.

[33]王晨,廖启明.基于改进的LDA模型的文献主题挖掘与演化趋势研究:以个人隐私信息保护领域为例[J].情报科学,2023,41(10):112-120.

WANG C, LIAO Q M.Literature topic mining and evolutionary trend based on improved LDA model:Taking the field of personal privacy information protection as an example [J].InformationScience, 2023, 41(10):112-120.

[34]刘佳,陈敏时,谢懿,等.基于TF-IDF算法的运营商用户画像

分析[J].电信工程技术与标准化,2023, 36(10):1-5.

LIU J, CHEN M S, XIE Y, et al.Carrier user portrait analysis based on TF-IDF algorithm[J].Telecom Engineering Technics and Standardization, 2023, 36(10):1 -5.

[35]徐选华,黄丽,陈晓红.基于共词网络的群智知识挖掘方法:在应急决策中应用[J].管理科学学报,2023, 26(5):121-137.

XU X H, HUANG L, CHEN X H.Collectire intelligence knowledge mining method based on co-word networks:Application in emergency decision making[J].Journal of Management Science in China, 2023, 26(5):121-137.

[36]张吉玉,张均胜.考虑时序的单篇科技文献新颖性评估方法[J].图书情报工作, 2022, 66(17):93-105.

ZHANG J Y, ZHANG J S.Novelty evaluation method of single scientific and technical literature considering time series[J].Library and Intelligence Service, 2022, 66(17):93-105.

[37]白啸天,霍洪峰.基于运动生物力学的运动鞋功能研究进展[J].皮革科学与工程, 2023, 33(5):73-78.

BAI X T, HUO H F.Research Progress on the function of sports shoes based on sports biomechanics [J].Leather Science and Engineering, 2023, 33(5):73-78.

[38] GRIFFITHS T L, MARK S.Finding scientific topics [J].Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(2):5228-5235.

[39]张冬,魏俊斌.情感驱动下主流媒体疫情信息数据分析与话语引导策略[J].图书情报工作,2021, 65(14):101-108.

ZHANG D, WEI J B.Emotion-driven data analysis of mainstream media epidemic information and discourse guidance strategy [J].Library and Information Service, 2021, 65(14):101-108.

[40]刘兵,郑承利.基于EMD特征提取的高频面板数据自适应聚类方法[J].统计与决策,2022,38(10):16-20.

LIU B, ZHENG C L.Adaptive clustering method for high-frequency panel data based on EMD feature extraction[J].Statistics & Decision, 2022, 38(10):16-20.

User evaluation and sentiment analysis of running shoes based on text mining

LUO Xiangdonga b QIANG Weia b ZHANG Xiyingb WU Menga b

a.Shoe and Clothing Big Data and Standardization Research Center b.School of Design & ArtShaanxi University of Science and Technology, Xi' an 710021, China)

Abstract With the consumption pattern of online shopping becoming increasingly common the way for consumers to obtain product evaluation information has changed from word of mouth in the past to online reviews.More than 70% of consumers refer to e-commerce platform product evaluation information when shopping online and more than 90% of enterprises believe that reviews will play a decisive role in future consumer behavior.Unlike subjective survey data product online reviews are not subject to the subjective judgment of researchers during the survey process and can reflect the real user experience and emotional tendency.Therefore it is important to study the ways in which user evaluation big data drive product design research and development such as accelerating the shift in product design promoting marketing and improving user satisfaction.Current research on running shoes mainly focuses on product function development shoe last redesign and market demand classification.At present no scholars have explored the factors that consumers pay attention to when buying and using running shoes from the perspective of e-commerce big data.Understanding the consumption trend and consumer preference of running shoes is of great significance for industrial development and marketing strategy formulation.

To mine consumers' attention information in their buying running shoes online, firstly, Requests library and Pymysql library in Python 3.11 were used to collect the sales feature data of top 600 running shoes sold on Jingdong Mall and 100 000 user comments.Secondly text preprocessing of online review text was performed by using the precise mode in the Chinese word segmentation system of Jieba Database.Thirdly Origin 2021 was used to analyze the basic information of the sales characteristics of running shoes.Fourthly LDA model and Gibbs sampling were used to cluster review texts to explore the distribution of product feature words under different themes.Finally SnowNLP was used to score the text for emotion so as to obtain positive and negative labels and topic analysis was performed based on emotion labels to compare the difference in topic distribution of positive and negative comments.From the perspective of big data analysis this paper used LDA model to conduct text mining on 100 000 online reviews of running shoes conduct word frequency co-occurrence analysis topic clustering and sentiment analysis on product review data analyze the causes of problems from the dimensions of brand technology and after-sales service and put forward relevant suggestions.Domestic running shoes have a complete product layout from the entry market to the high-end market but due to the world brand effect technology accumulation and user reputation there is still a long way to go compared with the top brands in sales and focusing on the mid-to-high-end market.Most of the running shoes with top sales ranking participate in discount and coupon activities and the proportion of self-operated store sales and quality certification labels is higher than the overall level while self-operated and coupon labels have a significant role in promoting the purchase of running shoes.When consumers buy running shoes online they mainly pay attention to the appearance details functional attributes cost performance wearing feelings service concessions and so on.A small number of consumers have a poor attitude towards the wearing experience product quality and service promotion of running shoes.

In the future in-depth research can be carried out according to various characteristics of consumers.On the basis of collecting big data of user comments it is necessary to further mine user information such as age region and occupation so that the comment topic can be mapped to specific user groups which is helpful to meet the targeted research and development of specific consumer groups and the implementation of precision marketing.In addition to make the results more universally valuable it is necessary to continue to increase the amount of data in the future to make the model better understand the various topics domains and contexts so as to improve the reliability and validity of the results.

Key words running shoes text mining LDA model cluster analysis sentiment analysis

猜你喜欢

文本挖掘情感分析跑鞋
你为何买新鞋
为马而生的“跑鞋”
数据挖掘技术在电站设备故障分析中的应用
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
基于LDA模型的95598热点业务工单挖掘分析
在线评论情感属性的动态变化
从《远程教育》35年载文看远程教育研究趋势
两双跑鞋
慧眼识璞玉,妙手炼浑金