基于LDA的电商平台用户评论挖掘与情感分析研究
2024-06-29杜利明郭文艳崔蕾王凤英
杜利明 郭文艳 崔蕾 王凤英
摘要:用户评论文本挖掘与分析在多个领域具有重要实际应用价值。文章选取京东商城用户评论数据集作为研究对象,运用多种方法对其进行深入的数据挖掘与分析。首先,通过TF-IDF提取关键词揭示评论的核心主题,进而通过分析高频词了解用户对京东商城服务的关注点和整体评价。其次,采用情感分析技术对评论文本进行情感倾向性分类,旨在判断评论的情绪色彩,为京东商城的产品改进和市场定位提供有益参考。最后,借助LDA主题模型对评论文本进行主题剖析,挖掘出评论中的隐性主题和话题分布,进一步揭示用户对产品或服务的不同观点和需求,从而为京东商城提供针对性的改进策略和意见。
关键词:LDA;用户评论;文本挖掘;情感分析
中图分类号: F724.6;F426.8 文献标志码: A
0 引言
中国互联网络信息中心第53次《中国互联网络发展状况统计报告》显示,截至2023年12月,我国网民规模已达到10.92亿,互联网普及率达77.5%[1]。互联网时代下,随着在线购物的普及,产品和服务的评论成了网民做出购买决策的重要参考依据。海量用户评论中蕴含着消费者对产品的观点、意见和情感态度,对这些评论进行深入挖掘和情感分析,对于企业改进产品质量、提升用户满意度和制定精确的市场策略至关重要。但用户评论通常以非结构化的文本形式存在且数量极为庞大,为进一步从评论中提炼有价值的信息,本文借助LDA主题模型,探究人们在利电商平台进行网购时的情感倾向及关注点,帮助电商平台商家准确快速把握消费者的情感与需求,及时制定更优销售方案,改善服务,缓解平台竞争压力。
1 相关研究
1.1 在线评论特征词抽取研究
在线评论挖掘旨在从大量网络评论数据中自动识别能够表征评论主要内容的关键词或短语,目前多应用于电子商务、社交媒体分析、旅游与酒店业等多个领域的多个层面。谷莹等[2]利用Word2vec技术构建产品特征词集合,识别用户评论主题特征,提出一种基于在线产品评论的竞争情报挖掘框架。彭云等[3]利用句法分析和词义理解获取语义关系,提出SRC-LDA主题模型,挖掘特征词与情感词语义相关性,实现语义约束下的细粒度主题特征抽取。Quan等[4]在产品特征提取研究中,创新性地将互信息概念引入TF-IDF(Term Frequency-Inverse Document Frequency)权重算法中,提出了新型相似性度量标准,用于评价候选对象与特定领域实体间的关联强度,开发出了一种无须人工干预的自动特征抽取技术。黄昌莉等[5]利用LDA主题模型和扎根理论相分析了旅游城市形象感知的构成要素及其相互影响的作用过程。
1.2 情感分析研究
Kim等[6]在对获取的评论数据进行回归分析的基础上,运用情感分析研究影响消费者对酒店满意程度的因素。Rudy等[7]将规则的分类、监督学习和机器学习结合在一起提出解决情感分类问题的方法,并采用实证研究进行结果测试。高佳希等[8]提出了基于TF-IDF和多头注意力Transformer模型的文本情感分析模型,旨在提高模型对语义的分析和泛化能力。赵宏等[9]提出了基于特征融合的中文文本情感分析方法,旨在将全局特征和局部语义特征进行融合,并使用Softmax实现文本情感分类。
传统实证研究方法受多种因素的影响,导致其分析结果可能存在偏差。为深入剖析消费者在网购中的关注点及影响其评价行为的具体因素,本文以京东电商平台为例,抓取部分用户评论数据分析消费者网购时的需求,探究哪些客观因素会对消费者的评价行为与意愿造成影响,进而帮助电商平台进行产品改进和市场定位。
2 数据获取与预处理
2.1 数据来源
京东商城App的用户在线评论数据从七麦数据平台获取,抓取的评论时间从2023年1月1日—12月31日。共计获取数据4121条,经数据处理清洗后得到有效数据3596条。
2.2 数据预处理
由于网络平台是开放的,京东商城的相关评论不会受到时间、地点、人员等的限制,收集的网络评论数据可能包含重复、与主题不相关的信息以及空白等无效评论,可能会对实验结果产生较大影响。因此,在分析数据之前,需要预先处理数据集,对文本进行去重、剔除不完整数据、删除特殊符号和表情、排除低质量的数据,以提高实验结果的准确性[10]。
3 基于TF-IDF评论文本关键词提取
TF-IDF是用于评估某个词(Term)在文档集合中重要程度的统计方法。如果一个词在整个文档集合中出现的次数较多,意味着它在描述文档特点上没有那么重要,IDF值也就较低,相反IDF值则较高[11]。本文在对文本进行分词与去停用词的基础上,通过计算每个词的TF-IDF值,对京东商城上用户在线评论分词进行统计和排序,识别出TOP20高频词及其权重,部分内容如表1所示。
由表2中的高频词可以看出,“客服”“商品”“商家”“物流”“服务”是用户比较关注的问题和评论焦点,反映出京东商城App的用户在购物过程中,特别关注快递的配送速度、商品的整体质量以及商家的服务态度等。
4 在线评论情感倾向分析
为监测用户网络评论的情感,本文将情感词典与文本中的单词匹配,计算对比单词的情感倾向[12]。利用R软件读入台湾大学简体中文情感词典(NTUSD)对上述预处理的评论数据进行情感词典匹配分析,确定用户评论文本的情感倾向,计算具体的情感值及情感方向,并对评论情感倾向进行统计分析。
4.1 情感分析结果
基于上述工作,将调用扩展后的词典对评论数据进行情感值计算,部分评论内容计算结果如表2所示。
从表3评论情感倾向统计结果来看,负向与偏负向评论占比达66.54%,而正向与偏正向评论仅占33.46%,负面评价占比较高。其主要原因在于消费者缺乏评价动机,当购买到的产品未达到预期时,消费者倾向于通过差评表达不满和警示其他潜在买家。相反,当消费者对购买的产品感到满意时,他们可能不会对此做出评价。但既然存在差评,平台就应该对此引起高度重视,应积极采取措施,从差评中总结经验,改进服务流程,提升消费者体验。同时,鼓励消费者做出正面评价,平衡评价体系,使评价系统更公正客观,促进平台内商家和消费者的良性互动。
4.2 基于LDA模型的主题挖掘分析
4.2.1 LDA分析量化结果
为避免正面评价和负面评价混淆,且在分词粒度的影响下会存在一个主题下产生一些无意义的词[13],本文将京东电商评论分为正面评价和负面评价2个文本,分别进行LDA主题分析。经过分析后,将文本聚类成3个主题,每个主题下生成10个最有可能出现的词语,如表4—5所示。
4.2.2 LDA结果分析
表4主题词中出现了“电器”“喜欢”“质量”“支持”等词,揭示了消费者对京东商城的高度评价与产品的质量及配送服务紧密相关。消费者普遍认同京东商城在电器类产品的质量上表现出色,认为其是高品质电器的可靠来源,因此将其作为购买首选地。此外,消费者也比较认同京东商城的产品质量优和物流服务好,同时反映出京东商城在消费者心中具有良好的品牌形象和信任度,这是其持续获得消费者支持和市场成功的关键因素。表5展示了负面评价文本3个潜在主题的主要关键词,表5主题词中有“横屏”“适配”“退款”“杀熟”等词,侧面表明软件与iPad的兼容性存在问题,适配度较低;软件页面加载时可能出现卡顿,甚至出现闪退的情况。在售后服务方面,消费者在与客服的互动中存在障碍,问题解决不够顺畅;商家的退款和退货处理也显得不够及时,服务响应不周全。
5 结论与建议
综上所述,用户评价的情感倾向与电商平台商品质量及其售后服务有密切的联系。电商平台如果能通过评论准确捕捉到用户对其平台的看法与希望,就能进一步有效提升用户的满意程度,降低其负面情绪,从而增加客户黏性。本文基于评论文本得到的结果,提出以下几点建议。
(1)加强商品质量管理和控制。设立多重审查机制,对准备上架的商品进行详尽的资质审核,包括检测报告、品牌授权、工厂生产资质等,确保每一件商品都符合国家相关法规和京东自身的质量标准;引入智能化审核系统,通过大数据分析和机器学习算法,提高审核效率和精准度,力图在商品上架前就能识别并过滤潜在的质量问题;建设售后服务体系;推出具有辨识度的“品质保证”标识,为那些通过严格审核、用户评价优秀的商品提供认证。
(2)建立完善的售后服务机制与团队。京东电商平台主要依赖智能客服系统处理客户咨询,但在某些情况下,这种系统可能无法完全满足客户的需求,可能会给消费者造成不便。因此,京东还需要打造一支专业的售后服务团队,确保能够及时、有效地响应客户的问题。特别是对于那些具有参考性的客户反馈,应通过人工客服进行快速回复和处理,以展现平台对客户意见的重视,从而提升客户对平台的信任和满意度,提升客户对京东平台的忠诚度。
(3)加强与用户的沟通和互动,提升用户满意度和忠诚度。优化用户反馈机制,鼓励消费者提出意见和建议,并对消费者的每一条反馈给予重视和回应,定期分析用户反馈,从中提取关键信息,作为改进产品和服务的重要依据;策划互动活动,定期举办促销活动、用户调研、线上问答等形式多样的互动活动,提高用户的参与度和平台的活跃度。此外,通过个性化推荐、专属优惠等措施,使用户感受到平台的关怀和重视,增强用户对品牌的情感联系。
参考文献
[1]中国互联网络信息中心.第45次中国互联网络发展状况统计报告[EB/OL].(2020-04-28)[2024-03-20].https://www.cnnic.net.cn/NMediaFile/2024/0325/MAIN1711355296414FIQ9XKZV63.pdf.
[2]谷莹,李贺,李叶叶,等.基于在线评论的企业竞争情报需求挖掘研究[J].现代情报,2021(1):24-31.
[3]彭云,万常选,江腾蛟,等.一种词聚类LDA的商品特征提取算法[J].小型微型计算机系统,2015(7):1458-1463.
[4]QUAN C Q, REN F J. Unsupervised product feature extraction for feature-oriented opinion determination[J]. Information Sciences, 2014(272): 16-28.
[5]黄昌莉,黄燕玲,于海涛,等.基于LDA和扎根理论的桂林旅游地感知形象研究[J].地域研究与开发,2022(5):91-97.
[6]KIM Y J, KIM H S. The impact of hotel customer experience on customer satisfaction through online reviews[J]. Sustainability, 2022(2): 848.
[7]RUDY P, MIKE T. Sentiment analysis: a combined approach[J]. Journal of Informetrics, 2009(2): 143-157.
[8]高佳希,黄海燕.基于TF-IDF和多头注意力Transformer模型的文本情感分析[J].华东理工大学学报(自然科学版),2024(1):129-136.
[9]赵宏,傅兆阳,王乐.基于特征融合的中文文本情感分析方法[J].兰州理工大学学报,2022(3):94-102.
[10]刘佳锴,李敏.基于文本挖掘的蚕丝被在线评论分析:以京东商城为例[J].丝绸,2023(8):11-20.
[11]MUHAMMAD A A, MUHAMMAD F M, UROOJ A. Comparative analysis of TF-IDF and loglikelihood method for keywords extraction of twitter data[J]. Mehran University Research Journal of Engineering Technology, 2023(1): 88-94.
[12]冯建英,吴丹丹,王博,等.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021(S1):504-512.
[13]GRASER S, NIELSEN L H, BHM S. Factors influencing the user experience of mobile augmented reality apps: an analysis of user feedback based on app store user reviews[M]//GODULLA A, BHM S. Digital Disruption and Media Transformation. Cham: Springer, 2023.
(编辑 李春燕编辑)
Research on user review mining and sentiment analysis of E-commerce platform based on LDA: taking Jingdong Mall App as an example
DU Liming1,2, GUO Wenyan2, CUI Lei2, WANG Fengying1,2*
(1.School of Information Engineering, Suqian University, Suqian 223800, China; 2.School of Computer
Science and Engineering, Shenyang Jianzhu University, Shenyang 110000, China)
Abstract: User comment text mining and analysis have important practical application value in multiple fields. The article selects the user comment dataset of Jingdong Mall as the research object, and uses various methods to conduct in-depth data mining and analysis on it. Firstly, extract keywords through TF-IDF to reveal the core theme of the comment, and then analyze high-frequency words to understand the users focus and overall evaluation of Jingdong Malls services. Secondly, sentiment analysis technology is used to classify the emotional tendencies of comment texts, aiming to determine the emotional color of comments and provide useful references for product improvement and market positioning of Jingdong Mall. Finally, using the LDA topic model to analyze the theme of the comment text, the implicit themes and topic distribution in the comment are excavated, further revealing the different views and needs of users on the product or service, and providing targeted improvement strategies and opinions for Jingdong Mall.
Key words: LDA; user comment; text mining; sentiment analysis
基金项目:宿迁学院京东学院开放基金项目;项目名称:基于京东用户评论挖掘的市场情报分析模型研究;项目编号:2022JDXM13。
作者简介:杜利明(1976— ),男,副教授,博士;研究方向:图书情报分析与应用,机器学习。
*通信作者:王凤英(1976— ),女,副教授,硕士;研究方向:图书情报分析与应用,机器学习。