基于在线评论文本挖掘技术的电子烟市场消费热点分析
2019-12-28金吉琼郑赛晶
金吉琼,刘 鸿,郑赛晶
1. 上海牡丹香精香料有限公司技术中心,上海市浦东新区孙桥路1067 号 201210
2. 上海烟草集团有限责任公司技术中心,上海市杨浦区长阳路717 号 200082
3. 上海新型烟草制品研究院,上海市虹口区大连路789 号 200082
随着互联网技术的蓬勃发展,人类社会已进入信息传播率高速迭代的大数据时代[1],网络购物已逐渐成为人们生活消费的主导方式之一[2-3]。消费者在网购商品时,往往通过在线评论功能发表产品使用体验和产品价格等多维度产品感知类文本、图片及视频信息,累积的海量信息可为后续消费者购买决策提供有价值的参考意见。互联网产生的90%信息由非结构化数据构成,其中文本数据是非结构化数据的主要来源。近年来,通过文本挖掘技术将难以量化的大规模文本数据整合转换为结构化数据,并抽取有价值的情报信息已广泛应用于商业、医疗和金融等领域[4-9]。Liang等[5]使用机器学习的自然语言处理和深度学习技术从大规模电子健康记录(EHR)数据中提取临床相关信息,并形成基于AI 的诊断评估系统以提供临床决策支持。Preis 等[6]利用海量财经搜索文本内容和搜索频率建立股票市场波动性预警信号的判别模式。Jun 等[7-9]根据Google Trends 中提供的海量搜索信息研究分析客户对科技类产品的接受度和购买偏好,为企业推出迎合消费市场的新产品提供设计研发思路。但由于烟草行业经营模式和卷烟产品的特殊性,利用互联网大数据洞察消费者对于卷烟产品的潜在需求,分析卷烟市场消费趋势和消费行为的研究则鲜有报道。特别是电子烟制造企业大多以消费者调研或邀请行业内专家品鉴抽吸的方式,获取电子烟新产品的感官体验和消费需求信息,具有专业性强、信息反馈及时等特点,但也存在采集样本数量小、成本高、调研结果代表性差和主观性强等缺陷,而基于互联网海量数据挖掘电子烟市场消费趋势可有效弥补传统方式的不足。
电子烟(Electronic cigarette,E-cig)作为一种新型烟草制品,因显著降低有害物质释放、产品设计时尚以及口味选择多样等特点,已快速成为全球卷烟市场中替代传统卷烟的主流产品之一[10-12]。统计显示,2018 年全球电子烟市场产值达160 亿美元,相比2010 年增长近20 倍。近年来,天猫、京东等大型电商平台上都累积了大量消费者对电子烟产品的使用评论,知乎、微博等社交网络中也蕴含着大量消费群体抽吸体验各类产品的话题内容。为此,通过爬虫软件采集京东电商平台、新浪微博和知乎社交网络中消费者对电子烟产品的评论文本数据,利用文本挖掘技术探索消费者对电子烟产品特性的关注热度和评论热点内容,并识别消费者评论中潜在的隐含主题,以期剖析国内电子烟产品市场热点和消费者购买电子烟产品的消费行为,捕捉消费者对电子烟产品的潜在购买需求,为烟草企业研发设计和优化电子烟产品提供参考依据。
1 研究方法
1.1 数据样本获取
选取国内销量较高、口碑较好的6 个电子烟品牌(A~F)共14 种电子烟产品为研究对象。根据电池功率、电池容量、气溶胶雾化量和产品结构不同,电子烟产品可划分为小烟和大烟两种类型,烟液添加以更换预配烟弹和手动注液两种方式为主。本研究中考察的14种电子烟的产品特性基本涵盖了目前市售电子烟的主要产品类型和烟弹类型。
使用爬虫软件采集2018 年1 月至2019 年3 月期间,京东电商网站、新浪微博和知乎社交平台中关于上述产品的在线评论和话题内容为文本数据样本。表1 为爬取的各品牌电子烟产品信息和经去重处理后的各种产品有效评论数量,适用于后续文本挖掘的产品在线评论数量共13 981 条。
表1 新型烟草产品信息及网络评论数量Tab.1 Information and online comment amount of new tobacco products
1.2 文本数据预处理
未经处理的文本中通常包含大量重复性评论、无语义评论,例如数字、字母和网络语义的特殊字符,以及“该用户未填写评论”或“默认好评”等类似网站自动生成的评论文本以及字符长度小于2 的极短评论,这类评论内容传递的信息量少,且增加文本分析的复杂度,容易造成高稀疏性文本模型,在预处理过程中需将其清洗过滤去除。
初步预处理的评论文本根据《哈工大停用词词库》和自建烟草类专有名词词典,使用jiebaR 分词工具去除评论文本中停用词、识别烟草类专有词项,并逐条分词解析评论文本,形成由多个词项构成的字符串集合。分词处理后的部分评论见表2。
表2 评论文本的分词处理结果Tab.2 Results of comment texts segmented by words
1.3 文本数据特征抽取
在线评论是由自然语言构成的文档数据集合,每个文档由若干词项以一定语义逻辑组合而成。根据词项在文中出现的频率及其表达的特定主题,采用向量空间模型(Vector Space Model,VSM)对海量文本建立文本特征模型,使文本转化为可量化表征的结构化数据进行特征挖掘。
VSM 基本原理是评论文档Di能够表示为Di=D(t1,wi1;t2,wi2;...;tm,wim)的文档集合,其中(t1,t2,...,tm)为一个m 维互异词项集合,(wi1,wi2,...,wim)为对应m 维词项在文档中的权重,即在文档Di中的重要程度,wij一般定义为在文档Di(i=1,2,3,…,n)中词项tj(j=1,2,3,…,m)出现频率(Term Frequency, TF)的函数tf(dij),本文中构建的文本特征模型见表3。
表3 文本向量空间模型Tab.3 Text vector space model
VSM 以词项在文档中权重系数wij构建的m×n维文档-词项矩阵(Document Term Matrix,DTM)集合了评论文本中的所有词项,导致DTM 通常具有高稀疏性和数据冗余性。因此,需采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法对DTM 提取文本特征。
TF-IDF 是Salton 等[13]提出的单词权重统计方法。其中,TF 为词频,指某一给定词项在该文件中出现的次数;IDF 为逆文档频率,指含有该词项的文档数在总文档中所占比例取逆后的对数值,表征该词项区分文档的能力。当词项在一篇文档中出现频率越高,同时在其他文档中出现次数越少,表明该词项对该篇文档的区分能力越强,其权重TF-IDF 值则越大。TF-IDF 计算公式为:
式中:tfi为词项i 在文档中出现频率;dfi为出现词项i 的文档数;N 为总文档数。
1.4 文档主题模型
文档主题模型(Topic Model)是挖掘大规模文档集或语料库中隐藏的潜在主题的一种无监督机器学习统计模型,在电商推荐系统、社交网络话题识别和新闻信息主题聚类等自然语言处理领域中应用广泛[14]。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型是近年来主流的概率主题模型[15],其原理是基于词袋模型,认为文档d与文档中词语W 之间存在中间层主题Z,且文档是主题的概率分布,主题又是词的概率分布,由此可将高维度的文档-词项向量空间模型映射为低维度的文档-主题和主题-词项空间,进而挖掘文档中潜在蕴含的若干主题。文档的层级关系见图1。
图1 主题模型的文档结构Fig.1 Document structure of topic model
文档的矩阵转换关系见图2。其中,矩阵C 表示文档中的词语概率分布,矩阵Φ表示主题下的词语概率分布,矩阵θ表示文档下的主题概率分布,而分析主题模型的目的在于通过解析文档C得到矩阵Φ和矩阵θ。
图2 主题模型的矩阵转换关系Fig.2 Matrix transformation of topic models
综上所述,本文中基于电子烟在线评论对国内电子烟市场热点的研究主要分为评论文本爬取、文本预处理、文本特征抽取和特征挖掘建模4个步骤,具体分析流程框架见图3。所有文本处理和挖掘分析均以R 代码实现。
图3 消费者评论文本挖掘分析流程Fig.3 Flowchart of text mining and analysis of consumers’comments
2 结果与讨论
2.1 电子烟产品特性热度分析
电子烟主要由电池杆、雾化芯和烟弹3 个部件组成。电池杆中电池性能和功率大小决定了电子烟抽吸口数和气溶胶雾化量水平,雾化芯对电子烟气溶胶雾化效率具有重要影响,消费者通过抽吸电子烟烟弹中烟液获得感官愉悦性。电子烟的3 个部件相互作用构成产品特性,直接或间接地影响着消费者的抽吸体验。但消费者对不同产品特性的关注程度并非完全一致,即每类产品特性对消费者购买决策的贡献度等级存在差异。因此,基于产品特性的热度分析可有效挖掘消费者购买电子烟产品时的关注热点,为产品设计和研发优化提供思路。
本研究文中对6 个品牌共14 种电子烟产品的所有评论文本进行分词解析并标注词性,提取出与电子烟产品特性相关的名词词项,结果见表4。可见,消费者评论文本中共涉及8 类产品特性相关词项,分别为烟液、烟弹、雾化芯、电池、外观设计、口感、价格和整体质量。
表4 电子烟产品特性相关词项Tab.4 Features and related terms of e-cigs
产品特性在评论文本中的出现频率能集中反映消费者对该类特性的关注程度,两者间呈显著正相关关系,即产品特性的相关词项出现频率越高,表明消费者在购买电子烟时越注重该类产品特性的性能表现,也是决定消费者是否购买产品的首要参考因素。基于6 个品牌电子烟产品评论数据绘制的产品特性热力图见图4,图中产品特性-品牌对应区块颜色深浅用于表征产品特性在评论中出现的频率百分比高低,当产品特性的关注度越高,则该特性热度越高,颜色显著加深。
图4 各品牌产品特性关注度热力图Fig.4 Heatmap of concerned features for all brands
由图4 可知,消费者对A~F 这6 个品牌电子烟产品特性的关注规律基本一致,8 个产品特性关注度由高至低依次为:抽吸口感>整体质量>烟液>外观设计>烟弹>雾化芯>价格>电池性能。由此表明,电子烟抽吸口感、整体质量和烟液是消费者反馈热度最高的3 类产品特性,是影响消费者购买决策的主要因素,而对于电子烟产品价格和电池性能,消费者的敏感度则相对较弱。
2.2 消费者评论关键词分析
消费者评论关键词导向与产品品牌和产品类型两个维度密切相关。基于产品品牌的消费者评论关键词分析,能够清晰地了解消费者对不同品牌产品的关注点,有利于捕捉消费者对电子烟主要产品特性的共性需求;基于电子烟产品类型分析,例如以电池功率大小和烟液添加方式分类的消费者评论关键词等,可以深入挖掘消费者对不同类型产品的差异性需求。
本文中基于产品品牌和产品类型两个视角维度分析消费者评论的关键词项。通过TF-IDF 算法提取出大规模评论文本中关键词,并以词云可视化方式展现评论中TF-IDF 值最高的前50 项特征关键词,A~F 品牌电子烟产品的消费者评论文本词云图由R 语言wordcloud2 包绘制,见图5。可见,消费者评论中“感觉”“口味”“口感”和“味道”等表示抽吸口感的关键词词项权重较高。其中,“舒服”“真烟”“薄荷”“绿豆”“水果”和“蓝莓”等关键词,表明电子烟抽吸口感的舒适性以及与传统卷烟口味的相似程度是消费者对抽吸口感的主要评价内容。在众多电子烟烟液选择中,消费者对烟草本香、薄荷和水果香型的烟液具有明显购买偏好。特征词“质量”出现在6 个品牌电子烟词云图中,说明消费者对电子烟产品整体质量的关注度也较高,其主要基于电子烟在抽吸过程中各零部件运行的稳定性和安全性,以及产品外观、包装、设计和价格等方面的综合评价。与产品特性热度分析结果一致,“烟弹”和“烟液”是两项较受关注的产品特性,与之相关的特征词如“漏油”和“烟雾”表明烟弹抽吸时产生的烟雾量大小,以及电子烟是否存在烟液漏油和炸油等安全隐患是消费者的关注重点,可能对购买决策产生影响。此外,各品牌电子烟产品评论中,反映消费者情感倾向的特征词也具有较高TF-IDF 值,例如“喜欢”“满意”“好评”和“很好”等正面情感特征词,其数量及权重显著高于负面情感词项,表明消费者对电子烟产品的接受度较高,体验感受总体呈正面性。
图5 不同电子烟品牌消费者评论词云图Fig.5 Wordcloud graphs of consumers’comments on e-cigs of different brands
市场中主流电子烟产品根据电池功率大小可分为小烟型和大烟型产品,小烟型产品电池功率一般低于30 W,多以更换预配烟弹方式添加烟液或为一次性烟支,而大烟型产品电池功率范围为30~220 W,多以手动注油方式添加烟液。根据大小烟型将A~F 品牌电子烟产品分类,进一步挖掘消费者对不同类型电子烟产品的关注热点,词云图见图6。可见,两类产品评论中TF-IDF 值较高的词项基本一致,以产品口味、消费者情感倾向和产品质量词项为主。但大烟型产品评论中表征电子烟雾化效果的词项,例如“烟雾量”“烟雾大”“烟量”“功率”和“很大”等关键词的出现频率和词项权重显著高于小烟型产品,表明大烟型产品消费群体对产品储油量、电池容量以及雾化芯功率等配件参数较为关注。而小烟型产品评论中,“口感”“口味”和“味道”等关键词出现密度较高,表明小烟型产品消费者更强调抽吸口感的满意度。此外,烟液“漏油”在两类产品评论中均有提及,但基于评论内容的统计结果,大烟型产品出现漏油现象的概率高于小烟型产品,表明大烟型产品的安全性和体验舒适性可能低于小烟型产品。
图6 不同类型产品消费者评论词云图Fig.6 Wordcloud graphs of consumers’comments on e-cigs of different sizes
2.3 电子烟产品评论主题识别
基于信息论的观点,消费者购买决策的形成是一个多层次的信息处理过程[16]。产品特征的关注热点是基于产品层面的单一维度信息,而获得消费者购买产品过程中与消费行为相关的多维度信息,例如潜在消费需求、消费心理、消费偏好以及影响产品满意度因素等,对刻画电子烟产品消费者用户画像具有实际意义。在海量评论文本中,消费者表达的语义内容通常复杂多样,每条评论中呈现的主题内容也并非十分明确,通过人为浏览逐条评论难以实现大规模数据的集成处理。为此,通过文本挖掘技术采用LDA 主题建模提炼海量文本中潜在的主题内容,可有效剖析消费者购买电子烟产品的消费行为信息。基于14 种电子烟产品的评论文本数据建立LDA 主题模型,当最大似然系数值确定主题数k 为6 时,解析产生词项-主题矩阵φ中前10 个词项分布及对应概率,结果见图7。
图7 6 类主题中前10 个词项及概率分布Fig.7 Probability distribution plot of top 10 terms in each topic
由图7 可知,消费者评论文本的6 个分类主题中,主题1 中概率分布前3 的特征词项为“物流”“京东”和“很快”,表明该主题以消费者对电商物流和服务评价为主;主题2 中出现“口味”“味道”和“感觉”等主题特征词与电子烟烟弹口味相关,且“薄荷”“水果”和“烟草”3 种口味的概率分布显著高于其他口味,说明消费者对这3 种口味烟液具有一定购买偏好;主题3 和主题4 均出现与消费者情绪相关的特征词项,主题3 中“漏油”“充电”“客服”和“不好”等词项与消费者负面情绪相关,说明电子烟烟液漏油、电池充电及耗电异常是电子烟生产中亟待解决的问题,直接影响消费者对产品满意度评价;主题4 中“满意”“不错”和“精致”等词项体现了消费者正面积极情绪,表明大部分消费者对电子烟的“口感”“包装”“烟雾量”和“做工”等方面感到满意;主题5 中“戒烟”“真烟”“抽烟”和“戒掉”等词项概率分布较高,揭示了消费者购买电子烟更强调抽吸口感以及感官满足度是否与传统卷烟一致,且多以寻求替代传统卷烟达到戒烟效果为目的的潜在消费需求;主题6 中获取的特征词体现了电子烟产品的主要消费人群,除传统卷烟吸烟人群外,可能有部分女性或吸烟者家人基于戒烟或健康因素为家人购买电子烟,且多数消费者会以朋友或产品口碑推荐选择购买电子烟产品。
LDA 主题模型中不同主题特征词项与消费行为关联网络图及各类主题在评论文本中所占比例,见图8 和图9。可见,LDA 主题建模分类识别的6 个主题分别涵盖了消费者对电子烟产品的购买偏好(主题2)、消费者潜在消费需求(主题4)、电子烟产品主要消费群体(主题6)和影响电子烟产品满意度主要因素(主题1、主题3 和主题5)的相关信息。在所有评论文本中,近50%的评论内容与产品满意度有关,其他3 类消费行为相关评论数量比例基本一致,为15.15%~16.67%。
图8 LDA 主题模型中消费行为剖析网络图Fig.8 Network graph of consumers’behaviors profiled from LDA topic models
图9 各类主题在评论文本中的比例Fig.9 Proportion of each topic in comment texts
3 结论
基于电商平台和社交网络中采集的6 个品牌共14 种电子烟产品消费者在线评论文本数据,采用文本挖掘技术研究消费者对电子烟不同产品特性的关注热度以及主要产品特性的重点关注内容,并使用LDA 主题模型挖掘潜在评论主题以剖析消费者的消费行为。结果表明:①消费者对8类产品特性的关注热度依次为:抽吸口感>整体质量>烟液>外观设计>烟弹>雾化芯>价格>电池性能,电子烟抽吸口感、整体质量和烟液是消费者反馈热度最高的3 项产品特性。②消费者评论关键词挖掘结果表明,以产品品牌维度分析,电子烟口感舒适性、与传统卷烟口味相似性、产品使用稳定性和安全性、电子烟烟液漏油及雾化芯雾化量是消费者对关键产品特性的普遍评论内容;以产品类型维度分析,大烟型产品消费者的关注重点是产品雾化性能,例如储油量、电池功率及电容量等参数,而小烟型产品消费者更强调电子烟抽吸口感的优劣,表明不同类型电子烟产品的消费群体关注点具有一定差异。③LDA 主题模型能够有效识别消费者评论中6 类潜在主题,揭示了消费者对电子烟产品口味的购买偏好(烟草、薄荷和水果香型)、潜在购买需求(以戒烟为目的)、电子烟产品消费群体(部分女性消费者、传统卷烟消费者及其家人)和影响产品满意度因素(电商服务、烟液漏油、电池质量、外观设计等)的多维度消费行为信息。