基于文本挖掘的在线用户追加评论内容情报研究
2020-09-06张艳丰王羽西彭丽徽刘亚丽
张艳丰 王羽西 彭丽徽 刘亚丽
摘 要:[目的/意义]通过对在线用户追加评论文本内容进行挖掘,有助于电商企业掌握在线用户发布后续评论的普遍时间规律,可以根据追加评论内容特征属性来指导厂家进行商品改进以及辅助用户的购买决策行为。[方法/过程]从内容维度,通过语义特征分析、情感特征分析、词频共现分析和时间特征分析对在线用户追加评论文本分别进行文本内容挖掘。[结果/结论]阐述了在线用户追加评论的内容情报特征及其与初始评论文本语义的关联与差异,揭示了在线用户追加评论行为时间滞后符合幂率分布特征。
关键词:在线用户评论;追加评论;内容情报;文本挖掘;数据挖掘;电子商务;京东商城
DOI:10.3969/j.issn.1008-0821.2020.09.011
〔中图分类号〕G250.2 〔文献标识码〕A 〔文章编号〕1008-0821(2020)09-0096-10
Research on Information of Online Users Additional
Comments Based on Text Mining
——Take the Mobile Phone Review Data of Jingdong Mall as an Example
Zhang Yanfeng Wang Yuxi Peng Lihui Liu Yali
(School of Public Management,Xiangtan University,Xiangtan 411105,China)
Abstract:[Purpose/Significance]Mining the content of online users additional comments will help e-commerce enterprises to grasp the general rule of time for online users to publish follow-up comments,and can guide manufacturers to improve their products and assist users to make purchasing decisions according to the characteristics of additional comments.[Method/Process]From the content dimension,text content mining of online users additional comment texts was carried out through semantic feature analysis,emotional feature analysis,word frequency co-occurrence analysis and time feature analysis.[Result/Conclusion]This paper expounded the content information characteristics of online users supplementary comments and their relationship and difference with the semantics of the original comments,and revealed that the time lag of online users supplementary comments conforms to the power distribution characteristics.
Key words:online users comments;follow-up reviews;content intelligence;text mining;data mining;e-commerce;Jingdong Mall
在線用户评论是企业网络口碑传播中消费者购买体验的真实反馈,对消费者和企业都有重要的潜在情报价值。从评论的时间维度,在线用户评论可以分为初次评论和追加评论,追加评论又称为后续评论(Follow-up Reviews)或简称为追评,是用户在对初次评论完成的一定时间期限内再次发表的评论内容,是消费者具有更长时间使用经历感知积淀后再次做出的追加评论行为。追加评论能够优化在线用户评论的信息结构,助力潜在消费用户识别更有价值的评论信息,以做出正确的购买决策选择。与初次评论相比,追加评论更能够真实反映产品的特征和属性,评论内容的有用性更强,对消费者购买意向的影响更为显著[1]。从内容情报分析角度,对在线用户追加评论内容进行文本挖掘,分析追加评论与初始评论在文本内容上的差异特征,有助于企业和消费者进行精确的“产品画像”分析,发现用户重点关注的产品特征及其对应的情感属性,有利于调整企业发展规划,配置合理的产业资源,对电商企业具有重大的商业情报价值。
1 相关研究述评
1.1 在线用户追加评论的影响研究
在线用户追加评论对消费者的影响逐渐成为学者们研究的热点内容,现有研究主要集中在以下3个方面:1)在线用户追加评论对消费者的一般性影响研究。主要从信息本身[2]、产品类型[3]、网络口碑[4]、用户特征[5]、发布动机[6]等方面探讨在线用户追加评论对消费者的影响作用。2)在线用户追加评论的独特性影响研究。追加评论作为在线评论的一种独特表现形式,诸多学者开始从微观层面探讨有无追加评论的结构分析[1]与内容挖掘[7]等方面开展追加评论对消费者独特的影响研究。3)追加评论与初始评论对消费者影响的差异性研究。相关研究将追加评论与初始评论的内容和特征等要素对消费者的影响进行对比分析与知识发现[8]。相关研究主要基于传播学理论,采用理论推演或实证分析方法阐述在线用户追加评论对消费者的影响,揭示在线用户追加评论影响的客观特征属性。
1.2 在线用户追加评论的特征研究
目前在线用户追加评论的特征研究主要从“初评—追评”的时间特征和内容特征两个维度进行阐述。Jin L等[9]发现近期评论对用户的及时购买决策更具影响力,而长期评论对用户的远期购买决策影响更大,证明消费者偏好受在线用户评论时间特征的影响。张艳丰等[10]分析了在线用户初始评论与追加评论时间序列滞后的幂率分布特征,并对时间间隔区间的评论内容进行文本挖掘,阐明了在线用户追评行为时间序列关联特征和用户行为特征。李琪等[11]探讨了初评与追评的情感矛盾性对消费者的影响,发现与一致性评论相比,矛盾性评论的影响更为强烈。胡常春等[12]通过实证分析证明追评的有用性感知受时间间隔和产品类型的调节作用影响。李良强[13]提出了一种基于词向量表示的在线用户评论内容挖掘方法和一个半监督的“评论—特征”映射方法,解決了从海量稀疏短文本挖掘中的精度差和语义可理解性差的问题。
1.3 在线用户追加评论的价值研究
在线用户追加评论一般包含更全面的产品信息和更丰富的使用经验,具有深化和加强“消除不确定性”的功能,对在线商家和消费用户具有重大的潜在价值。Godes D等[14]的研究结果表明大多评论阅读者认为与初始评论相比,追加评论更能反映消费者的真实体验,并且产品信息更为丰富,具有更高的感知价值。孙锐等[15]将追加评论与初始评论的有用价值感知进行比较,通过实证研究方法,进一步证实追加评论的用户感知价值显著高于初始评论。Demangelis M等[16]对追加评论价值感知的前因进行了探讨,证明自我提升动机是影响追加评论价值贡献与传播的重要动力。邓卫华等[17]将在线用户追加评论价值从3个维度进行分析,研究结果表明大部分用户对有助于消费决策的采纳价值评价较高,但对信息分享价值和信息筛选价值认可度不高。
综上所述,前人针对在线用户追加评论情报分析研究为本研究提供了良好基础,但并不完善。在线用户追加评论相关研究较多的从影响、特征和价值角度进行比较分析,但在线用户追加评论文本中存在诸多的隐性内容情报关联,现有研究对这方面的关注不多,实证研究中关于文本内容隐性情报分析更为少见。基于此,本研究从在线用户追加评论内容情报角度进行文本挖掘,分析追加评论文本关联特征,对电子商务运营商收集竞争情报数据、探索潜在用户评论偏好以及发现用户评论行为规律具有重要的实践意义。
2 研究设计
2.1 数据来源
本文研究数据以京东商城(www.JD.com)电子商务平台的手机评论作为研究样本的数据源进行内容情报分析。在平台选择上,京东商城是我国第二大综合网络零售平台,市场占有率和用户影响力较高,并且随着京东物流的全国推广,已经形成一套完善的企业生态体系;在样本选择上,手机是目前用户信息行为最为广泛的应用对象,用户的移动网络信息行为已在人们的日常生活中不可或缺,手机用户需求基数大、普适性高,研究意义重大。基于此,本研究以京东商城电子商务平台的手机评论作为数据来源进行实证分析,为在线用户追加评论内容情报分析提供研究思路与研究方法,有助于拓展用户信息行为分析的理论研究价值,同时也对电商企业的竞争情报战略分析具有切实可行的实践和应用价值。
2.2 数据采集与数据处理
本研究通过Python语言编程爬取京东商城华为荣耀8X手机评论数据作为数据源,将带有追加评论内容的初始评论和对应的追加评论文本进行数据采集,字段包括用户名、初次评论时间、追加评论时间、初次评论内容、追加评论内容等数据。数据处理阶段包括数据清洗和数据规范处理以及数据存储3个阶段。首先,为提高后续研究的准确性,过滤重复评论和评论内无意义的字符,删除明显广告评论以及形如“无”“……”等不能反映实际语义信息的评论文本。然后针对过滤后的评论进行数据规范化处理,例如规范日期格式形如2018/10/25,将数据表进行拆分和合并等工作。最后提取2 068对“初评—追评”在线用户评论作为研究分析的数据样本进行存储。
2.3 数据分析过程
本研究数据分析过程主要分为语义分析、情感分析、词频共现分析和时间滞后分析4个阶段。1)语义分析上,通过对文本高频词汇统计和词云分析,发现追加评论中用户较为关注的商品特征以及用户情感反馈,并分析两者间的潜在关联,进一步从初评与追评的商品特征、情感特征和服务特征进行相关性和差异性分析。2)情感分析上,通过凝聚子群分析统计情感词与商品特征词的对应关系,并针对初评与追评的情感对应特征进行比较分析。3)词频共现分析上,将高频词汇进行排序,构建词频共现矩阵并进行可视化处理,分析高频词汇的共现网络关系和特征关系。4)时间滞后分析上,分析在线评论用户追加评论行为与初始评论行为的时间滞后关系,阐明“初评—追评”的时间序列分布特征,以进一步深入挖掘在线用户评论行为习惯和行为规律。具体分析流程框架如图1所示:
3 在线用户追加评论内容情报分析
3.1 评论内容语义分析
评论内容的语义特征通过各个知识元数据结合体现,知识元词汇在各个评论中出现的频次构成每一条用户评论,在追加评论中出现的高频知识元词汇即为用户关注的商品特征及其对应的情感反馈。因此,统计在线用户追加评论文本知识元词汇内容和频次,基于R语言的JiebaR包进行分词和词汇的频率统计,提取追加评论中的高频知识元词汇,使用Wordcloud2包绘制词汇云图,如图2所示:
可以发现,在线用户追加评论中较为关注的是“屏幕”“快递”“运行”“电池”等产品特征词;对于“不错”“支持”“可以”“满意”等表现情感的知识元词汇出现频次较高;同时,也可以看出“苹果”“三星”“小米”是通常与样本产品做比较的品牌,也是在产品营销和推广中存在强烈竞争压力的替代品牌。抽取排名前40位追加评论文本知识元词汇的词频统计如表1所示:
进一步将包含“功能”“性能”“外观”等属性的知识元词汇定义为商品特征;对产品或服务的情感态度和观点表达词汇,如“不错”“喜欢”“满意”等知识元词汇定义为情感特征,包括正向情感、负向情感和中性情感;将物流配送、服务态度等相关知识元词汇定义为服务特征。通过评论内容语义特征类型分析在线用户追加评论与初始评论内容语义特征的差异性,分别选取追评与初评出现频率排序前200位的知识元词汇,分析其商品特征、情感特征和服务特征的分布情况,不同评论时间类型高频知识元词汇统计比较的结果如表2所示。
可以发现,初始评论与追加评论在文本内容语义特征分布上具有整体趋势上的相似性,商品特征占比最高、服务特征占比最低、情感特征占比居中。从差异上来分析,初评内容商品特征与服务特征较追评比率高,追加评论的情感特征占比均高于初评,说明初次评论对商品及服务特征关注度较高,追加评论相较于初次评论更重注所购产品的情感特征反馈。
3.2 评论内容情感分析
追加评论高频知识元词汇的情感词汇与产品特征词汇的凝聚关系可以通过凝聚子群的聚类关系来展示,凝聚子群分析也可以形象地称为“小团体分析”,一般凝聚子群是在集合间具有对相紧密的、较强的、或者直接的关系,类似于社会网络研究中凝聚子群的群(Group)或团(Cluster),在复杂网络中也被称为社团结构(Community Sturcture),寻找社会网络中的子群是复杂网络和社会网络研究的一个重要方向。本研究统计追加评论高频知识元词汇的凝聚子群关系如图3所示:
从图3高频知识元词汇的凝聚子群关系可以看出,高频知识元词汇可分为4个凝聚子群,从商品特征对应的情感特征词汇角度,各个子群词汇数量与特征内容汇总如表3所示。
综合分析凝聚子群的特征词汇,大致从1)物流、服务;2)手感、售后;3)功能、质量;4)性能、配置等方面将情感词汇凝聚为4个子群。从对应的情感词汇来看,对产品的物流、服务方面较为肯定;性能、质量是各个子群共同关注的内容,并且综合评价结果大多为正向情感评价词汇;系统分析各个子群的商品词汇的差异特征,发现电池、系统的发热问题可能是影响用户产生负面情感的一个重要因素。进一步统计追加评论文本与对应的初始评论文本的各类情感倾向比率进行比较研究,统计结果如图4所示。
结果表明,存在相当一部分正向情感倾向的初始评论在追加评论中转变为负向情感倾向。与初次评论相比,追加评论的正向情感比率和中性情感比率均存在不同程度的减少,负向情感比率增加明显,说明追加评论往往存在由正向到负向的情感极性转折,并且负向情感更能促使追加评论的生成,存在很大部分的追加评论是反映商品或服务存在的问题来对潜在用户进行消费提示,因此追加评论负向情感极性语义词汇增量较为显著。
3.3 评论内容词频共现分析
对所有追加评论数据进行分词与词频排序后,提取词频排序前2 000位的知识元词汇进行排序后的词频数量拟合,拟合效果如图5所示。
可以观察出追加评论知识元词汇分布显现出较为严格的幂指分布,拟合优度达到0.87。对词频进一步统计分析可以發现,排名前20%的知识元词出现频次占总频次的81%,符合“帕累托法则”的信息传播规律。通过对样本评论文本的分词与词频统计,对每条评论的高频知识元词汇进行共现分析,本研究抽取排名前50位的高频知识元词汇构建词频共现矩阵,这些词汇是追加评论中出现频率高且具有代表性的知识元词汇,能够有效反映商品
共现矩阵能够展示不同知识元词汇同时出现的频次,同时也反映出不同知识元词汇间的相关程度。进一步,根据表4所构建的高频知识元词汇共现矩阵进行社会网络分析,绘制知识元词汇的共现连接网络图谱,如图6所示。
图6进一步揭示了高频知识元词汇的共现网络关系,节点越大表明中心度越高,说明在评论中出现的频次越多,与其连接的词汇量越多。节点的连接线条代表词汇间的共现关系,线条越粗所反映的特征关系越为紧密。节点越大,线条越粗的知识元词汇,是评论阅读者对评论中商品质量与服务感知的集中体现,对消费者的购买决策起到直接影响作用。通过对图6进行网络结构分析表明:1)“屏幕”“时尚”“性价比”“发热”“电池”等的点度中心度较高,说明评论用户较为关注产品的这些特征,同时这些中心度高的词汇间连接度也较为紧密,这些特征也将对潜在购买用户产生购买决策指导作用;2)“摄像头”“处理器”“像素”“续航”
“强大”“功能”“服务”“放心”“漂亮”等词汇虽然点度中心度不高,但是连接较为紧密,这些词汇在同一评论中共现的概率较高,包含具体的产品特征词较多,说明评论者经常通过产品特征去具体描述产品的使用经验;3)此外,网络关系中较为显著的特征是情感词“失望”,与“发热”“电池”“问题”“续航”等词汇的连接度较高,说明在追加评论中集中反映的问题是电池的发热与续航问题,这是生产厂商在进行产品研发时需要高度关注的重点改进方向。
3.4 评论内容时间滞后分析
本研究拟探究在线用户追加评论的时间滞后性,即消费用户一般在多长时间后进行追加评论行为。利用本文抓取的产品评论数据进行追加评论的时间滞后分析。从时间序列角度,如果时间序列X与时间序列Y存在一定的相关性,并且X滞后Y的时间为L,则说明X与Y存在滞后相关性。当X滞后Y的时间L=2时的示意如图7所示:
本研究引入文献[18]的相关公式,对于两个时间序列X={x1,x2,…,xn}和Y={y1,y2,…,yn},时间序列Y滞后于时间序列X的相关系数R(l)计算方法如式(1)所示:
式中,R(l)为时间滞后相关系数,=1n-l∑nt=l+1xt,=1n-l∑nt=1yt,l的最大取值为n/2,令R(l)达到最大值所对应的滞后节点为lmax,则时间序列X与Y具有滞后相关性,Y滞后X的时间量为lmax。以l为横坐标,R(l)为纵坐标,生成的曲线被称为“滞后相关曲线”,该曲线上最大值所在的点被称为“最大滞后相关点”,设定相关阈值以上的区间被称为“滞后相关区间”。笔者使用式(1)将时间滞后数据输入Matlab软件进行相关性计算,时间序列滞后为0~5的相关系数可视化曲线如图8所示。
由图8可知,当时间滞后为1天时,追评与初评数量标准化比率的相关系数最大,即当Lmax=1时,R(Lmax)=0.9397,并且当滞后区间为0~2天时,追加评论与初始评论具有显著的正相关关系(相关系数大于0.6),证明大多数用户会选择在0~2天的时间范围内进行追加评论行为,并且时间间隔为1天时进行追加评论行为的用户最多。进一步分析在线用户追加评论行为的人类行为动力学规律,选取了两类(体验型和搜索型)产品的时间间隔,选择的产品中有3种类型是搜索型产品(手机类、服饰类、化妆品类),一种是体验型产品(书籍类)。计算初次评论与追加评论的时间间隔作为新的时间序列,在分析过程中将时间单位转换为小时,对单位时间内的追加评论数量进行累积概率处理,对追加评论频次和时间序列取双对数,得到追加评论时间滞后散点图以及线性拟合效果对比图如图9所示:
可以看出,在线用户追加评论时间滞后散点拟合效果较好,这4类产品样本的幂率指数分别为手机类—1.20、服饰鞋帽类—1.36、化妆品类—1.25、图书类—1.26,符合人类行为动力学幂率分布规律,通过Kolmogorov-Smirnov(KS)检验结果表明,在线用户追加评论时间滞后符合人类行为动力学幂率分布规律,并且手机类、服饰类、化妆品类、图书类的幂指数差异性不大。
4 结 论
本研究从在线用户追加评论进行内容情报研究,通过对实证分析结果的归纳与总结,可以得出以下几点结论:
1)在语义特征上,对在线用户追加评论内容进行文本挖掘,揭示了用户追加评论与初始评论文本语义的关联与差异。通过对评论文本的语义特征分析,证明商品特征是初始评论和追加评论共同关注的情报内容,在两者纵向比较中,追加评论的商品特征词占比略低于初始评论,而追加评论情感特征占比高于初始评论,初始评论服务特征比率较高。说明初始评论用户一般较为关注产品性能和服务水平,而追加评论比较关注的是对于产品认知的用户情感内容反馈。
2)在情感特征上,通过对高频知识元词汇的凝聚子群分析可以发现商品特征词与正向情感词、中性情感词、负向情感词的关联关系,能够辅助用户优化购买决策,也有助于在线商品质量和服务水平的改进。本研究样本综合评价结果大多为正向情感评价词汇,与初次评论相比,追加评论的正向情感比率与中性情感比率均存在不同程度的减少,负向情感比率增加明显,说明用户的产品性能和服务水平感知能够促进初次评论的生成,而用户在产品使用中的负向情感认知更能促使追加评论的生成。
3)词频共现特征上,追加评论知识元词汇分布呈现出较为严格的幂指分布,拟合优度较高,符合“帕累托法则”的信息传播规律。对高频词汇的中心度和连接度进行词频共现可视化分析,系统阐述了高频词汇的共现关系。本研究在线评论词频共现度高、中心度突出、连接度紧密的知识元词汇为用户较为关注的产品特征,这些特征也将对潜在购买用户产生购买决策指导作用,评论者经常通过产品特征去具体描述产品的使用经验,并且与负向情感词共现关联度高的产品特征能夠反映产品存在的问题与缺陷,能够为生产厂商在进行产品研发时提供高度关注的重点改进方向。
4)从时间特征上,总结了在线用户追加评论行为的时间分布规律,揭示了在线用户追加评论行为时间滞后符合幂率分布特征,并且在时间滞后为0~2天时,尤其是时间间隔为1天时,消费者的追加评论行为较多,研究结果对电子商务运营商发现用户评论行为规律以及探索潜在用户评论时间偏好具有重要意义。一方面,电子商务企业可以根据在线用户追加评论时间滞后的行为特征规律及时地给予干预,鼓励消费者在有充足时间去体验消费的同时也能够迅速的发表追加评论,从而产生良好的网络口碑传播效应;另一方面,也可以依据时间滞后规律,配置合理的客户服务方面的企业资源,更好地为消费者服务,提高客户满意度。
5)需要特别指出的是,本研究发现在线用户追加评论的时间滞后与词频共现都呈现出幂指分布规律,但是根据“长尾理论”,对于部分时间滞后较长以及词频出现较少的极性情感评论仍然极有可能是在线用户购物决策和产品网络口碑传播的重要影响因素,因此对于在线用户追加评论分析中,在重点关注集中时间段大量出现的知识元词汇进行文本挖掘的同时,对于时间滞后较长以及部分词频共现频次较少的极性情感词汇同样具有极高的潜在商业价值,并且可能是影响产品网络口碑效应的重要隐性因素。
根据本文研究结论,一方面,有利于根据追加评论的内容情报特征来指导厂家进行商品改进以及辅助用户的购买决策行为;另一方面,有助于电子商务平台在掌握用户发布追加评论的普遍时间规律,选择合适的时间点对消费者进行激励和提醒,从而推动消费者在特定时间范围内产生有效的追加评论。同时本文也存在一些局限,一是研究样本仅针对手机评论进行分析,其他产品追加评论的内容情报特征有待进一步深入对比分析;二是本研究并未对评论文本情感词汇的情感极性进行深入研究,情感极性对在线用户追加评论内容情报关联的影响将是后续研究的主要方向。
参考文献
[1]王长征,何钐,王魁.网络口碑中追评的有用性感知研究[J].管理科学,2015,(3):102-114.
[2]Ghose A,Ipeirotis P G.Estimating the Helpfulness and Economic Impact of Product Reviews:Mining Text and Reviewer Characteristics[J].Social Science Electronic Publishing,2011,23(10):1498-1512.
[3]金立印.网络口碑信息对消费者购买决策的影响:一个实验研究[J].经济管理,2007,(22):36-42.
[4]邓卫华,易明.考虑口碑衰竭效应时追加评论对网络口碑传播的影响研究[J].管理学报,2019,16(4):595-602.
[5]Forman C,Ghose A,Wiesenfeld B.Examining the Relationship Between Reviews and Sales:The Role of Reviewer Identity Disclosure in Electronic Markets[J].Information Systems Research,2008,19(3):291-313.
[6]Hennig-Thurau T,Gwinner K P,Walsh G,et al.Electronic Word-of-Mouth Via Consumer-opinion Platforms what Motivates Consumers to Articulate Themselves on the Internet?[J].Journal of Interactive Marketing,2004,18(1):38-52.
[7]李信,陈毅文.口碑追加形式对购买意向的影响:口碑方向的调节作用[J].心理学报,2016,(6):722-732.
[8]石文华,龚雪,张绮,等.在线初次评论与在线追加评论的比较研究[J].管理科学,2016,29(4):45-58.
[9]Jin L,Hu B,He Y.The Recent Versus the Out-dated:An Experimental Examination of the Time-variant Effects of Online Consumer Reviews[J].Journal of Retailing,2014,90(4):552-566.
[10]张艳丰,彭丽徽,洪闯.在线用户追评行为时间序列关联特征实证研究——以京东商城手机评论数据为例[J].情报理论与实践,2019,42(3):139-145.
[11]李琪,任晓静.矛盾性追加评论对感知有用性的影响效应研究[J].管理科学,2017,(7):139-150.
[12]胡常春,宁昌会.在线追评何时比初评更有用?——基于时间间隔和产品类型的调节效应分析[J].预测,2017,36(4):36-42.
[13]李良强.基于内容挖掘的在线用户评论时间特征及其影响研究[D].成都:电子科技大学,2016.
[14]Godes D,Mayzlin D.Firm-created Word-of-Mouth Communication Evidence from a Field Test[J].Marketing Science,2009,28(4):721-739.
[15]孙锐,李星星.矛盾性追评对消费者购买意愿的影响研究[J].武汉大学学报:哲学社会科学版,2017,(1):75-86.
[16]Demangelis M,Bonezzi A,Peluso A M,et al.On Braggarts and Gossips:A Self-enhancement Account of Word-of-Mouth Generation and Transmission[J].Journal of Marketing Research,2012,49(4):551-563.
[17]邓卫华,易明,李姝洁.基于“认知-态度-使用”模型的在线用戶追评信息使用行为研究[J].情报资料工作,2018,(4):71-79.
[18]Sakurai Y,Faloutsos C,Papadimitriou S.Fast Discovery of Group Lag Correlations in Streams[J].ACM Transactions on Knowledge Discovery from Data,2010,5(1):1-43.
(责任编辑:陈 媛)