基于网购评论文本挖掘的手机类产品属性评价研究
2018-09-21张琰朱燕翔郑桂玲
张琰 朱燕翔 郑桂玲
摘要:通过挖掘网购手机的中文评论,以知名电商网站手机销售评论为研究对象,首先通过爬虫软件抓取销量排名前十的手机网购评论,在文本数据预处理后使用改良的jieba分词工具对评论进行分词,并基于Python开发平台采用TF-IDF算法计算网购中文评论中的手机属性关键词及修饰词关键词,通过关键词词频分析找出用户对特定型号手机的各属性的消费评价,以便消费者了解不同手机属性的优势与劣势,同时为商家改进商品功能提供建议。
关键词:文本挖掘;网购评论;属性评价
中图分类号:F27文献标识码:Adoi:10.19311/j.cnki.16723198.2018.22.022
0引言
当下手机成为人们生活中必不可少的工具,手机除了实现通信功能外还提供休闲娱乐、移动支付、信息搜索等功能。由于手机类产品的标准化,越来越多的用户选择网上购买,并且网络平台还为用户提供购买后评价功能,这使得手机质量、性能好坏,手机的各项属性是否受用户欢迎成为完全公开的信息。商家可以通过对评论进行分析,得出用户的消费体验,从而改进商品性能或服务质量。
1研究现状综述
本文拟从中文评论中挖掘关键词的方式分析用户评价,这一过程包含两个主要步骤:首先,需要对大量中文评论进行分词;其次,对分词后的文本信息进行关键词提取。使用比较多的是由张华平开发的NLPIR汉语分词系统ICTCLAS2016。本文采用基于Python软件开发环境的jieba分词工具。
第二个步骤是关键词提取,目前主要的研究方法有两类:一是基于统计的方法;二是基于机器学习的方法。基于统计的方法包括词频(Term Frequency,TF)、互信息(Mutual Information,MI)、TF-IDF、信息增益(Information Gain,IG)、χ2统计(CHI-square Statistic)等。基于统计的特征词提取普遍具有复杂度低、计算简单的优点,但提取的细度与精度不够。而机器学习的特征词提取能够很好的提高细度与精度。基于机器学习的方法包括支持向量机、关联规则K-means、神经网络等。其中,基于统计的TF-IDF词频统计是最基础、简便的方法。
2研究思路
本文首先通过网络爬虫抓取知名电商网站上销量排名在前10的手机评论数据,使用jieba分词系统对语料库中的中文文本进行分词、词性标注操作,采用TF-IDF算法計算名词的词频以便筛选出权值较高的手机属性词,以这些属性词为关键词,在各类型手机评论数据中检索表达用户情感倾向的修饰词的高频关键词,修饰词的词性根据样本数据定义为:形容词、副形词、名形词、习用语、数词、区别词、状态词等。根据检索出的修饰词的褒义与贬义统计用户对各型号手机的各属性的评价情况。
3实验及数据分析
3.1属性特征词提取
属性词TF-IDF权值从大到小排,如表1所示。
3.2修饰词与属性词匹配
统计各型号手机各属性受用户好评或差评的情况。以华为荣耀畅玩6x为例,首先在评论文本中选出关键词所在句子,采用TF-IDF算法统计该句中出现的修饰词的词频,按大小排序并根据词义人工划分褒义与贬义,表2显示了“性价比”、“速度”、“手感”这三个属性的高频修饰词及其词频。
3.3属性评价
采用加权平均的方法计算每个属性关键词的好评(差评)权值,褒义词权值为正,贬义词权值为负,得到华为荣耀畅玩6x各属性关键词的评价权值如图1所示。图中权值大于0的属性表示用户对该属性的评价基本为正向;权值小于0的属性表示用户对该属性的评价基本为负向。
由图1可知,用户对华为荣耀畅玩6x这款手机总体评价比较好,评价值大于0的好评属性有19个,其中好评度最高的属性是“电池”,其次是“质量”;评价权值小于0的差评属性有3个,这3个属性分别为“赠品”、“打电话”与“耳机”。同理可得其余9部手机的属性关键词的评价权情况。
一加3T手机统计了24个属性,其中好评属性17个,差评属性7个,好评度较高的属性为“性价比”与“手感”,差评度高的属性为“按键”与“音量”;Apple 7统计了23个属性,其中好评属性15个,差评属性8个,好评度较高的属性为“手感”与“系统”,差评度高的属性为“降价”与“划痕”;华为荣耀畅玩5C统计了18个属性,其中好评12个,差评6个,好评度较高的属性为“性价比”、“质量”、“手感”,差评度高的属性为“没货”;华为荣耀8统计了18个属性,其中好评属性12个,差评属性6个,好评度较高的属性为“质量”、“性价比”,差评度高的属性为“没货”;Apple 6s统计了21个属性,其中好评属性10个,差评属性11个,好评度较高的属性为“系统”、“质量”,差评度高的属性为“没货”;OPPO R9S统计了25个属性,其中好评属性21个,差评属性4个,好评度较高的属性为“电池”、“手感”,差评度高的属性为“死机”、“发票”;荣耀NOTE8统计了25个属性,其中好评属性20个,差评属性5个,好评度较高的属性为“电用户对网购手机客服质量的诉求基本是普遍存在池”、“系统”、“性价比”、“手感”,差评度高的属性为“降价”、“死机”;LG G5统计了23个属性,其中好评属性22个,差评属性1个,好评度较高的属性值均较低,最高的一个属性为“系统”,差评属性为“后壳”;海尔M328V统计了21个属性,其中好评属性20个,差评属性1个,好评度较高的属性为“电池”、“外观”,差评属性只有唯一的“报时”。
4总结
本文在获取网购手机评论数据的基础上,应用TF-IDF算法分析了销量排名前10的手机属性评价情况。用户对手机属性的评价特征表现为:①对10款热销手机受关注属性的评价以好评价为主。②好评权值最高与差评权值最低的手机均为国产手机。③负面评价属性词个数最多的手机是Apple 6s,达到11个,说明在苹果众多机型中6s存在的问题最多。
综上所述,采用网购评论文本挖掘的方法可以获得消费者对产品属性的评价,该方法更贴近消费者真实感受与想法,研究结论对手机品牌商及网购平台商都有一定的借鉴价值。
参考文献
[1]Hua-Ping ZHANG, Hong-Kui Yu, De-Yi Xiong, Qun LIU.HHMM-based Chinese Lexical Analyzer ICTCLAS[J].Second SIGHAN workshop affiliated with 41th ACL; Sapporo Japan, July, 2003, pp.184187.
[2]Yuhai Yu, Hongfei Lin, Jiana Meng and Zhehuan Zhao.Visual and Textual Sentiment Analysis of a Microblog Using Deep Convolutional Neural Networks[J].Algorithms 9 (2) (2016):41.
[3]Zhang W, Yoshida T, Tang X.A comparative study of TF-IDF, LSI and multi-words for text classification[J].Expert Systems with Applications, 2011, 38(3):27582765.
[4]单丽莉, 刘秉权, 孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报, 2011:319324.