APP下载

基于机器学习的线上评论情感分类研究

2021-09-15任正甜李兴东

科学技术创新 2021年26期
关键词:贝叶斯分类器顾客

任正甜 李兴东

(兰州交通大学,甘肃 兰州 730070)

1 概述

在现代社会中,网络购物是非常重要的一种购物方式,在购物市场中占据了非常重要的分量。网络购物用户也可以通过在线评论表达自己使用产品后的感受,而客户的在线评价也成为了影响消费者决策的重要因素,对卖家服务能力的提高也有重要的指导作用。单纯依靠人工去收集和分类线上评论是不切实际的,故需利用机器学习的途径对线上评论文本进行分类处理,通过对分析对商户和顾客提供有效的信息。

在国内外,也已经有很多相关方面的研究,学者TimurSokhin在针对主题模型的基础上,提出一种半监督情感分析方法[1];E.D'Andrea构建了包括SVM在内的三种模型,并且达到很好的实验结果[2];杨宇婷等在的特征表达法上进行了创新,结合利用了SVM算法[3];陈子昕采用SVM分类器对新闻评论文本进行分类,并且评价指标准确率也较高[4]。

2 研究方法介绍

利用机器学习进行情感分类已经有了很多的研究成果,但是利用adaboost等多种分类器进行建模分析的研究较少。本文将获取的评论文本进行分词、去除停用词等预处理,特征提取利用TF-IDF算法,再采用NB、SVM、adaboost三种分类器,建立情感分类模型并加以应用,最后通过特定评价指标对三种方法的性能进行比较,对商户和顾客提供参考。

2.1 特征提取

TF-IDF(Term Frequency-Inverse Document Frequency)翻译为中文即为“词频-逆向文本频率”。它由TF(词频)和IDF(逆向文本频率)两部分组成。TF(词频)表示在评论文本中某一给定词 出现的频率[5]。计算过程见公式:

IDF实际意义:IDF值小,说明评论文本中有该给定词w的数量多,反之则IDF的值大。在这里,我们容易得到一个极端的情况:如果在所有的评论文本中一个给定词w均出现过,那么词w的IDF值即为0,由下面的计算公式看也十分显然。

TF-IDF算法判断词w区分能力的过程可概括为:若给定词w只在文本c中常出现,而在其他文本中不常出现,则认为该词w的区分能力很好。TF-IDF算法优点是计算快速,结果也比较符合实际情况。

2.2 朴素贝叶斯(NB)分类器

以贝叶斯公式为架构的基础上,计算后验概率P(c|x)是及其困难的,因为由“因”到“果”的概率去推算由“果”到“因”的概率是不容易的。为了解决此类困难,朴素贝叶斯分类器(Naive Bayes classifier)的基础条件中多了一个假设条件:假设每个能对最后分类的结果产生影响的属性都是相互独立的。

2.3 支持向量机(SVM)分类器

支持向量机(英文全称Support Vector Machine,简称SVM):找出一个特定的划分超平面:该平面在能将训练数据集正确划分的基础上、能够使几何间隔尽量最大化。使

2.4 Ada-boost分类器

Ada-boost(Adaptive Boosting)方法是改进了的boosting算法。

在一开始,训练数据各自均具有相同的权重值,第一个基分类器是通过直接将学习算法用在初始数据分布上得到的。但在循环下一轮回时,将利用不同样本分布不同权重值得到:加大对错分样本的“重视度”-加大权重这样,难以分类正确的样本就成了下一轮循环时候的“重点分类对象”,这样在新一轮训练时,可得到一个新的分类器。就这样多次分配权重,多次重复循环,将得到 个不同的弱分类器,将这 个弱分类器进行“融合”,就可以得到一个强分类器。其中,在进行弱分类器组合时,使分类准确度低的分类器权值小一些,相反,分类准确度高的分类器权值大。

3 结果与分析

3.1 数据来源

本文选取购物平台京东为评论数据来源,使用八爪鱼软件,采集顾客在小米旗舰店中购买小米10S的所有评论情况,共获得1428条评论,其中正面评价数据1000条,负面评价数据428条。并对数据进行预处理,正面评价标签为0,负面标签为1。

3.2 结果对比与分析

通过对三种分类器模型的训练和应用,利用性能评价指标,对三个不同结果进行对比,结果对比如图1。

图1 结果对比图

通过三个评价指标:准确度、召回率以及F1值可以看出,各个模型中SVM分类器效果极佳,在精度方面略逊色于朴素贝叶斯分类器,而ada-boost分类器在各项指标中表现都不突出,在这三种分类器模型中,SVM有其本身非常强势的优势。

3.3 负面文本分析

为了对商户针对产品提供一定的建议,本文对负面评论进行了分析。通过ROST CM6软件建立了社会和语义网络,得到结果图2。

图2 社会与语义网络示意图

在网络中,词汇连线越多,则说明各个词汇之间的联系越密切。由结果可看出:反映手机发热问题的评论较多,手机发热从而导致的信号不良和使用手感等问题,使得顾客感到不满;耗电快以及灵敏度的问题,使得客户使用感受较差;外围的性价比评论,表达了顾客对该款手机性价比的不满,使顾客更倾向于高配置的手机。

通过负面评价分析,商户可以考虑重点解决手机发热的问题,提高客户使用手机时的舒适度;对手机电池质量的提升以及屏幕手写的灵敏度也需要重视;同时,商户可以提高手机的性价比,给予更好的配置或者更实惠的价格来吸引顾客前来购买。

结束语

本文利用机器学习理论,基于京东中手机产品的在线评论数据,在常用的SVM分类器的基础上,添加了朴素贝叶斯以及adaboost分类器模型,再根据不同模型进行情感分类,对分类结果也进行了对比以及评价。更加突出了SVM分类器的优良性质。同时,对负面文本分析建立了社会和语义网络,分析顾客对产品提出的建议,对产品后续开发作出参考。

猜你喜欢

贝叶斯分类器顾客
“一站式”服务满足顾客
BP-GA光照分类器在车道线识别中的应用
贝叶斯公式及其应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于贝叶斯估计的轨道占用识别方法
让顾客自己做菜
一种基于贝叶斯压缩感知的说话人识别方法
以顾客为关注焦点
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别