APP下载

基于SVM的用户评论情感分析方法研究

2019-03-12常丹王玉珍1

枣庄学院学报 2019年2期
关键词:分词分析方法语料

常丹,王玉珍1,

(1、兰州财经大学丝绸之路经济研究院,甘肃兰州 730020;2、兰州财经大学信息工程学院,甘肃兰州 730020)

0 引言

近年来,随着自然语言处理和数据挖掘技术的成熟,情感分析成了文本分析领域研究的热点,目前的主要研究成果概括如下:支淑婷[1]等人认为不同类型的注意力机制和神经网络独立编码的属性上下语义信息,能够有效识别情感极性,并在SemEval2014 Task4和Twitter数据集上进行实验,结果表明,这种融合多注意力和属性上下文的长短时记忆神经网络模型能够改善传统神经网络模型存在的问题,从而提高情感分析的准确率;曾子明[2]等人基于LDA主体识别模型和Ada Boost集成分类方法,在微博文本的主题特征中融入情感特征,提高了微博文本的情感分类准确性,从而有效地区分用户的情感倾向;吴鹏[3]等人针对现有方法难以自动识别网络舆情中的负面情感问题,提出网民负面情感识别模型,这种模型在判断情感极性的基础上能够识别网民的不同负面情感;胡荣磊[4]等人在文本情感分析过程中,将长短期记忆网络和前馈注意力模型进行结合,结果表明,这种文本情感分析方法比传统的情感分析方法更具优势;赵冬梅[5]等人认为用户本身和评价对象的属性对情感分析至关重要,他通过计算用户兴趣分布矩阵,融合SVD分解和LSTM模型,实现情感分类,实验表明,LSTM-CFA方法能够有效提取用户个性和产品属性信息;刘续乐[6]等人以微博文本为研究对象,结合知网相似度,选择情感基准词,构建情感词典,运用到SVM模型中,并通过条件随机场模型对文本进行分类,结果表明,这种分类效果更好;陈珂[7]等人针对文本分类存在的耗时长和一致性差等问题,提出基于多分类器集成的self-training的情感分类方法,实验表明,这种方法能够提高情感分类的效率和准确性;Makoto Nakayama[8]等人通过研究日本与西方国家针对用餐体验的评论,认为民族文化会影响用户评论的内容,弥补了社会商业中文化影响的研究空白,等等.

可见,随着互联网技术的发展,情感分析掀起了国内外研究的热潮.然而由于数据收集的难度较大,目前的情感分析方法大都基于英文文本数据,而中英文思维方式和审美情趣的不同, 导致中英文在用词、句式、修辞等方面都各有特点[9],因此,对于中文文本来说,英文文本的情感分析方法并不完全适用.目前面向中文文本的情感分析方法还较少,一方面由于中文文本数据收集起来较为困难,另一方面,相对来说中文存在很多意译,研究起来较为复杂.因此,本文将基于用户的中文评论文本,运用支持向量机模型对其进行情感分析,从而为商家优化决策提供一定的参考.

1 基于SVM的情感分析方法建立

自然语言处理领域的文本一般分为三个级别的粒度:词语级、语句级和篇章级.情感分析的观念在于分析文本,理解其所要表达的观点和情绪,即研究语句级文本,包括语句情感属性的识别、客观性文本提取和分析以及情感极性分析等.英语注重“形合”,而汉语注重“意合”[10],本文所研究的情感分析方法主要是基于中文的用户评论信息的情感极性研究,即通过构建SVM分类模型,融合word2vec词向量技术,研究文本情感极性的分类方法.

1.1 支持向量机

支持向量机SVM(Support Vector Machine)是一种常见的判别方法,主要用于分类、回归、异常值或离群点的检测,主要思想是输入一组数据映射到较高维上,为高维特征空间建立一个超平面,使得这个超平面和与超平面距离最近的样本数据点之间的距离最大化.在支持向量机数据挖掘算法中,其核心是支持向量和最优分割超平面,而SVM的主要工作就是要找到这样一个超平面,从而使模型达到最优的分类效果.

图1 SVM最优分割超平面图

目前来说,基于监督学习的情感分析方法仍是研究的热点,支持向量机针对其他传统的机器学习方法来说,由于它构建出了最优超平面,分类效果更好,因此本文通过支持向量机训练情感分析模型,并使用准确率(Accuracy)来判定模型的预测性能,计算公式如下:

(1)

其中,TP表示正确判断的所有属于积极倾向的数据集合,TN表示正确判断的所有属于消极倾向的数据集合,P+N表示总的文本数据集.

1.2 word2vec

word2vec词向量技术是Google开源推出的一个工具包,是在Distributed representation词向量的基础上产生的,包含CBOW和skip-gram两个模型,主要思想是在较大的语料集上进行高效训练,得到训练结果词向量,再通过词向量模型,将文本数据转化成对应的词向量从而进行计算.词向量技术可以用来做聚类、词性分析和其他自然语言处理的相关工作.在情感分析方面, word2vec算法能够利用文本中心词进行特征词向量的训练,训练结果具有良好的语义特征,因此word2vec训练的特征词向量被用作情感分析模型的输入.

1.3 方法建立

基于SVM情感分析方法的建立主要包括两个方面,一是构建词向量,由于模型的输入必须是数值型数据,为了得到模型中输入文本对应的数据,文章通过训练词向量模型,将评论文本转换成词向量作为模型的输入;二是分类器的训练,即训练分类器对文本数据进行积极和消极的分类.具体方法如下:

步骤一:数据收集,下载维基百科中文语料集,并将其转换成计算机可读取的文本格式;

步骤二:数据预处理,维基百科中文语料集包含繁体中文,对词向量训练以及文本转换有一定影响,因此用简体中文替换语料集中的繁体中文;

步骤三:分词,使用结巴分词系统对语料集进行分词处理;

步骤四:模型训练,将分词后的文本导入Python中,使用gensim word2vec训练脚本获得词向量;

步骤五:模型测试,输入文本,并获取相应的词向量;

步骤六:数据集划分,将原始数据按比例划分成训练集和测试集;

步骤七:数据集预处理,对训练集数据进行结巴分词和停用词处理;

步骤八:获取特征词向量,从词向量模型中获取能够描述文本的特征词向量;

图2 PCA维度结果图

步骤九:降维,利用主成分分析法减少特征词向量的维数(如图2所示);

步骤十:模型训练,通过python导入Scikit-Learn库,训练SVM分类器.

2 基于SVM的情感分析方法验证

本文的实验环境为windows7操作系统,应用python3.6作为编程语言,来验证基于SVM的情感分析方法的有效性.

2.1 数据来源

为挖掘中文评论文本的情感倾向,本文选用了中科院谭松波博士收集整理的酒店评论语料集进行实验.该语料集规模为10000篇,共分为四个子集,经整理汇总有积极语料7000篇左右,消极语料3000篇左右,部分数据如图3所示.文章将根据7:3的比例构建训练集与测试集,即随机抽取7000条数据(包含积极语料和消极语料)作为训练集训练模型, 3000数据作为测试集,测试模型的有效性.

图3 部分原始数据

2.2 数据预处理及分析

在进行方法验证之前,首先要对文本数据进行预处理,即对收集到的语料集进行分词和去除停用词处理.文中采用结巴分词系统对文本进行分词处理,这种分词系统可以通过python命令直接调用结巴包,不仅方便,而且分词速度较快.在分词完成后,使用停用词表去除文本停用词.

经过预处理的数据采用本文所建立的方法进行分析,由于训练词向量时设定的维度是300维,而通过主成分分析得到前50维度的数据能够很好的反应原始数据的情感内容,因此对模型进行降维处理,选择前50维作为特征向量输入模型,从而训练分类模型,通过参数调整,最终确定当支持向量机的惩罚参数设为2时分类效果最好,最后将测试集文本输入模型测试这种方法的有效性.

2.3 验证结果

本文通过测试集文本情感极性分类的准确率来验证模型的有效性,并通过ROC曲线来反应模型的准确性.测试结果表明,融合了word2vec的SVM情感分析方法准确率达到87%,ROC曲线如图4所示.

图4 ROC曲线图

ROC曲线即在一系列不同阈值下计算其对应的FPR和TPR值.图4中,横轴表示用户评论信息样本中本属于消极情感倾向的评论文本被判别为积极倾向的概率,即分类错误的文本,纵轴表示用户评论信息样本中本属于积极情感倾向的评论文本被模型识别为积极倾向的概率,即分类正确的文本.AUC值是ROC曲线所覆盖的区域,即ROC曲线下的面积.当ROC曲线越接近左上角时,AUC值就越大,表示情感分类的准确度越高.在图4中,AUC值为0.92,表明情感分类的准确性较高,即用户评论信息的情感分析非常准确,能很好地反映用户的情感倾向.因此该方法可以被用来做用户评论信息的情感分析.

3 结论

情感分析是自然语言处理的重要领域,通过挖掘不同行业商品评论的情感倾向,能够指导商家改善运营方式,提高服务质量.文章通过word2vec词向量技术量化评论文本,并通过SVM模型分析文本的情感倾向,结果表明,融入word2vec的支持向量机模型对于情感倾向的分类有更加显著的效果,这种方法不仅能够更加准确的对用户情感进行分类,而且与传统的支持向量机方法相比,缩短了模型的训练时间,从而提高了文本情感分类的准确率和效率,进而使得商家能够根据用户的反馈及时采取相应的解决措施,并且在改进商品、提供更高质量的服务方面有更多的决策支持.

猜你喜欢

分词分析方法语料
基于归一化点向互信息的低资源平行语料过滤方法*
基于EMD的MEMS陀螺仪随机漂移分析方法
分词在英语教学中的妙用
一种角接触球轴承静特性分析方法
结巴分词在词云中的应用
结巴分词在词云中的应用
中国设立PSSA的可行性及其分析方法
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
TD-LTE网络覆盖的分析方法研究
国内外语用学实证研究比较:语料类型与收集方法