APP下载

基于评论文本的情感分析研究

2018-09-05任高山韩友德

关键词:情感分析机器学习

任高山 韩友德

【摘 要】论文基于评论文本语料信息提出Word2vec模型与Doc2vec模型与机器学习相结合比较的评论文本情感分析模型,经过实验的对比验证,结果表明了论文提出的方法能够有效提高分类准确率、精确度、召回率。

【Abstract】Based on the corpus information of comment text, the paper puts forward the emotional analysis mode of comment text from the combination and comparison of Word2vec mode and Doc2vec mode and machine learning. Through the experimental comparison and verification, the results show that the proposed method can effectively improve the accuracy, precision and recall of classification.

【关键词】机器学习;Word2vec;Doc2Vec;情感分析

【Keywords】machine learning; Word2Vec; Doc2Vec; emotional analysis

【中图分类号】TP391 【文献标志码】A 【文章编号】1673-1069(2018)05-0062-02

1 引言

文本情感分析是指分析作者在传达信息时所隐含的情绪状态,对作者的意见进行判断或者评估,给出作者态度是褒义、贬义的结论。企业和商家面对用户的大量情感评论信息,可以不断挖掘有倾向的数据,统计用户对消费产品的反馈,向消费者推荐潜在消费品等用途。

本文的结构是这样组织的:第一部分介绍了情感分析的相关研究现状;第二部分对情感分析语料文本的预处理进行了概要阐述;第三部分对不同的特征提取模型和不同的机器学习分类算法做出了实验验证,并对结果进行了详细的分析;第四部分给出了结语。

2 相关研究现状

基于词向量表征模型,Mikolov提出了一种基于神经网络学习方式将词语映射成连续(高维)向量的Word2vec算法[1],利用中心词及其上下文建立局部词嵌入窗口模型,用以进行词语特征向量的优化训练[1]。词向量具有良好的语义特性,是表示词语特征。基于Word2Vec,Le和Mikolov等人[2]提出了Doc2Vec方法作为一个处理可变长度文本的总结性方法。除了在增加一个段落向量以外,Doc2vec几乎等同于Word2Vec。相比于Word2Vec,Doc2Vec优势在于训练出每一篇文本的向量,更能全面理解文本的语义特征。

3 文本预处理的技术

对于语料文本信息需要进行文本预处理,主要包括规范编码格式、文本分词等步骤。

①规范编码格式,对于评论语料,通常情况下,会统一存储为规范的编码格式,如utf-8格式等。

②文本分词,文本的单词将会被后续分类操作中作为特征来表征文本,文本分词是否正确、高效直接影响后续实验结果。Python中文分词组件Jieba,可以实现分词、添加自定义词典、关键词提取、词性标注、并行分词等功能,在全模式下,速度可达到1.5MB/s,本文采取的便是Jieba分词。

4 关于Doc2vec模型原理概述

Doc2vec是一个无监督框架,学习文本段落的连续分布向量表示。文本可以是可变长度的从句子到文档。该方法可以应用于可变长度的文本,任何从短语或句子到大型文档。Doc2vec 有两种模型:Distributed Bag of Words(DBOW)和Distributed Memory(DM), 分别对应 Word2vec 中CBOW 与Skip-gram。以文本短句“The cat sat on mat”为例,其模型结构如图1所示。在训练过程中,文本片段 Paragraph 的ID保持不变,共享着同一个段落向量(即“The cat sat on mat”的向量表示)。DM在给定上下文和段落向量的情况下预测中心单词的概率;DBOW则在仅给定段落向量的情况下预测段落中一组随机单词的概率。针对概率的目标函数,DM与DBOW利用随机梯度下降进行词向量与段落向量的联合更新[2]。

5 实验结果及分析

5.1 实验数据集及误差评估标准

本文采用的是谭松波教授整理的酒店评论语料正负平衡语料各3000个和标记好的淘宝网商品评论好评与差评的语料,正向标记文本共17696个,负向标记文本13428个,数据类型为短文本,用以研究情感分析分类的特征选择算法及分类算法。

本文在评价分类器效果时,引入了信息检索中的混淆矩阵:传统的准确率计算公式就是考虑精确度Accuracy,考量了分类器对于两个类别的总体的分类效果,由于其在不平衡样本中效果不好,所以提出了精度(precision)和召回率(recall)这两个。本文采用一种F-measure检验的方法。

F=2·■ (1)

式1是经常用到的F1指标,本文采用精确度、召回率、F1值来评估实验结果。

5.2 实验

实验针对正向标记文本共17696个,负向标记文本13428个建立词向量,选择80%的数据作为训练集,20%的作为测试集,先对标记语料进行文本预处理工作,然后分别采用Word2vec的cbow(continuous bag of words, cbow)型和Doc2vec的dbow(distributed bag of words, dbow),同时分别采用支持向量机(Support Vector Machine,SVM)、逻辑回归(LogisticRegression,LR)、随机梯度下降(Stochastic Gradient Descent,SGD)、高斯朴素贝叶斯(Gassian Naive Bayes,GassianNB)四种机器学习的分类算法建立预测模型,完成各种模型组合之下的实验预测效果对比。

实验将上述2种特征提取方法与4种机器学习算法分别进行组合预测,比较最终的误差率,其中Word2vec与Doc2vec采用默认参数,模型采用CBOW(DBOW),文本window(表示当前词与预测词在一个句子中的最大距离)设为5,词向量维度100,训练epoch为10。设置min_count=1,min_count(以下都称为词典词频)是模型中很重要的一个参数,表示模型在训练词向量对词典做截断时,少于该参数次数的词会去掉。将SVM、SGD、GassianNB、LR四种机器学习算法的参数设置成较好预测效果的参数。

由表1可知,采用Doc2vec模型的精确率,召回率,F1值都大于Word2vec模型的。可见Doc2vec提取的特征向量表达了更多的情感倾向信息,原因在于:Word2vec对词向量进行平均处理,忽略了词语之间的语序,语序对文本情感倾向信息产生的影响很大,而Doc2vec具有上下文分析的上下文“语义分析”能力。

6 结语

本文首先对情感分析研究现状和文本语料的预处理做了概述,然后通过实验验證了Doc2Vec基于短文本分类的情感倾向性的有效性,证明了Doc2Vec加SVM方法可以有效提高文本倾向性分析的预测精度。

【参考文献】

【1】Le Q V, Mikolov T, Distributed Representations of Sentences and Documents [J].Computer Science, 2014(4):1188-1196.

【2】潘博,张青川,于重重,等.Doc2vec在薪水预测中的应用研究[J].计算机应用研究,2018,35(01):155-157.

猜你喜欢

情感分析机器学习
基于双向循环神经网络的评价对象抽取研究
在线评论情感属性的动态变化
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究