APP下载

情感分析在商品评论中的应用

2019-09-10张明辉

现代信息科技 2019年10期
关键词:在线评论自然语言处理情感分析

摘  要:随着互联网和电子商务的高速发展,各种电商平台上的在线商品评论数量急剧增长。在线评论包含了消费者对购买的商品或服务的感受、态度和情感倾向,对潜在的消费者而言具有很大的参考作用。现在有很多研究关注评论数据的情感倾向以及如何对情感进行量化,并且取得了不错的成果。本文通过学习总结情感分析发展现状,对目前情感分析在商品评论中的应用进行介绍和总结。

关键词:自然语言处理;在线评论;情感分析;情感词典

中图分类号:TP391.1      文献标识码:A 文章编号:2096-4706(2019)10-0187-04

Abstract:With the rapid development of the internet and e-commerce,the number of online product reviews on various e-commerce platforms has increased dramatically. Online reviews contain consumer perceptions,attitudes,and sentiments about the goods or services they purchase,and are a great reference for potential consumers. There are many studies that focus on the emotional tendencies of the review data and how to quantify the emotions,and have achieved good results. Through the study and summary of the development status of sentiment analysis,the application of current sentiment analysis in commodity reviews is introduced and summarized.

Keywords:natural language processing;online review;emotion analysis;emotional dictionary

0  引  言

由中国互联网络信息中心(CNNIC)在2018年8月发布的第42次《中国互联网络发展状况统计报告》。截至2018年6月30日,我国网民规模达8.02亿,互联网普及率为57.7%,为电子商务快速发展提供了强劲动力。并且,近年来,天猫、淘宝、京东、苏宁易购等各大第三方电商平台通过不断地提升自己的服务,如更快速的物流交易、节日进行各种价格促销活动等,使现有用户的购物满意度逐步提升,同时也吸引了越来越多的消费者进行网络购物。目前,网络购物已经深入我国居民的生活,成为重要的消费方式。2017年中国网络零售行业市场运行现状及前景预测分析统计:2017年度,我国网络购物用户已达4.67亿,网络购物市场的年交易规模达到了6.1万亿人民币,同比增长29.6%。所以,由此可以看出,网购在提升居民生活质量方面发挥着越来越大的作用。

而消费者在进行网购时,由于所看到的商品完全是虚拟化的,过于抽象,无法真实地了解到商品的真实质量和规格等等。商品在线评论对于消费者决定是否购买商品而言,是及其重要的一项信息来源,起着参考性、甚至是决定性的作用。消费者可以通过在线评论了解商品的真实完整信息、建立对商品的整体感知。在线评论是已经购买过此商品或服务的消费者发表的对于商品的观点和自己的体验,表达了自己使用商品这一过程中所表现出来的喜、怒、哀、乐等各种情感。而这些情感对于潜在的购买者来说,具有很大的参考价值。

本文介绍了一种对商品评论数据进行情感分析的思路,包括这个过程中涉及到的一些处理技术以及主要算法。

1  情感分析发展历史及现状

文本情感分析又称意见挖掘,是指通过计算机技术从具有情感倾向的文本中提取出评论者的观点、情感、态度,并且对其进行分析、处理、归纳和推理的过程,是近年来自然语言处理领域的一项研究热点[1]。

1.1  不同粒度下的情感分析分類

按照文本的颗粒度,情感分析可以划分为篇章级情感分析、句子级情感分析以及词的情感分析[2]。其中词的情感分析是文本情感分析的基础,基于词的情感分析研究主要有情感词抽取、情感词判断、情感词典等;句子级情感分析在文本情感分析中起着承上启下的作用:它综合了词的情感分析输出的结果,并且可以作为篇章级情感分析的输入,对于整个情感分析的过程起着决定性的作用;对于篇章级情感分析的研究目前处于一种模糊的状态,因为它需要结合词的情感分析和句子级情感分析的结果,并且还受上下语境的影响。

1.2  基于不同研究方法的情感分析分类

基于不同研究方法的情感分析可以分为基于情感词典的方法和基于机器学习的方法。

1.2.1  基于情感词典的方法

基于情感词典的方法主要通过情感词典对文本进行情感分析。情感词典包括要分析的文本中的一些基本词汇,如积极词语“好”“开心”,消极词语“伤心”“丑”,否定词“不”,程度词“很”“非常”等,一般步骤主要包括获取数据,对数据进行预处理,如中文分词、词性标注等,运用现有的情感词典或者训练情感词典,根据一些判断规则对文本进行情感分类、情感值计算等等。

1.2.2  基于机器学习的方法

基于机器学习的情感分析是指选取情感词为特征词,将文本矩阵化,利用一些主要的方法和技术,如Logistic regression,支持向量机(SVM),朴素贝叶斯(Naive Bayes),潜在狄利克雷分布(LDA)对文本进行分类。

(1)朴素贝叶斯。朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法,是一种简单高效的分类模型。在处理训练数据时,首先使用特征条件独立假设计算出输入/输出的联合概率分布,然后结合贝叶斯定理输出后延概率最大的预测项。[3]

(2)支持向量机。支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:

当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机。

当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机。

当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机。

(3)潜在狄利克雷分布。潜在狄利克雷分布是一种典型的词袋模型,其中一篇文档是由一组词构成的一个集合,词与词之间没有先后顺序。将文档集中,每篇文档的主题以概率分布的形式给出,一篇文章由一组词组成,文档中的每一个词都由其中的一个主题生成,即根据给定的一篇文档,推测其主题分布。

2  主要步骤

2.1  文本分词

自然语言处理(NLP)是用计算机来处理、理解以及运用人类语言,是人工智能的一个分支,也是当今信息时代最重要的技术之一。其中,分词技术可以说是最基础的部分了。对于以英文为代表的拉丁语系而言,因为词和词之间有清晰的界限(空格),所以一般情况下词语都能被简单准确地提取出来。但对于中文文本来说,要复杂、困难得多,首先因为中文之间没有间隔,其次中文语义复杂、语境多变,容易产生歧义,如“我要炒肉丝”,既可以理解为“我要/炒/肉丝,即我要去炒肉丝”,也可以理解为“我要/炒肉丝,即我饿了,我要吃炒肉丝这道菜”,这两种情况下,分词的结果是不相同的。

目前对于中文分词的研究主要分为:

(1)基于词典的中文分词。

(2)基于机器学习的中文分词。

(3)基于神经网络的中文分词。[4]

基于词典的中文分词又称为机械分词,即把文本按照一定的规则切分成小片段,在词典中进行查找,如果这个词片段能够查找到,则匹配成功,这种方法簡单、高效,在商品评论分词的应用中很常见。这种算法又可以分为字符串匹配算法、N-最短路径分词算法。

基于机器学习的分词算法简单、高效,但是不能很好地解决中文歧义问题和未登录词识别问题。这一算法要解决的问题分为两个步骤:

(1)特征工程,即如何确定特征来训练模型。

(2)训练目标,即这一算法要达到的优化目标是什么。

分词问题是一种序列标注问题,常用的有四个标签:S,single,表示单个字;B,begin,表示词的开始;M,middle,表示词的中间;E,end,表示词的结尾。基于机器学习的分词就是将一段字符输入模型,然后得到相应的标记序列,再根据标记序列进行分词。常见的模型主要有HMM(隐马尔可夫模型)和CRF(条件随机场)。

基于神经网络的分词主要分为两类:

(1)基于字符的分词。

(2)基于词的分词。

近年来,基于神经网络的研究运用到了RNN,CNN,GNN等来自动获取特征,从而替代了传统分词技术中手动定义的特征。

目前对于商品评论的分词可以应用的常见工具有jieba分词、SnowNLP、PyNLPIR(大数据搜索挖掘实验室)、THULAC(清华大学自然语言处理与社会人文计算实验室)、Stanford CoreNLP等等。

2.2  词性标注、去停用词

词性标注是为未分词得到的结果标注一个正确的词性,包括名词、动词、形容词、副词等词性。目前常用的工具有jieba、LTP(哈工大社会计算与信息检索研究中心)、ICTCLAS(中科院张华平博士的作品)、THULAC(清华大学自然语言处理与社会人文计算实验室)以及FudanNLP(Fudan Natural Language Processing Group)等。

分词之后的文本包含一些没有实际意义的词,如“的”“,”等,在处理的过程中需要将这些词从结果中去掉,以得到更准确的结果。常用的处理方式是根据一些现有的停用词表,如哈工大停用词表、百度停用词表,或者针对具体的商品评论数据专门整理无意义、对分析无帮助的词语,从分词后的结果中去掉这些词。

2.3  属性词的选取

在完成分词、词性标注等预处理后,需要对评论数据进行属性词的选取。因为属性词往往都是高频名词[5],所以要对处理过的商品评论数据按照各自的词性进行词频统计,并且根据实际研究问题和数据量大小选出名词占比大于一定比例且词频大于一定数量的所有词,作为属性词的候选集。

2.4  语义依存分析

语义依存分析可以分析句子各个语言单位之间的语义关联,并且将语义关联以依存结构呈现。语义依存分析的目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息,并且不受句法结构的影响,将具有直接语义关联的语言单元直接连接依存弧并标记相应的语义关系。

并且nsubj(名词主语)、amod(形容词表语)、rcmod(相关关系)三种语义经常包含评论的作者对某一事件或实体的观点或看法[6]。因此,需要从经过处理的语料库中发现这三种关系,并且提取三种关系对应的名词和形容词,对用词频得到的属性词进行筛选过滤。

2.5  Word2vec进行词向量模型训练,对候选词进行聚类

Word2vec是Google推出的建立词嵌入的开源工具,可以根据给定的语料库,即处理过的商品评论数据,训练出一个模型,然后可以输出所有语料库中出现的单词的向量。进而基于向量,可以计算词与词之间的关系、相似性、语义关联性等。运用Word2vec训练评论数据得到一个模型,获得各个词的词向量。并且基于词向量计算得出两两词之间的相似性,如可以用词向量的余弦距离来表示,对属性词进行层次聚类,并且根据聚类的结果不断进行调整,直至结果变得更加合理、可以解释。

2.6  情感词典扩充

在对商品评论数据进行情感分析时,最常用的方法是基于情感词典对词进行情感级性的判断以及情感值的计算。目前情感词典的现有资源主要有:

(1)大连理工大学中文情感词汇本体库。从不同的角度描述了一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息。

(2)台湾大学简体中文情感极性词典(NTUSD)。该词典为简体的情感极性词典,包含2812个正向情感词和8278个负向情感词,可以用于二元情感分类任务中。

(3)知网情感词典(HowNet)。该词典主要分为中文和英文两部分,共包含如下数据:中文正面评价词语3730个、中文负面评价词语3116个、中文正面情感词语836个、中文负面情感词语1254个;英文正面评价词语3594个、英文正面评价词语3563个、英文正面情感词语769个、英文负面情感词语1011个。

(4)知网程度副词词典(HowNet)。该词典主要分为中文和英文两部分,共包含如下数据:中文程度级别词语219个、英文程度级别词语170个。

(5)知网主张词语词典(HowNet)。该词典主要分为中文和英文两部分,包含中文主张词语38个、英文主张词语35个。

(6)Opinion Lexicon。该词典共包含了针对商品属性的2006个正向情感词与4783个负向情感词。此外,它还包含了拼写错误、语法变形等相关信息。

在评论数据的情感分析中,任何一种情感词典都不是完整和通用的。因此,需要我们进行情感词典的扩充。其中SO-PMI算法、SO-SD算法可以用于情感词典的扩充:

(1)情感倾向点互信息算法(SO-PMI)。通常用点互信息(PMI)这个指标来衡量两个事物之间的相关性,两个事物同时出现的概率越大,其相关性越大[7]。

两个词语word1与word2的PMI值计算公式为:

P(word1,word2)表示两个词语共同出现的概率,p(word1)与p(word2)分别表示两个词语单独出现的概率;

情感倾向点互信息算法(SO-PMI)是将PMI方法引入计算词语的情感倾向中,其基本思想是:分别选取一组正向种子词Pwords和一组负向种子词Nwords。每个种子词必须具有明显的倾向性。计算候选情感词word和Pwords的点互信息与word和Nwords的点互信息的差值,根据该差值判断词语word的情感倾向。

计算公式为:

阈值为α:

SO-PMI(word)>α;为正面倾向,即褒義词;

SO-PMI(word)=α;为中性倾向,即中性词;

SO-PMI(word)<α;为负面倾向,即贬义词。

(2)SO-SD算法。语义距离SD用于描述两个词的相似程度,可用词向量的余弦距离来表示,并且SD值越大,表示两个词越相似,值越少,两个词的语义相差越远;情感倾向语义相似度算法的基本思想是:分别选取一组正向种子词Pwords和一组负向种子词Nwords。每个种子必须具有明显的情感倾向性。计算候选情感词word和Pwords的语义距离与word和Nwords的语义距离的差值,根据该差值判断词语word的情感倾向[8]。

计算公式为:

根据实际问题选取阈值α:

SO-SD(word)>α;为正向情感词;

SO-SD(word)=α;为中性词;

SO-SD(word)<α;为负向情感词。

以SO-SD算法说明情感词典扩充的步骤:

1)遍历语料库中的每一个词word,如果该词在情感词典中,则选择语料库中的下一个词。

2)如果词word不在情感词典中,则根据词向量的余弦距离选取与词word语义最相近的前m个词。

3)如果m个词中包含情感词典中的词,则计算词word的SO-SD值。

4)如果SO-SD值大于所设定的情感阈值,则将word添加到正向情感词中;如果SO-SD值小于所设定的情感阈值,则将word添加到负向情感词中;如果SO-SD值等于所设定的阈值,即word为中性词,则不添加到情感词典中。

5)重复以上步骤,直至遍历完语料库中所有的词。

2.7  计算情感强度

根据对评论数据处理和聚类的结果,分别计算各个类中包含的词基于扩充后的情感词典的情感强度,即可用于后续的研究。

3  结  论

本文对文本情感分析进行了研究,总结了基于不同粒度和不同研究方法下文本情感分析的分类以及发展现状。又着重介绍了情感分析在商品评论数据中的应用,并且提供了一种计算情感倾向和情感值的一般思路,对于后续类似的研究有一定的参考作用。

参考文献:

[1] 吴应良,黄媛,王选飞.在线中文用户评论研究综述:基于情感计算的视角 [J].情报科学,2017,35(6):159-163+170.

[2] 朱少杰.基于深度学习的文本情感分类研究 [D].哈尔滨:哈尔滨工业大学,2014.

[3] 李青松.文本情感分析研究 [J].现代计算机(专业版),2019(4):21-25.

[4] 冯俐.中文分词技术综述 [J].现代计算机(专业版),2018(34):17-20.

[5] Suleman K,Vechtomova O.Discovering aspects of online consumer reviews [J]. Journal of Information Science,2015,42(4):492-506.

[6] Marneffe M-C D, MacCartney B, Manning C D. Generating typed dependency parsers from phrase structure parses [C].Portoroz:Proceedings of the fifth international conference on language resources and evaluation,2006:449–454.

[7] 姜伶伶,何中市,张航.基于Good-Turing平滑SO-PMI算法构建微博情感词典方法的研究 [J].现代计算机(专业版),2018(10):15-20.

[8] Bai X,Chen F,Zhan S B. A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec [C]//Big Data (BigData Congress),2014 IEEE International Congress on. S.l.:s.n.,2014:358-363.

作者简介:张明辉(1998.03-),男,汉族,安徽人,本科在读,研究方向:数据挖掘。

猜你喜欢

在线评论自然语言处理情感分析
基于组合分类算法的源代码注释质量评估方法
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
在线评论对电子商务商品销量的影响研究
面向机器人导航的汉语路径自然语言组块分析方法研究
在线评论对消费者购买意图的影响研究
文本观点挖掘和情感分析的研究
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析