情感分析中评价词与情感强度的确定
2018-03-27刘依欢
刘依欢
摘 要: 文本情感分析的主要任务是识别和判断文本中的情感单元,情感单元既包括直接决定了文本情感倾向的评价词,又考虑了对情感倾向有间接影响的上下文。本文提出了评价词的确定原则,从不同的角度对评价词进行分类,并论述了影响文本情感强度的语言因素,包括词汇、语境、固定搭配、语法手段、标点符号和表情等,试图将文本中带有情感倾向的成分识别出来,提高文本情感分析的效果。
关键词: 情感分析 评价词 情感单元 语言因素
1.情感分析
文本的情感分析又称意见挖掘,主要任务是对带有情感色彩的主观性文本进行分析、处理、归纳和推理,情感色彩是指文本体现出来的评价者的立场、态度和情感倾向。与词语的情感色彩分类相同,文本的情感色彩(倾向)也分为褒义、贬义和中性三类。褒义是指评价者对评价对象持积极、正向、赞扬的态度,贬义是评价者持消极、负面、贬斥的态度,中性是评价者持中立态度。
在文本情感的处理过程中,为了方便表达和计算,引入极性和极值这两个概念。这里的极性是指情感倾向的性质,即上文所说的正面、负面和中性,极值是对极性的赋值。在不考虑强度的情况下,当文本极性为正向时,极值为1,极性为负面时,极值为-1,极性为中性时,极值为0。
以书面形式呈现的文本,主要依靠带有情感倾向的词语来表达情感,而非借助眼神表情等身体语言,也即情感词语是评价者表达情感的主要依据。这里所说的情感词语是指情感评价单元,评价单元是以情感词为核心的,长度更长的,带有评论者主观情感的语言单位。它既包括直接决定文本情感的评价词,也考虑了间接影响情感倾向的上下文。在比较简短的文本中,评价词周围没有影响情感倾向的上下文,这时评价词就是评价单元,因此这两个概念并不是整体和部分的关系,它们有时是相等的。
在分析文本的情感倾向和强度时,关键是识别和判断文本中的评价单元。目前学界和工业界大都采用基于统计的方法,研究了各种算法和模型,在识别评价对象、属性尤其是情感单元方面取得了不错的成果。但是现有系统对情感单元的语言特点研究得较少,因此本文将以汽车评价文本为基础,从语言学的角度探讨如何确定评价文本中评价词和情感单元,并分析和总结影响文本情感强度的因素。
2.评价词的确定及分类
2.1评价词的确定
情感分析的难点是确定文本中的评价词及影响情感极性强度的上下文,以及基础上进行的情感分析。汽车评价文本中的评价词是指体现了评价者对汽车某实体某属性的态度、倾向的词,如“好、舒服、满意、讨厌”等。
由于分析的层面不同,在具体的文本语境中,某些本身并无情感倾向的词在文本中表现出了明显的情感倾向,文本层面的情感词比词汇层面的情感词范围更广。比如“高”“低”这类词从词汇角度来说,它们本身并无色彩义,但是当置于具体语境,与实际的属性组合时,词语就产生了相应的情感倾向,被处理成情感单元的评价词。这一过程的实现依赖于社会常识,比如“汽车油耗高”,根据日常生活的常识,油耗越高,燃油越多,说明汽车性能低消耗大,是与评价者期望相反的消极表现,因此极值为-1。
确定文本评价词的原则是,直接决定评价者对评价对象态度的词即为评价词。需要注意的是在文本中,直接决定文本情感的成分有时也可能是词组,比如“还需努力”、“比不上其他车”等,这些词组找不出具体的评价词,与一般的情感单元有所区别。
2.2评价词的分类
我们可以从词性、评价对象、极性变化等角度对评价词进行分类,通过分类,能够更加全面了解评价词,准确地找出文本的情感单元。
(1)从词性角度分类
根据词性可以将评价词大致分为三类,形容词性情感词、名词性情感词、动词性情感词。通过分析具体的汽车语料,发现形容词性情感词的比重最高,常见的形容词性情感词有“不错”“好”“大”“舒服”等。名词性情感词的比重较小,常见的名词性感情词为“亮点”“弊病”等,有时名词性的情感词既能体现评价者的态度,也能帮助判断文本所评价的属性,这时的评价词也是属性词,比如“异响”,即体现了评价者消极的态度,也标明了文本评价的属性(汽车某部件的声音)。动词性情感词比名词性情感词更多一些,常见的动词性情感词有“符合”“喜欢”“牺牲”等。形容词性情感词大都是对属性的直接修饰,动词性情感词则更侧重评价者的感受。
(2)从对象角度分类
评论文本最完整的情感表达是评论者评价实体属性后给出自己态度,但是观察语料后发现,有些文本只是从实体的属性出发,给出与属性相关的具体评价,但没有出现评价者的直接态度。有些则从评论者的感受出发,只给出自己的感受和倾向。省略评论者的态度或者属性的修饰词后,仍然能判断出评价者的态度,原因与上文提到的本身无情感色彩的词在语境中能够体现评价者的态度一样,即社会常识背景的支撑使我们能够将情感信息补充完整。如“最满意的一点性价比”和“性价比当时上市的时候没有优惠多少”。根据这一角度,可以将评价词分为具体评价词和直接态度词两类,具体评价词多与属性直接相关,直接态度词则与评价者态度相关,以心理动词为典型。
(3)从极性变化角度分类
情感词的极性并不都是固定的,从这一角度出发可以将情感词分为两类。一类是情感倾向固定的词,如“好”“不错”“差”“满意”“喜欢”等,我们将其称为静态词,另一类为情感倾向不固定,词语的极性只有在具体语境中才能确定的动态评价词,如“高”“重”“大”“轻”等,我们称之为动态词。“汽车油耗高”“汽车性价比高”,这两个例子评价词都是“高”,但是极值却相反。對于这两类词,在建立情感词典时需要尤其注意,目前流行的做法是分类建立动态和静态词典,相对于静态情感词来说,动态情感词由于涉及到更多的社会常识和领域知识,建立难度较大。
3.情感单元与极性强度
3.1情感单元
情感单元除了直接决定文本情感倾向的评价词外,还包括能影响情感强度和极性的上下文。使用公式Ui=<ei, wi,fi>(i=1,3,4..)来表示情感单元,其中Ui是情感单元,wi是评价词,ei和fi分别是上文、下文词语,关于ei和fi的长度,从理论上来说是没有上限的(也即情感单元的长度没有上限),文本中除了评价的实体和属性,所有的词语都可以作为评价词的上下文。
上下文按照对文本情感的影响按程度可分为两类,第一类是改变极性的否定副词以及表示否定的固定搭配,如“说不过去”“比不上”等,第二类是影响极性强度语言因素,比如大部分程度副词、感叹词及文本中的其他成分。因此即使是不考虑情感强度的文本情感分析,只识别出评价词也是不够的,不能忽略评价词的上下文对整个文本的情感倾向的影响。
3.2情感强度
极性强度是对情感分析的更高级的处理,它不仅需要分析文本的极性,还要分析情感的强烈程度。对于考虑情感强度的文本倾向性分析,极性赋值的情况相应地变得更复杂。电子商务平台多采用星级评定(通常是5星)的方式来呈现用户对产品的情感强度,现有的情感自动分析系统则采用数值赋值,取值的范围在-3-3之间。负值仍然代表负面情感,正值代表正面情感,数值越大情感越强烈,0代表中立态度。
计算情感强度的方法主要有两种,一是基于规则的方法,根据语感人为地规定影响情感强度的因素的分值,识别出所有的上下文后,进行数值计算。这种方法比较机械,对于词典的依赖也较高,而且根据语感得到的强度值主观性比较大。另外一种是统计与语义相结合的方法,首先让计算机学习已经标注好情感强度的文本,抽取文本中影响情感强度的上下文及其强度值,再根据语义相似度,得到与这些上下文相似的成分的强度值。这种方法相对来说颗粒度更细,而且客观性较强,但也忽略了语义之间的不平等性,影响了计算结果的准确性。
4.影响极性强度的语言因素
文本中影响情感强度的因素繁复多样,现有的计算文本情感强度的情感分析系统对这些因素的处理比较简单粗糙,大都将重点放在了词汇方面,对于语境、固定句式、语法手段、标点、表情等方面的关注并不多。忽略这些因素可能会丢失文本中有价值的情感成分,影响强度计算的准确度。下文将详细地分析这些因素,解释它们影响情感强度的原因,并说明在计算时考虑这些因素的必要性。
4.1词汇方面
影响文本情感强度最主要的因素是构成文本的词汇,按照不同的词性阐述词汇对于极性强度的影响。
(1)副词
副词是影响文本情感倾向最典型的因素,根据语义范畴将副词分为四类,分别为否定副词、程度副词、语气副词和范围副词,其中否定副词和程度副词对于极性强度的影响最为明显。
否定副词可以直接改变极值的正反,但并不是简单地变成相反的极性,极性的强度也会发生变化。如“便宜”和“不便宜”的强度绝对值并不相等。对于这一现象的解释是,否定词“没有”“不”对语义的影响比较复杂。在语义的情感极性方面,否定副词的最主要的功能是使极性变得相反,如“不满意汽车的外观”,另一种可能是不改变极性,即否定冗余,如“不要太便宜”,虽然出现了否定副词,但是文本的情感倾向还是没有改变,仍然表达了正面积极的态度。类似的,在极性强度方面否定副词的功能也比较复杂。根据语感,“便宜”和“贵”这两个评价词极性相反,强度相等,再比较“不便宜”和“贵”,得出“贵”表示的价格比“不便宜”的高,这样就推出“便宜”和“不便宜”在强度上不相等。同等条件下,消费者更能接受价格低的产品,那么假设“贵”的极值是-1,“不便宜”的极值应该是介于-1到0。
现有系统对程度副词的处理方法是根据强度的差异,将其细分成四个等级,再给这四个强度分配不同的值,进行情感计算。表格1对程度副词分级,并给出每一级别的具体副词例示(董丽丽,2014)。
(2)形容词
在评价文本中,形容词在多数情况下是情感单元的核心,即评价词。形容词在确定极性时至关重要,此外形容词对举使用时,也能够体现评价者的情感强度。比如前面说到的“不错”和“完美”。再如“便宜”和“实惠”,虽然这组词语义相近而且极性一致,但是在极性强度上,后者明显强于前者。相较于副词,形容词对强度的影响表现并不是很明显。
(3)动词
除了带有明显情感倾向的动词,也就是直接态度词,如“喜欢”“满意”“肯定”之外,能愿动词如“可以”“能”也能体现评价者的态度,影响情感强度。这类词的语义功能主要是表达评价对象具备某种属性或者能力的肯定。如果文本中出现了能愿动词,也没有否定副词等能够改变情感极性的词的话,极值是正值的频率远远高于负值的频率。一般的动作动词,如“符合”“接受”“优化”“看中”等,这些词本身的语义中就体现了正面积极的情感,因此当这些词出现在文本中时也能够帮助判断情感倾向,至于情感强度,相对而言影响比较微弱。
(4)名词
名词对极性的影响与一般的动作动词类似,主要是作为判断评价文本情感倾向的辅助依据,对于情感强度的影响并不明显。如“缺陷”“异味”“通病”“亮点”这些词本身的语义就带有消极负面的含义,因此出现在文本中,体现评价者对于评价对象的态度。
(5)语气词
语气词与语气副词一样,通过语气的强弱来辅助情感强度的表达。语气词分为四大类,第一类陈述语气,如“吧”“也好”“罢了”“着呢”等,这类语气词通常表达的是评价者妥协或者无所谓的态度,通常能够削弱情感的强度;第二类疑问语气,如“吗”“呢”等,这类词在表示反问时对情感影响才体现出来;第三类是祈使语气,如吧、了、啊这类词结合特點句式一起使用时才能对情感强度产生影响;最后一类是感叹语气,感叹词“啊”本身就是加强语气的叹词,感叹语气结合标点符号如叹号,两者结合使用能够使文本表达的情感强度更加强烈。
(6)叹词
叹词本身的功能,即用来表示感叹。当评价者对评价对象的态度强烈时,通常会使用叹词辅助表达情感,因此情感单元应该要包括文本中出现的叹词。
(7)拟声词
汽车评价文本中出现拟声词的频率比较小,在描述评价对象的属性(通常是声音)时,可以使得属性具体化,也起到了加深情感强度的效果,如“汽车异响”和“汽车噼里啪啦的响”后者更加的感官化,强度更强。
(8)关联词
除了实词外,虚词也会影响文本的情感强度,其中作用比较明显的是连词。连词的功能是连接句子成分,以显示成分之间的逻辑关系。虽然不具备实词表义的功能,但是具体的逻辑关系能够体现成分之间的语义关系。如表示递进关系的“不仅……,而且……”这组关联词的使用显然会影响前后两句语义情感强度值的分配,表示递进关系的“虽然……,但是……”对文本情感的影响不仅体现在强度上,而且能够作为判读极性正负的辅助依据,比如“这台机器虽然价格高,但是性能很好。”这里有一个对比和偏向,评价者对于性能的倾向更加明显,所以我们在计算时,分配更高的强度值更加合理,而且前后两句的转折在情感上体现在两句的极性值是相反的。表格2根据连词的含义进行分配强度的表格(董丽丽),这种分配结果基本符合语感。
虽然目前的情感分析系统是以词汇为重点,但也只关注副词、形容词、动词、关联词这些对极性强度影响比较明显的因素,对名词和语气词等的关注相对少一些。但是对比“可以。”和“可以啊!!!”“质量还可以”以及“质量还可以吧”,这两组例子中,第二句由于使用了语气词,文本的情感强度显然发生了变化。在计算时,忽略这些因素可能会影响情感强度计算的精确度。
4.2语境
这里所说的语境不仅是指情感单元中评价词的上下文,也指评价文本的评价对象和属性。情感单元内的上下文前面已经论述得比较详细了,因此这里的语境主要强调的是评价单元外的上下文。上文提到过,对于动态评价词,其情感极性会因为评价对象和属性的不同而不同,比如“耗能高”和“性价比高”,除了动态词外,某些静态词在评价不同的对象或属性时,情感强度也会不同。例如“不错”,在评价“价格”和“外观”时,两者所表達的情感强度不同。原因可能是,对属性“价格”来说,比“不错”强度更加强烈的词语比较有限,情感能够增强的可能性比较小,但是对于“外观”来说,“漂亮”“完美”等都是比“不错”情感强度更加强烈的表达,情感能够加深的空间还很大,因此前者的强度值要大一些。
4.3固定句式和搭配
文本中某些固定句式在选择语境时,会体现出对某一固定极性的倾向,比如“到底是”,通常出现在极性为正的句子中,如“到底是苹果的手机,分辨率很高”。而“摆在那里”“说不过去”“还谈什么”“竟然还”,这些固定搭配通常出现在极性为负的句子中,如“毕竟价格摆在那里,质量好不到哪里”。
造成这种现象的原因与语义韵有关,这里的语义韵是指情感在语篇中流动所形成的语篇情感氛围,某些原本不带情感的词出现的语篇情感氛围比较固定,由于长久受到这种氛围的影响,这些词似乎也体现出一种情感倾向。由于这类词依赖于带有确定情感的评价词,所以它们一般都不会独立的出现在评价文本中,只是作为情感单元的上下文影响文本情感的强度。
4.4语法手段
这里要说的语法手段主要是重复,使用重复通常能够加深强化情感。重复可以是词汇的重复,也可以是句子的重复,标点的重复,更细致的还可以是词汇内部的重复(重叠)如美美的,漂漂亮亮。由于收集的是网络评价文本,文本比较偏向口语,因此在文本中会出现较多的重复。
4.5标点
上文中提到感叹语气搭配感叹号,能够加强评价者的态度。除此之外省略号、句号的使用和重复使用也能够影响极性强度。尤其是针对网络文本,省略号的使用和句号的重复使用都能够体现评价者的情感倾向。评价者有时重复的使用句号或者省略号来表达无奈或者无语的情感,这能够作为判断文本极性的辅助依据,同时也加深其贬斥的态度,会影响极性强度。
4.6表情
网络文本的一个特点是经常使用辅助表达感情的表情和表情包,出现在文本的中表情符号或者表情包能够帮助我们理解说话者的态度和感情,在一定程度上能够影响极性强度,当评价者表达对一件商品的不满时,可以使用生气,暴怒等表情,这种通过表情体现的情感强度上的加深,应该在文本情感分析中加以区别。
语境、固定搭配、语法手段、标点符号、表情这些因素与词汇因素相比,它们在文本中表现地比较隐性,或者不属于典型的语言因素,因此在现有的情感分析系统中通常被忽视,通过分析我们可以看到,这些因素同样能够产生明显的影响。
5.小结
本文论述了情感单元中评价词的确定原则,从三个不同的角度对评价词进行了分类。并研究了作为情感单元中影响情感强度的上下文,除了分析现有的情感分析系统比较关注的词汇因素外,本文还详细地分析了语境、固定搭配、语法手段、标点符号和表情等其他因素对文本情感强度的影响。
参考文献:
[1]周咏梅,杨佳能,阳爱民.面向文本情感分析的中文情感词典构建方法[J].山东大学学报(工学版),2013(4):27-33.
[2]郑丽娟,王洪伟,基于情感本体的在线评论情感极性及强度分析:以手机为例[J].管理工程学报,2017(2):47-54.
[3]杜嘉忠,徐健,刘颖.网络商品评论的特征——情感词本体构建与情感分析研究[J].现代图书情报技术,2014(5):74-81.
[4]张紫琼,叶强,李一军.互联网商品评论情感分析研究综述[J].管理科学学报,2010(6):84-96.
[5]郗亚辉.产品评价中领域情感词典的构建[J].中文信息学报,2016(5):136-144.
[6]董丽丽,赵繁荣,张翔.基于领域本体、情感词典的商品评论倾向性分析[J].计算机应用与软件,2014(12):104-108.
[7]熊祖涛.基于Web文本信息抽取的微博舆情分析[D].西安:西安科技大学,2012.
[8]杜伟夫.文本倾向性分析中的情感词典构建技术研究[D].哈尔滨:哈尔滨工业大学,2010.
[9]吴文婷,刘雪芹.冗余否定格式“不要太A”试析[J].文教资料,2009(7):41-43.
[10]靳俊杰.文学语篇中情感词汇的韵律结构研究[J].长春大学学报,2017(11):35-40.
[11]王雅刚,刘正光.语义韵研究的理论增长点-构式语法视角[J].外语教学,2017(6):18-23.
[12]黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社,2011.