APP下载

文本细粒度情感分析综述

2021-07-19王海燕陶皖余玲艳王鸣鹃

关键词:细粒度分类情感

王海燕,陶皖,余玲艳,王鸣鹃

(1.安徽工程大学机械工程学院,安徽芜湖241000;2.安徽工程大学计算机与信息学院,安徽芜湖241000)

随着大数据时代的到来,数据密集型已成为科学发现的“第四范式”[1].受大数据的影响,当今社会又被称为信息社会,其最主要的一个特点就是信息量的持续增加.在社交媒体这一平台上,用户的身份正在从信息的接受者向生产者转变,由用户自身生成的社交媒体内容正在呈指数性增加.人们几乎每天都在互联网上与他人分享他们的个人意见与偏好,这就导致了互联网上如博客、BBS、电商网站等充斥着对产品、人物、事件的各种评论.这些海量的文本信息蕴含了用户的各种情感或态度,如喜、怒、哀、乐、赞成、反对等,且极有可能对后续的关联用户产生了一定的引导和影响,故其包含了大量的有用信息和商业价值.而仅仅通过人工的方法来获取和分析这些信息费时费力,故需要用计算机来帮助我们自动化的获取和分析信息,由此产生了情感分析技术[2].

情感分析是信息检索、自然语言处理、机器学习、语言学的交叉研究领域.其主要的研究对象是存在于互联网中的海量文本,通过对这些文本信息进行分析,可以为潜在用户提供更好的购买决策信息.同时,企业也急于了解市场的偏好信息,来改善他们的产品.政府也渴望了解公众对他们政策或者演讲的后续反应.因此,情感分析是当前科学研究最热门的研究领域之一[3].从2000年开始,情感分析就得到了众多领域学者的广泛研究,不但是计算机学科内最火的研究问题,也在管理学领域得到了广泛地研究.在不同的研究领域中,学者对情感分析所关注的问题和目标问题的研究角度可能有所不同.在管理学领域里面,研究者们往往更关注的是应用领域的研究,比如通过挖掘消费者的评论信息来提升商品的销售量.而在计算机领域里,学者的研究往往是设计更加有效的算法或者模型来自动化的从评论文本中抽取出观点信息[4].

从处理文本的层次粒度来看,情感分析可以分为粗粒度的情感分析和细粒度的情感分析,其中粗粒度的情感分析又分为篇章级情感分析和句子级情感分析,细粒度的情感分析则是对目标产品的属性进行情感分析,故又称为属性级情感分析[5].随着研究的深入,粗粒度的情感分析无法满足人们更加细粒度的情感分析要求,当前的情感分析已逐步从粗粒度情感分析向细粒度情感分析转变.本文依据近年的文献,对情感分析的理论研究进行了回顾,对不同粒度层次的情感分析进行概述,主要对细粒度情感分析的研究任务、方法、难点等进行综述.

1 情感分析理论研究的回顾

1.1 情感分析

《心理学大辞典》中对情感的定义是:“情感是人对客观事物是否满足自己的需要而产生的态度体验”[6].情感是人们对于问题及其属性所表达出来的观点、情绪、意见和态度.在情感分析的任务中,情感一词等同于观点、情绪、意见和态度,计算机类的研究者并不太在意情感和观点的差别,这是因为情感分析本身并不是从语言学领域诞生的,而是从计算机领域产生的,因此很少会有研究者去关注二者的区别,从字典中的定义来看,观点一般指的是一个人对一件事物的看法.情感是客观事物在人脑中的直观性反应.因此,二者的相同之处非常多,从计算机科学角度来看,情感就等同于观点.因此情感分析,又称为观点挖掘、意见抽取、情绪分析、主观性分析[7].

情感分析已经成为了自然语言处理中最火热的细分研究领域之一.在当前的大数据时代下,它已经成为了计算机科学、管理科学和社会科学都广泛研究的课题.

Yi等[8]认为情感分析就是对文档的主题进行情感分类.Wilson等[9]认为提高情感分析结果的最佳方法是如何提高系统去识别中性情感的能力.Saif等[10]认为情感分析的任务是分析公众对于产品和公共事件的感受.

1.2 篇章级情感分析

篇章级情感分析是情感分析中的最简单和浅显的层次.它的前提假设是一篇文章里面只有一个实体或商品且其只包含一种情感,即正面的或负面的情感[11].它的目标是对整篇文章进行极性判断,该研究公认开始于Pang[12]和Turney[13].从历史研究内容来看,篇章级情感分析主要是用词典法和机器学习的方法.

Pang使用了支持向量机(SVM)、朴素贝叶斯(Naive Bayes)、最大熵(ME)三种不同的有监督学习方法来对电影的评论数据来进行极性分类,实验证明SVM要比ME和NB的效果要好,且在构造特征上bnigram并不比unigram的效果好,词的位置对最终分析的结果并没有明显的影响.

Turney提出了基于无监督的学习方法来对篇章级文档进行分类,他首先将形容词或者副词的短语抽取出来作为候选情感词,再计算候选情感词和“excellent”的点互信息值(point mutual information,PMI)减去候选情感词和“poor”的点互信息值来计算情感值倾向(sentiment orientation,SO),如式(1)、式(2)所示

PMI>0,word1和word2相关,且PMI值越大则相关性越强.

PMI=0,word1和word2独立.

PMI<0,word1和word2不相关,是互斥的.

SO-PMI(word1)>0,为正面倾向,褒义词.

SO-PMI(word1)=0,为中性倾向,中性词.

SO-PMI(word1)<0,为负面倾向,贬义词.

文献[14]基于单层标注级联模型的篇章情感倾向分析,提出了一种级联模型来对文档进行情感分析,通过将句子级的情感分析引入到篇章级情感分析并结合支持向量机来进行篇章级情感分析,较基准方法有了一定的提高,证明了细化到句子级的情感分析会有助于提高篇章级情感分析的准确率.

篇章级的情感分析提供了一篇文章的整体倾向,然而对于新闻、产品评论等文本来说,由于其表达的情感一般都是多样的,且评价对象也往往是多元的,此时篇章级情感分析从分析粒度上来说就显得较为粗糙,不能更好的表达出情感倾向.因此,研究者开始聚焦于句子级情感分析.

1.3 句子级情感分析

句子级情感分析的层次粒度较篇章级来说有所提高,是将整个文档以句子为情感单元进行分割,其目标是挖掘出观点句中所表达出来的情感倾向,即判断该句子属于正面、负面或中性的情感.句子级情感分析和篇章级情感分析的情感分类的方法大致相同,因为在对句子级情感分析时就是将其当成短文档,但是在篇章级情感分析中大多忽略中性情感,但是在句子情感分析中是无法忽略的.句子级情感分析有如下潜在的假设:①只有主观句包含有情感.②一个句子里只有一种情感[15].因此,句子级情感分析的任务分为如下两步:①句子主客观分类,即判断目标句是否包含有情感信息.②识别句子中的情感倾向,即判断句子是正面观点还是负面观点[16].Wiebe等[17]使用了无监督的机器学习方法来对句子进行主客观分类,他们通过事先构建的种子词,然后结合相似度来寻找跟种子词相似的词,这样的词有可能就是包含主观信息的词.Yu等[18]通过将语句相似度和朴素贝叶斯结合起来对句子进行主客观分类.语句相似度的假设前提是主观句与其他主观句之间在语义上的相似度要大于主观句和客观句之间的相似度,他们用SIMFINDER系统来计算句子的主观性,就是用短语和WordNet中的义项来计算句子相似性,在朴素贝叶斯分类时,他们用unigram、bigram、trigram、词性、词性级数等来构建特征来进行分类.Wiebe和Riloff[19]使用句法模板作为规则来进行句子主客观分类.Pang[20]提出了基于最小割的分类算法来对句子进行主客观分类,采用局部标签一致性结合传统的分类器来计算句子主观性的概率.Scheible等[21]采用了相似的技术来进行观点句和非观点句的分类,因为并不是所有的主观句都包含有情感,客观句有时候也有可能含有情感倾向.对比传统的句子级情感分析第一步任务有了很大的提高.王鸽[22]指出:区分出句子中的主观从句和客观从句并划分主观性强度将有助于对句子进行主客观分类.

主客观分类之后的任务就是对句子进行情感极性判断,文献[18]在Turney[13]的基础上,扩大了种子词集合并用修正之后的对数似然率替代PMI来确定词语的情感倾向,再求得词语的平均似然值来确定句子的情感倾向.石媛媛等[23]利用词典法来对句子进行情感倾向分类.Gamon等[24]基于EM算法,并用朴素贝叶斯分类器对句子进行情感分类.Socher等[25]使用了基于递归神经张量网络的深度学习方法对句子进行情感分类,因该方法可以处理观点句中的否定现象,因此跟传统的词袋模型相比效果提升很多.

在句子级情感分析的背景下,它并不能识别观点所评价的实体和其对应的属性,而这在实际应用中是需要解决的关键问题.且在实际应用中文本的复杂性较高,评价单元也较多,就一个句子整体来说可能是正面的,但是其内部各个属性的观点却不一定都是正面的.例如:“小米8屏幕像素很好,性价比高,拍照效果也不错,就是电池不耐用,总体来说还是很好的,推荐购买!”.从整句话的情感分析来看,评论者对该手机的评价是赞扬的,但对于电池这一属性的评价却明显是负面的.粗粒度的情感分析无法挖掘出句子中每个属性及其对应的观点.因此,需要更加细粒度的情感分析才能挖掘出句子中真实全面的观点.且在粗粒度情感分析的假设下,客观句是没有包含情感信息的句子,但由文献[21]的研究可以发现,客观句有时候也是包含情感要素的.例如:“这个手机每天动不动就自动重启.”这句话我们可以看到它明显表达出了对手机的负面情绪,而在粗粒度情感分析的背景下,对于包含情感的客观句就直接舍弃了,这就对情感分析造成了误差,因此我们需要更加细粒度的情感分析.

1.4 细粒度情感分析

细粒度情感分析又称为基于属性的情感分析.篇章级和句子级情感分析都无法确切知道用户对于产品的某个属性是喜欢的或者是不喜欢的.如我们仅仅知道“我喜欢华为P20.”这句话中包含有积极情感,但是这对于今天的实际应用来说是远远不够的.我们更需要知道的是用户对华为P20手机各个属性的情感信息,例如对“拍照效果”“电池”“运行速度”等不同属性的观点.而对于“手机拍照效果不错,就是有时候会卡顿.”如果从句子级情感分析来看,你很难去判断这句话的整体情感倾向,因为他赞扬了“拍照效果”,但是吐槽了“系统”.为了得到更加细粒度的分析结果,我们必须要基于属性进行情感分析.石媛媛等[23]将观点定义为一个五元组(e,a,s,h,t),其中,e是评论句中的实体,a为实体e的某一个属性,s为实体e中属性a的情感,h是评论句发布者即观点持有者,t是评论句的发布时间.以例句:“小米8屏幕像素很好,性价比高,拍照效果也不错,就是电池不耐用,总体来说还是很好的,推荐购买!”e即为小米8手机,a为“屏幕”“拍照”“电池”这三个属性,s为对这三个属性的评价信息“很好”“不错”“不耐用”.篇章级和句子级的情感分析在对含有多属性的评论句时,不能满足人们的日常需求.在这一情况下,如何抽取出句子中的属性词、情感词极其相互之间的关系就显得尤为必要,整体为积极情感的句子不代表评论者对于句子中包含的所有评价对象和属性都是正面的评价,因此,我们需要对评论句的每一个属性都进行情感分析.刘丽等[26]在基于CRF模型的基础上,通过剪枝的方法来去除掉句子中的无关评价和情感词,提高了评价单元抽取的结果.李盛秋[27]将评价属性和观点词的抽取看作是序列标注的任务,使用循环神经网络的序列标注方法来确定评价属性和观点词.李慧等[28]指出细粒度的情感分析可以对产品的评论文本进行更加深入的分析,对评论文本进行更加细粒度的情感分析可以提取出更加有价值更加细粒度的情感信息.

目前对基于属性的情感分析已经取得了一些成果,主要研究的内容是特征抽取、情感倾向分析、主客观性识别等.但是严重缺乏对隐式特征和隐式评论的挖掘.如评论句:“小米MAX真的伤不起,太重了!”这句话没有出现“重量”这个属性,但是我们明显知道该句表达出了对小米MAX手机重量的负面情绪.文献[29]通过对从互联网爬取的评论句进行统计后发现,在全部的评论句中至少有30%的隐式评论句,且在每条隐式评论句中至少有一个隐式特征包含在内.由此可见,隐式属性及情感在评论句中是不能被直接忽略的.在基于属性的情感分析中,对隐式产品特征和情感的挖掘,可以获得更加精准的关于该产品的情感信息,为后续的决策提供更加全面和精准的参考信息.此外,在评论句中可能还有客观句表达情感信息的情况.如上文1.2所述,在细粒度情感分析的视角下,对于客观句的情感信息我们不能直接舍弃.Benamara等[30]在进行主客观分类任务时,将句子分为了四类,即S、OO、O、SN.其中OO就表示客观评论句中暗含了情感信息的一类.因此,对隐式情感和暗含情感信息的客观评论句挖掘可以提高情感分析的准确率,进而提高后续应用的效率.

2 细粒度情感分析的研究任务和方法

2.1 细粒度情感分析的主要任务

Zhang等[31]认为细粒度情感分析的任务包括6个.

(1)实体抽取,

(2)属性抽取,

(3)观点持有者抽取,

(4)时间抽取,

(5)属性情感分类,

(6)生成观点五元组.

其中属性情感分析和属性抽取这两个任务近年来受到了极大的关注,成为了研究的热点问题,因此本章主要介绍这两个任务的研究现状.

2.2 属性情感分类

与篇章级和句子级的情感分类相似,属性情感分类一般也是两类方法:基于词典的方法和基于监督学习的方法.但是在基于属性的情感分类时需要仔细研究评论句中的评价对象,因此与粗粒度情感分类相比,又有所不同.

2.2.1 基于词典的分类方法 细粒度情感分析中基于词典的方法与粗粒度情感分析中有很大的不同,主要的差异在于细粒度情感分类时需要考虑观点句的评价对象,而在粗粒度情感分类时不需要考虑.一般有两种方法来解决该问题:①用情感聚合函数来计算情感词和实体或属性在句子中的距离.②计算情感词的作用范围来判断某一情感词是否作用于该实体或属性.Ding[32]基于词典法采用了四个步骤来对属性级情感进行分类.

(1)标记情感词.这一步骤是在句子中寻找每一个情感词,并判断其情感倾向,每个积极的情感词得分+1,消极得分-1.如评论:“华为P10手机的续航不是很好,但是电池很耐用”.由于“好”和“耐用”都是表达积极的情感词,通过该步骤之后句子变为:“华为P10手机的续航不是很好[+1],但是电池很耐用.”

(2)处理情感反转词.情感反转词指的是那些可以改变情感倾向的词语,常见的主要是否定词:不、不要、不是、没、没有、无等.在上述例句中,由于含有否定词语“不是”,在该步骤处理后,该句的情感分析结果变为“华为P10手机的续航不是很好[-1],但是电池很耐用”.

(3)处理转折词.句子中的转折词往往会改变句子的情感倾向,中文中常用的是“但是”、“然而”等.包含转折词的句子在处理时有如下假设:“转折词前与转折词后的情感倾向往往是相反的”.因此,若转折词一边的情感倾向没有确定时,而另一边的情感倾向已经确定了,则可以基于该假设来判定另一边的情感倾向.经该步骤处理后,例句变为“华为P10手机的续航不是很好[-1],但是电池很耐用[+1]”.与此同时,我们可以很轻松的推断出“耐用”是正面的情感词.

(4)汇总情感得分.最后一步是使用情感聚合函数来计算情感得分.进而得出评论句中对每个属性的情感倾向程度.假设句子S含有M个属性{a1...am},情感倾向集合{se1...sen}以及通过上述步骤计算得出的情感得分.则句子S中属性ai的情感倾向计算公式为

式(3)中:sej是句子S中的一个情感倾向表达,dist(sej,ai)表示句子S中属性ai和情感倾向表达sej的距离,sej.SO是sej最终的语义情感得分,分母表示距离属性ai越远的情感倾向表达对该属性的贡献越低.最终得分为正,则句子S中属性ai的情感是正面的,最终得分为负,则句子S中属性ai的情感是负面的,否则就为中性.该方法较文献[23]相比效果更好.

在使用词典法进行分类的时候,一个最重要的问题就是情感词典的领域适用性往往很差.如“快”这个字,在描述操作系统的响应速度的时候很明显是褒义词,但是在描述电池耗电速度的时候很明显是贬义词.所以,在不同的领域之中,同一个情感词的情感倾向可能会有所不同,在日益复杂的应用背景下,情感词典不能很好的在多个领域适用.

2.2.2 基于监督学习的方法 同粗粒度情感分类的方法相比,虽然都是使用了相同的机器学习方法(如SVM、贝叶斯、EM等),但是在粗粒度情感分类的任务中使用的特征在细粒度情感分类中不再适用.原因是这些特征并没有考虑到观点句中的评价对象及特征,无法指明当前的观点是属于哪一个特征的.因此,在机器学习的过程时需要考虑到评论句的评价对象及特征.王立志等[33]通过将SVM和改进的粒子群算法结合起来对影视剧的评论进行情感分析.Zhu等[34]提出了一种基于特征的切分模型,将多特征语句分割成多个单特征语句来发现观点特征.在真实的中餐馆评论上进行试验,准确率达到了75.5%.文献[35]利用句法分析树来生成关联评价对象的特征集,该方法的假设前提是指示观点句中评价对象的实体和属性都是已知的,且这些特征可以表达这些实体、属性和其他词语的句法关系.

基于监督学习的情感分类方法的优势是可以通过不断学习和优化的手段从各种特征中自动学习出一个有效的分类模型,缺点是基于机器学习的分类方法过于依赖训练集,针对不同的应用领域,需要大量的人工去标注训练数据.基于词典的分类方法具有鲁棒性高、领域独立性强的优点.但是,基于词典的方法去构建词典时需要消耗的大量的人力物力.综上所述,目前仅仅依赖单一的监督学习方法和词典法很难获得非常显著的作用,面对日益复杂的情感分析现状,可以将词典法和监督学习方法结合起来去进行细粒度的情感分类.

2.3 属性抽取

细粒度情感分析的主要方法对比如表1所示.

表1 细粒度情感分析方法对比Tab.1 Comparison of fine-grained sentiment analysis method

2.3.1 基于频率的属性抽取 基于频率的属性抽取方法的出发点为:人们在评论不同的实体或者属性时,往往是用固定的词语.因此,那些常常出现的名词或者名词短语就是属性词.但是,在数据稀疏的情况下,该方法的效果就很差,因此,移除那些不是属性的名词或名词短语就显得尤为必要.Popescu[36]通过计算候选词语和经常用来表示产品部分-整体关系的词语的互信息(PMI)来识别候选属性词,如公式(4)所示

式(4)中:a是利用频率法识别出来的候选属性词,d是指示词,通过搜索引擎来计算两个词之间共现的频率.当PMI值很小时,则说明a和d没有频繁共现,则a就不是属性词.Ku等[37]利用TF-IDF的方法来计算词的重要性.Chong等[38]通过信息距离来抽取属性,例如对于属性“价格”,可能会找到“元”“人民币”等词.

2.3.2 基于句法关系的属性抽取 基于句法关系的属性抽取的主要思想是:情感词在句子中通常都是用来评价属性的,若句子中没有高频属性,则该情感词附近的名词和名词短语则看作属性.Qiu等[39]通过词语间的依存关系来对情感词和属性进行抽取,这一方法被称为双向传播法(DP).DP方法一开始在英文评论中的属性词和情感词抽取任务中得到了广泛应用,Zhai[40]将DP方法成功应用于中文评论.Xu等[41]提出了一种改进的DP方法,主要任务是:①过滤一些高频、常识性的概念词被错抽取为属性词,如:“我们”“东西”;②挖掘出长尾、低频的属性词;③检验非情感词的形容词.Zhang等[42]认为情感词、属性词、句法关系三者之间存在相互加强的关系.简而言之,一个形容词若修饰了许多属性词,那么它就有可能是情感词.与此同时,若一个候选属性词可以通过多个情感词和句法关系抽取出来,则它就很有可能是属性词.此外,在不同的领域,一些属性词是通用的.比如产品中都必然包含“价格”这一属性,电子产品领域都会有“电池”这一属性.从这一角度来看,属性词是可以通过人工手动的方式构建成一个本体.然而,由于产品的更新换代速度和人们需求变换的速度过快,一个陈旧的本体很难满足需求.因此,自动化抽取属性就显得至关重要.

2.3.3 基于监督学习的属性抽取 属性就是一种文本信息,因此属性抽取从某种角度来看就是文本信息抽取问题.一些常用的监督学习的文本信息抽取方法都可应用于此.其中最主要的就是基于序列标注的两种方法:基于隐马尔科夫模型方法和条件随机场方法.Jin等[43]将单词或词组当做一个目标来观察,属性词和情感词作为潜在标签,他提出了一种词汇化的隐马尔科夫模型来抽取评论句中的属性词和情感词,用(wordi,POS(wordi))对来表示一个观察目标,POS(wordi)表示单词wordi的词性.薛福亮等[44]利用CRF模型来对评论句中的评价对象、情感表达单元、观点持有者进行联合抽取.除了使用HMM和CRF方法之外,学者们也使用了别的监督学习算法来对属性进行抽取,李成梁等[45]将依存关系嵌入到CRF中来抽取评论句中的属性词.马慧芳等[46]提出了一种融合图结构来抽取语句中的属性词和观点词.

2.3.4 隐式属性的抽取 我们通常将属性词为名词和名词短语的作为显式属性词,比如“华为P10手机电池很耐用”中的“电池”.其余表示属性的属性词则被称为隐式属性.表示隐式属性词的类型很多,其中最多的就是形容词和副词,因为通常来说,形容词和副词都是直接描述特定类型的属性词,例如“描述的是价格,“重”描述的是重量.价格和重量分别为贵和重的属性词.有时候动词也有可能是属性词,例如“华为P10手机耗电很快”中的“耗电”为属性词.Su等[47]基于聚类的思想,利用评论句中的显式-特征观点对所构成的语义关系来挖掘形容词词性的隐式属性并映射到相对应的显示属性上面.Hai等[48]提出了一种基于共现信息的关联规则方法来将隐式属性映射到显式属性中.但是,上述方法在抽取时当语料库较少时很难胜任,且由于语言的习惯,有时候会错误判断情感词与属性词的关联关系,例如,人们往往不会说“华为P10手机的价格真贵”而有可能说“华为P10手机的价格真高”.按照上述方法就很容易将“价格”错误识别为“高”的属性.为了弥补基于语料库方法的不足,张强[49]提出了一种基于情感词典结合朴素贝叶斯的方法来对手机评论句进行隐式属性抽取,并基于多种词法规则来辅助,提高了隐式属性抽取的效率.

2.3.5 属性聚类 显而易见,我们会经常使用不同的词来描述同一个属性.例如“音效”和“音质”描述的都是同一个属性,在抽取出属性之后需要重分类或聚类到特定属性类别中.每个类别则代表着独一无二的属性.Carenini等[50]通过使用字符串相似度、同义词和WordNet的词汇之间的距离来进行相似度计算,来获取相似属性词之间的同义关系,这一方法需要事先先定义好分类的类别.Zhai等[51]提出了一种半监督的学习方法来对属性词进行聚类,该方法需要事先用人工的方法为每个属性类别来标注一些种子词.然后在半监督的学习方法中使用了期望最大化的算法.同时,在事先使用两种先验知识来对EM算法初始化:①包含了相同词语的属性词更有可能属于同一类别,例如,“拍照效果”和“拍照能力”;②在情感词典中含有相同含义的属性词可能就属于同一类别.例如,“电池”和“电量”.这两种先验知识可以帮助EM算法取得更加精准的分类效果.文献[52]利用主题聚类模型来抽取属性词,同时用词频放大方法来增大词频.Chen等[53]提出了一种更加有效的基于终身学习的主题模型(LTM)来对属性词进行抽取和聚类.就主题模型的方法来说,它不但可以将属性抽取和聚类同时完成,在一定程度上也可以处理隐式特征的抽取问题.在今后的工作中,可以将基于规则和基于主题模型的方法结合起来可进一步提高显式属性和隐式属性抽取的准确率.

3 细粒度情感分析的难点

情感分析在技术上是十分复杂与艰难的,在大数据时代的今天,如何提升细粒度情感分析的效果是当前细粒度情感分析研究亟待解决的问题.

3.1 非结构化数据的处理

当前的情感分析,尤其是细粒度的情感分析的对象一般都是商品的评论文本.这些文本一般字数较少且主题鲜明,事先的评价对象也是固定的.但是现在的商品评论中开始充斥着表情和图片这些非文本信息,且因评论的随意性,非结构化的信息广泛存在于评论中,今后如何精准的对评论中的表情和图片这些非结构化的信息进行抽取是一个难点.

3.2 隐式情感抽取

在评论句中,除了有用情感词来表达观点信息之外,有时候对于产品的客观表述也有可能包含了情感信息.如评论句“这台电脑每天都要自动重启十几遍”,通过这个客观句表达了观点持有者对于这台电脑的贬义评价.当前对隐式情感分析的研究大多都停留在对主观句中的隐式情感抽取,而对于客观句中隐式情感分析的研究还很少.今后的研究可以将情感词典和机器学习的方法结合起来去挖掘隐式情感.

3.3 多语言的情感分析

目前大多数的情感分析研究都是针对英文的,尽管后来许多研究者也开始将视野转到中文,但是许多研究或者方法也都是参考对英文处理的经验.英文具有严格的语法约束且单词之间存在天然的空格,而中文因为其天生没有时态、语态等语法信息,词与词之间也没有空格.因此,对中文进行情感分析时的挑战要远高于英文.今后,对于中文的情感分析需要更加深入的研究.

3.4 跨学科研究

当前,很多社会科学家开始意识到将社会分析与情感分析结合起来是一件有趣也有价值的研究问题.但是,他们比较缺乏对大数据的处理与分析能力.今后计算机领域的研究者和社会学领域的研究者共同协作来推动情感分析领域的进步显得很有必要,这也有助于开拓双方学科的视野.

4 小结与展望

本文首先对情感分析的起源与前期研究进行了介绍,阐述了这一领域的基本概念,展示了情感分析由粗粒度向细粒度转变的过程,重点介绍了细粒度情感分析的流程和关键问题及方法.通过对大量论文的研究,我们可以发现情感分析研究的本身充满了机遇和挑战,同时这一领域具有极高的商业价值,因此情感分析近年来得到了计算机领域学者的广泛研究.情感分析的相关方法技术如:情感词典、机器学习、深度学习等已经相当成熟,今后的情感分析重点在于应充分与其他学科领域做交叉性的研究,在管理学或情报学中,可以将细粒度的情感分析与引文分析结合以帮助他们揭示背后更加细粒度的数量特征与规律.在历史学中,通过对古典文献的细粒度情感分析,可以在时空维度上挖掘文本创作背后的历史背景和原因.总之,如何跨领域的使用细粒度情感分析并将分析结果完美结合到所跨领域的实际应用中是今后细粒度情感分析的重中之重.

猜你喜欢

细粒度分类情感
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
分类算一算
细粒度的流计算执行效率优化方法
如何在情感中自我成长,保持独立
失落的情感
情感
分类讨论求坐标
如何在情感中自我成长,保持独立
数据分析中的分类讨论
基于双线性卷积网络的细粒度图像定位