APP下载

文本情感分析研究概述

2014-04-29董秦涛苏亚峰屈志毅董秦涛苏亚峰屈志毅

电脑迷 2014年13期
关键词:情感分析语料库

董秦涛 苏亚峰 屈志毅董秦涛 苏亚峰 屈志毅

摘 要 对文本情感分析研究进行总结,从情感词抽取、语料库和情感词典构建、主观分析三个方面对文本情感分析研究相关文献进行梳理、评述,最后介绍了实际应用。

关键词 情感分析 情感词抽取 语料库 情感词典

中图分类号:TP3 文献标识码:A

0引言

网络已经进入到了“交互式网络”时代。人们从网络获取信息的同时,也直接在各种网络平台表达喜、怒、哀、乐等各种情感。这些主观性文本每天以指数级的速度增长,仅靠人工进行分析不仅需要消耗大量的人力和时间,还易造成信息遗漏。

因此采用计算机快速地进行文本信息分类和情感信息的抽取,通过挖掘和分析文本中的立场、观点、情绪等主观信息,对文本情感倾向做出判断,成为目前学术界研究的一个热点,即文本情感分析。

1文本情感分析概述

情感分析是指分析发表者在传达信息时所隐含的情绪状态,对发表者的态度、意见进行判断或者评估。文本情感分析是自然语言理解领域的重要研究分支,涉及统计学、语言学、心理学、人工智能等领域的理论与方法。

文本情感分析的主要任务就是根据文本信息来判断发表者的情感倾向,主要利用底层情感信息抽取的结果将情感文本单元分为若干类别本文将分别从情感词抽取、语料库和情感词典构建、主观分析三个方面对文本情感分析研究相关文献进行梳理,最后介绍了实际应用。

2情感词抽取

情感词又称极性词、评价词语,特指带有情感倾向性的词语。评价词语的抽取和判别,主要方法可分为基于大规模语料库的统计方法 (表情符号可以视为情感词的一种)、利用词典计算相似度方法。

2.1基于语料库的情感词抽取和判别

利用大语料库的统计特性,其最大优点在于简单易行;缺点是可利用的语料库有限,评价词语在大语料库中的分布等现象并不容易归纳。Wilson T等人对主观性文本进行系统的分析研究,挖掘大量的主观性文本形成主观表达式库,并基于此完成文本的主客观分类和褒贬分类。RILOFF E等人用手工方法制定模板并以此选取种子情感词,通过使用迭代的方法可以获取名词词性的情感词。

2.2基于词典的情感词抽取及判别方法

使用词典中的词语之间的词义联系挖掘评价词语,其最大优点是获取情感词全面、准确,缺点是存在一词多义现象。朱嫣岚等人提出基于HowNet词的语义相似度和语义相关的情感词极性计算方法。Yang C等人使用PMI(Point wise Mutual Information),通过计算一个词和已知极性的种子词(或表情符号)的点互信息量,推断该词是不是情感倾向词。王昌厚等人基于模式的Bootstrapping方法,从微博语料中抽取情感评价词,通过模式划定新词的边界,跨过新词识别的过程,直接进行情感倾向词的抽取。

3语料库、情感词典构建

语料库:WIEBE J等人建立多视角问答语料库对535篇广泛来源的新闻进行了语句级人工标注,而且对语句的低层进行了标注,标出了情感文本的发表者、对象、极性、强度等要素。除了情感,还标注了情绪、推断、信念等。

情感词典:STONE P等人收集了1915个褒义词和2 293个贬义词,并按照极性、强度、词性等打上不同的标签,对于词汇还列出不同的义项,可以区别不同义项和词性下的褒贬极性,也相当于对每个单词都构建了一组语义消歧规则。HowNet评价词词典,包含9193个中文评价词语,9142个英文评价词语,并被分为褒贬两类。

4主观分析

在情感分析中,分析意见的属性与语句上下文正确理解对判断情感极性至关重要。属性极性判定的步骤为:(1)对句子进行词性标注;(2)提取句子中所有的名词利用挖掘算法寻找频繁项集;(3)对频繁项集的项进一步筛检;(4)从文本中抽取出包含特征词的句子(情感句);(5)通过对情感词的极性定位结合句子中可能出现的程度副词和否定词做出抽取属性的倾向性判定。

5文本情感分析应用

(1)用户评论分析与决策

在购买产品或者服务前,消费者可以获取相关的评论可以提供参考,提供者可以通过评论进一步改进产品或者服务质量。LIU B等人研究并开发的产品信息反馈系统,利用网络上的顾客评论资源,提取并统计消费者对产品特征的评价,采用可视化方式显示统计和比较结果。

(2)舆情监控

政府机构可以通过公众对新闻事件或国家政策的看法来了解舆。朱元波在其硕士论文中设计了在线网络挖掘系统,对暴恐组织网上串联进行监督。

6结语

本文就国内外文本情感分析研究情况进行了总结和梳理,重点介绍了文本情感分析研究中的几个关键问题:情感词抽取、语料库和情感词典构建、主观分析,最后文本情感分析实际应用进行了概括。文本情感分析,特别是中文文本情感分析是一个新兴的研究方向,具有非常广阔的应用前景。

参考文献

[1] 杨立公,朱俭,汤世平.文本情感分析综述.计算机应用,2013,33(6):1574-1578.

[2] 朱嫣岚,闵锦,周雅倩等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20.

[3] 王昌厚,王菲.使用基于模式的Bootstrapping方法抽取情感词[J].计算机工程与应用,2014,50(1):127-129.

[4] 李思.基于合并模型的中文文本情感分析.第五届全国信息检索学术会议,2009,1( 1):322-328.

猜你喜欢

情感分析语料库
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
文本观点挖掘和情感分析的研究
基于JAVAEE的维吾尔中介语语料库开发与实现
基于网络语料库的“给力”研究