APP下载

用户主观评价信息的句子级情感分析综述

2015-07-04张丽军殷铭王飞

信息周刊 2015年11期
关键词:研究趋势情感分析

张丽军 殷铭 王飞

【摘 要】网络信息良莠不齐,如何充分利用成为当今的研究重点。情感分析是其中重要的研究分支,通过对这些信息进行深度分析挖掘,识别出用户的情感趋向或得出其观点,甚至发现情感随时间的演化规律,从而便于分析出用户的消费习惯,发掘出热点舆情,给企业、政府等机构提供重要的决策依据。本文侧重于主观性语言中句子级的情感研究,结合Bo Pang,Lillian Lee(2004)提出句子情感分析子任务,本研究从两个方面展开1)主观句识别,提取文本中包含的主观句;2)主观句的情感分类,包含句子的褒贬分类和句子的褒贬强弱分类在内。并在此基础之上,总结情感分析未来的研究趋势。

【关键词】海量信息;主观句;情感分析;研究趋势

一、引言

随着互联网的发展,网络信息呈指数级增长,如何从海量信息中提取出潜在的有价值的信息已经成为迫切需要解决的问题。该问题也引起了各领域专家和研究者的注意,学者们从各个角度展开研究,尝试给出解决方案。其中针对海量信息进行情感分析也是很重要的一个研究分支,该研究方向通过对信息深度分析挖掘,识别用户的情感或者观点的趋向性,甚至从中分析出情感随时间的变化规律,从而进一步挖掘出用户的消费习惯、挖掘出当前用户关注的热点、挖掘出舆情的动态,给各机构、各企业、各级政府等提供重要的决策依据。而情感研究方向,根据研究对象粒度的不同,又可细分为词语级、句子级以及篇章级的情感分析,其中句子级情感分析是目前的研究热点之一。结合Bo Pang,Lillian Lee(2004)提出的句子情感分析子任务以及文献[1]:句子的主观分类、句子的褒贬分类以及句子的褒贬强弱分类,本研究将从如下两个方面展开研究:

1)主观语句的识别,从海量信息中提取出含有主观倾向的语句。

2)主观语句的情感分类,包括两个子方面:语句的褒贬分类以及语句的褒贬强弱程度的分类。

此外,本研究在此基础上,尝试预测句子级情感分析的未来主流研究趋势。

二、主客观分析

所谓主客观的分析,就是从杂乱的文本中将含有主观语言的部分抽取出来,将不带感情色彩的文本过滤掉。1)基于词典的方法。利用预先建立的词典(可以是人工标注也可以是机器自动获取的,统计文本中出现的词语是否具有情感信息, 进而判断其主客观性。2)基于统计的方法。利用訓练好的数据, 采用某种机器学习方法(例如SVM,最大熵),判断新数据应该划分为主观还是客观。3)基于图的方法。利用求最小割的方法把文本在句子级别上切分为主客观两个部分[4]。

2.1基于词典的方法

文献[5]以SentiWordNet为基础,构建一个中文倾向性词表,其处理方法是:首先将一些不用的词语即停用词等从句子中剔除掉,在一定程度上降低句子向量的维度,也是的句子的向量化速度得到了很大的提高;其次,在利用SVM分类器来判断句子的具体情感趋向。

文献[6]则专注于研究各形容词对于识别主观性句子情感倾向的作用,主要研究“开心”、“很棒”等各种形容词,发现具有情感倾向的形容词对该研究做出了很大的贡献。

文献[7]提出在自动识别主观性句子要关注网络非规范词语,其把来自网络的非规范汉语词汇分为典型非规范汉语词汇和歧义非规范汉语词汇。针对两类词汇分别采用不同的算法进行识别。

文献[8]研究了基于HowNet的情感词典的构建,提出属性加权的统计学习算法来进行情感分析,增强情感词在文本倾向性分类中的贡献,具体实现了属性加权的朴素贝叶斯和属性加权的评分算法。

2.2基于统计的方法

文献[9]构建了一个系统,该系统可以讲述事实的如新闻、公告等普通文本中挖掘出带有情感倾向的主观性的句子。

文献[10]实现了一个基于主动学习的汉语意见元素标注工具,可以自动识别句子中的主题、情感和意见持有者等意见元素。主动学习算法具有需要训练样例较少,受不平衡训练样例干扰较小,分类性能较好等特点。

文献[11]提出了一种中文的倾向性句子识别分类算法,该算法以N-gram超核为基础,首先构造出一个结合句子的具体特征N-gram超核函数,再以该函数为基础结合SVM分类器对识别出其中具有中文倾向性的句子。通过对比实证发现,该算法比多项式核、N-gram核等单核函数更能有效识别出带有情感倾向的主观语句。

文献[12]则构建了一个Opinion Finder系统,该系统在结合必要的上下文信息前提下,借助目前主流的自然语言处理工具,对句子先后进行:对不同句子标记不同记号、标注词语词性、对句子中的修饰词进行修剪等操作,然后将处理后的句子利用NB分类器来识别。

文献[4]通过试验说明了上下文信息对句子情感分析的重要性,而CRF(条件随机场)模型能有效的利用上下文信息。

2.3基于图的方法

文献[12]利用以往的一个工作,假定主客观属性相同的句子,位置分布上也会比较接近,从而把候选的句子构成了一幅图,然后利用求图最小割的方法来分类主、客观句子。

三、情感分类

在识别出主观性评价文本之后,下一步工作就是判断主观性句子的倾向了。接下来的部分,本研究将主要梳理一下目前主观性句子的倾向性研究现状。

学者姚天昉等[14]给出一套解决方案,该方案以领域本体和句法分析中的依存关系为基础,识别出句子的主题,计算出主题与情感描述项之间的关系、以及主题的情感极性。

徐琳宏等人则提出了一种基于语义理解的汉语文本极性自动识别机制[15]。

此外,学者们[16] [17]还提出了基于HowNet的词汇语义倾向性分析法以及基于同义词词林的方法等。除此之外,也有使用机器学习等统计的方法来获取词语的语义倾向性的研究。

李娟等[18]以同义词词典、褒贬义词典为基础,实现主观性词语倾向性的自动判别。先前很多研究只以褒贬义词典为基础,而该方法在此基础上还加入了同义词词典,从很大程度上扩大了褒贬义词典的范围。此外,该方法使用了N元语法模型,克服了一词多极性不可判定倾向的困难。该研究也通过实证对比验证了该思路的可行性和有效性。

王根[19]则将褒贬标记间的冗余关系纳入了考虑范围,给出了一种以CRF为基础的一体式框架。该框架中通过模型嵌入了潜在的、冗余的状态标记,从而便显出不同标记之间的层级关系。但是,由于这些标记的存在,使得算法复杂度大大提高,另一方面,由于在每一个层级中有可观标记,使得分类的精度也有一定程度的降低。

刘康等[20]把句子的褒贬度分析问题看作一个序列标注的问题,给出了一种基于层级CRFs模型的文本倾向性分析方法,利用从粗到细的策略,在CRFs框架下,充分考虑上下文信息的影响,把句子褒贬度分类和褒贬强度分类进行区分,利用多个CRFs模型分开处理。较标准CRFs减少了两个任务之间的影响,较好的改善了冗余标记的标注精度。作者利用CRFs定义句子情感分类的上下文依赖和标识冗余,文章利用句子级的观点分类问题的两个特点,第一个特点,把文章观点看作是一个序列标记问题并且利用条件随机场(CRFs)模型来表示文章中两个相邻句子之间的关系,第二个特点,提出了一个基于CRF模型的方法原来的工作成为把它分为一个层次结构,由原始的标记集和一些传统的隐含标记,在层次分析框架中,因为这些特征与原始的标记有关但是还没有,这些“冗余标记”能够用来表示不同情感分类的冗余和层次关系,在这个方面,不仅情感强弱排序能够提升,主客观分类的准确度和传统的情感分析方法相比也有了提升,对比层次方法,提出的方法能够有效的减少错误增长。这种方法最大的特点是考虑了不同级别情感分析之间难得相互影响,但是其编码和解码过程比较复杂。

四、研究趋势

通过如上研究可知,目前对于情感分析越来越热,在巨大商业利益的驱动和广大研究先行者的不懈努力下,句子级情感分析也取得了相当的研究成果,为进一步的研究提供了理论支撑与实证支持:从技术上来看,目前已经研究出结合多领域技术的各种分类方法和特征选取方案;从效果上来看,在保证文本来源可信可靠的前提下,在分析对象清洗的基础之上,很多准确率高的模型、产品甚至系统已经相继出现。

结合技术与效果的成效来看,在接下来的研究中,情感分析可能有如下发展趋势,详见表2。

相信,随着技术的不断进步和学者们的不断探索,情感分析将会出现更大的突破,更多更先进更成熟的产品和系统。

参考文献:

[1]周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机应用,2008,28(11):2725-2728

[2]Bo Pang and Lillian Lee.2005.Seeing stars:Exploiting class relationships for sentiment categorization with respect to rating scales[A].In:Proceedings of the ACI 2005[c].115.

[3]Y. Mao, G. Lebanon, 2O07. Isotonic Conditional Random Fields and Local Sentiment Flow[A].In:The Neural Information Processing Systems(NIPS1 9)[c].2007

[4]蒙新泛,王厚.主客观识别中的上下文因素的研究[J]. 清华大学出版社,2009: 594-599

[5]李艺红,蒋秀凤.中文句子倾向性分析[J].福州大学学报(自然科学版), 2010(04): 504-508

[6]HATZIVASSILOGLOUV, WIEBE JM. Effects ofadjective orienta-tion and gradability on sentence subjectivity[C]//Proceedingsof the 18th Conference on Computational Linguistics. Morristown, NJ,USA: Association forComputationalLinguistics, 2000: 299-305.

[7]姚天昉,张霄凯. 一种网络非规范汉语词汇的识别方法[J]. 清华大学出版社, 2009: 540-545.

[8]周德友. 基于HoWNet的中文语义倾向性分析技术研究[D].东北大学硕士论文

[9]YUH, HATZIVASSILOGLOU V. Towards answering opinion ques-tions: Separating facts from opinions and identifying the polarity opinion sentences[C]//Proceedings of the 2003 Conference on EmpiricalMethods in Natural Language Processing. Morristown, NJ,USA: Association forComputationalLinguistics, 2003: 129-136.

[10]宋鸿彦, 基于主动学习的语料自动标注方法研究. 上海交通大学硕士论文, 2010(10).

[11]廖祥文,李艺红.基于N-gram超核的中文倾向性句子识别[J].中文信息学报,2011(05): 第89-93,100页.

[12]WILSON T, HOFFMANN P, SOMASUNDARAN S,etal.Opinion-Finder: A system for subjectivity analysis[C]// Proceedings of the 2005 Human Language Technology Conference and Conference on EmpiricalMethods in Natural Language Processing. Morristown, NJ, USA: Association for Computational Linguistics, 2005: 34-35.

[13]PANG B, LEE L. A sentimental education: Sentiment analysis u-sing subjectivity summarization based on minimum cuts[C]// Pro-ceedingsof the 42ndAnnualMeeting of theAssociation forComputa- tionalLinguistics. Morristown, NJ, USA: Association forComputa-tionalLinguistics, 2004: 271-278.

[14]姚天昉,婁德成.汉语语句主题语义倾向分析方法的研究.中文信息学报.2007.21(5)

[15]徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007, 21(1): 96-100.

[16]朱嫣岚,闵锦,周雅倩.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20.

[17]娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625.

[18]李娟,张全.贾宁.中文词语倾向性分析处理.计算机工程与应用2009,45(2)131-133

[19]王根,赵军.基于多重冗余标记RF的句子情感分析研究[A].全国第九届计算语言学联合学术会与[c].2007:600-605

[20]刘康,赵军.基于层叠CRFs模型的句子褒贬度分析研究[J].中文信息学报, 2008.22(1).123-128

猜你喜欢

研究趋势情感分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于SVM的产品评论情感分析系统的设计与实现
我国企业环境信息披露研究述评与展望
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
中国经理人领域28年研究趋势演变的纵向研究
文本观点挖掘和情感分析的研究
企业绩效研究评述比较与展望
大数据研究综述