基于最大熵的中文词语情感分析研究
2018-02-13王磊
王磊
摘 要: 情感词在文本情感分析中处于举足轻重的地位,词语情感倾向的不确定性会受到词语上下文环境的影响。针对词语上下文环境,提出一种基于最大熵模型的词语情感倾向分析方法,从词语上下文中提取词语特征、词语关系特征、词语语义特征和词语情感特征,采用最大熵模型来识别词语的情感倾向,并利用平滑技术解决特征稀疏问题。同时,利用词语与句子之间的情感联系,进一步消除词语情感倾向的不确定性。实验结果表明,该方法在词语情感倾向识别上取得了令人满意的效果。
关键词: 情感分析; 最大熵; 语义特征; 情感倾向
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2018)12-07-05
Abstract: Emotion words with sentiment polarity play important roles in text sentiment analysis. Uncertainties of sentiment polarity of words are affected by their contexts. In light of these contexts, a method is put forward in this paper to analyze sentiment polarity of words based on maximum entropy models. Features of words, relationships of words, semantic features and emotional characteristics of words are extracted from contexts. Then, sentiment polarity of words is identified by maximum entropy models, and problems concerning sparse features are solved by smoothing techniques. In the meantime, uncertainties of sentiment polarity of words are further eliminated by emotional connections between words and sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.
Key words: sentiment analysis; maximum entropy; semantic feature; sentiment polarity
0 引言
信息技术的发展使得人类交流方式发生了巨大改变,越来越多的用户正不断通过互联网相互交流,从而获取个人所需信息。这些信息数据大多都表现为半结构化或非结构化的文本数据形式,如产品评论、电影评论、新闻评论、博客等。这些文本信息更侧重于表达个人对事物的主观看法,带有强烈的个人主观情感特征,不同程度地反映了人们的各种喜好和情感倾向,如喜、怒、哀、乐等等。通过对在线文本信息的情感分析,可以很好地了解用户对产品的喜爱程度,发现新闻事件的演化规律,认识个体的情感状态,这一切都促进了文本情感分析技术的发展,使之成为自然语言处理领域的一个研究热点。
从语言学角度出发,语言粒度从大到小依次为篇章,段落、句子,短语、词、语素[1-2]。在现有的情感分析研究领域,大多数研究者都选择词作为基本的语言粒度和研究基础,利用词的情感倾向来进一步确定句子和篇章的情感倾向。词的情感倾向识别方法可分为基于词典和基于语料库两种方法[3-4]。基于词典方法主要是利用已有词典或词语知识库进行扩展生成情感词典来直接识别词语的情感极性。英文词语情感词典主要借助于WordNet[5]进行,而中文词语情感词典则多借助于HowNet[6]。基于语料库的方法首先对情感分析语料库进行人工标注。在语料标注的基础上,利用大语料库的统计特性,并借助词语的共现关系、搭配关系或语义关系,来挖掘语料库中的情感词并判断其情感倾向[7]。
近年來,国内外许多学者都发现领域知识和上下文知识会对文本情感分析产生巨大影响,先后开展了基于领域知识的情感词典构建,跨领域情感分类及上下文有关的情感分析等方面研究[8]。
本文提出一种基于最大熵模型的方法,融合上下文依赖关系,应用于词语情感倾向识别中。
1 最大熵模型
最大熵模型是基于信息熵理论建立起来的概率统计模型,采用概率估计的方法[9]。假设x是某个事件,y是事件x发生的上下文环境,则x和y的联合概率记为p(x,y)。对于词的情感倾向性识别问题,一个情感词属于某个情感,可以看成一个事件,文档中关于情感词的各类特征可以看作事件发生的环境。
定义1 给定一个训练集,定义E={e1,e2,…,em}是情感词的情感倾向集合,C={c1,c2,…,cn}是文档中获取的关于情感词的特征集合,则可以使用公式⑴来进行概率估计:
该概率估计方法存在一个问题即“稀疏矩阵”问题,对于较大规模的训练集,存在大量二元组(ei,cj)未曾同时出现过,则认为该二元组的概率估计为零。本文根据训练集的具体情况,将采取一种平滑技术来解决该问题。
根据Shannon的定义,熵的计算公式如下:
求解满足最大熵原则的概率分布公式如下:
尽管从训练集无法获取所有二元组(ei,cj)的联合概率值,但可以从中获取部分二元组的联合概率值或某些约束条件,这样就将问题转化为求解部分约束条件下的最大熵问题。
根据词语自身特征及语言上下文环境,可以定义多个特征函数。
定义2 假设存在n个特征函数f1,f2,…,fn,且,则最大熵模型可以描述为在满足约束条件的所有模型中选取熵最大的模型,如公式⑻和公式⑼所示:
拉格朗日乘子算法是求解约束条件下最优解的经典方法,本文也采用该方法来求解公式⑼,从而得到公式解如下:
λi是特征函数fi的权重,训练过程就是通过在训练集上的学习过程来求出每个λi值。
2 词语的情感倾向性分析
2.1 基本框架
本文提出一个基于最大熵模型的词语情感倾向分析方法,其分析方法框架结构如图1所示。
该方法以句子中所含情感词语为研究对象,利用最大熵模型和词句之间情感关系来识别句子中情感词的情感倾向。从训练语料中进行特征提取并构建最大熵分类器(A部分),从测试语料中提取特征输入最大熵分类器中(B部分),初步识别词语的情感倾向,再利用词句之间的情感关系特征来修改词语的情感倾向。
2.2 特征选择
从数据训练集中,我们抽取下列上下文特征应用于最大熵模型中,这些特征描述如下。
⑴ 词语情感特征(Word Emotion Feature: WEF):依据训练语料中的统计信息,利用候选词wi自身所拥有的情感倾向特征来直接判别其情感倾向。
⑵ 词语前后词特征(N Word Feature:NWF):利用候选词wi在句子中前后n个词语的这个上下文特征来识别候选词情感倾向:wi-n,…,wi,…,wi+n。
⑶ 词语词性特征(POS Word Feature: PWF):利用候选词wi及其在句子中前后n个词语的词性特征来识别候选词wi的情感倾向。在Ren-CECps中文情感语料库[10]中所有句子均进行分词和词性标注,正确率达到97%,词性包含35类。
⑷ 前N个情感词特征(Pre-N Emotion Feature: PNEF):利用候选词wi的前n个情感词的情感特征来识别候选词wi的情感倾向。
利用最大熵模型识别词语情感倾向的流程图如图2所示:
2.3 平滑技术
对于词语多标记情感倾向识别问题,大多数词语拥有多个情感倾向中的一个或两个情感倾向,仅少数词语拥有三个情感倾向,这样就导致许多词语的情感特征是非常稀疏的。
针对这种问题,本文采用绝对折扣平滑技术来进行处理,直接给所有出现次数为零的特征赋予一个值 ,特征函数公式⑷转换为公式⑿。
其中,d=0.05,N是词语w在训练集中出现的次数,count(w,c)是训练集中词语w在上下文条件c中出现的次数。
2.4 词句之间情感关系
为了进一步提高情感词语情感倾向识别的准确性,可以利用情感词语与句子之间的情感关系来调整情感词语的情感倾向。按照如下关系进行迭代计算,直到获得稳定的情感词语情感倾向及强度。
α是一个可调节参数,在实验中取值0.64,e(w)i表示第i次迭代时情感词w的情感倾向强度值,Sens(w)表示一篇文档中包含情感词w的所有语句集合,e(Sens(w))表示包含所有语句的句子集的情感倾向强度值,nsen表示句子集中语句的个数,senw为包含情感词w的一个句子,e(senw)是包含情感词w的一个句子的情感倾向强度值,nw表示一个句子中所含情感词语的个数。
在整个迭代计算过程中,充分利用情感词语与句子集之间的情感关系来修正词语的情感倾向强度,进而识别词语的情感倾向。
3 实验结果与分析
3.1 实验数据
本文实验数据主要来自两个数据集,一个是中科院谭松波提供的中文情感挖掘语料,使用其中去重后正负类各2000篇的酒店类评论语料,词语及句子的情感倾向为正负2类;另一个是Ren-CECps中文情感语料库,词语及句子的情感倾向分为8类,针对词语进行多标记情感倾向识别。上述数据集的统计信息如表1所示:
本文主要进行两类实验,实验一是利用酒店评论语料,来识别情感词的情感正负极性,是一个情感倾向二元分类问题研究;实验二是在Ren-CECps语料库中识别情感词的多个情感倾向,属于情感倾向多标记分类问题研究。
3.2 实验设置
采用中文倾向性分析测评任务中规定的评测方法[11],针对每个情感倾向,采用精確率Precison,召回率Recall和F-measure值作为评价标准。
3.3 实验结果与分析
实验一针对酒店评论语料中的情感词进行正负两类情感倾向识别,选择语料数据中的形容词构成实验数据集,将实验数据集分为训练语料和测试语料,识别测试语料中候选词的情感倾向。
预处理阶段采用ICTCLAS对语料进行分词和词性标注。情感词典采用HowNet情感词(2090个)和HowNet评价词(6846个)构成基本情感词典,然后去除其中的单字情感词。
将利用最大熵模型进行词语情感倾向识别方法记作MaxEnt,将词语与句子之间情感关系融入最大熵模型的词语情感倾向识别方法记作Combine。
特征表示如下:F=WEF+NWF+PWF,其中n=1。词语情感倾向识别结果如图3所示。
对于实验结果,我们看到两种方法在识别候选词的褒贬两类情感倾向上取得了不错的效果,而且在融合词句之间的情感关系后,词语情感倾向识别效果得到进一步提高。
实验二针对Ren-CECps语料库进行情感词的多标记情感倾向识别。从Ren-CECps中文情感语料库中选择1476篇中文博客文章,共34630个句子,101842个情感词。针对该数据集,采用5折交叉验证方法进行实验验证。
情感词的多标记情感倾向识别结果如表2所示,特征表示如下:F1=WEF;F2=NWF;F3=WEF+NWF;
F4=WEF+NWF+PWF;F5=WEF+NWF+PWF+PNEF,其中n=1。
表2中的实验结果可以看出,词语情感倾向判别结果基本令人满意,但词语情感倾向识别率并不是特别高,这既反映出人类情感的复杂性,也反映出多标记情感倾向识别比单标记情感倾向识别要困难。
分析表2的实验结果我们发现,仅采用词语情感特征(WEF)识别候选词情感倾向的精确率、召回率和F1值较低。随着选取特征的增加,候选词的精确率、召回率和F1值不断提升。
通过实验二,分析词语多标记情感倾向识别中產生错误的原因主要有以下几点:
⑴ 在数据集中存在部分短句,短句中可以提取的上下文特征较少。
⑵ 对于大多数情感词,其中某一个情感倾向的情感强度较强,容易识别。然而其他情感倾向强度较弱,识别困难。
4 结束语
本文主要分析词语情感倾向识别问题,提出一种基于最大熵模型的词语情感多标记倾向识别方法。在语料数据集中,提取词语情感特征、词性前后词特征、词语词性特征和前N个情感词特征来识别候选词的情感倾向。对比酒店评论语料和Ren-CECps语料的实验结果,发现词语多标记情感倾向识别效果要低于褒贬两类情感倾向识别效果,说明人类情感的复杂性。
在初步识别词语情感倾向后,分析词语与句子之间的情感联系建立词语情感倾向修正公式,词语情感倾向识别效果有所提升。实验结果表明,词语的情感倾向与所在句子的情感倾向之间存在一定的联系,利用这种情感联系可以辅助词语情感倾向的识别。
本文关于词语情感倾向识别过程是分步骤、分阶段进行的,如何将三支决策理论思想应用于词语级情感倾向分析中,这是未来工作的一个研究方向。同时,随着网络特定用语和网络符号的逐渐增多,如何识别网络用语的情感倾向,这是今后词语级情感倾向研究工作的热点之一。
参考文献(References):
[1] 赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010.21(8):1834-1848
[2] 姚天昉,程希文,徐飞玉等.文本意见挖掘综述[J].中文信息学报,2008.22(3).
[3] Peter D Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,2002:417-424
[4] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. In: Isabelle P, ed. Proc. of the EMNLP 2002. Morristown: ACL,2002:79-86
[5] Hu Ming, Liu Bin. Mining and Summarizing Customer Reviews: Proceedings of the 10th International Conference on Knowledge Discovery and Data Mining,2004:168-177
[6] 朱嫣岚,闵锦,周雅倩等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006.20(1):14-20
[7] Kushal Dave, Steve Lawrence, David M. Pennock. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews:Proceedings of WWW-03, 12th International Conference on the World Wide Web, Budapest, HU, ACM,2003:519-528
[8] Liu K,Zhao J. Cross-domain sentiment classification usinga two-stage method: Proceedings of the 18th ACM Conference on Information and Knowledge Management,New York,NY,USA, ACM,2009:1717-1720
[9] 李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005.42(18):94-101
[10] 任福继等.Document for Ren-CECps 1.0, http://a1-www.is.tokushima-u.ac.jp/member/ren/Ren-CECps1.0/Ren-CECps1.0.html,2009.
[11] 谭松波,王素格,廖祥文等.第五届中文倾向性分析测评总体报告.第五届中文倾向性分析测评研讨会论文集,2013:5-34