极性相似度计算在词汇倾向性识别中的应用

2010-07-18宋乐何婷婷王倩闻彬

中文信息学报 2010年4期

关键词：倾向性义项极性

宋乐,何婷婷,王倩,闻彬

(1.华中师范大学计算机科学与技术系,湖北武汉430079)

(2.国家语言资源监测与研究中心网络媒体分中心,湖北武汉430079)

1 引言

自上个世纪80年代以来,互联网信息与日俱增。如何在短时间内获取大量客体(人物、事件、产品等)的评价信息,就成了迫切需要研究的课题。

在这一背景下,文本的倾向性分析是当前自然语言文本处理领域的研究热点,并且在市场预测分析、民意调查、智能导购、大众评论等诸多领域有着广阔的应用空间和发展前景。此外,文本倾向性分析也为文本分类、信息抽取、自动摘要等自然语言处理技术提供了新的研究思路。

心理学研究[1]表明,词汇和人类情感之间的关系是可度量的,独立的词汇或短语的语义倾向对于传达人类情感是重要的。由此可见,词汇的倾向性识别是文本倾向性研究的基础。

词汇的倾向性识别主要有两类方法——统计方法和语义方法[2]。统计方法主要是基于机器学习,利用文档集中词汇间的共现关系来计算词汇的倾向性。早在 1997年,Hatzivassilog lou和 M cKeown就尝试使用连接形容词的连词的语言学约束来判断所连接的两个形容词表达的感情是否一致,然后用聚类方法来获得表示情感倾向的两个形容词类[3]。在2003年,Peter D.Turney和M ichael L.Littman[4]使用的点互信息(PM I-IR)方法利用了搜索引擎提供的“NEAR”操作,来估计词汇与具有强烈倾向意义的种子词集合的关联程度,以此作为计算该词倾向性的依据。同年,Yu和 Hatzivassiloglou[5]挑选出若干极性较强的形容词(情感词)构建一个种子词集合,通过计算新词和种子集合中的词的共现概率来判断新词的语义倾向。语义方法主要是基于一个现存的本体知识库,如英文的WordNet和中文的How Net,通过计算待估词与选定的基准词的语义距离,进而判断待估词的倾向性。2002年,Kamps等[6]正是利用WordNet的同义结构图计算待估词与所选基准词的语义距离来得到其倾向性。在中文方面,复旦大学的朱嫣岚等[7]在2006年提出的基于How Net的词汇语义倾向性计算方法,利用词语间的相似度来计算词的褒贬程度。

本文介绍了一种基于极性相似度计算的词汇倾向性识别方法,该方法首先利用 How Net中的“良”,“莠”极性义原计算出未定词与基准词间的极性相似度,然后得出词汇的极性值,从而识别出其极性倾向。我们在第一届中文倾向性分析评测比赛中使用了此方法,评测表明此方法能够有效地提高词汇倾向性识别的准确率。

2 词汇的极性相似度计算

2.1 极性相似度的引入

《知网》(How Net)[8]的结构化特点,为汉语词汇语义的相似度计算[9]提出了新的思路和方法。传统意义上的相似度主要反映的是词语语义的相似程度,也可以理解为两个词语在不同上下文环境中可以互相替换使用,而不改变句法语义结构的程度。刘群等[10]提出了一种词汇语义相似度计算方法。虽然这种语义相似度能够反映词语在句法结构上的相似程度,但却很难体现词汇在极性程度上的相似性,如表 1、2 所示。

由表1、2可以看出：词性相同而极性不同的词语相似度很大,但词性不同而极性相同的词语,相似度则非常的小。使用语义相似度计算方法来识别词汇倾向性效果很不理想,如表1中“好”和“坏”的相似度竟然接近1,而表2中“好”和“优点”的相似度却近似为0。

表1 相同词性的词汇语义相似度

表2 不同词性的词汇语义相似度

为此,我们提出了词语极性相似度的概念。所谓词语的极性相似度就是指两个词在褒贬情感强度上的相似程度。另外,在复杂的汉语词汇中有这样两类词,一类词在不同语境中可能具有情感色彩,也可能是中性的,我们称之为弱极性词。另一类词在不同语境中可能具有褒贬两极,这一类词被称为褒贬两性词。极性相似度对这两类词的识别也有一定的效果。

图1 H ow Net中弱极性词和褒贬两性词的表示

2.2 义项间极性相似度计算

在How Net中,每一个词语都用一个或多个义项组成,要计算词语间的相似度,首先要计算词语义项间的极性相似度。然后通过义项相似度得到词语间的极性相似度。

刘群等[10]将义原分成四大类：第一基本义原,其他基本义原,关系义原,符号义原,然后根据不同种类的义原分别用不同的算法求取义原间的相似度,最后得到两个义项间的相似度。

但我们发现,在H ow Net中有这样两个义原：“desired/良”和“undesired/莠”。它们对词汇的极性倾向具有重要的意义。而在传统语义相似度计算中这两个义原被作为其他基本义原组合到集合中进行相似度计算,并且只配给了一个次要权重。这就在很大程度上降低了这两个代表情感倾向的义原的重要性。为此我们提出了极性相似度计算的新方法：

首先,除了上面提到的四种义原之外,我们将“desired/良”和“undesired/莠”作为一种新的义原—极性义原。具有极性义原的义项称为极性义项。极性义原间的相似度表示为Sim*(s1,s2),我们规定相同极性义原的相似度为1,不同的为0。

其次,为了增加极性义原在相似度计算中的比重,我们将极性义原相似度和第一基本义原相似度结合起来再乘以最大权重。这样即可以扩大极性义原的作用,又可以在一定程度的保存词语间的语义相似性。

最后,我们得到了词汇义项间的极性相似度公式：

其中,Sim*(s1,s2)为极性义原相似度。Simi(s1,s2)为其他义原相似度。β1,β2,β3,β4是通过实验得出的调整参数。

2.3 词语间的极性相似度计算

How Net词语义项可以分为三种：具有“desired/良”义原的褒极性义项、具有“undesired/莠”义原的贬极性义项、没有极性义原的义项。

如果未定词只有一种义项,我们取义项间相似度的最大值作为词语的极性相似度。

其中Sa1…ak为词Wa的多个义项,Sb1…bk为词 Wb的多个义项。

但How Net中大量的词语具有两种以上的义项,比如前面所说的弱极性词和褒贬两性词。取义项相似度的最大值作为两个词语间相似度的方法,在一定上下文中,很难具有说服性的。理想方法是利用上下文语境先进行词义排歧,确定词语所表达的准确义项,再将适合这个概念的义项极性相似度作为词语的相似度。在这里,我们采用了一种基于共现思想的方法来考虑在具体语境中的义项相似度选择,从而得出词语间的极性相似度。

首先我们假设未定词W x(至少具有两种义项)、确定极性的基准词Wb(基准词选取在How Net中只有一种极性义项的词。即Wb具有唯一极性义项Sb)。

算法步骤：

(1)将W x的多个义项分别组成两种集合：具有“desired/良”义原的褒义项集合C+x,具有“undesired/莠”义原的贬义项集合Cx-。然后分别计算这两个集合与Sb的义项间的极性相似度SimO+(,Sb)和SimO-(C-x,Sb)(集合中的多个义项间相似度取最大值)。

(2)我们选取一个长度大小为K的窗口在训练语料集的所有文档中移动。窗口中的每对词语我们都认为是共现的,其共现强度与距离成反比。这样我们就能计算出共现词语的相关度：

其中,N(W1,k,W2)为词语W1和W2在相关文档集合中K窗口内距离为k时的共现次数(k

这样,我们就能算出未定词W x与基准词Wb在训练语料中的相关度Re l(Wx,Wb)。

(3)我们取定一个相关度阈值RT。

如果Re l(Wx,Wb)>RT,我们认为在训练语料中未定词Wx与基准词Wb具有很大的相关性。那么：若Wb为褒义,则W x与Wb的词语间极性相似度取它们褒极性义项相似度：SimO+(,Sb)。若Wb为贬义,则取贬极性义项相似度：SimO-(,Sb)。

如果Re l(Wx,Wb)

3 词汇的极性值计算

词汇间的极性相似度反映出了词汇褒贬的情感强度。设想一下,如果能确定未定词与具有强烈褒贬倾向词之间的相似程度,就能识别出未定词的情感倾向。基于这样的设想,我们首先在How Net中选取了基准词,这些基准词都只有一种极性义项。然后我们将未定词分别与这些基准词在具体语境中计算极性相似度。最后,我们使用下面的公式计算出未定词的极性值：

其中,褒义基准词为Pi,贬义基准词为 N j,未定词为W。SimO(W,Pi)和SimO(W,Nj)指的是未定词W与褒、贬基准词之间的极性相似度。

4 实验与分析

4.1 实验语料

在第一届中文倾向性分析评测(COAE2008)比赛中。Task1(中文情感词的识别)和Task 2(中文情感词的褒贬分析)两个任务是在39 976篇文档中识别出表达观点倾向性的词语,并判断词语的褒贬极性,结果按置信度降序排列。考虑到需要在一定上下文语境中识别褒贬情感词,因此我们使用了词语的极性相似度计算方法。

4.2 基准词选择

表达情感强烈的词基本上是形容词、名词两类。所以我们选择了How Net中的这两类词作为基准词,并且要求这些基准词的全部义项都只有一种极性,这样的词就不会具备弱极性词和褒贬两性词的特点。比如褒义基准词有：健康/ADJ、快乐/ADJ、优秀/ADJ、好感/N等。贬义基准词有不良/ADJ、虚假/ADJ、腐败/ADJ、缺陷/N 等。

4.3 实验结果与分析

首先我们在实验基础上确定义项相似度计算公式(公式(1))的参数取值为：

然后,我们对比计算3部分未定词的传统语义相似度和极性相似度,如下表3所示。其中极性值Ⅰ使用传统的语义相似度计算,而极性值Ⅱ基于词语的极性相似度。

从表3中分析可知,极性值Ⅰ几乎没有褒贬区分度,中性词“过去”的极性值大于褒义词“纯洁”,而中性词“购销”的极性值确比贬义词“坏”还小。这样就很难取出一个阈值将褒贬词分开,而基于极性相似度计算出的极性值Ⅱ却有明显的区分。

表3 基于两种相似度的极性值对照表

经过大量实验,我们最终将阈值取为 4.1和-4.1。即极性值小于等于-4.1的为贬义词,大于等于4.1为褒义词,在两者之间的为中性词。

最后,我们在第一届中文倾向性分析评测(COAE2008)比赛中 Task1、Task2的最终评测结果(见表4、5,其中Best是所有参加评测单位中的最好结果,Median是平均水平)。充分体现了这种方法对具体语言环境下的词汇倾向性判别的具有很好的效果。

表4 COAE2008 Task1评测结果

表5 COAE2008 Task2评测结果

从Task1和Task 2的评测结果中我们可以很明显的看出,各项指标均高于平均结果。其中Task1中前1 000词语的的准确率((P@1000))达到了最好结果0.984。而且判断正确的情感词个数也达到了3 025。

评测结果说明,我们的方法在词汇级倾向性判别中有不错的表现。但是,我们所提出的方法在词语的召回率上还不够高,也就是在词语识别的个数上还不够多。这主要是因为有些词(特别是动词)在通常情况下是中性的,但在具体环境中却有可能表现出一些情感倾向,比如“下降”,“上升”之类的词语,如果说“飞机正在下降”,这时的“下降”是中性的,但如果说“观看《**》电影的人数在下降”,这里的“下降”就透露出了对这部电影的贬义倾向性评价了。而这一类的词,是影响我们召回率的主要因素之一。

5 总结和进一步工作

本文所提出的方法利用《知网》计算词汇的极性相似度,然后获得具有褒贬倾向的词汇度量值(即极性值),最后通过阈值来区分词汇的极性倾向。实验结果表明,极性相似度的引入大大提高了词汇极性的区分程度,从而很大程度上提高了判断的准确率。

但是文中所提到的算法仍然有许多值得商榷和改进的地方。我们今后的工作主要在下面两个方面加以改进。

首先,词汇间极性相似度的虽然提高识别词汇极性的准确性,但在一定程度上却降低了词汇间句法语义的相似性。如何在两者之间找到一个合适的平衡点,或者说,如何最大程度的反映词汇间的情感强度相似性,同时又不会太大的牺牲词汇的句法语义相似度,是我们还需要对方法进行改进的重要方面之一。

其次,在具体语义环境中,如何选取词汇的义项相似度将对判断的准确性有着重要影响。为此,这个方面也是我们今后研究的重点。

[1] M.M.Bradley,and P.J.Lang.A ffective Norms for Eng lish W ords(ANEW)：Stimu li,Instruction M anual and A ffective Ratings[R]//Technical report C-1,Gainesville,FL.The Center for Research in Psychophysio logy,University of Florida,Florida,USA：1999.

[2] 姚天昉,程希文,徐飞玉,汉思◦乌思克尔特,王睿.文本意见挖掘综述[J],中文信息学报,2008,5(3)：71-80.

[3] Vasileios Hatzivassilog lou and Kath leen R.M cKeown.Predicting the semantic orientation o f adjectives[C]//Proceedings of the of the Association for Computational Linguistics and the8thCon ferenceof the European Chap ter of the ACL C,1997：174-181.

[4] Peter D.Turney and M ichael L.Littman.Measuring p raise and criticism：Inference of semantic orientation from association[J].ACM T ransactions on Information System s,2003,21(4)：315-346.

[5] Yu H,H atzivassiloglou V.Towards answ ering opinion questions：separating facts from opinions and identifying the polarity of opinion sentences[C]//M.Co llins and M.Steedman(eds)：Proc.of the EMNLP-03：The 8thConference on Empirical Methods in Natural Language Processing,Sapporo,Japan,July,11-12.2003：129-136.

[6] J.Kamps,M.Marx,R.J.Mokken and M.D.Rijke.Using WordNet tomeasure semantic orientation o f adjectives[C]//Proceedings of LREC-04,4thInternational Conference on Language Resources and Evaluation,Lisbon,2004：1115-1118.

[7] 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于 How Net的词汇语义倾向计算[J].中文信息学报,2006,20(1)：14-20.

[8] HowNet R.HowNet's H ome Page[DB/OL].http：//www.keenage.com.

[9] 李峰,李芳.中文词语语义相似度计算-基于知网2000[J],中文信息学报,2007,21(1)：99-105.

[10] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会,台北,2002.