跨领域倾向性分析相关技术研究
2010-06-05谭松波段洣毅程学旗
吴 琼,谭松波,张 刚,段洣毅,程学旗
(1. 中国科学院 计算技术研究所,北京 100190; 2. 中国科学院 研究生院,北京 100049)
1 引言
近年来,随着互联网快速发展,论坛、博客等网络交流平台不断涌现,人们越来越习惯于在网上发表主观性的言论,这些言论用于表达自己对于日常事件、产品、政策等的观点和看法,这使得网上存在大量带有情感倾向性的文本。那么如何对这些有主观情感的文本进行分类,判断其是正面还是负面,是持支持态度还是反对态度,这就引出了自然语言处理领域一个重要的研究方向——倾向性分析。该技术有很多实际应用,越来越引起广泛关注(如文献[1-6])。
作为传统文本分类[8-10]的一个特殊分支,典型的监督分类方法都适用于文本倾向性分析。然而,当训练数据与测试数据不属于同一个领域的时候,典型的分类方法的效果就变得很差。这是由于训练域里有强烈倾向性的词在测试域里不再有强烈倾向性,反之亦然。由此产生了跨领域倾向性分析问题(也称为跨领域情感分类问题)[11-13]。随着信息量的急速增加、新领域的不断涌现,人们需要在大量新领域里进行倾向性分析,这是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析,这使得跨领域的倾向性分析具有重要意义。
跨领域倾向性分析是一个全新的研究领域,目前的研究工作还比较少。现有的一些技术主要分为两类:第一类需要在测试域标注少量数据来辅助训练,如文献[11]等;第二类在测试域不需要任何标注好的数据,如文献[12-13]等。本文主要针对应用更为广泛的第二类情况。
为解决不需任何测试域辅助数据的倾向性分析问题,本文将文本的倾向性与图排序算法结合,提出一种基于图排序的跨领域倾向性分析算法。该算法为测试集中的每一个文本分配一个情感分,来表示该文本“支持”或“反对”的程度,然后利用源领域的准确标签和目标领域的伪标签来迭代计算该情感分,算法收敛时得到最终情感分,并据此判别目标领域测试数据的倾向性。得到倾向性判别结果后,为充分利用其中倾向性判断较为准确的测试文本来提高整个测试集倾向性分析的精度,我们将这些较准确的测试文本作为“种子”,进一步通过EM算法迭代进行跨领域倾向性分析。针对以上部分,我们分别进行了实验。实验结果表明,本文提出的方法能大幅度提高跨领域倾向性分析的精度。
2 相关研究
2.1 倾向性分析
倾向性分析的目的是判断文本的情感类别,即该文本对某一主题是持支持还是反对态度。根据实现的方法可分为基于词的倾向性分析和基于机器学习的倾向性分析。
2.1.1 基于词的倾向性分析
词为构成文本的单元,因此可以先判断词的倾向性,再根据此信息来判断文本的倾向性。
Turney[15]提出了PMI-IR方法,利用词语与具有明显语义倾向性的种子词语之间互信息关系来判别词语的倾向性;Hatzivassiloglou等[16]认为形容词的倾向性受连接它们的连接词约束,他们提出一种四步法的监督算法来判断形容词的倾向性。
得出词的倾向性后,可以通过统计具有正面倾向性和负面倾向性的词语数目来判断文本的倾向性。Turney[17]提出一个无监督学习方法,求出文本中所有短语的倾向性的平均值,根据其正负来判断文本的倾向性。
2.1.2 基于机器学习的倾向性分析
文本倾向性分析可以看作是一种特殊的分类,即根据文章中对某一主题的观点(支持或反对、高兴或悲伤等)对文本进行分类,因此可将机器学习算法用于倾向性分析。B.Pang等[18]以电影评论作为语料,将三个典型的机器学习方法用于倾向性分析,实验结果表明机器学习方法对倾向性分析效果很好。H.Cui等[19]用不同的机器学习算法对大规模在线产品评论进行实验,实验结果表明带有高阶n元特征的分类器可以达到更好的性能。
本文即在机器学习方法的基础上进行跨领域倾向性分析。
2.2 移植学习
移植学习是指利用其他领域或时间段的数据来辅助当前学习。作为机器学习领域一个重要研究方向,有许多学者对此进行研究并产生出很多算法(如文献[20-22])。Daume III. H等[20]使用一个特有的高斯模型研究统计自然语言处理领域的移植学习。Dikan Xing等[21]提出一个名为“桥优化”的算法来解决移植学习问题。Jing Jiang等[22]提出一个两阶段法来解决移植学习问题。其算法的基本思想是:第一阶段,即泛化阶段,得到在各领域之间通用的一些特征;第二阶段,即适应阶段,找出特定于目标域的有用的特征。
然而,以上工作均没有将领域移植用于倾向性分析领域,本文将提出算法,解决跨领域倾向性分析问题。
3 基于图排序模型的跨领域倾向性分析算法
3.1 算法描述
我们定义跨领域倾向性分析问题如下:
测试集DU= {d1,…,dn}和训练集DL={dn+1,…,dn+m},其中di表示第i个文本的向量,每一个文本应该有一个来自类别集C={支持, 反对}中的标签。每一个测试文本di∈DU(i=1,…,n) 没有被标注, 每一个训练文本dj∈DL(j=n+1,…,n+m) 已经被标注了一个类别C中的标签。假设测试数据集DU和训练数据集DL来自相关但不相同的领域。本算法的目标是利用另一个领域的训练数据集DL来对测试数据集中的每一个文本di∈DU(i=1,…,n)分配一个C中的标签,使得准确率最高。
本算法基于以下前提:
(1) 用WL表示旧领域的词空间,WU表示新领域的词空间,且WL∩WU≠Φ。
(2) 如果一个文本既存在于训练集中,又存在于测试集中,则标签一致。
图排序算法(如PageRank[14])的思想是:图中与其他重要节点紧密相联的节点也很重要。该算法已成功应用于很多领域。基于图排序思想,我们认为如果一个文本与一些具有支持(反对)态度的文本紧密联系,则它也很可能持支持(反对)态度,这也是邻域学习思想。
因此,我们将训练集和测试集看作一个图,每一个文本为图中的一个节点。给每一个节点一个表示其情感类别的分数,称其为情感分。本文提出的算法将文本情感类别间的关系与graph-ranking算法结合起来。对于每一个待标注文本,算法通过其在训练域和测试域的邻域来计算它的情感分,并用一个统一的公式进行迭代计算,当算法收敛时,得到待标注文本的最终情感分。如果一个节点的情感分在-1到0之间,表示这个节点所代表的文本是持反对态度,情感分越接近于-1,此文本越倾向于反对态度;如果一个节点的情感分在0到1之间,表示这个节点所代表的文本是持支持态度,情感分越接近于1,此文本越倾向于支持态度。
3.2 基于图排序模型的跨领域倾向性分析算法
3.2.1 算法初始化
(1)
3.2.2 情感分计算策略
得到初始情感分向量S0后,即可利用训练域的准确情感分和测试域的伪情感分来迭代计算测试集的最终情感分。
1) 利用训练集的准确情感分来计算测试集的情感分
建立一个图模型,节点表示DL和DU中的文本,边表示文本间的内容相似度。内容相似度此处用余弦相似度来计算。我们使用一个联接矩阵U来表示DU和DL间的相似矩阵。U=[Uij]n×m定义如下:
(2)
(3)
最后,用di邻居们的分数来计算它的情感分,公式如下所示:
(4)
2) 利用测试集的“伪”情感分来计算测试集的情感分
(5)
3.2.3 算法迭代过程
本算法要同时利用训练域和测试域的信息来对测试域的文本进行标注,因此综合公式(4)、(5),得到迭代计算测试数据集的情感分的公式如下所示:
(6)
其中α+β=1,α和β分别表示训练域和测试域对最终情感分的贡献大小。为保证算法收敛,算法每迭代一次都需要将S归一化(如公式(1)),迭代计算情感分S并归一化,直到收敛为止。
4 基于EM思想的跨领域倾向性分析方法
得到基于图模型的跨领域倾向性判别结果后,我们充分利用其中倾向性判断较为准确的测试文本来提高整个测试集倾向性分析的精度,进一步通过EM算法迭代进行跨领域倾向性分析。
EM算法[23]是进行极大似然估计的一种有效方法。之所以命名为EM,是因为算法的每一次迭代包括两步:第一步求期望(Expectation Step),称为E步;第二步求极大值(Maximization Step),称为M步。它是一种迭代方法,每一次迭代都保证似然函数值增加,最终收敛于一个局部极大值。然而,它又不是直接对复杂的后验分布求极大化,而是在观察数据的基础上添加一些“种子数据”,从而简化计算并完成一系列简单的极大化模拟。
我们基于EM算法的思想,从上一节算法的测试集倾向性分析最终结果中选出一部分分类最准的文本作为“种子”,保持这些“种子”文本的类别不变,其余测试集中的文本根据与这些“种子”之间的相似程度进行迭代计算,如果一个文本与一些具有支持(反对)态度的“种子”文本紧密联系,则它也很可能持支持(反对)态度,算法收敛时,得到测试集的最终倾向性分析结果。
具体算法如下:
第一步,挑选种子文本。将上一节算法得到的最终测试集情感分由高到低进行排序,分别将排序列表中最前和最后P/2个文本作为种子(其中P为待选种子占整个测试集文本数的百分比)。其中前P/2个文本是最有可能持支持态度的文本,最后P/2个文本是最有可能持反对态度的文本。
第二步,情感分初始化。根据上一节中的判断结果,将测试集中每个文本的情感分初始化,如果它分配到的标签是“反对”,则将它的情感分赋为-1;如果它分配到的标签是“支持”,则将它的情感分赋为1。然后将这些情感分利用公式(1)进行归一化。
第三步,EM迭代计算。在上一节中,我们已经得到一个DU在测试域中的邻居矩阵M=[Mij]n×K以及利用测试域的情感分来计算测试集的情感分公式(5)。此时,保持种子文本的情感分不变,其余文本由公式(5)根据其邻域的情感分来计算最终情感分。同样,为保证算法收敛,算法每迭代一次都需要将除种子以外的文本的情感分归一化(公式(1)),使得正的情感分之和为1,负的情感分之和为-1。迭代计算情感分S并归一化,直到算法收敛为止。
第四步,判断文本倾向性。如果文本的情感分在-1到0之间,表示它持反对态度;如果一个文本的情感分在0到1之间,表示它持支持态度。
5 实验与分析
5.1 实验数据
目前尚未有倾向性分析的中文文本语料,我们从互联网上的评论中整理出三个领域的中文数据集,分别是:电子评论(来源于:http://detail.zol.com.cn/),财经评论(来源于:http://blog.sohu.com/stock/)以及酒店评论(来源于:http://www.ctrip.com/)。然后由专家将这些数据集标注为“支持”或“反对”。数据集的具体组成如表1所示(其中“词典长度”表示数据集中不同词的数量):
表1 数据集构成
5.2 实验设置
我们对上述数据集进行以下预处理:首先,我们使用中文分词工具ICTCLAS(http://ictclas.org/)来对这些中文评论进行分词,然后,用向量空间模型来表示文本。在该模型中,每个文本转化为词空间中的词袋表示,词的权重用该词在文本中出现的频率来计算。
在倾向性分析中,特征选择方法则需要选出具有语义倾向的词语作为特征词。我们通过词性来判断词的语义倾向性。在汉语中,具有语义倾向的词语的词性有12种[24],其中一些叹词等虽然也具有倾向性,但在评论中出现的次数非常少,因此本文没有将它们作为特征提取出来,而是选择经常出现的具有以下4种词性的词作为特征,如表2所示:
表2 具有倾向性的词语的词性构成
5.3 实验评价
本文用LibSVM[7]作为Baseline算法,使用其线性核,并将所有参数设为缺省值。另外,将本文算法与结构对应学习算法(记作SCL)[12]进行比较分析。SCL算法是一种新的跨领域倾向性分析算法。该算法思想为:找出在不同领域中频繁出现的情感特征作为枢纽特征,然后通过建模来获得非枢纽特征与枢纽特征之间的关联。文献[12]中的最优参数设置,本实验中,我们使用100个枢纽特征。本文使用精度(Accuracy)作为倾向性分析系统的评价标准。
5.4 实验结果
我们提出的算法中有两个参数:K和α(β可以由1-α计算得出)。将K设为150,表示为每一个文本求出150个邻居;将α设为0.7,表示训练域对情感分的贡献比测试域略大。同时,我们认为对于di∈DU(i=1,…n),如果连续两步计算得到的情感分si的变化量低于一个给定的阀值则该算法收敛,本文设定此阀值为0.000 01。另外,在实验结果中,我们将基于图排序模型的跨领域倾向性分析算法记作GraphOA,将基于EM思想的跨领域倾向性分析方法记作EMOA。
表3显示了将LibSVM用于倾向性分析时,在特征选择前、后的精度:
表3 特征选择前后的倾向性分析精度
表4显示了当进行跨领域倾向性分析时,LibSVM、SCL以及基于图排序的跨领域倾向性分析算法(GraphOA)的精度,其中我们的算法用LibSVM分类器进行初始化。
在GraphOA的基础上,我们又进行了基于EM思想的跨领域倾向性分析方法(EMOA),其中根据待选种子占整个测试集文本数的百分比P分别为1%、5%、10%、20%而做了四组实验,实验结果如表5所示。
表4 跨领域倾向性分析时不同算法性能比较
表5 不同取值P时EMOA算法精度比较
由表3可以看出,本文采用的面向倾向性分析的特征选择方法可以提高文本倾向性分析的精度,特征选择后的平均精度提高了1.62%,说明我们的特征选择方法对于倾向性分析问题是适用的。
由表4可以看出,基于图排序的跨领域倾向性分析算法大幅度地提高了跨领域倾向性分析的精度。其中第2列是LibSVM的精度,第4列为用LibSVM初始化后本算法的精度,对比可见,我们算法的精度均高于LibSVM的精度,平均精度提高了11.9%。精度上如此大幅度的提高表明我们的算法对于跨领域倾向性分析问题非常有效。
表4中第3列为SCL算法的精度,总体上说,我们对于SCL算法的实验结果与文献[12]中结果基本一致。SCL算法的平均精度比LibSVM高,这证明SCL算法对于跨领域倾向性分析问题是有效的。然而从表中可以看出,我们提出的算法的精度优于SCL算法。分析其原因,是因为以下两点:第一,SCL算法本质上是基于词的共现(窗口大小为整篇文本),因此它很容易被低频词及数据集大小所影响。第二,SCL算法的枢纽特征是完全由领域专家选定的,因此枢纽特征选择的质量会影响SCL算法的性能。
表5显示基于EM思想的方法可以进一步提高跨领域倾向性分析的精度。当选取的种子数超过测试集的5%时,基于EM思想的跨领域倾向性分析方法的精度就开始比GraphOA高,并随着种子百分比的增大而进一步提高,当P取20%时,基于EM的方法比基于图排序的跨领域倾向性分析算法的平均精度提高了1.63%。这说明基于EM思想的算法对于跨领域倾向性分析问题是十分有效的。
6 结论
本文提出一种跨领域倾向性分析算法,它将文本的情感倾向性与图排序方法结合起来进行跨领域的倾向性分析。在得到迭代最终结果后,利用其中倾向性判断较为准确的测试文本来提高整个测试集倾向性分析的精度,我们将这些较准确的测试文本作为“种子”,进一步通过EM算法迭代进行跨领域倾向性分析。我们针对三个领域相关的情感数据集检验本文提出的算法。实验结果表明,我们的算法可以大幅度地提高跨领域倾向性分析的精度。
[1] 胡熠,陆汝占,李学宁,等.基于语言建模的文本情感分类研究[J].计算机研究与发展,2007, 44(9): 1469-1475.
[2] 姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007, 21(5): 73-79.
[3] 唐慧丰,谭松波,程学旗.监督学习方法在语气挖掘中的应用研究[J].中文信息学报,2007,21(6): 88-94.
[4] 赵军, 许洪波, 黄萱菁, 谭松波, 刘康, 张奇.中文倾向性分析评测技术报告[C]//第一届中文倾向性分析评测会议 (The First Chinese Opinion Analysis Evaluation). COAE, 2008.
[5] Weifu Du, Songbo Tan. An Iterative Reinforcement Approach for Fine-Grained Opinion Mining[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, 2009: 486-493.
[6] Huifeng Tang, Songbo Tan and Xueqi Cheng. A Survey on Sentiment Detection of Reviews. Expert Systems With Applications[J]. Elsevier. 2009, 36(7): 10760-10773.
[7] Chang CC, Lin CJ. LIBSVM: a library for support vector machines. 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[8] Songbo Tan, Xueqi Cheng, Moustafa M. Ghanem, Bin Wang, Hongbo Xu. A Novel Refinement Approach for Text Categorization[C]//Proceedings of the 14thACM international conference on Information and knowledge management. Bremen, Germany, 2005:469-476.
[9] Songbo Tan. An Effective Refinement Strategy for KNN Text Classifier. Expert Systems With Applications[J]. Elsevier. 2006, 30(2): 290-298.
[10] Tan S. B. Neighbor-weighted K-nearest neighbor for unbalanced text corpus[J]. Expert Systems with Applications. 2005, 28: 667-671.
[11] John Blitzer, Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of the 45thAnnual Meeting of the Association of Computational Linguistics. Prague. 2007:440-447.
[12] Songbo Tan, Xueqi Cheng, Yuefen Wang and Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis[C]//31stEuropean Conference on Information Retrieval. Springer Berlin: Heidelberg, 2009: 337-349.
[13] Songbo Tan, Gaowei Wu, Huifeng Tang and Xueqi Cheng. A Novel Scheme for Domain-transfer Problem in the context of Sentiment Analysis[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, 2007:979-982.
[14] S. Brin, L. Page, R. Motwami, and T. Winograd, The PageRank Citation Ranking: Bringing Order to the Web[R]. Stanford, CA: Computer Science Department, Stanford University, 1999.
[15] Turney, P.D.Mining the Web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the Twelfth European Conference on Machine Learning. Berlin: Springer-Verlag., 2001:491-502.
[16] Vasileios Hatzivassiloglou, Kathleen R. McKeown. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 35thAnnual Meeting of the Association for Computational Linguistics and the 8thConference of the European Chapter of the ACL. New Brunswick: NJ, 1997: 174-181.
[17] Turney Peter. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40thAnnual Meeting of the Association for Computational Linguistics. Philadelphila, USA: ACL, 2002: 417-424.
[18] B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP. Philadelphia, USA: ACL, 2002:79-86.
[19] H. Cui, V. Mittal, and M. Datar. 2006. Comparative experiments on sentiment classification for online product reviews[C]//AAAI. Boston, USA, 2006:1265-1270.
[20] Daume III, H. and Marcu, D. Domain adaptation for statistical classifiers[J]. Journal of Artificial Intelligence Research, 2006, 26: 101-126.
[21] Dikan Xing, Wenyuan Dai, Gui-Rong Xue, and Yong Yu. Bridged refinement for transfer learning[C]//PKDD. Warsaw, Porland, 2007:324-335.
[22] Jing Jiang, ChengXiang Zhai. A Two-Stage Approach to Domain Adaptation for Statistical Classifiers[C]//CIKM. Lisbon, Portugal, 2007:401-410.
[23] Despster, A. P., Laird, N. M., Rubin, D. B. Maximum likelihood from incomplete data via the EM algorithm[J]. Royal Stat Soc. B. 1977,39(1): 1-38.
[24] 王治敏,朱学锋,俞士汶.基于现代汉语语法信息词典的词语情感评价研究[J].Computational Linguistics and Chinese Language Processing, 2005, 10(4): 581-592.