基于评论质量的多文档文本情感摘要
2015-04-21林莉媛王中卿李寿山周国栋
林莉媛,王中卿,李寿山,周国栋
(苏州大学 计算机科学与技术学院,江苏 苏州 215006)
基于评论质量的多文档文本情感摘要
林莉媛,王中卿,李寿山,周国栋
(苏州大学 计算机科学与技术学院,江苏 苏州 215006)
文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要,用以帮助用户更好地阅读、理解情感文本的内容。该文主要研究多文档的文本情感摘要问题, 重点针对网络上存在的同一个产品的多个评论进行摘要抽取。在情感文本中,情感相关性是一个重要的特点,该文将充分考虑情感信息对文本情感摘要的重要影响。同时,对于评论语料,质量高的评论或者说可信度高的评论可以帮助用户更好的了解评论中所评价的对象。因此,该文将充分考虑评论质量对文本情感摘要的影响。并且为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的英文多文档文本情感摘要语料库。实验证明,情感信息和评论质量能够帮助多文档文本情感摘要,提高摘要效果。
情感摘要;多文档;评论质量
1 引言
互联网中包含了丰富的用户对于各种事物的情感、观点等信息,而产品评论是其中重要的一部分,如“I’mprobablygoingtoreturnthem,Ireallydislikethedesign.”、“Theyworkgreat,welovethem.”等。在网络上撰写评论是很普遍的行为,而人们在购买某个产品时也会先阅读一下该产品的评论。但是当某个产品有大量的评论时,一次性阅读完这些评论太费时、费力。文本摘要,尤其是文本情感摘要就可以很好地解决这个问题。
文本情感摘要(Opinion Summarization)可以在很大程度上帮助用户更好地理解网络上大量的情感信息,是自然语言处理的一个重要课题[1]。文本情感摘要可以应用在很多方面。例如,对搜索引擎返回结果的支持,对问答系统的支持,对话题检测与跟踪的支持等。由于人工的抽取文本情感摘要耗时耗力,因此自动的文本情感摘要就成了迫切需要解决的问题。
在评论文本中,句子间的主题与情感表达密切相关,他们之间的关系对摘要的产生有很大的影响。同时,由于缺乏编辑和质量控制,评论的质量差异很大。目前,部分电子商务网站已经提供了用户参与的评论质量评价机制,例如,Amazon*www.amazon.com购物网站允许用户对评论是否有用(helpful)进行投票。如图1显示的是Amazon.com网站的评论, 图1中有
“45,933 of 46,428 people found the following review helpful”。通过这种用户参与的方式可以较准确的判断评论的质量。Chen等[2]中发现通过“helpful”投票评价的评论会明确的影响产品的销量。Kim等[3]和Hong等[4]中都使用“helpful”信息评价评论的质量的。
图1 Amazon.com上关于评论质量的一条评论实例
因此,本文的主要研究情感和评论质量(“helpful”)对情感摘要的影响。在具体实现中,我们采用PageRank算法和HITS算法,同时利用情感信息和评论质量信息进行文本情感摘摘要的抽取。实验结果表明,情感信息和评论质量信息对摘要的提高有很大的帮助。
本文其他部分的组织结构为: 第二部分介绍了摘要的相关工作;第三部分介绍了我们使用的语料;第四部分介绍了我们的方法;第五部分介绍了实验结果;第六部分对本文进行了总结并提出了进一步的工作。
2 相关工作
自动摘要的研究开始于1950年间[5]。自动摘要可分为: 基于统计的摘要(Extractive Summarization)[6-7]和基于自然语言理解的摘要(Abstractive Summarization)[8-9]。本文采用的是基于统计的摘要。
文本情感摘要是自动摘要和情感分析研究里面的一个基本问题。但是在早期的研究中,情感摘要主要集中在预测给定的文本的整体情感倾向(positive或negative)[10-12]。例如,Pang等[10]提出通过机器学习的方法对文本进行情感分类。Hu和Liu[11]一文中先识别出评论中的正、负类情感句子,再获取正、负类摘要。Popescu 和 Etzioni[12]提出“OPINE”的方法预测评论中对产品属性的评论的情感倾向。近几年,情感摘要主要是对评论实体的某一属性进行打分或摘要,例如,对MP3的评论中电池寿命: 1 stars,屏幕: 3.5 stars等[13-17]。这样产生的摘要都很有用,也可以表达用户对产品或产品属性的情感倾向,但是这样的摘要缺少对评论的整体把握,当用户想要对评论有整体的了解时,还是需要阅读更多的评论以进行了解。因此本文的多文档文本情感摘要旨在将大量的评论进行浓缩、提炼,帮助用户消化网络上大量的观点。本文的情感摘更能给读者更全面的观感,从整体上了解评论中大多数人对产品的看法。
然而,评论的质量参差不齐,质量高的评论更能获得用户的信赖。在现有的研究中,评论质量与摘要的关系的研究还比较少。Liu等[18]对低质量的产品评论进行检测,用以帮助情感摘要,但该文中的摘要属于对评论实体的某一属性的摘要,与本文中的情感摘要不同。本文中利用Amazon.com网站用户参与的评论质量评价机制(即评论是否“helpful”)研究评论质量与情感摘要的关系。
3 语料标注
本文基于Amazon.com购物网中的评论资源展开实验与分析。我们从网站中收集了30个主题(产品)的评论语料,其中包含了电子产品的评论、书籍的评论、影视的评论、生活用品的评论等。每个主题包含500篇评论,其中包含褒义评论和贬义评论,每条评论包含了用户的投票信息(即有多少人认为该评论有用)。每个主题平均有3 318.1个句子,49 691.2个单词。我们从每个主题的500篇评论中抽取最有代表性的句子作为每个主题的文本情感摘要。
为了抽取每个主题的产品评论的文本情感摘要,我们邀请三名标注者进行标注并且每名标注者的标注过程都是相互独立的。表1中给出了三名标注者一致性的结果。
表1 人工标注的实验结果
我们抽取的文本情感摘要的标准是选择观点和内容在整个评论中出现频率较高,且覆盖面较广的评论语句。每个主题的摘要的单词总数在120个单词左右。平均压缩比为7.5%。下面将给出关于“Breville BJE200XL Compact Juice Fountain 700-Watt Juice Extractor”的其中一个人工标注的结果。
“Thisjuiceriseasytouse,andnothardtokeepclean.Themotoronthisthingisverypowerful.Theonlydownsideiswherethejuicecomesout,thereisasmalllipthatisnearimpossibletoclean...soit’skindagross.Goodqualityconstruction,workswell,mightbenefitfromaslowerspeedtoextractmorejuicebutgenerallyverysatisfied.Icannotbelievethatforsuchareasonableprice,IwasabletogetsuchaFANTASTICjuicer.Thisissosimpletoclean...andit’sverypowerful...andwe’rereallyenjoyingmakingupourownjuices!Thismachinehaslotsofpower,cleansupeasily,issolidlybuilt,andlooksgood”.
4 基于情感信息和评论质量的情感摘要
本文中我们把文本情感摘要看成是基于主题的句子排序任务。为了研究情感信息和评论质量对文本情感摘要的影响,我们使用PageRank算法和HITS算法。
4.1 基于情感信息和评论质量的PageRank模型
PageRank是一种常见的随机游走(Random Walk)模型[19-21]。本文中采用一种融合情感信息和句子的评论质量信息的三层图模型的PageRank框架做摘要。在该模型中,中间层为基础PageRank模型,上层为句子间的情感联系,下层为句子的质量信息关系。图2描述了三层图模型的PageRank框架。
图2 基于情感信息和评论质量的PageRank模型
在文本摘要中,PageRank模型首先构建一张有向图G=〈Vs,Ess〉,其中顶点集VS是集合S(某个主题中所有句子的集合)中的句子,即每个句子为一个节点,边Ess是句子之间的关系。用节点i到节点j的转移概率p(i→j)定义两节点之间的边的权重。表示为式(1)。
(1)
其中f(i→j)为节点i和节点j之间的相似度,本文中使用余弦相似度(Cosine)[23]作为相似度算法,如式(2)所示。
(2)
若两节点间存在关系,则两节点间的转移概率大于0,即两节点之间存在关系。令f(i→i)=0,用于避免自身之间的转移,并且一般情况下p(i→j)不一定等于p(j→i)。
以图2为基础,句子i的打分Score(si)可以由其他和i有关联的句子推导出,在PageRank算法中它可以以递归的方式表现出来如式(3)所示。
(3)
式(3)中μ是一个阻尼因子,在计算过程中一般设置为0.85[19]。所有句子的初始值都设为1,算法采用迭代的方式直至收敛[20]。
在图2的模型中,本文将两个句子i和j的相似度修订为f(i→j,θij,φij),θij为两个句子间的情感关系,φij为句子间的质量关系。通过为情感句加入情感信息的特征和评论质量信息的特征可以使两个带有情感的句子或者评论质量高的句子联系更加紧密,使两个句子i和j的相似度也随之增大。
本文中采用Unigram构建特征向量。为了利用情感信息,首先判断每个句子是否带有情感,如果带有情感则为该句的特征向量加入一个“OPINION”特征,其特征值λ1大于0。在判断句子是否带情感时: 首先,本文采用最大熵分类器对语料进行正负分类,具体实现是借助MALLET*http://mallet.cs.umass.edu/机器学习工具包,分类过程中,所有参数都设置为它们的默认值;其次,当分为正负类的概率大于0.7时,本文认为句子是带情感的。本文使用的训练语料包含书籍(Book)、DVD、电子产品(Electronic)、和厨房用品(Kitchen)*The data is from multi-domain sentiment dataset v2.0. http://www.seas.upenn.edu/~mdredze/datasets/sentiment/.四个领域的评论。
本文采用如下的方法利用评论质量信息。首先,与Hong等[4]提及的一样,“有用率”h(当“933of1 000peoplefoundthefollowingreviewhelpful”,则“有用率”h=933/1 000)大于0.6的评论文本认为是质量高的评论;其次,给质量高的评论加入一个“HELPFUL”的特征,其特征值λ3大于0;同时加入“单词+#”的特征,其特征值λ4大于0。
当迭代结束,所有句子的打分被确定后,打分高的句子被认为具有较高的信息量和与主题相关度高,并选择这样的句子作为构建摘要。
4.2 基于情感信息和评论质量的HITS模型
本文中引入的另一个句子排序算法为HITS算法[20]。HITS算法有两个重要概念:hub(中心节点)和authority(权威节点)。一个好的中心节点(hub)应该指向很多好的权威性节点(authority),而一个好的权威性节点(authority)应该被很多好的中心性节点(hub)所指向。用递归循环计算出hub值和authority值。
在文本摘要中HITS模型被广泛地应用[20-21]。本文采用基于单词的HITS算法,算法中将单词作为权威节点authority,句子作为中心节点hub,如图3的第二层和第三层。通过HITS算法对句子进行排序,获取排序值大的句子作为摘要。
(4)
(5)
(6)
(7)
句子的中心节点初始值和单词的权威节点初始值都设置为1。算法结束后,得到所有句子的打分Score(si)=Hub(si),选择打分高的句子构建摘要。
本文采用如图3的模型将情感信息和评论的质量信息融入到HITS模型中。与PageRank类似,为质量高的评论加入“HELPFUL”特征和“单词+#”特征作为利用评论质量信息的方式。而与PageRank有所不同的是,在利用情感信息时本文将句子中的词与情感词词典*情感词词典: http://www.cs.pitt.edu/mpqa/#subj_lexicon对照,找出情感词,加入“情感词+*”的特征,其特征值λ2大于0。这样做主要是因为PageRank更注重句子与句子之间的关系,加入“OPINION”特征比加入“情感词+*”的特征空间更密集,可以更有效地联系两个句子。而本文采用基于单词的HITS算法,“情感词+*”的特征能更有效的突出句子的情感特性。
图3 基于情感信息和评论质量的HITS模型
在图3的模型中,扩展层为情感信息和评论质量信息层,中间层为句子层,底层为单词层。通过该模型我们将authority值和hub值的计算方式修订为式(8)~(11)。
(8)
(9)
(10)
(11)
5 实验结果及分析
这一节中,将给出本文的实验设置、实验结果及分析。
5.1 实验设置
本文收集了30个主题的产品评论,每个主题有500篇评论,并由三人对其进行标注。语料中的每一个语句用基于词的Unigram特征构建相应的特征向量表示。人工标注的结果作为评价标准,评测的工具是ROUGE-1.5.5[24]。该工具被广泛用于自动摘要的评价。它通过计算参考标准与候选摘要之间的重叠单元(如:n-gram、单词序列、单词对等)来评价摘要的质量。其中ROUGE-N为n-gram的召回率,计算方法如式(12)所示。
ROUGE-N=
(12)
式(12)中,n表示n-gram的长度,Countmatch(n-gram)指的是一个候选摘要和参考摘要集中共同出现n-gram的个数。ROUGE的结果中给出了1-gram、2-gram、3-gram、和4-gram,以及最长公共子序列的值。在这些数值中unigram(ROUGE-1)最常被使用。在我们的实验中我们给出了ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-L(最长公共子序列的值)和ROUGE-W(加权最长公共子序列的值,加权值为1.2)的结果。在对语料进行情感倾向分类时我们使用的是最大熵工具。
5.2 实验结果及分析
情感是评论语料的一个重要特征,情感摘要就是要体现用户的情感。而评论质量的好坏会影响读者的阅读,好的评论如Amazon.com购物网上“有用率”高的评论会明显影响潜在用户是否购买产品。而情感摘要正是为了给用户在购买产品时提供帮助,体现大部分人的观点。因此基于这些想法,我们提出基于情感信息和评论质量的情感摘要,表2和表3将分别给出PageRank和HITS的实验结果。在实验过程中,实验结果会随着特征权值的改变而改变。根据实验结果,我们进行了交叉验证。进行PageRank实验时,最终选定“OPINION”特征的权值为5。质量高的评论的“单词+#”特征和“HELPFUL”特征的权值都为2×h×log(评论总人数)。
在进行HITS实验时,“情感词+*”特征的权值为10。质量高的评论的“单词+#”特征和"HELPFUL"特征的权值为2×h×log(评论总人数)。
表2和表3中PageRank和HITS表示的是传统的PageRank和HITS算法的实验结果, “+opinion”表示添加情感信息的结果, "+quality"表示
表2 PageRank的实验结果
表3 HITS的实验结果
利用评论质量信息的结果,"Our Approach"表示同时使用情感信息和评论质量信息的结果,而"Human"表示人工标注交叉验证的结果。
由表2和表3中的实验结果我们可以看出(ROUGE-1): 加入情感信息后,PageRank提高了3个百分点,HITS提高了4.4个百分点,这表明“情感”作为评论文本的一个重要特征,对情感摘要有重要的作用;加入评论质量信息后,PageRank提高了2.5个百分点,HITS提高了2.6个百分点,这显示出高质量的情感文本具有更高的可信度,对情感摘要的形成有积极的作用;当情感信息和评论质量信息同时使用时,PageRank提高了4个百分点,HITS提高了将近6个百分点,这表明情感信息和评论质量对情感摘要的重要性,并且两者有相辅相成的作用。表2和表3中除了ROUGE-1有明显提升,加入了情感信息和评论质量信息后,摘要的各个指标也都有明显的提升,这说明在意思上也更接近人工摘要意思。虽然同时使用情感信息和评论质量信息的效果没有比单独使用情感信息的效果高很多,但是还是有一定的提升的,这主要是因为两种信息在一定程度上有重叠。
表2和表3中加入评论质量信息的效果没有加入情感信息的效果明显,这是因为,拥有情感信息的句子比拥有评论质量信息的句子的数量多,即情感信息的影响比质量信息的影响高。
6 总结与展望
本文研究了评论质量和情感信息对情感摘要的影响并结合PageRank算法和HITS算法将这两种信息同时应用于英文的多文档文本情感摘要任务。实验结果表明评论质量与情感信息对情感摘要有重要的影响,能够有效地提高自动情感摘要的准确率。在接下来的工作中我们将收集更多其他领域的评论语料用于验证本文提出的方法。同时,我们将考虑如何更有效地利用评论质量信息和情感信息,寻找更好的评价评论质量的方法,使自动情感摘要的效果有进一步提升。
[1] Ganesan K, C Zhai, J Han. Opinosis: A Graph-Based Approach to Abstractive Summarization of Highly Redundant Opinions[C]//Proceeding of Coling-2008,2008.
[2] Chen P, Dhanasobhon S, Smith M. All Reviews Are Not Created Equal: The Disaggregate Impact of Reviews on Sales on Amazon.com[J]//Carnegie Mellon University.
[3] Soo-Min Kim, Patrick Pantel, Tim Chklovski, et al. Automatically Assessing Re-view Helpfulness[C]//Proceeding of EMNLP-2006, 2006.
[4] Hong Y, J Lu, J Yao, et al. What reviews are satisfactory: novel features for automatic helpfulness voting[C]//Proceeding of SIGIR-2012.
[5] Luhn H P. The Automatic Creation of Literature Abstracts[C]//Proceedings of the IRE National Convention.
[6] Lin C. Training a Selection Function for Extraction[C]//Proceedings of CIKM-1999.
[7] Radev D, H Jing, M Stys, et al. Centroid-based Summarization of Multiple Documents[J]. Information Processing and Management.2004,919-938.
[8] Radev DR, K McKe-own. Generating natural language summaries from multiple on-line sources[J]. Computational Linguistics,1998,24(3):1-31.
[9] Celikyilmaz A, D Hakkani-Tur. Discovery of Topically Coherent Sentences for Extractive Summarization[C]//Proceeding of ACL-2011.
[10] Pang B, Lillian L S. Vaithyanathan. Thumbs up sentiment classification using machine learning techniques[C]//Proceeding of EMNLP-2002.
[11] Hu M, B Liu. Mining and summarizing customer reviews[C]//Proceeding of KDD -2004.
[12] Ana-Maria Popescu, O Etzioni. Extracting product features and opinions from reviews[C]//Proceeding of HLT-EMNLP-2005.
[13] Snyder B, R Barzilay. Multiple aspect ranking using the good grief algorithm[C]//Proceeding of HLT-NAACL-2007.
[14] Lu Yue, ChengXiang Zhai, Neel Sundaresan. Rated aspect summarization of short comments[C]//Proceeding of WWW-2009.
[15] Lerman, Kevin, Sasha Blair-Goldensohn, et al. Sentiment summarization: Evaluating and learning user preferences[C]//Proceeding of EACL-2009.
[16] Ivan Titov R. Mcdonald. A joint model of text and aspect ratings for sentiment summarization[C]//Proceeding of ACL-2008.
[17] Wang H, Y Lu, C Zhai. Latent aspect rating analysis on review text data: a rating regression approach[C]//Proceeding of KDD-2010.
[18] Liu J, Cao Y, Lin C Y, et al. Low-quality product review detection in opinion summarization[C]//Proceeding of EMNLP-Coling- 2007.
[19] Page L, Brin S, Motwani R, et al. The PageRank Citation Ranking: Bringing Order to the Web[R]. Technical report, Stanford Digital Libraries.
[20] Wan X, Yang J. Multi-document Summarization using Cluster-based Link Analysis[C]//Proceeding of SIGIR-2008.
[21] Li F, Tang Y, Huang M, et al. Answering Opinion Questions with Random Walks on Graphs[C]//Proceeding of ACL-2010.
[22] Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrival[M]. ACM Press and Addison Wesley.
[23] Kleinberg M. Authoritative Sources in a Hyperlinked Environment.[C]//Proceeding of the ACM-SLAM.
[24] Lin C. ROUGE: a Package for Automatic Evaluation of Summaries[C]//Proceeding of ACL-2004.
[25] 宗成庆,统计自然语言处理[M],清华大学出版社, 2008.5.
[26] 张瑾,王小磊,许洪波,自动文摘评价方法综述[J],中文信息学报,2008,22(3):81-88.
[27] 秦兵,刘挺,李生,多文档自动文摘综述[J],中文信息学报,2005,19(6):13-20.
[28] 苗家,马军,陈竹敏,一种基于HITS算法的Blog文摘方法[J],中文信息学报,2011,25(1):104-109.
Quality-based Multi-document Opinion Summarization
LIN Liyuan, WANG Zhongqing, LI Shoushan, ZHOU Guodong
(School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Opinion summarization aims to concentrate and refine the text data so as to generate a summary of the text regarding the expressed opinion. It helps users reading and understanding the content of the opinion text. This study focuses on multi-document opinion summarization where the main task is to generate a summary given amounts of reviews towards the same product. Opinion relevance is an important feature for opinion text, which is considered in our opinion summarization method. Meanwhile,users can better understand the objects that mentioned in the reviews by the help of high quality reviews or high credibility reviews, which is also considered in our method. We further collect and annotate an English multi-document corpus on product reviews. Empirical studies on the corpus demonstrate that incorporating opinion and quality information is effective for multi -document opinion summarization.
opinion summarization; multi-document; reviews quality
林莉媛(1987—),硕士,主要研究领域为文本情感摘要。E-mail:scarecrowlly@gmail.com王中卿(1987—),博士研究生,主要研究领域为情感分析与社会计算。E-mail:wangzq.antony@gmail.com李寿山(1980—),博士,教授,主要研究领域为情感分析与社会计算。E-mail:lishoushan@suda.edu.cn
1003-0077(2015)04-0033-07
2013-7-14 定稿日期: 2013-10-12
国家自然科学基金(61003155,60873150);模式识别国家重点实验室开放课题基金资助项目
TP391
A