基于文本特征的短文本倾向性分析研究
2015-04-21程南昌滕永林
程南昌, 侯 敏, 滕永林
(1. 中国科学院自动化研究所 模式识别国家重点实验室,北京 100190;2. 中国传媒大学 国家语言资源监测与研究中心有声媒体语言中心, 北京 100024)
基于文本特征的短文本倾向性分析研究
程南昌1, 侯 敏2, 滕永林2
(1. 中国科学院自动化研究所 模式识别国家重点实验室,北京 100190;2. 中国传媒大学 国家语言资源监测与研究中心有声媒体语言中心, 北京 100024)
语篇倾向性分析是倾向性分析的较高层次领域。根据文本篇幅和结构可以将语篇分为短文本和长文本。该文以网络商品评论作为样本研究短文本倾向性分析的特点和策略。根据倾向极性在文中的决定性因素的不同表现,短文本可以分为含显性归总句、含隐性归总句、含特征词以及一般文本四类,针对不同类别文本采用不同的处理策略。在此基础上,运用词典、规则的方法构建了语篇倾向性分析系统CUCsas,该方法在第四届中文倾向性分析评测(COAE2012)中取得了较好成绩。
短文本;文本特征;归总句;倾向性分析;词典与规则
1 引言
过去时代,在传统媒体中发表意见、体现舆情的主要是一些较长的评论性文章,我们称之为“长文本”;随着网络论坛的出现,尤其是微博这一新媒体的出现,人们发表意见的阵地极大拓宽,但与传统评论文不同,论坛帖子一般不会很长,微博更是要求在140字之内,我们称之为“短文本”。长文本和短文本都可以发表意见、表达态度,但它们具有不同的语篇结构和语言特点,所以在进行倾向性分析时,所采用的策略和方法也不相同。本文主要以网络商品评论为样本研究短文本倾向性分析的特点和策略。
2 相关技术
倾向性分析(也称情感分析、情感倾向分析、意见挖掘等),旨在研究人们对人物、事件及其属性的主观意见和评价[1-3]。该课题属于多学科综合的研究领域[4],其中涵盖了自然语言处理、信息检索、信息抽取、机器学习等多个领域[5]。按照处理文本的粒度不同,倾向性分析可以分为词语级、短语级、句子级与篇章级几个研究层次。每向上递增一级,情感分析难度要大很多。下面按不同颗粒度论述相关技术。
(1) 词汇级
词汇级的倾向性分析,基于WordNet和HowNet 等知识库的方法和基于语料库的方法较为常见。Kamps等[6]利用WordNet 中词语的同义结构图,通过待测词语与种子词的相似度计算得出待测词倾向值。朱嫣岚等[7]在提取一定基准词的基础上,利用HowNet提供的语义相似度和语义相关场功能计算待测词语与基准词的相似度来进行倾向值计算。Kim和Hovy[8]运用手工的方式收集了一些褒义和贬义的词汇,在此基础上借助WordNet 同义词来扩展这个集合。通过对词语同义词组在原始褒义词集合和贬义词集合对比上,计算词语的褒贬置信度,最后根据阈值判断词语极性。基于语料库的方法主要是利用词语之间的连词以及统计特征来判别词语的情感极性。Yuen等人[9]利用Turney的点互信息,用小规模的语料库来判别词语的倾向极性。具体算法是将倾向极性已确定且情感色彩强烈的词语作为种子词,通过计算需要判断倾向极性的词语与这些种子词的互信息。
(2) 短语级
短语的倾向计算难度比词汇的要大,这主要体现在修饰语与情感词间的动态关系计算的复杂性上[10]。李钝等[11]从语言学角度出发,采用情感倾向定义权重优先的计算方法获得短语中各词的语义倾向度,然后分析短语中各词组合方式的特点,提出中心词概念来对各词的倾向性进行计算,以识别短语的倾向性和倾向强度。李雪燕等[12]研究了倾向性短语中较为复杂的否定性倾向短语,通过不同类别的否定倾向模式,制定相应计算规则,实现了对否定倾向短语的计算。
(3) 句子级
句子的倾向分析难度主要表现在表达方式的多样化与句式的复杂性上,以句式来说,比较句与否定句的倾向分析就是两个难点。姚天昉等[13]利用领域本体来抽取主观句的主题及其属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的倾向极性。刘康等[14]在基于单层模型的句子褒贬度分类方法中,针对标记冗余引起的分类精度不高的问题,提出了基于层叠CRFs 模型的句子褒贬度分析方法。
(4) 篇章级
语篇的倾向性分析是倾向性分析的较高层次,所采用的技术无外乎基于规则的方法和基于统计的方法。基于规则的方法一般可以从计算词语的倾向值开始,然后逐级计算,到短语、句子,最后获得整个篇章的倾向性。杨江[15]提出了一种基于浅层篇章结构的评论文倾向性分析方法,主要采用情感词典与规则相结合的方法,在实验中取得了较好的成绩。基于统计的方法则把倾向性分析看作一类特殊的分类问题,关键的环节在于构造合适的分类器以及选择恰当的特征。Pang等[16]采用标准词袋技术和朴素贝叶斯、最大熵、SVM 分类方法,对Usenet 上的电影评论进行文本倾向分类,并将它们和手工分类结果进行比较。实验结果显示,SVM 在几种分类方法中效果最好,分类准确率最高接近80%。Turney[17]采用无指导的学习算法对评论文进行褒贬分类,首先通过计算给定词或短语与“Excellent”和“Poor”的互信息差来度量其语义倾向,然后将文本中词和短语的平均语义倾向作为给定评论文的整体倾向。
在篇章级的倾向分析中,基于统计的方法把倾向性分析看作特殊的分类问题,而基于规则的方法一般是通过词、短语以及句子的逐级计算,最后取平均值。目前的研究通常较少关注到语篇本身的特征在倾向性分析中的作用,因此,无法体现篇章级倾向分析与句子(短语、词)倾向性分析的区别,也很难取得理想的效果。
3 短文本倾向性分析
3.1 短文本特征 短文本与长文本不仅篇幅长短不同,在语篇结构及表现特征上也不相同。先看下面两个网络商品评论的短文本实例*文本所有用例均来源于COAE2012任务3提供的训练和测试语料,后面为该文本在语料中的统一编号。:
例1 总体来说还是蛮不错的!这个价钱能做成这样我觉得我们不应该更挑剔了。而且效果和一般的机子真的不在一个层次上!而且收到的是心里想的黑色的,呵呵。最后说一句,在信号不怎么好的地方,用配送的那个天线,效果真的不一样哦!
例2 是1628时买的,好像是比较低的价格了,虽然有IPONE4,又来买了2个,一个送给自己,一个送给女朋友,女朋友非常喜欢。可玩性很高,完全后悔买IDSI了,很多的游戏,只是有些需要花钱,不过还真是科技含量很高,很值得一赏。
上述两个短文本显示了网络商品评论的一般特征,归纳起来主要有以下几点:
1. 没有标题,表达随意
与大部分论坛帖子和微博一样,商品评论也没有标题。标题是篇章主旨的表现,由于没有标题的约束,而且作者也并没有把其当作一个正式的文章来写,想到哪就写到哪,因此,短文本在表达意见时用语很随意。
2. 文本结构简单,喜欢用归总句
短文本作者需要在很短篇幅内阐明自己的看法,所以通常是开门见山地提出自己的意见,或经简单的点评,在末尾给出自己的看法。例如例一的开头: 总体来说还是蛮不错的!例二则在“价钱”与“可玩性”两方面潦草的评说后,在结尾给出了自己的总体看法: 很值得一赏。该情况主要源于短文本的篇幅,由于篇幅短小,无法展开论述,又需要表达自己对产品的看法,因此只能采用概括力较强的归总性语句来表达自己对某个产品的总体看法。故而,在短文本中类似于下面的句子较多:
(1) 总之,奇瑞轿车的质量还是挺让人放心的。
(2) 总体来看不错,按键的感觉很好,拿在手里很舒服,屏幕显示很细腻。
(3) 总而言之,作为一辆家用型代步工具,马六可能性价比不是最高,但鲜明的特点也为我带来了比较强烈的驾驶乐趣,值得推荐。
上述三个句子,带有归总标记词“总之”等,具有明显的归总意义,这样的句子,我们称之为“归总句”。
3. 意见表达直截了当,主观性强
语言通俗直白,表达意见直截了当,不拐弯抹角;主观性很强,常常会说“我认为、我觉得”。请看下面三个例句:
例1 我没开过好车,在我开过的车中我认为帕萨特刹车性能是最好的。
例2 我认为奥德赛有点矮,所以看过去比较小气。
例3 算一下数,买了新车后还要花一万元的费用,但我觉得非常值得。
4. 句式简单
句子短小,复句较少,一般以单句为主。
5. 书写不规范
书写很随意,文本不统一、不规范的情况比比皆是。乱用标点符号,常常有错别字,语法也不够规范,带有浓重的口语色彩。
综上所述,以商品评论为样本的短文本语篇的特点是篇幅短小,没有标题,表达意见直截了当,句式简单,往往爱用归总句,这些特点决定了我们在对其进行倾向性分析时采取的策略。
3.2 短文本倾向性分析策略
短文本篇幅短小,句式简单,因此在倾向性分析时,主要以单句为主。另外,短文本表达意见往往直截了当,喜用归总句,而且,归总句的倾向极性直接决定了语篇的倾向极性。因此,我们可以首先根据归总句的存现特征,将商品评论文分成三类:
(1) 有显性归总句的文本;
(2) 有隐性归总句的文本;
(3) 没有归总句的文本。
没有归总句的文本还可以根据其是否有特征项再分为“含特征项的文本”以及“一般文本”两类。对不同的文本要采取不同的处理策略,以做到有的放矢,下面具体说明。
1. 含显性归总句文本
显性归总句指的是以如下词语做标记的句子* 只列出部分归总句显性标记,隐性标记与此相同。:
总体来说、总体说来、总体看、总体感觉、总的来说、总的说来、总之、总而言之、总结、整体感觉、整体来说、整体来看、整体的、整体还、整体上、整体看、综上所述等。
显性归总句约占网络商品评论比例的16%* 在COAE2012汽车训练文本中统计得出,训练文本为3 000个,含有隐性归总词语的文本为477个。。含显性归总句的文本,一般情况来说,只需要处理归总句即可,其他句子可以不考虑。为有效识别这类句子,我们建立了一个归总句显性标记词表。
2. 含隐性归总句文本
有些文本中没有明显的归总句标记,但是文本的首句、末句含有下面这样的词语:
大体上、大体还、我认为、我觉得、觉得、个人认为、个人觉得、我感觉、一句话等等。
这种句子我们称之为隐性归总句。含该类句子的文本约占网络商品评论的20%*在COAE2012汽车训练文本中统计得出,训练文本为3 000个,含有隐性归总词语的文本为597个。。
还有一些文本,其末尾一句含有倾向比较明确或者倾向性较强的词语,也可以被认为具有归总的意思。例如,建议大家不要买了、推荐购买、够用了、喜欢喜欢、很值得、太让人失望了、我好失望、坚决不买xx车。这类词语我们称其为归总隐性标记,也建立一个相应的词表。
“开门见山”和“卒章显志”是汉语语篇的重要特点,在评论产品时候,极少有人非常耐心地去长篇大论,通常是直接给出自己的观点,或者稍稍评价后,在最后发表自己的意见。对于产品评价来说,要特别注意文本末尾的几句。无论前面说了些什么,如果含有上面这些强烈的情感倾向的词语,前面语句基本上都可以不用去分析。检索末尾一句的时候,如果末尾一句是“呵呵、嘻嘻、哈哈”这样一些感叹词,那么要选择倒数第二句。
对于含有隐性归总句的文本,在加权算法中,隐性归总句在整个文本的得分中占有较高的比例。
3. 没有归总句文本
如前所述,没有归总句的文本还可以细分为含
有特征项的文本与一般文本,含有特征项的文本可以分成多种情况,下面是三种典型情况:
(1) 有骂人的话。例如,你妈的、NMLGB、你ma、我操、我操你妈、我日、狗屁、黄花菜都凉了等。
(2) 含有“唯一”加情感词。“唯一”加正面情感的如: 唯一的亮点、唯一的优点;加负面情感的如: 唯一的遗憾、唯一的不足等。
(3) 含有极限程度副词加情感词。极限程度副词是指“非常、特别、极度、特、超、超级、绝伦、绝对、绝顶、最、无比”等。极限程度副词加正面情感词的如“非常棒、非常满意”,加负面情感词的如“非常糟糕、非常讨厌”。
将上述特征项收录进特征词表,作为分析带特征项的非归总句资源。
没有归总句,也没有特征项的一般文本将根据文本中情感句的倾向值来处理。
3.3 短文本倾向计算
根据短文本的处理策略,我们制定了相应的算法,图1是短文本计算流程。
图1 语篇倾向性分析系统CUCsas工作流程
图1说明:
(1) 图1中分词标注、情感标注、计算情感度几个步骤与侯敏[18]、周红照[19]基本一致,不再赘述。“计算情感度”这一工作完成后,得到的是句子上标有情感值的文本。
(2) 用归总句显性标记词表,对文本进行显性归总句计算。对于含有显性归总句的文本,归总句的得分就是整个文本的得分。
(3) 用归总句隐性标记词表,对其余文本进行隐性归总句计算。对于含有隐性归总句的文本,如果隐性归总句在文本的首句,该句在整个文本的得分中占的比重为50%,文本中其他所有情感句的得分占整个得分的50%。如果一个文本含有五个情感句,各个句子的得分分别为S1、S2、S3、S4、S5,整个文本得分计算方法如公式(1)所示。
(1)
如果隐性归总句在文本尾句,该句在整个文本得分中占的比重为60%,其他所有句子的得分占整个文本得分的40%。整个文本得分的计算方法如公式(2)所示。
(2)
(4) 没有归总句的文本,利用特征词表,计算特征项对应的分值。
(5) 上述步骤完成后剩余的一般文本,将所有情感句得分之和除以情感句的总数,所得为该文本分值。计算方法如公式(3)所示。
TextScore=
(3)
如果情感句是首句或者末句,还要进行一定程度的加分(P),默认是加0.1分。
4 实验(评测)及结果分析
为验证短文本计算方法的有效性,我们参加了2012年中文信息学会组织的中文倾向性分析评测(COAE2012)任务3篇章级倾向性打分的评测。评测要求对网络商品评论文进行打分,共分五个等级,5分表示强烈褒义,1分表示强烈贬义。下面论述实验过程。
4.1 实验准备
为了获得语料的基本情况,我们对训练语料得分情况与用户心理进行了分析,训练文本的得分情况如表1。
表1 训练语料各个等级得分比例
表1显示: 在汽车领域,等级为3的文本,占72%,超过了其他所有等级的总和,等级为1和2的特别少;电子领域的各个等级分布相对来说比较均匀,但是5分与4分之和占了总比例的70%。我们从用户消费心理的角度出发分析了上述得分情况。
先看汽车。一方面,由于汽车是较大的商品,花的钱多,用户往往反复比较、挑选,对一些小问题很计较;另一方面,出厂的汽车,一般都经过了反复的检测和实验,不会太差。因此,汽车领域得好评(等级4、5)的不多,得差评(等级1、2)的也很少,得中评的特别多。
而电子产品一般都比较小,花的钱不多,如录音笔、手机、耳机等,用户比较容易满足,只要看上去漂亮、音质好、服务态度好的都直接给高分了,因此,电子领域得好评的多。
通过对训练语料得分及用户消费心理的分析,我们不仅了解了训练语料的总体情况,也了解了其背后的原因。
4.2 算法调整
运用CUCsas系统进行短文本计算,所获得的是文本的倾向值,根据评测的要求,需要把得分分成五个等级。通过对训练文本打分发现,文本的得分基本与等级的走向一致,即: 等级高的得分高,等级低的得分低。这说明短文本计算所得的倾向值是有效的,我们通过设定阈值的方法,把得分与等级对应起来。
4.3 实验(评测)结果及分析
1. 评测结果
表2是第四届中文倾向性分析评测(COAE2012)中任务3篇章级倾向性打分的评测结果。表2显示,CUCsas系统在任务3中取得了最好成绩。汽车语篇的精度达到了83%,电子语篇的精度达到69%,分别高出平均成绩34%和32%。
2. 结果分析
对系统判断错误的文本进行分析,错误的产生主要有以下几个原因:
表2 COAE2012篇章倾向性分析评测结果
(1) 文本情感值转换成等级时错误
文本倾向的5度打分,难度要比倾向极性判断大。虽然文本的整体倾向分析正确,但在具体划分到某个等级时,容易发生错误,特别是相邻的等级。例如,下面的文本:
一次点亮,完美兼容,唯一可惜的就是32bit的win7只能识别3G的内存,显示的是“4G(2.99G可用)”,不想破解系统,也不想换64bit的系统,凑合用了。至少内存增加了,而且有了双通道,性能多少会有提升!卓越包装那个结实啊,都有些受宠若惊,价格也实惠,赞一个!
计算机给该文本的得分为0.6分,属于等级4,标准答案显示该文本的等级是5。该文本有“唯一可惜”与“凑合用”,同时也有“完美兼容”与“赞一个”,兼有4级与5级的特征,因此计算机判断起来较困难。表3显示,电子所取得的成绩没有汽车好,主要是因为电子领域等级为4和5的文本占的比重大,而4与5的文本在得分上相交的范围比较大,因此判别起来容易出错。
(2) 有两个评价对象时容易出错
在汽车领域,用户在评论某个品牌的车时,往往喜欢拿其他的品牌来对比,例如,“花冠比伊兰特贵近3万,但是听说韩系车用几年后小故障比较多。”对两种对象评价意见不相同时,计算机容易误判。
(3) 分词与情感词典问题
有部分是因为领域专有词语分词错误引起的,例如,“大捷龙”是一种品牌,被误分成“大捷”和“龙”。此外,情感词典中有小部分领域专有的评价词语未收录,比如“飘”用来形容汽车不稳,属于贬义。
(4) 归总句识别精度问题
我们从电子测试文本中抽取了前100个文本进行归总句识别,共识别出25个含有归总句的文本,其中显性归总句20个,隐性归总句5个。通过人工鉴定,共发现3个错误,其中显性归总句2个,隐性归总句1个,识别精度为0.88。
3. 方法比较
参加COAE2012的各支队伍采用的方法以统计为主。以哈工大为例[20],其采用的是最大熵分类器,在篇章倾向性打分中,采用情感相似度计算方法。在汽车领域取得了准确率75%的较好成绩。但基于统计的方法受训练语料影响较大,其在电子领域的准确率为42%,略高于平均成绩。哈工大在结果分析中提到,因电子领域的语料来源于京东评论数据,包含用户对多种商品的评论文本,而汽车领域的训练语料和测试数据具有更相似的语言现象,所以电子的成绩没有汽车的好。
我们采用基于文本特征的方法,通过对短文本特征的深入分析,按归总句的存现特征对短文本进行分类,针对不同的类别采用不同的对策。在篇章倾向性分析中,该方法获得了所有参赛队伍的最好成绩。为了验证处理归总句和不处理归总句对于系统性能的影响,去除了图1中前面的归总句及特征词语计算过程,只采用计算情感句总得分,然后取平均值的做法。在同样的测试文本上进行试验,汽车与电子取得的准确率分别为: 0.637 6与0.391 8,均略高于平均成绩。采用处理归总句的方法在汽车与电子领域提高的幅度分别为: 0.194 2与0.299 6。
综合比较统计与规则两种方法,统计的方法基本不分析语言特征,只需要建立合适的分类器,其领域适应性较强,在从一个领域转向另一个领域时,其效率要明显优于规则的方法。但是,统计的方法对训练语料的依赖性较大,并且,倾向性分析涉及到复杂的语言学知识,属于较高层次的文本分析,仅把其看成特殊分类问题的做法,显得有点简单。规则的方法通过对语言特征的分析,针对不同的特征采取不同的处理策略,在倾向性分析中具有一定的优势,但其不足之处也较为明显。规则的方法需要构建评价与语义词典,词典的规模及词的情感标记,对倾向性分析影响较大,规则的制定需要投入较多的时间和人力。而且,随着规则的增加,合理调整规则间的优先级,避免冲突,也是一个较大的难题。
5 结语
本文以网络评论文为样本研究短文本倾向性分析方法。通过对短文本篇章结构的分析,抓住对短文本倾向性有决定作用的归总句进行处理,从而锁定决定整个篇章情感倾向的核心内容。该方法在COAE2012篇章级倾向性分析评测中获得了最好成绩,证明该方法是有效的。
[1] Liu B, Hu M, Cheng J. Opinion observer: analyzing and comparing opinions on the Web[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 342-351.
[2] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.
[3] 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8): 1834-1848.
[4] 姚天昉, 程希文, 徐飞玉, 等. 文本意见挖掘综述[J]. 中文信息学报, 2008, 22(3): 71-80.
[5] 刘康,王素格,廖祥文,等.第一届中文倾向性分析评测技术报告[C]//第一届中文倾向性分析评测会议(COAE2008), 北京, 2008: 1-20.
[6] Kamps J, Marx M J, Mokken R J, et al. Using wordnet to measure semantic orientations of adjectives[J]. 2004.
[7] 朱嫣岚, 闵锦, 周雅倩, 等. 基于 HowNet 的词汇语义倾向计算[J]. 中文信息学报, 2006, 20(1): 14-20.
[8] Kim S M, Hovy E. Determining the sentiment of opinions[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004: 1367.
[9] Yuen R W M, Chan T Y W, Lai T B Y, et al. Morpheme-based derivation of bipolar semantic orientation of Chinese words[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004: 1008.
[10] Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis[C]//Proceedings of the 14th ACM international conference on Information and knowledge management. ACM, 2005: 625-631.
[11] 李钝, 曹付元, 曹元大, 等. 基于短语模式的文本情感分类研究[J]. 计算机科学, 2008, 35(4): 132-134.
[12] 李雪燕,侯明午,侯敏,等. 汉语否定形式的倾向性研究[C]. 第四届中文倾向性分析(COAE2012)评测研讨会论文. 南昌,2012.
[13] 姚天昉, 娄德成. 汉语语句主题语义倾向分析方法的研究[J]. 中文信息学报, 2007, 21(5): 73-79.
[14] 刘康, 赵军. 基于层叠 CRFs 模型的句子褒贬度分析研究[J]. 中文信息学报, 2008, 22(1): 123-128.
[15] 杨江, 侯敏, 王宁. 基于浅层篇章结构的评论文倾向性分析[J]. 中文信息学报, 2011, 25(2): 83-88.
[16] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[17] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 417-424.
[18] 侯敏,滕永林,郑双美,等.话题型微博语言特点及其倾向性分析策略研究[J].语言文字应用,2013(2): 135-143.
[19] 周红照,侯明午,侯敏,等. 基于语义分类的比较句识别与比较要素抽取研究[C]//第四届中文倾向性分析(COAE2012)评测研讨会论文.南昌, 2012.
[20] 唐都钰,石秋慧. HITIRSYS:COAE2012情感分析系统[C]//第四届中文倾向性分析(COAE2012)评测研讨会论文. 南昌,2012.
Short Text Attitude Analysis Based on Textual Characteristics
CHENG Nanchang1, HOU Min2, TENG Yonglin2
(1. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China; 2. Broadcast Media Language Branch, National Langage Resources Monitoring and Research Center, Communication University of China, Beijing 100024, China)
This paper takes the online product reviews as samples to investigate the characteristics and strategies in the attitude analysis of short texts. According to different performances of decisive factors of attitude polarity, the online review texts can be divided into four categories: the text containing overt summery sentence, the texts containing covert summary sentence, the texts containing characteristic words and the normal texts. Different strategies are established to deal with different types of texts, and a text attitude analysis system CUCsas is constructed based on dictionaries and rules. The system generates promising results in the Fourth Chinese Opinion Analysis Evaluation- COAE2012.
short text;textual characteristics; summary sentence; attitude analysis; dictionary and rules
程南昌(1976—),博士,讲师,主要研究领域为计算语言学、舆情监测。E⁃mail:nanyanfei666666@126.com侯敏(1952—),教授,博士生导师,主要研究领域为计算语言学,语言监测。E⁃mail:houmin@cuc.edu.cn滕永林(1962—),副教授,主要研究领域为语言信息处理。E⁃mail:tengyonglin@cuc.edu.cn
1003-0077(2015)02-0163-07
2012-12-06 定稿日期: 2013-09-24
国家语委十二五规划重点项目(ZDI125-3)。
TP391
A