APP下载

一种改进的基于核心句的评价搭配抽取方法

2015-01-06刘慧婷

计算机工程 2015年2期
关键词:句法语料语句

刘 涛,赵 鹏,刘慧婷,纪 霞

(1.安徽大学计算智能与信号处理教育部重点实验室,合肥230039;2.安徽大学计算机科学与技术学院,合肥230601)

一种改进的基于核心句的评价搭配抽取方法

刘 涛1,2,赵 鹏1,2,刘慧婷1,2,纪 霞1,2

(1.安徽大学计算智能与信号处理教育部重点实验室,合肥230039;2.安徽大学计算机科学与技术学院,合肥230601)

目前主流的评价搭配抽取方法以句法依存分析为基础,由于中文评价文本的不规范性,导致其句法分析结果不稳定,进而影响评价搭配的抽取效果。针对该问题,提出一种改进的基于核心句的评价搭配抽取方法。设计融合核心句和句法依存关系的评价搭配抽取方法,提高评价语句句法分析结果的稳定性,并且在处理复杂的评价语句时,加入对评价对象之间、情感词之间并列关系的分析。实验结果表明,该方法能提高召回率和准确率。

核心句;评价搭配;语法模板;并列关系;依存关系

1 概述

随着电子商务的蓬勃发展,越来越多的消费者倾向于在网络上发表自己的观点和评论,这些网络上出现的海量评价文本蕴含着大量有价值的信息。快捷高效地挖掘出这些评论中消费者对商品及其属性的褒贬态度和评价意见,不仅可以指导商家对产品和服务做出有针对性的改进,而且可以帮助消费者选择合适的商品和服务。情感分析任务日益成为研究者们关注的焦点,评价搭配的抽取是情感分析的关键技术。第三届中文倾向性分析测评已将评价搭配的抽取作为新增的要素级评测任务[1]。评价搭配是指评价对象与其对应的修饰词的组合[2],因此,本文抽取结果的表现形式为:<评价对象,评价词>。

近年来,越来越多的研究人员开始关注评价搭配抽取。在面向英文评论的搭配方面,文献[3]首先对文本进行句法依存分析,然后依据词性建立模板获得评价搭配的候选集,再使用最大熵模型的方法筛选候选集合,最后得到评价搭配的集合。但该方法只能抽取在一个单句中的评价对象和评价词的搭配,且限定了评价词和评价对象的词性。文献[4]首先手工标记出评价文本中的评价对象和评价词,然后在句法分析的基础上获得评价搭配和评价词之间的句法规则,最后用这些规则识别评价搭配,该方法是以人工标注作为基础,需要大量的人力和时间,且覆盖率偏低。文献[5]先从评价语句中找出评价对象,然后用最近距离进行匹配的方法抽取评价搭配,该方法限定评价词为形容词,忽略了具有倾向性的动词和名词,同时使用编辑距离的模糊匹配方法抽取评价搭配,在中文语料中效果并不理想。在中文评价文本方面,文献[6]提出了基于最大熵模型的中文评价搭配的抽取方法,发现程度副词能明显的提高抽取性能,但要事先确定产品特征和情感词汇。文献[7]也是使用最大熵模型的方法识别评价搭配,取得了不错的效果,但是该方法需要构建适合语料环境的极性词表,且单纯使用统计模型的方法难以取得良好的效果。文献[8]在句法分析的基础上,获得评价对象和评价词的路径,并将其作为语义特征应用于最大熵模型。文献[9]从特定的情感词出发,自动获得情感词对应的评价对象,利用句法分析的结果获取依存结构。文献[10]利用SBV极性传递法识别需抽取的评价对象和评价词(极性词),并引入ATT链算法以及互信息法确定评价对象的边界,进一步挖掘了评价对象与评价词的语义关系。

可以看出,目前抽取搭配常用2类方法:一种方法是基于一些语言特征利用最大熵模型等机器学习模型进行训练获得模型[3,6,9];另一种方法是基于规则或模板[4-5,10]。不难发现,不管使用以上哪种方法,句法分析都在评价搭配抽取方面起着重要的作用,但是由于中文网络评价语句的不规范性,导致其句法分析的结果不准确。针对这个问题,文献[11]提出了用原始语料中评价语句的核心句的方法抽取评价对象,文献[12]把核心句的思想引入到评价搭配的抽取中,提出了融合核心句和依存关系的评价搭配的抽取方法,但是没有考虑到语句中并列关系的评价对象和情感词,且在提取核心句时先对不规范的原始语句进行句法依存分析,影响了核心句的抽取效果。为此,本文提出一种改进的基于核心句的评价搭配抽取方法。

2 基于核心句的评价搭配抽取方法

2.1 核心句的抽取

所谓核心句即为依据一定的规则将原句进行处理后得到的新句,新句一般为原句的核心片段,如果原句不符合任何规则,则保持不变[11]。本文中的核心句主要指删除冗余,保留与评价搭配相关的主干成分。本文旨在利用核心句提高评价文本句法依存分析的准确率。抽取核心句的原则是使评价文本规范化,同时又尽量不丢失原句中与评价搭配相关的成分。基于以上原则,以及对大量语料的观察,本文确定了5条规则,如表1所示。

表1 核心语句获得的规则

将句子按照表1的5条规则顺序处理后即可以得到所需的核心句。例如“酒店服务员很热情,环境也很好,尤其是户外的自然环境非常好,唯一的不足就是房间的设施有点旧。希望酒店能尽快改进。”处理步骤如下:

步骤1匹配Rule3,例句处理后变为“酒店服务员很热情,环境也很好,尤其是户外的自然环境非常好,唯一的不足就是房间的设施有点旧。”

步骤2匹配Rule4,例句处理后变为“酒店服务员很热情,环境也很好,尤其是户外的自然环境非常好,就是房间的设施有点旧。”

步骤3匹配Rule5,例句变为“酒店服务员很热情,环境也很好,户外的自然环境非常好,房间的设施有点旧。”

上面例句的核心句即为“酒店服务员很热情,环境也很好,户外的自然环境非常好,房间的设施有点旧。”需要指出的是,对于不同类型的语料,抽取核心句的规则会有所不同,如果是同一领域的语料,则可以寻找出理想的规则以更好地发挥核心句的作用。

2.2 语法模板的获取

识别评价搭配模板如表2所示。

表2 识别评价搭配模板

表2中的箭头表示存在依存关系;箭头两端的字母代表具有依存关系的2个词的词性;箭头上方的标识(如“SBV”)表示具体的依存关系;括号中的成分表示是有可能存在的。

在获得核心句之后,需要对核心句进行句法依存分析,然后根据评价搭配抽取模板抽取评价搭配。通过对语料的观察和分析,发现评价对象和评价词之间主要有以下关系:

(1)修饰关系,如:“时尚的外观”,本文用表2的模板1来识别此类的评价搭配。

(2)主谓关系,如:“房间很干净。”,根据主语和谓语核心词的词性,分为3种情况:

1)用表2的模板2首先识别出核心评价搭配<n,a>,如果主语是复合短语则使用表2的模板5识别出完整的评价对象n+n或者v+n,同样如果谓语是复合短语则用表2的模板6识别出完整的评价词d+a。

2)用表2的模板3首先识别出评价对象n,如果主语是复合短语则使用表2的模板5识别出完整的评价对象n1+n2或者v1+n2,再用表2的模板7识别出评价词n/a/v,最后判断是否符合表2的模板8,若符合,则获得完整的评价词d+v+n/a/v。

3)用表2的模板4首先识别出核心评价搭配<v,a>,然后用表2的模板5识别出评价对象n+v,同样如果谓语是复合短语则用表2的模板6识别出完整的评价词d+a。

(3)并列关系,这里分为2种情况:

1)评价对象是并列关系的,如“酒店的环境和设施都很差。”,本文用表2的模板9识别出并列的评价对象n1,然后根据n2识别出评价对象n1完整形态和对应的评价词;

2)评价词是并列关系的,如“房间很干净,也很安静。”,本文用表2的模板9识别出评价词a1,然后根据a2识别出a1的评价对象,最后判断a2是否有前缀修饰词,有的话就使用表2的模板6识别出完整的评价词d+a。

本文使用的是哈尔滨工业大学社会计算与信息检索研究中心提供的语言技术平台(Language Technology Platform,LTP)进行分词和依存关系分析的。具体评价搭配抽取算法如下:

输入评论语句集合StcSet0={s1,s2,…,sm}

输出评价搭配集合CombinSet1={<obj1,evalu1>,<obj2,evalu2>,…,<objn,evalun>}

Step1扫描集合StcSet0中的每个句子,对于句子sk(k=1,2,…,m),依次使用表1中的5个规则匹配处理,最后获得sk的核心语句shk。扫描结束后获得集合StcSet0对应的核心句集合StcSet1,StcSet1= {hs1,hs2,…,hsm}。

Step2扫描集合StcSet1中的每个句子,对于句子hsk(k=1,2,…,m),构造分析器,具体如下:

(1)首先匹配表2中的模板1,若匹配失败直接进入步骤(2);若匹配成功,先识别出评价搭配<n1,a1>,然后通过a1匹配表2中的模板6,若匹配成功,则获得评价词d1a1,再通过a1匹配表2中的模板9,若匹配成功,则获得评价搭配<n1,a2>,最后通过n1匹配表2中的模板9,若匹配成功,则获得评价搭配<n2,a1>。

(2)匹配表2中的模板2,若匹配成功,得到评价搭配<n1,a1>,然后通过n1循环匹配表2中的模板5(设定最多循环2次),若匹配成功,得到评价对象x2x1n1(x2x1可能是nn或vn),再通过a1匹配表2中的模板6,若匹配成功,则获得评价词d1a1。再通过n1匹配表2中的模板9,若匹配成功,则获得评价搭配<n2,(d1)a1>。之后通过a1匹配表2中的模板9,若匹配成功,则获得评价配对<x2x1n1,(d1)a2>。

(3)匹配表2中的模板3和模板7(其中,2个模板中的v是同一个词),若匹配成功,则得到评价搭配<n,(d)+n/a>,然后通过n匹配表2中的模板5右边的n2,若匹配成功,获得评价对象n1/v1+n,若评价词中有单独的a,则需要匹配表2中的模板6,获得评价词d+a,同上面的步骤(2)一样,对评价词a和评价对象n用表2中的模板9进行匹配并作出同样的处理。

(4)匹配表2中的模板4,若匹配成功,则得到评价搭配<v,a>,然后通过v匹配表2中的模板5右边的v2,若匹配成功,则获得评价对象n1+v,再通过a匹配表2中的模板6,若匹配成功,得到评价词d+a,然后同步骤(2)一样,对评价词a用表2中的模板9进行匹配并做同样的处理。

Step3重复Step2,直至处理完集合StcSet1中的每个句子。

Step4算法结束。

3 实验结果与分析

3.1 数据集与评价指标

本文采用的实验数据是谭松波的中文情感挖掘语料提供的酒店评价语料,选取其中的1200篇,正反各600篇作为实验的数据集,进行了3组实验。第1组实验对原始语料和使用表1规则抽取的核心句分别进行句法依存分析后,再分别使用表2的语法模板抽取评价搭配;第2组实验对抽取的核心句进行句法依存分析后,分别使用含有并列关系的模板和不含并列关系的模板进行评价搭配抽取;第3组实验将从1200篇语料随机选取900篇作为训练语料,余下的300篇作为测试语料,然后做基于最大熵模型的评价搭配抽取实验,并与本文方法做对比。本文使用手工标注所有语料中的评价搭配作为实验结果的对比标准。

本文实验主要采用召回率(R)、精确率(P)、识别性能(F)这3个评价指标,具体如式(1)~式(3)所示:

3.2 结果对比

3组实验结果分别如表3~表5所示。

表3 2种实验方法的结果对比%

表4 是否含有并列关系模板的对比结果%

表5 本文方法与基于最大熵模型的实验结果对比%

表3表明,使用核心句可以显著地提高评价搭配的抽取效果,这主要是原始语料中评价语句的不规范性导致的。对原始语料进行句法依存关系分析,其结果的准确性不是很高,因此,使用语法模板抽取评价搭配就很难得到理想的结果。而对原始语句消除冗余,获得核心句,就会在很大程度上改善这个问题,从而获得比较理想的抽取效果。

从表4可以看出,加入并列关系的语法模板可以提高评价搭配的抽取效果,当评价语句中含有并列关系的评价对象或评价词时,只有一对评价搭配表现为修饰关系或主谓关系,此时,用并列关系的模板就可以抽取其余的评价配对,提高了抽取的效果。

从表5可以看出,本文方法与文献[7]方法相比,在召回率上提高了约3%,在准确率上提前高了约3.2%,从而证明了本文方法的有效性,且具有一定的应用价值。

4 结束语

评价搭配的抽取是文本情感挖掘的一个重要研究方向,本文提出一种改进的基于核心句的评价搭配抽取方法。该方法融合了核心句和句法依存关系,极大地改善中文评价文本的不规范性,并在处理复杂语句时重点分析评价对象之间以及情感值之间的并列关系,提高评价搭配的抽取效果。实验结果也表明该方法的有效性,具有实际应用价值。但是本文方法也存在不足,对于像“我住的是3栋,不跟前台一栋房子,很难找。”这类含有潜在评价搭配的语句无法识别出评价搭配;对不同类型的语料,具体的模板会有所改变。今后将把评价语句的语义角色特性引入到评价搭配的抽取中,同时,将对比较句式的评价语句进行重点探索,进一步提高评价搭配的抽取效果。

致谢:感谢哈尔滨工业大学社会计算与信息检索研究中心提供的LTP句法分析器。

[1] 许洪波,孙 乐,姚天昉,等.第三届中文倾向性分析总结报告[C]//第三届中文倾向性分析评测会议论文集.[出版地不详]:中国中文信息学会信息检索专业委员会,2011:1-24.

[2] 赵妍妍,秦 兵,刘 挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.

[3] Somprasertsri G,Lalitrojwong P.Mining Feature-opinion in Online Customer Reviews for Opinion Summarization[J].Journal of Universal Computer Science, 2010,16(6):938-955.

[4] Feng Sheng,ZhangMing,ZhangYanxing,etal. RecommendedorNotRecommended?Review ClassificationThroughOpinionExtraction[C]// Proceedings of the12th International Asia-Pacific Web Conference.Washington D.C.,USA:[s.n.],2010: 350-352.

[5] Liu Bing,HuMinqing,ChengJunsheng.Opinion Observer:Analyzing and Comparing Opinions on the Web[C]//Proceedingsofthe14thInternational Conference on World Wide Web.New York,USA: ACM Press,2005:342-351.

[6] 章剑锋,张 奇,吴立德.中文观点挖掘中的主观性关系抽取[J].中文信息学报,2008,22(2):55-59.

[7] 方 明,刘培玉.基于最大熵模型的评价搭配识别[J].计算机研究应用,2011,28(10):3714-3716.

[8] 樊 娜,蔡皖东,赵 煜.基于最大熵模型的观点句主观关系提取[J].计算机工程,2010,36(2):4-6.

[9] 王素格.基于Web的评论文本情感分类问题研究[D].上海:上海大学,2008.

[10] 顾正甲,姚天昉.评价对象及其倾向性的抽取和判别[J].中文信息学报,2012,26(4):91-97.

[11] 张 莉,钱玲飞,许 鑫.基于核心句及句法关系的评价对象抽取[J].中文信息学报,2011,25(3):23-29.

[12] 陶新竹,赵 鹏,刘 涛.融合核心句与依存关系的评价搭配的抽取[J].计算机技术与发展,2014,24(1): 118-121.

编辑 刘 冰

An Improved Method of Evaluation Collocation Extraction Based on Kernel Sentence

LIU Tao1,2,ZHAO Peng1,2,LIU Huiting1,2,JI Xia1,2
(1.Key Laboratory of Intelligent Computing&Signal Processing,Ministry of Education,Anhui University,Hefei 230039,China; 2.School of Computer Science and Technology,Anhui University,Hefei 230601,China)

The mainstreaming evaluation collocation extroction methods are based on syntactic dependency parsing. Because the grammar of most Chinese evaluation text is not normative,the syntax analysis result is unstable and affects the result of extracting evaluation collocation.To solve this problem,this paper presents an improved method of extracting evaluation collocation based on kernel sentences,which extracts evaluation collocation by combining kernel sentences and syntactic dependency.This method can significantly improve the stability of the syntax analysis result,and it also can add the analysis of the coordinative relationship among the emotional words and among the opinion targets when dealing with complex sentences.Experimental result exhibits that this method can improve the recall rate and accuracy.

kernel sentence;evaluation collocation;syntax template;coordinative relationship;dependency relationship

刘 涛,赵 鹏,刘慧婷,等.一种改进的基于核心句的评价搭配抽取方法[J].计算机工程,2015, 41(2):157-160.

英文引用格式:Liu Tao,Zhao Peng,Liu Huiting,et al.An Improved Method of Evaluation Collocation Extraction Based on Kernel Sentence[J].Computer Engineering,2015,41(2):157-160.

1000-3428(2015)02-0157-04

:A

:TP391

10.3969/j.issn.1000-3428.2015.02.030

国家自然科学基金资助项目(61202227);安徽省自然科学基金资助项目(1408085MF122);安徽大学青年骨干教师培养基金资助项目(33010017)。

刘 涛(1985-),男,硕士研究生,主研方向:自然语音处理,文本情感挖掘;赵 鹏、刘慧婷,副教授;纪 霞,讲师、博士。

2014-01-20

:2014-03-16E-mail:zhaopeng_ad@163.com

猜你喜欢

句法语料语句
句法与句意(外一篇)
述谓结构与英语句法配置
重点:语句衔接
句法二题
诗词联句句法梳理
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
如何搞定语句衔接题