*1基于SVM和词性对分析的VN组合关系识别

2016-06-20王仲华卢娇丽

太原师范学院学报(自然科学版) 2016年1期

关键词：支持向量机

王仲华,卢娇丽

(1.太原师范学院数学系,山西晋中 030619; 2.山西大学现代教育技术中心, 山西太原 030006)

*1基于SVM和词性对分析的VN组合关系识别

王仲华1,卢娇丽2

(1.太原师范学院数学系,山西晋中 030619; 2.山西大学现代教育技术中心, 山西太原 030006)

〔摘要〕在动词+名词关系是中文句子结构中一种非常重要的语言现象,它在中文句法分析和组块分析时经常引起歧义,文章在充分分析了词性对统计信息的基础上,首先对动词+名词关系重要性进行了举例和统计说明,然后将动宾关系和偏正关系这两种重要的歧义关系识别问题看作分类问题,由于支持向量机在高维度、小样本数据中具有良好的泛化能力,将其作为分类器,最后将分类的结果用于指导中文句法分析的语义消歧,实验结果表明,该模型能获得很好的关系识别效果．

〔关键词〕动词+名词;支持向量机;词性对分析;关系识别

0引言

在中文完全句法分析和浅层句法分析和语料处理过程中,发现自然语言处理中存在大量的歧义现象,这些歧义直接影响着句子分析的质量和效率,而VN结构(动词+名词或v+n关系)是常见的歧义结构,为了自动获取歧义消除的知识,文献[1]对汉语中的动词和名称的交融从语言学角度给出了深层次分析,文献[2]利用了复杂的特征构造方法处理VN组合,文献[3]中使用了动词、名词本身及其上下文信息作为特征,而动词+名词常见的结构关系为动宾和偏正关系,能形式化为分类问题,利用朴素贝叶斯分类器对动词+名词结构进行标注取得了较高的准确率．在组块分析方面的主流方法是统计机器学习方法,文献[4-6]使用支持向量机进行组块识别,给出了更好的推广预测能力,这些方法都进行了大量的语料预处理工作,使用了局部的特征作为动词+名词结构关系识别的依据;而实际语料处理中若能直接利用上下文词性和词性对局部特征信息将会极大地提高处理效率,本文在对句子的词性对特征进行统计分析的基础上,得到完整的句子对应的词性对序列,使用支持向量机模型进行对动词+名词关系进行识别,获得了较高的识别率,结果将用于指导完整句法分析,能消除句法歧义,提高句法分析的效率和质量．

1VN关系和词性对分析

1.1动词+名词关系举例

动词+名词关系分析是部分句法分析的一个重要内容,中文部分句法分析也叫组块分析,由于各研究单位使用的数据集不同,出现了许多不同的定义,本文根据文献[7]的汉语句法树库标注体系中的组块定义和常用组块表示方法:名词短语标记为NP,动词短语标记为VP．

根据语委的句法树库10 000句语料统计发现包含有VN现象的句子占50.25%,其中组块为NP和VP的分别占780句和1420句．

VN关系举例如下:

1)测量/v体温/n通常/d要/vu用/v体温计/n．

2)他们/rr向/p勋爵/n夫妇/n表示/v歉意/n．

[测量/v体温/n]VP;[表示/v歉意/n]VP.

在1)、2)句子中VN是动宾关系．

3)这种/rz计算/v方法/n一直/d沿用/v到/v今天/t．

4)她/rr成/v了/ul艺术团/n的/ud独唱/v演员/n．

[计算/v方法/n]NP;[独唱/v演员/n]NP

在3)、4)句子中VN是偏正关系．

1.2词性对序列分析

VN关系属于词性对中的常见结构,词性对的信息是句子的局部特征,句子分析需要转换为词性对序列分析,保留句子的全局信息,比如(ud,v)和(v,n)两个特征同时出现时分类为NP,而(d,v)和(v,n)同时出现时,分类为VP;VN关系识别需要构造出词性对字典．词性对字典是词性对序列向量化的基础,从国家语委20 000句的完全句法语料中统计得出不同词性对为2 314个,表1给出了随着句子数增多,不同词性对数量的增加情况,从中发现新的词性对已经很少加入词性对字典．

表1　词性对与句子数关系表

不同词对的词频也在字典中．统计排序结果显示前100个词性对占总词性对比例为90.62%,而当增加为前200个词性对时,提高不到1%,因此考虑到计算效率将前100个词性对作为完整的向量字典,基本上可以包含所有句子的词性对．表2列出了统计所得排在前十位的词性对出现频率表,作为特征字典的选取依据．

表2　词性对出现频率表

2SVM模型

支持向量机[6](Support Vector Machine, SVM)建立在统计学习理论基础上, 应用 VC维理论和结构风险最小化原理,借助于最优化方法等, 在很大程度上克服了传统机器学习面临的维数灾难、局部最小化以及过学习等难以解决的问题, 并具有良好的泛化能力, 是一种新型的机器学习方法．其算法可总结如下:

1)已知训练集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X,Y)l,其中xi∈X=Rn,yi∈Y∈{-1,1},i=1,2,…,l;

4)解决上述问题后可得最优分类面函数(分类器):

将测试样本输入分类器即可得到输出结果:正类或负类．

3实验分析

3.1语料处理

我们使用了国家语委的20 000句语料,这些语料已经根据清华大学的汉语句法树库标注体系[7]进行过人工标注和校对,从中选取了5 000句包含VN关系的句子进行处理,然后抽取其中的词性对得到270个包含VN的偏正结构的词性对序列,685个包含VN为动宾结构的词性对序列．

语料处理过程如下:

1) [BH[ZW[SB测量/v体温/n]VP[ZZ通常/d[SB要/vu[SB用/v体温计/n]VP]VP]VP]SP．/wj]DJ.

2) 测量/v体温/n通常/d要/vu用/v体温计/n．/wj.

3) (v,n) (n,d) (d,vu) (vu,v) (v,n) (n,wj).

此处1)是国家语委的完全句法语料,其中左方括号[后面的标记为句法关系标记集中的结构类型,BH表示标号结构,ZW表示主谓结构,DZ表示定中结构，SB表示述补结构，ZZ表示状中结构,已经做过人工校对,2)是对原始语料1)进行抽取得到的句子和词性序列;3)是抽取的词性对序列;训练和测试语料如3)所示形式．

3.2识别效果

使用支持向量机进行二分类时,选择150句分类为NP的句子和300句分类为VP的句子作为训练语料,其余的分别选100句NP和200句VP句子作为测试语料．

首先将前100个词性对作为特征构成了100维的向量,每个句子都对应于一个特征向量,包含词性对(v,n)的句子,包含偏正关系的句子对应的向量被标为正类,包含动宾关系的句子对应的向量被标为负类,这些信息在特征向量中能得到体现,SVM通过对训练样本学习就可得出w和b的值,这时分类器就确定了．在测试阶段,对新的句子分析时,先得到它的词性对序列,也就是特征向量,就可得出对应的类别,作为自动识别的结果．实验中使用了LIBSVM工具包实现SVM模型,此处核函数选用高斯核,惩罚参数默认为500,对训练语料进行学习,在测试语料上显示出在对包含v+n的句子进行分类时,本文使用精确率(用P表示)、召回率(用R表示)和F1测量作为评价指标．自动识别结果见表3．

表3　实验结果比较　(%)

从表3中看出,本文的方法精确率比文献[2]的方法略有下降,但召回率和F1测量都有一定的提高,而与其他方法相比各方面都有较大的提高,取得了较好的识别效果．使用所得VN关系识别结果,对已经词性标注的句子进行词性对序列化,自动标注动词+名词的组块关系,将极大提高句法分析和组块分析的效率和质量．

4结论

本文在VN组合关系识别过程中,充分利用了词性对信息,与只用词性或者词作为特征的方法相比考虑了局部特征的重要性,而与专门构造复杂的局部特征相比处理过程得到简化,同时考虑了全局特征信息,取得了较好的识别效果,下一步将考虑将部分长距离的复杂特征局部信息加入特征向量以便提高VN关系识别效果．

参考文献：

[1]吴长安.汉语名词、动词交融模式的历史形成[J].中国语文,2012,29(1):17-28

[2]赵军,黄昌宁.基于复杂特征的VN结构模板获取模型[J].软件学报,1999,10(1):92-99

[3]李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7

[4]李丽江.基于多分类器决策的VN组合自动标注[J].计算机工程,2008,34(5):79-82

[5]JOACHIMS T,HOFMANN T.Predicting structured objects with support vector machines[J]. Communications of the Acm,2009,11(52): 97-104

[6]邓乃扬,田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004

[7]周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8

Chinese VN Relation Identification Research Based on SVM and POS Pairs

WANG Zhonghua1, LU Jiaoli2

(1.Department of Mathematics,Taiyuan Normal University,Jinzhong 030619;2.Modern Education Technology Center,Shanxi University, Taiyuan 030006, China)

〔Abstract〕Verb+noun relation called VN structure is an important language phenomenon in Chinese sentence structure, but it can cause ambiguities in parsing and chunk analysis. This paper gives some examples and statistics about the importance of VN relations after the analysis of the basis of statistical information on POS pairs, then ambiguous relationship identification problem between the verb-object relationship and the modifier-head relationship is taken as a classification problem, because of the support vector machine has a good generalization ability in high dimension, small sample data, it can be used as a classifier. Finally, the classification results for the semantic analysis to guide Chinese syntactic disambiguation. The results of experiment show a better relation identification effect.

〔Key words〕VN structure; SVM;POS pairs analysis; relations identification

*收稿日期：2015-12-11

作者简介：王仲华(1977-),男,山西昔阳人,硕士,太原师范学院数学系讲师,主要从事统计机器学习,自然语言处理研究．

〔文章编号〕1672-2027(2016)01-0035-04〔中图分类号〕TP391

〔文献标识码〕A