基于中文宾州树库的依存句法分析器的比较

2019-01-21杨振鹏

太原城市职业技术学院学报 2018年12期

杨振鹏

(南京财经大学红山学院，江苏南京 210003)

近年来，依存句法分析发展迅速，已经成为自然语言处理方面的热点问题。国际上著名的自然语言处理会议CoNLL曾多次在会议的shared task中涉及依存句法分析问题。目前，针对依存句法分析的研究越来越多，技术也日趋成熟，依存句法分析器也得到了快速发展。基于汉语的依存句法分析起步较晚，2012年Che等人对汉语句法分析器进行了分析和研究，而此次研究是在斯坦福依存规则下开展的。虽然汉语依存句法分析起步较晚，但发展迅速，已经有多种依存句法分析器产生，而且大部分都适用于汉语依存分析的研究。目前，常用的、技术较为成熟的依存句法分析器主要有：斯坦福依存句法分析器、复旦大学依存句法分析器、哈工大依存句法分析器和最大生成树依存句法分析器。

本文首先介绍了语料的预处理方法及结果的评测标准；然后对四类依存句法分析器进行了详细介绍，重点对各分析器所采用的模型和算法进行了分析和对比；最后，总结了现有依存句法分析存在的问题，并对未来依存句法分析的发展进行了展望。

一、语料的预处理及评测标准

（一）语料的预处理

就目前而言，还没有比较成熟的依存树库的存在，尽管2002年Rambow等人曾做过早期的努力。由于句法分析发展较早，句法分析技术更为成熟，而且英语一直是研究的主流，因此英语的句法分析树库已经存在，并且日趋成熟。目前，英语中最大的树库是宾州树库，树库在句法分析中也引入了依存分析器，从而实现了依存句法分析。汉语的研究起步晚，汉语句法分析中，应用最广的是中文宾州树库（Chinese Treebank，CTB）。随着汉语应用的推广扩大，针对汉语的依存句法研究也成为研究的热点问题。Cheng等人曾在2003年就开展了汉语依存分析的研究，分别在CKIP树库和CTB树库上进行了依存分析的实验。实验时，将普通的句法分析结构转换为依存分析结构，并根据树形结构中的依存关系进行依存分析，实验取得了良好的效果。

目前，大部分的基于汉语的依存分析都采用了CTB，但CTB中的数据资源采用的是传统的句法分析结构也就是短语结构，不能够直接得到相应的依存分析结构。因此，对汉语进行依存分析之前，应先进行结构转换，即将短语结构转换为依存结构。结构转换的思想最早应用于英语的依存句法分析之中，Richard等人提出了利用中心词映射规则进行结构转换，这种转换方式被后续研究者所广泛采用。党政法和周强在2005年进行了汉语的依存研究，采用了中心词映射规则实现了短语树到依存树的自动转换。李正华、车万翔、刘挺等人在2008年也做过汉语依存分析的转换研究，提高了短语结构树库向依存结构树库转换的正确率。

实验采用的语料为CTB5.0，基于中心词映射规则对语料进行规范化处理，然后利用Penn2Malt工具进行依存结构的转换。转换结果如下图所示：

图1 CTB短语结构

图2转换后的依存结构

（二）依存句法分析的评测方法

性能评测是判断一个分析器好坏的重要标准，目前句法分析中最常用的评测方法是PARSEVAL。该评测体系有两个基本的评测指标：句法分析的精确率和召回率。具体表示如下：

对基于语料的依存句法分析系统，不再使用召回率，而是根据标记情况的不同，提出了两种正确率：无标记依存精确率(unlabeledattachmentscore,UAS)和带标记依存精确率(labeledattachmentscore,LAS)。具体表示如下：

二、目前主流的依存句法分析器

目前，技术较成熟、应用较为广泛的依存句法分析器有四个：斯坦福依存句法分析器（StanfordParser）、复旦大学依存句法分析器（CTBParser）、哈工大依存句法分析器（GParser）和最大生成树依存句法分析器（MSTParser）。

（一）斯坦福依存句法分析器

斯坦福大学拥有知名度较高的自然语言处理小组，其研究具有前瞻性，而且技术成熟，斯坦福依存句法分析器就由其设计完成。分析器是基于概率上下文无关文法（Probabilistic Context Free Grammar，PCFG）模型设计的，加入了词汇化依赖。此分析器不仅包含了短语结构的分析结果，也包含了依存结构的分析结果。网址为：http：//nlp.stanford.edu/software/lex-parser.shtml。

PCFG是在上下文无关语法（Context-free grammer，CFG）基础上演化而来的，在CFG基础上增加了概率因素，对分析的规则设置一个概率值。PCFG常被用于语法解析问题，而语法解析通常采用树形结构，即将一个句子用语法解析树的形式显示，PCFG就是求取概率最大的语法树（也称最优树Tbest）。因此，基于PCFG的生成式句法分析模型成为当前应用最广泛的分析模型，最优树Tbest计算如式（1）所示：

其中，代表联合概率，其采用了规则概率乘积的求解方式，如式（2）所示：

PCFG虽然应用广泛，但也容易造成数据稀疏的问题。为解决这一问题，分析器中还引入了马尔科夫模型（MarkovModel，MM），利用MM模型对规则进行优化。对分析中的规则对应于MM过程，利用先生成根结点，然后生成左结点，最后生成右结点的顺序进行优化。这种方式的处理很大程度地缓解了数据稀疏的问题。

斯坦福依存句法分析器为后续的科学研究提供了便利，Roger Levy和Christopher Manning曾在PCFG中引入最大似然估计因子，并在CTB上进行实验，实验取得了良好效果，F1值提高了1.9%，达到了82.6%。Pichuan Chang等人也利用斯坦福依存句法分析器进行了实验，在处理汉语的语法关系特征时引入了重排序(reranking)的方法，使得F1值提高到82.9%。

（二）复旦大学依存句法分析器

复旦大学也是开展自然语言处理研究较早的高校，其建立了一支高水平的自然语言处理小组，依存句法分析器由其设计完成。分析器是基于条件随机场模型（Conditional Random Field，CRF）设计的，不仅在句法分析中采用了CRF模型，而且在分词以及词性标注中均采用了CRF模型。用户使用的灵活度更高，可以自行编辑相关词条，扩展了分析器的适用性，可以对繁体中文作处理。网址为：http：//code.google.com/p/ctbparser/。

CRF模型与PCFG模型相比优势明显，主要有两方面的优势：一是CRF模型对于特征的处理更加灵活，有效解决了特种处理中的标记偏置问题；二是CRF模型作为典型的判别式模型，将最大熵模型（MaxEnt）和隐马尔可夫模型（Hidden Markov Model，HMM）进行了融合，取长补短，特征融合、处理能力强。CRF模型在进行句法分析时，也引入了概率模式，采用了归一化的方式对概率进行了优化。模型最优树采用了条件似然值进行估算，候选句法树的概率估算形式如下：

采用指数形式来求解团势函数：

训练数据的log似然值为：

特征和模型之间期望的差值是似然值对的θi偏导数：

复旦大学依存句法分析器在树形结构查询中优势明显，采用了二维查找树（2D Trie）来降低分析器的运行时间，与传统查找方法相比，运行速度提高了4.3倍。

（三）哈工大依存句法分析器

哈尔滨工业大学设立了语言技术平台LTP（Language Technology Platform），主要开展自然语言处理领域的研究工作，哈工大依存句法分析器则是LTP平台的一项研究成果。分析器采用了多种模型进行语料的分析和处理，采用CRF模型处理分词模块，采用支持向量机模型（Support Vector Machine，SVM）处理词性标注模块，采用最大熵模型来完成命名实体识别（Named Entity Recognition，NER）。哈工大设计的依存句法分析器（Graph-Based Parser，GParser）是基于图模型实现的，采用最大熵模型实现了语义角色标注（Semantic Role Labeling，SRL）。网址为：http://ir.hit.edu.cn/ltp/。

McDonald将依存分析问题转化为在有向图中寻找最大生成树（Maximum Spanning Tree，MST）的问题，这是首次提出基于图的依存分析方法。其原理为：针对图中可能输出的每一种结果树，都给定一个评分，然后利用动态规划思想，找到评分最大的那棵树。

基于图的依存分析方法实际为求解弧的最大评分的过程：

其中，X代表句子输入，Y代表候选依存树，xi→xj代表词i到词j的依存弧，Φ（x）代表输入X对应的可能依存树的集合。

（四）最大生成树依存句法分析器

最大生成树依存句法分析器也是基于图模型实现的，分析器是由Ryan McDonald和Jason Baldrige设计完成，分析器采用最大边缘的决策式训练模型，是一种非投射性的判别式依存句法分析器。网址为：http://www.seas.upenn.edu/～strctlrn/MSTParser/MSTParser.html。

MSTParser是采用条件概率模型，为图中每一条边设置一个得分，这样将寻找最优依存树的过程转化为求解得分最高生成树的过程。得分的设置通过特征向量以及权重向量之间的点规则来实现，具体表示如下：

其中，x为输入的句子，y为输出中的依存树，s表示得分，(i,j)是依存关系中的结点对。f(i,j)是值为1或者0的二元特征向量，表示结点xi和xj之间的是否存在依存关系，1代表存在依存关系，0代表不存在依存关系。例如：“开”和“门”，则 f(i,j)＝1，否则，f(i,j)＝0。

最大生成树算法已经被广泛使用，成为研究的热点问题。其中，经典的Chu-Liu-Edmonds算法成为最常用、最高效的最大生成树算法。周惠巍、黄德根等人将最大生成树算法与决策式解析算法相结合，采用优势互补的原理进行中文依存句法分析研究。研究利用Nivre模型进行依存分析，并根据依存度对最大生成树有向边进行重新打分，再重复最大生成树的求解过程，结果作为最后的依存树。实验采用十折交叉测试的方法，对CTB中的4500句中文进行分析，F1精确率达到了86.49%。

为了便于比较分析，本文采用CTB5.0作为语料，对四种依存句法分析器进行性能测试，表1列出了各种句法分析方法在CTB5.0上的句法分析性能。

表1依存句法分析器性能比较

最大生成树依存分析器效果最好，复旦大学依存句法分析器效果次之，斯坦福依存句法分析器和哈尔滨工业大学依存句法分析器效果较差。最大生成树作为经典的算法，研究较多，技术较为成熟；利用弧的评分来计算最后输出结果的评分，准确率较高，但当搜索空间较大时，耗时较多。CTBParser利用CRF模型进行依存句法分析，对特征的融合能力比较强，可以结合多种特征方面的优势，识别效果较好。StanfordParser所用的PCFG方法，易于长距离句子的分析，对于短距离句子的分析，则效果较差。哈工大依存句法分析器虽然也是采用最大生成树算法，但是其分词和词性标注正确率较低。

三、总结与展望

近年来，依存句法分析发展迅速，依存句法分析技术也日趋成熟，现有的依存句法分析的研究仍存在一些问题亟待解决。

（1）结构转换：句法结构和依存结构之间需要进行转换。目前而言，转换的准确率还不是很高，主要是因为句子的结构通常较为复杂，如动词和动名词结构、同位结构等，算法处理准确率不高，进而影响转换的准确率。

（2）训练算法的改进：目前的训练算法比较单一，应考虑多种算法和模型进行多重训练，以提高算法的准确率。

（3）完善语料库信息：语料库是依存句法分析的基础条件，目前语料库的信息相对比较陈旧，应扩充语料库，增加一些新型结构的语料，同时针对新型结构语料进行对应的分析处理。

由于英语的依存句法分析研究较早，相关技术已经比较成熟，因此汉语研究中，许多研究都借鉴了英语的研究方法甚至是研究成果，虽然提高了汉语演技的速度，但也造成了一些适应性的问题。由于汉语和英语存在语法、语义等方面的问题，因此原样的生搬硬套不会取得实质性的进展。虽然中文依存句法分析近几年发展迅速，国内外学者也进行了很多研究和探索，但发展之路任重而道远。对于目前汉语依存的发展，笔者有几点看法：

(1)研究要结合汉语自身的特点。就目前而言，大部分的研究都是基于英语的，英语的研究也相对成熟。虽然汉语研究中借鉴了很多英语的研究方法，比如统计模型和解码算法等，但汉语本身结构、句式较为复杂，应结合汉语的自身特点开展研究，例如汉语中特殊语法结构（倒装句、叠词等）的处理。

（2）提高分析算法的正确率和效率。算法的正确率是计算机各类问题研究中普遍存在的问题，而依存句法分析算法的性能也直接影响最终的结果。目前常用的算法（CRF、PCFG、MST等）虽然相对比较成熟，但仍有可以改进和提升的空间，应加以研究以提升其算法的性能。

（3）利用语法、语义等方面知识构建联合模型来提高依存分析的正确率。最近几年许多国内外学者开始尝试使用联合模型来进行依存分析。李正华等人建立汉语词性标注和依存分析的联合模型；在2012年，Jun Hatori等人又提出将词义也加入到依存的分析当中，构建的词义、词性标注和依存分析的联合模型。联合模型开辟了一种新的思路，可以成为我们研究的一种方向。