向上学习方法改进移进-归约中文句法分析
2015-04-21朱慕华王会珍朱靖波
朱慕华,王会珍,朱靖波
(东北大学 自然语言处理实验室,辽宁 沈阳 110819)
向上学习方法改进移进-归约中文句法分析
朱慕华,王会珍,朱靖波
(东北大学 自然语言处理实验室,辽宁 沈阳 110819)
基于移进-归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进-归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进-归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进-归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进-归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。
中文句法分析;移进-归约分析;伯克利句法分析器;向上学习;无标注数据
1 前言
根据采用的搜索算法不同,中文成分句法分析领域中经常使用的模型可以大致分为两类: 基于动态规划的模型[1-5]和基于贪婪搜索或者柱搜索的模型,例如,移进-归约句法分析[6-8]。从性能来看,基于动态规划的句法分析器普遍优于移进-归约句法分析器,特别是基于隐含标注的伯克利句法分析器[1],代表着目前中文句法分析的最好性能。但是在解码效率上,移进-归约句法分析只要求线性的时间复杂度因而具有明显的速度优势。在实际应用尤其是大规模句法分析任务中(例如,对网络上的海量网页进行句法分析),解码速度是我们必须考虑的一个重要因素。因此本文着重研究提高移进-归约成分句法分析器的性能。
为了改进移进-归约句法分析器的性能,我们可以从两方面着手。(1) 提高中文词性标注的性能。移进-归约句法分析通常要求输入句子中包含词性信息,而且词性标注的准确性对句法分析的性能有很大影响(参照文献[7]的实验部分)。然而与其他语言(例如,英语)相比,中文词性标注的性能还有较大的提高空间。(2) 改进移进-归约句法分析系统本身。改进词性标注与句法分析器的一个可行方案是建立两者的联合模型,利用词性与句法之间的相互作用提高整体性能。例如,在依存句法分析领域,Hatori等[9]提出了基于移进-归约框架的词性标注与句法分析联合模型。然而在成分句法分析领域中,管道式框架(依次进行词性标注和句法分析)仍然是主流。因此本文将沿用管道式框架,采用无标注数据分别改进词性标注与句法分析的准确性。
为了利用无标注数据,我们采用向上学习(uptraining)方法[10]。向上学习的基本思想是利用一个性能较高但速度相对较慢的系统来帮助改进一个性能相对较弱但是拥有速度优势的系统,其目标是使高速系统的性能接近(甚至超过)低速系统的性能。Petrov等[10]最先提出了向上学习的方法,利用领域适应性较强的伯克利句法分析器改进领域适应性相对较弱的移进-归约依存句法分析器。在本文的工作中,我们除了应用向上学习方法构建高性能移进-归约成分句法分析系统之外,还将针对以下问题进行讨论。
(1) Petrov等人的工作[10]中,由于领域差异性,源领域内构建的词性标注器和移进-归约句法分析器在目标领域内的性能都明显下降,因此实验中所用的基准系统的性能相对较低。本文的训练和测试数据都来自新闻领域。实验中所采用中文词性标注和句法分析基准系统的性能已经较高。在这种情况下,向上学习是否仍然有效果是一个需要通过实验验证的问题。
(2) Petrov等人的工作[10]中,向上学习同时改进了词性标注和移进-归约句法分析器的性能,但是没有讨论词性标注性能对句法分析性能的影响。我们发现词性标注的准确性与句法分析的性能并不是绝对的正相关关系: 在某些情况下,词性标注准确性下降反而产生更有利于句法分析的词性标注结果。我们通过实验对这个现象进行了讨论。
实验结果表明,应用向上学习方法和无标注数据使移进-归约句法分析的性能提高了2.3%,达到82.4%。这个性能很接近伯克利句法分析器,同时优于其它基于动态规划算法的句法分析器。此外,本文的移进-归约系统具有明显的速度优势。
2 本文方法
本文应用向上学习方法改进移进-归约句法分析系统的性能。具体地说,我们应用伯克利分析器帮助改进移进-归约句法分析器Zpar[7]的性能。下面我们首先简单介绍这两个句法分析系统,然后描述向上学习的过程。
2.1 伯克利句法分析器
伯克利句法分析器是基于隐含标注的成分句法分析模型。其出发点在于人工标注的句法树从计算的角度来看存在不足: 某些位置的标注过细,而某些位置的标注则过于粗糙。伯克利分析器认为真正适合统计学习的标注是未知的,而且隐含在人工标注的句法树之中。因此伯克利句法分析器利用期望最大化(Expectation Maximization,EM)[11]方法自动学习隐含的标注并在此基础上构建句法分析模型。
2.2 移进-归约句法分析器
移进-归约句法分析过程可以看作状态转移过程,其中状态由两个数据结构表示: 堆栈S和队列 Q。S保存已经完成的(部分)句法分析结果而Q则存储输入句子(词序列和相应的词性序列)中尚未被处理的部分。在初始状态下,S为空而Q中保存着完整的输入句子;在终止状态下Q为空而S保存着最终的句法分析结果。从初始状态到终止状态的转移过程中,分析器或者执行移进操作将Q的最左端元素压入S的栈顶;或者对S顶端的元素执行一元归约(扩展堆栈顶端的元素)或者二元归约操作(扩展堆栈顶端的两个元素)。
本文所采用的移进-归约句法分析系统为Zpar[7]。据我们所知,该分析器是目前性能最好的移进-归约中文句法分析系统。与之前的移进-归约句法分析器(例如,文献 [6])相比,Zpar在训练阶段做出了改进,提出了全局训练的方法。Zpar之前的移进-归约句法分析方法将分析过程看作是一个分类决策问题: 从起始状态到终止状态,利用分类器选择合适的移进或者归约操作进行状态转移。因此句法分析器的训练过程实质上等同于训练分类器。Zpar将训练过程看作柱搜索过程: 从初始状态出发寻找终止状态。在柱搜索过程中产生多个相互竞争的中间状态,其中有且只有一个可以达到正确的终止状态。Zpar的学习目标是确保该“正确”状态始终停留在柱中不被减枝。由于篇幅所限,关于Zpar的更详细介绍可以参考文献[7]。
2.3 向上学习过程
应用伯克利句法分析器和移进-归约句法分析器Zpar进行向上学习的过程如图1所示。我们首先应用伯克利句法分析器对(经过自动分词的)无标注数据进行句法分析。分析的结果称为自动标注数据,其中包含自动标注的词性和句法树。然后我们将得到的自动标注数据与人工标注的训练数据进行合并,分别训练词性标注器和Zpar。在测试阶段,依次应用中文词性标注和句法分析系统得到句法分析结果。
图1 向上学习过程图
很显然,向上学习方法不会改变词性标注和句法分析系统的解码时间复杂度(但是系统所需的训练时间随着训练数据的增多而相应地增加),因此最终得到的移进-归约句法分析器仍然具有速度上的优势。另外,向上学习方法的实现非常简单: 我们只需要将词性标注和句法分析系统看作黑盒而不需要掌握系统内部的实现细节。从性能角度考虑,上述方法成功的关键在于应用伯克利句法分析器对无标注数据进行自动分析。本文采用伯克利句法分析器的原因之一是伯克利句法分析器在中文句法分析任务上的性能优势: 更高的性能可以产生更高质量的自动标注数据。此外,伯克利分析器对词性标注与句法分析采取了集成解码策略(类似的句法分析器还包括文献[3]),因此自动词性标注的结果受到上层句法信息的约束。以这种方式得到的大规模自动标注词性数据可以帮助构建更加有利于句法分析的词性标注器。
注意到向上学习方法与句法分析领域中经常使用的自学习方法非常相似。区别在于产生自动标注数据的方式。基于移进-归约句法分析器的自学习方法要求依次应用基准词性标注系统和基准句法分析系统对无标注数据进行处理以生成自动标注数据;本文的向上学习方法采用伯克利句法分析器,该分析器对词性标注和句法分析采取了集成解码策略。在向上学习过程中,我们需要考虑两个学习参数: (1)参与训练的自动标注数据的规模;(2)在数据合并时人工标注数据和自动标注数据的相对权重。
3 实验
3.1 实验数据与设置 本文的实验基于宾州大学的中文树库(PCTB)5.1版[12]以及如下所述的数据划分方法: 文档001-270和440-1151中的句法树用作训练数据,文档270-300中的句法树作为测试数据而文档301-325中的句法树用于系统开发与调参。此外,本文实验中所用的无标注数据来自于中文Gigaword(LDC2003T09),我们从中随机抽取100万句无标注数据并且利用一个基于条件随机场的分词系统(CTB5.1测试集上的分词准确性为97.2%)进行了自动分词。数据相关统计信息如表1所示。
表1 本文实验所用数据的相关统计信息
本文实验设置如下: 首先利用伯克利句法分析器对100万无标注数据进行句法分析。这里所用的伯克利句法分析器在CTB5.1训练数据上训练,EM的迭代次数设置为5。然后我们将自动标注数据作为额外训练数据分别训练词性标注器和移进-归约句法分析器。具体地说,利用自动标注数据中的词性部分与CTB训练数据合并训练斯坦福词性标注器[12];利用自动标注数据中句法树(包括词性)与CTB训练数据一起训练Zpar。在数据合并时,所有数据的相对权重都设置为1。在训练和测试阶段,Zpar的柱宽(beam size)设置为16。所有实验在3.16G赫兹的个人计算机上进行。
实验中我们需要评价词性标注与句法分析的准确性。词性标注的性能评价指标采用精准率(accuracy),即测试集中被正确赋予词性标记的词的比例;对句法分析的性能评价我们采用准确率、召回率以及F1值(由EVALB[13]评价工具提供)。
3.2 系统的最终性能
我们首先报告本文系统在测试集上获得的最终性能和测试时间,并且与相关的句法分析器进行比较,结果如表2所示。这里斯坦福词性标注器的训练采用CTB训练数据和500K自动标注数据;Zpar的训练采用CTB训练数据和250K自动标注数据。这里使用的自动标注数据的规模通过在开发集上进行调试得到(详见3.3和3.4节的讨论)。CH00、BI04、PK07和CJ05分别指文献[3]、[14]、[1]和[15]中所提出的句法分析模型,其中CH00、BI04和PK07是单系统模型而CJ05是基于重排序的句法分析器。注意,PK07就是本文采用的伯克利句法分析器。参与比较的句法分析器除了Zpar之外都不需要独立的词性标注器。这里我们忽略模型装载的耗时而只评价句法分析所需的时间。
表2 不同句法分析器在测试数据上的性能与运行时间比较
在不使用任何自动标注数据时,斯坦福词性标注器在测试集上的精准率为95.4%,Zpar句法分析性能为80.1%;使用自动标注数据之后,词性标注精准率提高到95.5%,而句法分析的最终性能达到82.4%。因此,向上学习和无标注数据获得了2.3%的句法分析性能提升,其中词性标注的改进贡献了1.2%,而句法分析器的改进贡献了剩余的1.1%。另外,从表2可以看出,本文移进-归约句法分析器的性能明显超过了CH00和BI04而且略优于基于重排序的句法分析器CJ05。此外,我们发现本文的句法分析器的性能仍然要低于PK07,但是我们的句法分析器在运行效率方面具有明显的优势。具体地说,伯克利句法分析器处理测试集中的句子需要三分钟,而我们的句法分析器却只需要25秒。注意,我们没有衡量CJ05的运行速度,但CJ05以CH00为第一阶段分析器生成k最优侯选,因此它的运行时间要多于CH00所需的时间。
3.3 向上学习对词性标注的影响
本节分析向上学习对词性标注的影响以及得到最优结果的自动标注数据的规模。我们在CTB训练数据的基础上逐步加入自动标注数据以重新训练斯坦福词性标注系统。得到的词性标注器的性能在CTB开发集上进行评价(表3)。除了词性标注精准率以外,我们还采用句法分析的性能作为词性标注质量的一个外部评价指标。因此,表3的最后一列报告了移进-归约句法分析器Zpar在开发集上的性能。注意,在本实验中Zpar固定使用CTB训练数据而不使用任何自动标注数据。该实验的目的在于评价词性标注的变化对句法分析性能的影响。
表3 向上学习词性标注在开发集上的实验结果
从表中结果可以看出,加入自动标注数据之后,词性标注的精准率呈下降趋势,但是句法分析的性能(表3最后一列)却呈现上升的趋势。这意味着(1)自动标注数据可以使词性标注器输出更加有利于句法分析的词性标注结果;(2)当我们面向句法分析任务讨论词性标注的质量时,精准率并不是可靠的性能评价指标。另外,我们发现自动标注数据达到500K句时句法分析的性能达到85.0%,而后继续增加新的数据会使性能下降。因此我们固定以500K句自动标注数据以及CTB训练数据训练词性标注器。
我们也在测试数据上评价了引入500K自动标注数据后的词性标注性能。我们发现在测试集上词性标注的精准率得到了提高,但是提高幅度只有0.1%(从95.4%到95.5%)。另一方面,我们发现测试集上句法分析的性能从80.1%显著提高到81.3%(Zpar的训练只使用CTB训练数据)。这个现象与开发集上的实验结果基本一致: 向上学习和自动标注数据的作用主要体现在生成更加有利于句法分析的词性标注结果而不在于提高词性标注的精准率。有必要对这个实验现象进行进一步的分析。
我们首先比较了基准词性标注系统和更新之后的系统在测试集上的错误分布,如表4所示,其中第一列表示正确的词性而第一行表示错误的词性。例如,表项[NN,VV]表示正确的词性为NN而被系统错误标成VV的词的个数。表项中斜杠前的数字表示基准词性标注系统的错误计数、而斜杠后的数字表示我们的系统的错误计数。从表中结果可以看出,中文词性标注在以下词性之间存在较为严重的歧义: NN-VV(普通名词-动词)、DEC-DEG(补语标识-所有格标识)、NN-JJ(普通名词-形容词)和NN-NR(普通名词-专有名词)。同时,我们发现引入自动标注数据后对上述几个类别的词性的标注结果产生了不同的影响。具体地说,引入自动标注数据之后,NN、VV和DEC这三个词性的标注错误减少;自动标注数据对DEG几乎没有影响; NN与NR之间的错误明显增加。
表4 测试数据上词性标注结果中的错误分布
上述词性对句法分析的影响程度并不同。为了简化讨论,我们挑选测试数据中有且只有一个词的词性被修改的句子,共得到78句。这78个句子中NN与NR之间的跳转占了25句,其中13个句子的句法分析性能完全没有改变;5个句子的性能有所提高而7个句子的性能下降。这个现象说明NR换成NN或者NN换成NR对句法分析影响比较小。我们发现78个句子中包含19个VV与NN之间的跳转,其中14个跳转改进了句法分析的性能而只有5个降低句法分析性能;VV与NN之间的跳转总是使句法分析的性能发生改变。换句话说,将NN换成VV(或者相反)将对上层的句法结构产生较大影响;将NR换成NN(或者相反)并不影响我们对句法结构的理解。不同词性对句法分析影响程度不同解释了向上学习在几乎不改变词性标注精准率的情况能够对句法分析性能产生较大影响的原因。为了实验的完整性,我们在测试集上衡量了NN与VV之间的跳转次数与使用的自动标注数据规模之间的关系,以及词性跳转对句法分析性能的影响,结果如表5所示。表中最后3列分别表示包含NN与VV跳转的所有句子中句法分析性能上升的句子数,性能下降的句子数以及性能没有改变的句子数。由于这些句子中可能不仅仅包含NN与VV跳转,因此这3列数字只是近似衡量NN与VV的跳转对句法分析的影响。从表中可以看出,随着自动标注数据规模的增加,NN与VV之间的(正确)跳转数以及相应的句法分析性能都有所增加,直到达到峰值。
表5 NN与VV跳转与自动标注数据规模之间的关系
最后我们系统地分析句法分析性能的改变来源于何种词性跳转。为此,我们根据句法分析性能的变化情况将测试集中的句子分成三组: 79句通过向上学习改变词性而得到更高的句法分析性能;48句的句法分析性能下降;221句的句法分析性能没有改变。在第一组句子中,我们发现排在前五位的词性跳转分别为: VV-NN(28),DEG-DEC(15),DEC-DEG(12),NN-VV(12)以及NN-NR(11),其中括号内的数字表示跳转的次数,例如VV-NN(28)表示向上学习方法使28个VV被修改为NN。类似地我们获得第二组句子中排在前五位的跳转,分别为VV-NN(18),DEG-DEC(12),NN-NR(10),NN-VV(9)以及DEC-DEG(6)。由此我们可以看出,向上学习主要通过上述五种词性跳转影响句法分析的性能(注意,如前所述,这五种词性跳转对句法分析的影响程度并不相同)。
3.4 向上学习对句法分析的影响
我们研究加入自动标注数据对Zpar性能的影响。同样地,我们在CTB训练数据的基础上逐渐加入自动标注数据以重新训练Zpar然后在开发集上评价其性能。实验结果如表6所示。注意,(1)表中所列的结果全部基于词性标注的精准率为95.5%(使用500K自动标注数据时得到的结果);(2)Zpar训练过程中的迭代次数对最终的句法分析性能有重大的影响,因此在表6中我们也列出了在开发集上取得最优性能的迭代次数。
表6 向上学习句法分析在开发集上的结果
从实验结果可以看出,自动标注数据对提高Zpar的性能具有正向作用。具体地说,当250K自动标注数据被用作额外训练数据时,性能可以达到最高(85.5%);随着更多自动标注数据的引入,性能反而呈现下降趋势。此外,我们在实验过程中发现了几个值得讨论的问题。第一,随着训练数据规模的扩大,训练时间相应地大幅增加(表6中最后1列表示完成最优迭代次数所需要的训练时间)。这是因为Zpar的训练过程是一个在线学习(online learning)过程。学习算法需要对训练数据重复多次扫描,每个被扫描到的句子都需要利用当前模型进行句法分析。即使采用了提前更新(early update)策略[16],这也是一个非常耗时的过程。正是由于这个原因,本实验最多使用了750K自动标注数据。第二: 引入自动标注数据以后Zpar达到最优性能所需要的迭代次数明显减小。Zpar的学习目标是使学习得到的模型尽可能地拟合训练数据,即尽可能将训练数据中所有的句子都进行正确的句法分析。然而自动标注数据中难免存在错误,导致Zpar的模型随着迭代次数的增加而不断地拟合错误点。因此Zpar在迭代次数达到某个值以后,性能会下降。总体来说,自动标注的数据加入得越多,达到最优性能所需要的迭代次数就越少。
4 讨论
实验结果表明,伯克利句法分析器输出的自动标注数据可以有效改进词性标注的质量(从句法分析的角度进行评价)。出于比较的目的,我们利用斯坦福标注系统实验了自学习方法[17],即应用斯坦福标注系统给无标注数据自动赋予词性然后以自动标注数据作为额外的训练数据重新训练斯坦福词性标注器。结果表明,自学习方法既不能提高词性标注的精准率也不能改善句法分析的性能。考虑到斯坦福词性标注系统与伯克利句法分析器具有非常接近的词性标注精准率,我们认为产生性能差异的可能原因在于伯克利句法分析器产生的词性序列受到上层句法规则的约束。从这个角度来说,任何词性标注和句法分析统一解码的分析器,例如,Collins句法分析器[2]和Charniak句法分析器[3]可能都具有类似于伯克利分析器的效果。这将在我们的下一步工作中进行验证。利用自动标注数据可以改进句法分析器的性能。但是该方法存在一些不足,例如上面已经讨论的训练时间过长,对自动标注数据中的错误容易过度拟合等问题。这是由Zpar的训练过程本身的特点决定的。自动标注的数据中错误和噪音是不可避免的。可行的解决办案是利用自动标注数据中的部分信息而不是整棵句法树。因此,将来我们可以采用类似Chen等[18]所采用的子树抽取技术。我们将在未来工作中进行讨论。
5 结论
本文采用了向上学习方法和无标注数据改进移进-归约句法分析的性能。具体地说,我们首先利用伯克利句法分析器对无标注数据进行自动分析,然后将得到的自动标注数据作为新的数据训练词性标注器和句法分析器。实验结果表明,该方法可以使移进-归约句法分析器的性能提高2.3%,最终达到82.4%。这个性能非常接近伯克利句法分析器的性能并且要优于其它的分析器。同时,我们得到的分析器具有速度上的明显优势(七倍速度于伯克利分析器)。
[1] Slav P, Dan K. Improved inference for unlexicalized parsing[C]//Proceedings of Huamn Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 2007: 404-411.
[2] Michael C. Head-driven statistical models for natural language parsing [D]. Ph.D. Thesis, University of Pennsylvania, 1999.
[3] Eugune C. Maximum-entropy-inspired parser[C]//Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, 2000: 132-139.
[4] 何亮,戴新宇,周俊生,等.中心词驱动的汉语统计句法分析模型的改进[J]. 中文信息学报,2008,22(4):3-9.
[5] 冀铁亮,穗志方.词汇化句法分析与子语类框架获取的互动方法[J].中文信息学报,2007,21(1): 120-126.
[6] Kenji S, Alon L. A classifier-based parser with linear run-time complexity[C]//Proceedings of the 9th International Workshop on Parsing Technologies, 2005: 125-132.
[7] Zhang Y, Stephen C. Transition-based parsing of the Chinese Treebank using a global discriminative model[C]//Proceedings of the 11th International Workshop on Parsing Technologies,.2009: 162-171.
[8] 马骥,朱慕华,肖桐,等.面向移进-归约句法分析器的单模型系统整合算法[J]. 中文信息学报,2012,26(3): 9-15.
[9] Jun H, Takuya M, Yusuke M, et al. Incremental joint POS tagging and dependency parsing in Chinese[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.
[10] Slav P, Pi-Chuan Chang, Michael R, Hiyan A. Uptraining for accurate deterministic question parsing[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010: 705-713.
[11] 李航. 统计学习方法[M].北京: 清华大学出版社,2012.
[12] Nianwen Xue, Fei Xia, Fu dong Chiou, et al. The Penn Chinese Treebank: phrase structure annotation of a large corpus [J], Natural Language Engineering, 11(20),207-238.
[13] Kristina T, Christopher D M. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger[C]//Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, 2003: 252-259.
[14] Dan B. On the parameter space of generative lexicalized statistical parsing models[D], Ph.D. thesis, University of Pennsylvania,1999.
[15] Eugune C, Mark J. Coarse-to-fine n-best parsing and MaxEnt discriminative reranking[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, 2005, 173-180.
[16] Michael C, Brian R. Incremental parsing with the perceptron algorithm[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, 2004.
[17] Mark S, Steven B, Jeremiah C, et al. CLSP WS-02 final report: semi-supervised training for statistical parsing[R]. Technical Report, Johns Hopkins University.
[18] Wenliang Chen, Jin’ichi K, Kiyotaka U, et al. Improving Dependency parsing with subtrees from auto-parsed data[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009: 570-579.
[19] http://nlp.cs.nyu.edu/evalb[OL]
Improving Shift-Reduce Chinese Parsing with an Uptraining Approach
ZHU Muhua, WANG Huizhen, ZHU Jingbo
(Northeastern University NLP Lab, Shenyang, Liaoning 110819, China)
In practical applications such as parsing the Web, the shift-reduce parser is often preferred due to its linear time complexity. To be further comparable to the state-of-the-art parsers publicly available, this paper adopts the uptraining approach to improve the performance of the shift-reduce parser. The basic idea of uptraining is to apply a high-accuracy parser (such as the Berkeley parser used in this paper) to automatically analyze unlabeled data and then the new labeled data is applied as additional training data to build a POS tagger and the shift-reduce parser. Experimental results on Penn Chinese Treebank show that the approach can improve the shift-reduce parsing to 82.4% (with an absolute improvement of 2.3%), which is comparable to the Berkley parser on the same data and outperforms other state-of-the-art parsers.
Chinese syntactic parsing; shift-reduce parsing; Berkeley parser; uptraining; unlabeled data
朱慕华(1981—),博士,主要研究领域为自然语言处理。E⁃mail:zhumuhua@gmail.com王会珍(1980—),博士,讲师,主要研究领域为自然语言处理,文本分析,知识图谱。E⁃mail:wanghuizhen@mail.neu.edu.cn朱靖波(1973—),博士,教授,博士生导师,主要研究领域为自然语言处理。E⁃mail:zhujingbo@mail.neu.edu.cn
1003-0077(2015)02-0033-07
2012-06-22 定稿日期: 2012-09-04
国家自然科学基金(61073140,61100089),中央高校基本科研业务费专项资金(N110404012),高等学校博士学科点专项科研基金(20100042110031)
TP391
A