特定句法增强的SMT调序模型
2015-02-21杜金华张喜媛
杜金华, 张喜媛
(1.西安理工大学 自动化与信息工程学院, 陕西 西安 710048;2. 陕西省复杂系统控制与智能信息处理重点实验室, 陕西 西安 710048)
特定句法增强的SMT调序模型
杜金华1,2, 张喜媛1,2
(1.西安理工大学 自动化与信息工程学院, 陕西 西安 710048;2. 陕西省复杂系统控制与智能信息处理重点实验室, 陕西 西安 710048)
面向基于短语的汉英统计机器翻译,提出了一种基于特定句法(汉语“的”结构)增强的调序方法,该方法首先在词对齐和源端词性(POS)信息的约束下抽取基本调序规则,然后根据中文端特定句法结构—“的”字结构,将抽取的基本规则自动分类为“调序倾向性强”和“调序倾向性弱”两类,最后采用不同的优化和剪枝策略对两类规则进行处理,得到最终的源语言端调序规则集合。在NIST汉英数据集上的实验表明,相对于基线系统,本文所提方法在NIST MT2005测试集上显著提高了0.69 BLEU值。
统计机器翻译;特定句法结构;“的”结构;POS调序模型
词序作为一种语法关系序列,它是表达语法关系的重要手段,是语言内在意义的句法表现形式。不同语言之间的句法异构性,导致了源语言端和目标语言端词序不同。从语法学角度来看,词序不仅可以决定句子的逻辑语义模式,而且可以通过变化来实现不同含义的表达。
统计机器翻译研究中,词序调序是一个热点和难点问题。调序模型按照不同标准可划分为以下类别:1)按照作用对象不同,调序分源语言端调序和目标语言端调序;2)依据作用范围,可分为全局[1]和局部调序;3)按照作用位置,可以分为作为特征融入到对数线性模型框架[2-3]的模型和作为解码前的一个预处理模型[4];4)从建模方法来看,可以分为基于词汇化的调序和基于句法的调序[5-6]等。
随着机器翻译研究的不断发展,调序模型的研究也取得了很大的进展。2006年Chen等[4]提出了一种从词对齐的训练语料中学习词性(POS)调序和词汇化调序规则的方法,预调序过程中将匹配到的规则作为额外的特征应用到翻译系统中进行打分,取得了一定的效果。2007年Rottmann等[5]将获取的POS规则作为特征加入到解码过程,该方法可以获取更加丰富的上下文信息来扩展调序规则集,取得了不错的结果。Chang等[7]发现中文结构与其他语言的结构差异的重要原因之一是中文“的”结构。因此,Chan等提出一种基于监督学习的最大熵分类器自动抽取和分类中文“的”调序结构,取得了显著效果。
为了使用句法学知识帮助中英翻译任务中的词序调整问题,同时又不增加模型复杂度,我们提出了一种基于浅层句法知识的预调序方法。首先,根据从词对齐和源端的POS信息中抽取初始调序规则。然后,根据中文特定句法结构“的”结构[6-8]将规则分为调序“倾向强”和“倾向弱”两类。最后,我们对这两类规则设置不同的阈值进行优化过滤,得到最有效调序规则集合。在NIST中英数据集上的实验结果表明,我们提出的方法相对于基线系统在BLEU值上有了明显的提升。
1 POS调序规则抽取算法
1.1 源端词性标注
句法标注最基本的形式就是用词性对每个单词进行标记。词性标注信息包含丰富的语法信息,在自然语言处理(NLP)应用中通常作为一种基本特征,例如句法树分析,信息抽取等。
本文使用ICTCALS[9]工具对源语言端句子(中文)进行词性标注。图1给出了ICTCALS工具中应用的一些词性标注,其中,v代表verb(一级),vshi代表verb“是”(英语中代表is/are/am etc.)(二类)等。
1.2 调序规则抽取
调序规则抽取的基本思想是对源语言端进行词性标记,再根据平行句对之间的词对齐信息判断源语言词性序列与目标语言端的对应位置关系,规则抽取过程的数学描述如下所示。
源语言句子词性序列中任意连续序列记为{Li,m=posi,…,posi+m-1|1≤i≤I,1≤m≤I-i+1},其中i表示该标记序列的起始位置,m表示该序列长度。求取目标端位置最小值为:{amin=min{al}|i≤I≤i+m-1},最大值为{amax=max{ak}|i≤k≤i+m-1},其中amin表示对应到目标语言的最小对齐点,称为左边界。amax指对应在目标语言端词序列的最大对齐点,称为右边界。
根据以上的描述,基于POS信息的调序规则的抽取依据以下一致性原则,即若式(1)和式(2)同时成立,则Li,m=posi,…,posi+m-1作为一条可能的调序规则的左部被存储,该规则右部为对应目标语言词序列的位置信息,记为AS→T,pos,i,m=ai,…,ai+m-1,其中S→T表示以源语言端为基准的词对齐。
∀p∈(1,i-1),且ap
(1)
∀p∈(i+m,I),且ap
(2)
一条完整的初始的POS调序规则形式可以表示为:
Li,m:AS→T,pos,i,m⟹posi,…,posi+m-1:ai,…,ai+m-1
(3)
式(3)所表示规则的右半部位置信息为某个目标语言句子中词的绝对位置信息,为提高规则泛化能力,需要对位置序列进行归一化处理,如下式:
(4)
其中r表示抽取的POS规则,L表示源语言的词性标注序列片段,A表示源语言与目标语言的词对齐信息,N表示平行语料库句对总数,I表示第k个源语言句子的句长,i表示某条规则中对应的源语言词性标注序列L的起始位置,m表示L的长度。Σ在这里不表示数学意义上的累加和,而是指规则的集合。
基于以上算法过程,对汉英平行语料在词对齐后所抽取的规则集合可以表示为:
(5)
根据最大似然估计原理,抽取的调序规则集合中的规则r的概率计算过程如式(6):
(6)其中,count(r)为规则r在规则库Rall中出现的次数,rleft为规则的左部,rright为规则的右部,规则左部rleft为固定部分,右部rright可以是不同的位置信息,例如:/v /d /v /m /q : 1 2 3 4 5和 /v /d /v /m /q : 0 0 1 2 3,这里左半部分为规则词性,这个词性序列有两种位置组合,第一种出现了4次,第二种出现了1次,所以,公式(6)分母是在对左半部分词性相同的规则进行数量累和,在这个例子中指5。
2 特定句法增强的调序规则分类
研究者[7-8]很多工作证明了中英句法结构的差异很多来源于特定的中文句法结构“的”,“的”常用来做名词性修饰结构或其他成分。通过对汉英句法结构和前人对句法研究工作的分析,为了能够对影响词序的特定句法结构和一般句法结构进行区分,我们将抽取到的基于POS的调序规则分为两类:调序“倾向性强”和“倾向性弱”。
1)包含“的”结构的规则:RDE,调序倾向性强的规则;
2)不包含“的”的规则:RNON-DE,调序倾向性弱的规则。
这里的“倾向性强”与“倾向性弱”是相对而言,在调序时所表现的权重有显著区分。
从Chang等[7]和Du[8]等的工作中我们可以看出,中文“的”结构相对于其它句法结构在中文中以很大的比例存在。文献[7][8]将“的”结构分为五类,在这五类中,需要调序的两种规则(即“B preposition A”和“relative clause”)的数量在5种类别中所占比重达到70.69%,因此,我们将“的”结构看做是一种调序“倾向性强”(数量上和比例上占很大优势)的规则。
目前的工作中,我们只对“的”字结构进行了研究,来验证本文所提方法的有效性和可行性。
包含“的”结构的规则可以表示为:
rDE⟹r1DEr2
(7)
其中,以“的”为中心,r1表示规则的左边半部;r2表示规则的右半部。
3 规则优化过滤机制及源端预调序
为确保获取规则的准确性和可靠性,我们建立优选机制即规则剪枝策略来选取规则。定义了两个阈值作为筛选条件,分别为:1)数量阈值θc,即规则出现的次数大于θc时,该规则有效。2)比例阈值θp,即规则的估计概率大于θp时该规则有效。
由Chen等的工作[4]可知,当θp≥0.9时,可以获取大量可靠性和准确性很高的规则,但相对降低了规则的召回率,尤其是对调序“倾向性强”和“倾向性弱”未加以区分,使得θp较大时,有些“倾向强”的规则被剔除。因此,对特定句法结构的调序规则适当松散化比例阈值,可以获得更多有效的规则。
根据两类规则在句法结构中的作用,设置不同的比例阈值进行规则筛选,从而达到优化调序模型的目的。实验中将包含“的”的调序规则比例阈值设为0.5。将不包含“的”的调序规则比例阈值设为0.9。
获取调序规则集后,对源端进行预调序,当源端词性序列中某个片段与调序规则集中的规则相匹配,则将源端的词序调整。采用一种自左至右的匹配策略来进行匹配(出现前缀相同的规则时,我们采用最短的匹配),当某一段源语言句子中某一段序列匹配上规则之后,我们会从当前匹配到的序列的下一个位置再开始匹配,直至遍历整个句子。
4 实 验
4.1 实验设置
本文的翻译系统是基于开源的Moses系统, 使用GIZA++进行词对齐,然后利用grow-diag-final启发式方法进行词对齐对称化。
汉英训练数据来自FBIS的271,124句对,语言模型为5-gram,NIST MT2006为开发集,NIST MT2005为测试集,系统性能评价采用BLEU4评价准则(范围0~100,得分越高表示翻译性能越好)。
实验分为四组:Baseline,pos+θp(0.9),pos+θp(0.5,0.9),pos+θp(0.9)+θc(2)。其中,Baseline为基线系统,pos+θp(0.9),pos+θp(0.5,0.9)及pos+θp(0.5,0.9)+θc(2)为加入本文所提出的调序模型后的翻译系统,每个系统参数的数量和比例阈值设置不同。pos+θp(0.9)指包含“的”和不包含“的”的两类规则比例阈值都设置为0.9,pos+θp(0.5,0.9)为包含“的”规则的比例阈值设为0.5,不包含“的”的比例阈值设为0.9,pos+θp(0.5,0.9)+θc(2)在比例阈值设置基础上将数量阈值设置为2。
4.2 实验结果和分析
表1列举了不同阈值设置下获取规则的数量。从表1可看出以下几点。
1)未剪枝前,RDE在总规则集Rall中的比例接近20%,剪枝后所占比例明显下降。可以看出,比例阈值设置过高时,虽然确保了规则的准确性,但导致大量有效的调序规则如“的”规则丢失。
2)pos+θp(0.5,0.9)和pos+θp(0.5,0.9)+θc(2)中的规则数量对比,可以看出数量阈值θc的设置对RDE的影响要比RNON-DE显著,使得RDE的数量大幅度减少,这说明了“的”结构在中文句法结构中普遍存在,且构成形式是多变的。
表2给出了不同翻译任务下的翻译结果。从结果可以看出以下几点。
1)相比于基线系统,加入调序规则的三个系统性能都有所提升,pos+θp(0.9)在翻译系统上的BLEU值提升了0.15%,pos+θp(0.5,0.9)提升了0.52%,pos+θp(0.5,0.9)+θc(2)提升了0.69%,说明了调序方法有效性。
2)pos+θp(0.5,0.9)和pos+θp(0.5,0.9)+θc(2)的结果优于pos+θp(0.9),说明本文所提区分调序“倾向性强”和“倾向性弱”的思路,对影响汉英语序差异的特定句法结构“的”进行区分处理是可行的。
然而,通过对实验结果进行分析,我们也发现了以下潜在问题。
1) 虽然区分了调序“倾向性强”与“倾向性弱”规则,但仅限于汉语“的”字结构,我们仍需挖掘更多典型调序结构以增强调序模型。
2) 阈值的设定主要取自经验值,阈值设置较大时对规则规模的剪枝力度过大,使得规则数据急剧下降,如表1所示,由此引起的后果是数据的调序比例降低,如表3中所示。
5 结论和展望
针对汉英机器翻译的调序问题,本文提出了一种特定句法结构增强的基于POS信息的源语言预调序方法。首先通过汉英平行句对的词对齐信息和源语言句子的词性标注信息抽取POS调序规则,然后根据“的”结构将调序规则分为调序“倾向性强”与“倾向性弱”两类,最后采用不同的阈值设置对两类规则集进行剪枝,获取最有效的调序规则集。在NIST汉-英机器翻译评测数据集上进行了实验,相比于基线系统,本文所提方法的BLEU值在NIST 数据集集上分别提高了0.52%和0.69%,验证了方法的有效性。
在以后的工作中,以汉英统计机器翻译系统的调序为对象,主要进行以下方面的研究:1)挖掘更多有效的特定调序句法结构,进一步增强基于POS信息的调序模型的调序能力;2)引入句法学知识抽取更加合理的句法调序规则。
[1]Nagata M, Saito K, Yamamoto K, Ohashi K. A clustered global phrase reordering model for statistical machine translation[C]∥The 21 International Conference on Computational Linguistics and the 44th Annual Meeting of the ACL, Sydney, 2006:713-720.
[2]Wang C, Collins M, Koehn P. Chinese syntactic reordering for statistical machine translation[C]∥Conference on Empirical Methods in Natural Language Processing, Prague, 2007:737-745.
[3]Zhang J J, Zong C Q. A unified approach for effectively integrating source-side syntactic reordering rules into phrase-based translation[J]. Language Resources and Evaluation, 2013, 47: 449-474.
[4]Chen B X, Cettolo M, Federico M. Reordering rules for phrase-based statistical machine translation[C]∥International Workshop on Spoken Language Translation and Evaluation Campaign on Spoken Language Translation, Kyoto, 2006:1-15.
[5]Rottmann K, Vogel S. Word reordering statistical machine translation with a POS-based distortion model[C]∥The 11th International Conference on TMI-MT, Sweden, 2007:171-180.
[6]Wu Q F, Huang S J, Dai X Y A Syntax-based pre-reordering for phrased-based Chinese-English SMT[C]∥The 11th China Conference on Computational Linguistics, Luoyang, 2011:50-57.
[7]Chang P C, Jurafsky D, Manning C D. Disambiguating “DE” for Chinese-English machine translation[C]∥The Fourth Workshop on SMT, Athens, 2009:215-223.
[8]Du J H, Way A. A discriminative latent variable-based “DE” classifier for Chinese-English SMT[C]∥The 23rd International Conference on Computational Linguistics, Beijing, 2010:286-294.
[9]Zhang H P, Liu Q, Cheng X Q, et al. Chinese lexical analysis using hierarchical hidden markov model[C]∥The SIGHAN Workshop on Chinese Language Processing, Sapporo, 2003:63-70.
(责任编辑 杨小丽)
Specific syntactic construction enhanced POS reordering model for SMT
DU Jinhua1,2, ZHANG Xiyuan1,2
(1.Faculty of Automation and Information Engineering, Xi’an University of Technology,Xi’an 710048, China; 2.Shaanxi Key Laboratory of Complex System Control and Intelligent Information Processing, Xi’an 710048, China)
This paper presents a specific syntactic structure (Chinese “DE” structure) enhanced reordering model for phrase-based Chinese-English SMT. This method first extracts the basic reordering rules in the case of constraint of word alignment and part of speech (POS) information, and then classifies the extracted basic rules automatically into two types of “strong reordering tendency” and “weak reordering tendency” in terms of Chinese and specific syntactic structure-“Chinese “DE” structure”. Finally, the different optimization and pruning strategies are adopted to deal with the rules of two types, whereby obtaining the reordering rule set of the source side. The experimental results on Chinese-English NIST 2005 data set indicate that the proposed method significantly raises the baseline by relatively 0.69 BLEU against baseline system.
statistical machine translation; specific syntactic construction; “DE” construction; POS reordering model
1006-4710(2015)03-0277-05
2014-10-16
国家自然科学基金资助项目(61100085)。
杜金华,男,副教授,博士,研究方向为机器学习与自然语言处理。E-mail:jhdu@xaut.edu.cn。
TP391
A