融合格框架的基于语块的依存树到串日汉统计机器翻译模型
2014-02-27吴培昊徐金安张玉洁
吴培昊,徐金安,谢 军,张玉洁
(1. 北京交通大学 计算机与信息技术学院,北京 100044;2. 三星中国通信研究院,北京 100028)
1 引言
日语与汉语分别是黏着语和孤立语,两者间存在显著的句法结构差异。如日语为主语—宾语—谓语(SOV)结构,汉语为主语—谓语—宾语(SVO)结构;日语通过词尾变化表达各种时态和句法形式;日语的格助词是显性格等。上述句法结构上的差异,是导致日汉统计机器翻译质量相对低下的重要原因。
为解决统计机器翻译中句法结构差异的问题,研究者提出了基于句法的统计机器翻译模型,主要包括基于成分树的短语树到串模型[1-2]、森林到串模型[3-4]和基于依存树的翻译模型[5]。然而,上述模型在适用于日汉统计机器翻译时,由于日汉句法结构上的显著性差异,使得翻译模型需要进一步改良,以提高翻译质量。
传统方法中与日语相关的统计机器翻译模型中以日英为主,研究者提出了基于语块的日英统计机器翻译[6]。基本思路是先对源语言和目标语言句子进行语块划分。然后,对语块中的词进行翻译。最终,对语块的顺序词序进行调整。但是,该方法没有从日语的句法结构层面入手解决日英统计机器翻译的句法考虑在模型中使用语块中的句法信息结构性差异问题,翻译性能仍有待改善提高。
为消除源语言与目标语言的结构性差异,研究人员针对机器翻译中的调序问题提出了一种通过人工制定预调序规则,在解码前将日语句子的结构调整为目标语言语序的日英统计机器翻译方法[7]。此方法存在人工规则存在主观性较强、对语种具有依存性及领域适应能力差等问题,推广使用上受到一定的制约。
解决调序问题的另一种思路是自动获取预调序规则。其中一种思路是基于中心语驱动的短语结构树及英日双语平行语料库词对齐信息的自动获取预调序规则[8]。该方法使用线性时间复杂度算法抽取预调序规则,在解码前使用自底向上的算法实现中心语驱动的短语结构的转换,然后把使用预调序规则把英语句子按照日语句子的语序进行调整,实验结果证明可有效提高翻译性能。该方法在日汉统计机器翻译系统实现中,具有一定的可扩展性。但是,由于汉语是孤立语,是表义型语言,句子构成要素的词汇的自由度较大,因此,该方法很难从根本上解决日汉统计机器翻译所面临的语言结构性差异悬殊的问题。
同时,研究者还提出了一种从基于语块的依存树自动获取预调序规则的方法[9]。该方法首先把日语依存树转换为中心语驱动的短语结构树,然后抽取预调序规则,重构日语句子顺序,所实现的日英统计机器翻译系统的性能有所改善。但是,该方法并没有从基于句法的统计翻译模型方面,结合句法结构信息解决源语言和目标语言间的结构性差异问题。
一种使用谓语论元结构将句法结构要素作为语义信息应用到统计机器翻译中的方法[10],取得了较好的成果。该方法首先使用训练好的短语翻译模型对原文进行翻译。然后,对原文及翻译结果进行谓语论元结构的语义角色标注。最后,通过双语语义角色标注的结果,对翻译结果进行句法重排,获得最终翻译结果。此方法的问题在于其系统翻译性能受到既有训练好的短语翻译模型系统性能的制约。此方法在应用于日汉统计机器翻译时,由于日汉语言上的差异造成短语翻译模型的性能相对低下的问题。因此,该方法在推广到日汉统计机器翻译时面临诸多困难。
为解决上述问题,本文在总结相关研究成果的基础上,提出了一种融合日语格框架的基于语块的依存树到串日汉统计机器翻译模型。通过从日语依存分析树获取格框架,在翻译模型的规则抽取及解码中,以日语格框架作为约束条件,指导依存树的句法结构重排,调整日语和汉语的句法结构差异,实现格框架与日汉依存树到串模型的融合。实验结果显示,本文提出的方法可有效改善日汉统计机器翻译的句法结构调序,还可有效提高日汉统计机器翻译的译文质量。
本文其他章节的组织结构如下: 第2章阐述格语法和日语格框架的相关理论;第3章描述本文提出的翻译模型及规则抽取方式;第4章介绍本文模型的解码过程;第5章通过实验验证本文方法的有效性;最后对本文进行总结与展望。
2 格语法与日语格框架
2.1 格语法
格语法于1968年由美国语言学家菲尔墨在《TransformationGrammar》中提出,是一种着重探讨句法结构与语义之间关系的语法理论和语义学理论。菲尔墨提出的格框架文法认为命题中需用的格包括:施事格、工具格、承受格、使成格、方位格、客体格等6种。之后,在语言分析时又加了受益格、源点格、终点格及伴随格等。
格语法理论强调句子结构由一个核心动词以及多个名词短语组成,每个短语与核心动词均存在某种特定的格关系。即格框架文法中的格框架描述了自然语言句子的深层结构和语义信息,在自然语言处理中起到十分重要的作用。但是,到目前为止,格框架还没有在统计机器翻译系统中得到有效地利用。
2.2 日语格框架
日语是黏着语,属于典型的格框架文法语言。日语格助词为显性格,在句法分析中较易与其他句子成分区分。图1(a)为句子“あなたのお母さんがレストランで美味しい寿司を食べる(你的母亲在餐馆吃美味的寿司)”的基于语块的依存句法分析结果,图1(b)为句子中动词“食べる”的格框架在该句子中的形式。
其中,句子中心词为动词词干“食べる”,其表层格框架由动词以及3个名词短语组成,施事格“お 母さん が”,场所格“レストラン で”以及对象格“寿司 を”。其深层格框架如图1(b)所示的格助词附加每个格所属的语义信息形成语义约束关系,如格助词“が”附带的词“お母さん(母亲)”的语义信息可以是“人”,“で”的附属词“レストラン(餐馆)”的语义信息可以是“场所”,“ヲ格”的附属词“寿司(寿司)”的语义信息可以是“食物”,则以动词“食べる”为中心词,“人”、“场所”和“食物”形成日语动词“食べる”的具有语义约束关系的深层语义格框架。
日语格框架在日语的自然语言处理技术中技术成熟,在日语依存句法分析基于规则的机器翻译等领域得到广泛和成功的应用[11]。日语格框架库自动构建方面,以互联网为对象,基于半监督机器学习方法的大规模词汇化日语格框架自动获取技术[12-14]取得了很大的成功。自动抽取的日语格框架库还大大提升了日语依存句法分析的性能。
图1 日语依存句法树示例
2.3 日语格框架的形式化描述
本文使用三元组
V表示日语谓词原型的集合,以区别于谓词的活用形。
C表示日语谓词的活用形集合,活用形描述谓词在句子中的时态、意愿、假设、祈使、能动、被动等变化形式。表1所示以动词“食べる”为例,例举了部分活用形的变化。
表1 动词“食べる”的部分活用形示例
R表示日语格助词集合,日语格助词集合如表2所示。除此以外,日语副助词“は”、“では”和“には”等也具有格助词的特性。
表2 日语部分格助词集合
对于任意一个日语句子的中心谓词,包括动词、形容词或形容动词。其格框架(CF)可由三元组
h∈V为句子的中心谓词的原型或词干。
t∈C为句子的中心谓词在句中的活用形。
φ∈R*表示句子的中心谓词的格框架的各个格助词,每一个格助词的顺序按照其在句子中的先后顺序进行排序并进行标号。
2.4 日语格框架的自动获取
对于一个完成了日语依存句法分析的句子,其中心谓词可从依存句法分析树的根节点的语块中获取。该中心谓词的格框架,可以由两种方法得到。
1) 从既有日语依存分析树自动抽取谓词格框架。通过分析与句子中心谓词所在节点有直接依存关系的日语格助词与集合R中的元素进行模式匹配,得到该中心谓词的格框架。如图1(a)所示的日语依存树,与动词 “食べる”有依存关系的格助词分别为“は”,“で”和“を”,对应的表层格关系为“ガ格”,“デ格”以及“ヲ格”。
2) 另一种是使用日语格框架库*http://nlp.ist.i.kyoto-u.ac.jp/,与日语句子的依存分析树进行模式匹配获取格框架的方法。该方法的优点是可有效弥补日语句子中被省略的日语格助词,使获取的日语格框架成份具有完整性。该方法中使用的日语格框架库的例子如表3所示。
表3 “食べる”的部分词汇化日语格框架示例
格框架库中,动词“食べる”的部分词汇化格框架,与句子中的中心词和与之有依存关系的格助词、及格助词所依存的词干进行模式匹配,可以获取动词“食べる”的格框架。
当使用第2种方法抽取特定中心谓词的格框架时,存在复数格框架选择的可能性。在此情况下,本文结合第一种方法获取的格框架,计算格框架的相似度,选取与第一种方法相似度最高的候选结果作为该中心谓词的格框架。
依据上述格框架的定义
h:食べt:基本形φ:x1:が格,x2:ヲ格,x3:デ格
其格框架表现形式如下:
<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格>
3 基于语块的依存树到串模型
本文提出的方法旨在将日语格框架融合到依存树到串模型中的规则抽取及解码过程中,将格框架作为约束条件,改善统计机器翻译性能。
本文定义三元组
图2 源语言依存树与目标语言串对齐示例
本文定义的依存树到串模型中,翻译规则包含两部分:
词汇化翻译规则(LTR规则)。LTR规则的作用在于,将源端语块或短语,转化为目标端对应的翻译结果。
格框架调序规则(CFR规则)。通过使用CFR规则,将源端依存树结构转化为目标端序列。
本文翻译模型中,CFR规则的形式化定义为
翻译模型的规则抽取包含如下3个步骤: 1) 依存树标记;2)CFR规则抽取子树判定;3) 规则抽取。
3.1 依存树标记
定义依存树T中的每个节点均包含两个属性: 1) 对齐跨度,2) 子树对齐跨度。
定义1任意依存树T中的节点n,该节点的对齐跨度hsp(n)为目标端中与节点n存在词对关系的目标端词集合。
如图2所示,由于目标端词“在”与“餐馆”与节点“レストラン で”中的词存在对应关系,因此hsp(レストラン で) ={4-5}。
定义2任意依存树T中的节点n,若hsp(n)满足如下条件,则认为hsp(n)是独立的。
∀n′≠nhsp(n′)∩hsp(n)=∅
定义3对于以节点n为根的子树T′,子树对齐跨度dsp(n)的定义如下:
例如,可以dsp(お母さんが)可以根据如下方法计算。
dsp(お母さんが)=hsp(あなたの) ∪(お母さんが) = {1-3}
根据上述定义,通过使用后序遍历算法,依存树T中的各个节点标记对齐跨度以及子树对齐跨度。
3.2 CFR规则抽取子树判定
由于词对齐错误、俚语等情况的存在,并非所有格框架均可以抽取CFR规则。因此,在规则抽取前,需要判定格框架是否可以抽取CFR规则。
定义4T’为T的子树,若T’根节点存在中心谓词,且可以抽取格框架,则子树T’∈cft(T) 。
定义5在日语依存树T中,可抽取CFR规则的子树集合为adt(T)。对任意T’∈cft(T),若T’满足如下条件,则T’∈adt(T):
条件1:hsp(chunk(h))≠∅
条件2: ∀n′依存于chunk(h)dsp(n’)≠∅
条件3: 在该子树中,dsp(chunk(h))独立
其中,chunk(h)表示词h所在语块。
在图2中以“食べる”为根的子树T’∈cft(T),格框架为<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格>。依据上述条件可知:
hsp(chunk(食べる))=hsp(食べる) = {6}满足条件1和条件3。
dsp(お母さん),dsp(レストランで)和dsp(寿司を)均不为∅,满足条件2。
因此,T’∈adt(T)可以抽取CFR规则。
3.3 规则抽取
本文使用自顶向下遍历依存树的方法抽取翻译规则,具体抽取方法如下所述。
3.3.1 LTR规则抽取
依存树的遍历过程中,在下述两种情况下,需要抽取LTR规则。
1) 依存树节点的语块。对于依存树中每个节点的语块,根据双语词对齐信息A及目标语言端词序列S,基于短语模型的规则抽取方法[15],抽取LTR规则。
2) 若子树T’∉adt(T),则将该子树转化为源端字符串序列,视作一个语块,参照情况1规则抽取方法获取LTR规则。
图3为情况2下,对子树抽取LTR规则的一个实例。
图3 LTR规则抽取示例
3.3.2 CFR规则抽取
若子树T’∈adt(T),则根据依存树标记信息,抽取CFR规则,具体方法如下所述。
首先,获取任意格助词φ’ ∈φ所在组块的子树对齐跨度dsp(お母さん),以及动词h所在组块的对齐跨度hsp(h)。
然后,根据获取的dsp(φ’)及hsp(h)信息,确定在该句对中,子树T’的格框架中格助词及中心谓词在目标语言端的顺序关系,记录在ω中。获取最终的CFR规则。
依据上述方法,图2中动词“食べる”的格框架在目标端的调序后为ω=x1x2hx3。从而,该格框架的CFR规则如下。其中,h指代该格框架的中心谓词:
<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格,x1x2hx3>
3.4 概率计算
LTR规则的概率计算,参照(Kohen et al., 2003)的方法,计算方法如式(1)所示。
其中,P(s|t)为源语言短语s翻译为目标语言短语t的正向翻译概率,count(s,t)为s和t在训练语料中出现的共现次数。
CFR规则的概率计算,本文使用最大似然估算方法,计算方法如式(2)所示:
其中,count(P(
3.5 统计模型下CFR规则修正
京都大学日语格框架库中,共收录了34 059个日语动词的格框架。由于训练语料规模限制,日语动词格框架的CFR规则无法全部从训练语料中抽取,该问题的产生将导致解码过程中CFR规则无法匹配的问题。
为解决数据稀疏问题造成的CFR规则缺失。本文基于日语中心谓词的活用型,将日语中心谓词进行分类。CFR规则形式化定义
依据上述修正,原有CFR规则<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格,x1x2hx3>中,日语动词“食べる”的活用型为“母音动词”。本文统计模型下,该CFR规则的最终表现形式为: <母音动词, 基本型, x1:が格,x2:ヲ格,x3:デ格,x1x2hx3>
4 模型及解码
4.1 模型描述
本文的解码使用对数线性模型,对于给定的日语依存树,从所有可能的结果D中,寻找出最优结果d*。
假设d为源语言依存句法树T转化为目标语言串e的可能方式。d的概率定义如式(4)所示。
其中,Φi为特征参数,λi为特征参数的权重。本文模型中,包含了8个权重:
•CFR规则概率P(s|t)
•LTR规则概率P(s|t)和P(t|s)
• 词汇化概率Plex(s|t)和Plex(t|s)
• 规则惩罚exp(-1)
• 字惩罚exp(|e|)
• 语言模型Plm(e)
本文使用最小错误率训练[16]对参数λi进行优化。
4.2 模型描述
本文使用自顶向下的方法进行解码。图4为本文方法解码的一个示例。具体算法流程描述见算法1。
图4 解码流程示例
算法根据下述两个要点进行解码:
1) 若以当前节点为根的子树T’∉adt(T),将该子树转化为源端字符串序列,视作一个语块,使用LTR规则进行翻译。
2) 若以当前节点为根的子树T’∈adt(T),使用LTR规则翻译T’根节点的语块,递归对依存于当前节点的所有子树进行解码。最后,使用CFR规则对该节点及依存于该节点的子树进行调序,合并子树。
通过上述方法,最终获取依存树的最佳翻译结果。
5 实验与分析
5.1 数据及工具准备
本文在日汉新闻与专利文献两个领域进行实验,测试本文方法在日汉统计机器翻译系统中的性能。其中,新闻使用CWMT2011*http://mt.xmu.edu.cn/cwmt2011/评测中的日汉新闻评测语料,专利文献使用ASPEC*http://orchid.kuee.kyoto-u.ac.jp/ASPEC/的日汉专利文献语料,语料相关信息如表4所示。
表4 实验语料相关信息
算法1本文解码算法
输入: 源端依存结构树T,LTR规则集L,CFR规则集R
输出: 翻译结果
CFset←CaseFrame(T)
for chunk in T from top to bottom
ifchunk∈CFset:
then
translatechunkwithL
translateeverysubtreewhichrelatestochunk
reordersubtreesandchunkwithR
end
translatesubtreeasachunkwithL
returnthebestresultoftherootchunk
为比较本文方法在统计机器翻译模型的有效性,本文使用层次短语模型(HPB)与本文方法(Cdep2str)进行比较。同时,为检验,实验中使用基于词的依存树到串模型(dep2str)[5]与本文方法进行比较。在使用dep2str模型前,本文先将日语基于语块的依存树转化为基于词的依存树。
本文实验工具配置如下:
Juman7.0*http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?JUMAN: 日语分词工具。
KNP4.0.1*http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?KNP: 日语依存句法分析工具。
Stanford Chinese Segmenter*http://nlp.stanford.edu/software/segmenter.shtml: 中文分词工具,本文中文分词使用ctb中文分词标准。
GIZA++*http://code.google.com/p/giza-pp/: 进行双语词对齐计算,并使用“grow-diag-final-and”对双向对齐结果进行融合。
SRL Language Modeling Toolkit*http://www.speech.sri.com/projects/srilm/: 构建中文五元语言模型。
MOSES*http://www.statmt.org/moses/:训练本文的层次短语模型(HPB),短语模型中,最大短语长度设置为10。
MERT(Och, 2003):对模型参数进行优化,在开发集上获得较高的BLEU值。
5.2 实验结果
实验结果(表5)表明,在不同领域下,本文方法相对于层次短语模型, BLEU均有了一定的提高,同时,抽取的规则数量远小于层次短语模型。虽然dep2str模型抽取的规则数量是3个模型中最少的,但是,其翻译性能在3个模型中效果最差。
表5 实验结果
5.3 实验结果分析
与HPB模型相比,本文模型Cdep2str存在两个方面的优势。
句法结构调序。日语与汉语分别属于黏着语系和孤立语系,两者间存在显著的句法结构差异,句法结构调序问题复杂。由于规则抽取的长度限制,HPB模型无法正确选择长距离调序规则。与此同时,Cdep2str模型使用基于格框架的CFR规则,在句法层面对译文进行调序,有效地解决了日汉统计机器翻译中的句法结构差异问题。如下例所示,Cdep2str模型对日语句子进行了正确的句法调序。
原句[翌年に]1[東京·那覇間の航海便を]2[やめたらしい。]3参考译文[在第二年]1[取消了]3[东京那霸一线的班轮。]2HPB[第二年在]1[东京·那霸之间的航海航班]2[停止了似乎。]3Cdep2str[第二年]1[停止了]3[东京·那霸之间的航班。]2
词汇翻译。本文模型的规则抽取中,通过使用依存句法结构限制,对词汇化翻译规则的抽取进行限制。与HPB模型相比,本文模型降低了词汇化翻译规则的噪声。如下例所示,在翻译“航空 便 で”的词汇选择上,本文方法的词汇翻译结果较好。
原句航空便でいくらぐらいかかりますか。参考译文寄航空要多少钱?HPB用航空大约要多少钱?Cdep2str用航空邮寄要多少钱?
由于日汉句法结构存在较大差异,导致训练语料的词对齐效果较差。dep2str模型以词作为规则抽取的基本单元,将导致大量的词汇化翻译规则无法抽取,因此,dep2str模型不适用于日汉统计机器翻译。同时,dep2str模型在处理俚语方面,也存在不足。例如,“鬼の首を取ったよう(获取宝藏)”无法抽取正确的译文。本文方法以语块作为词汇化规则抽取的基本单元,相对于dep2str模型,能够获得更好的翻译结果。
6 总结与展望
本文提出了一种格框架的基于语块的依存树到串日汉翻译模型。通过从日语依存句法分析结果中获取格框架,并使用格框架限制日汉语块依存树到串模型的规则抽取及解码,有效的解决了黏着语系与孤立语系间的结构调序问题。本文方法通过使用格框架,将应用于日语规则翻译系统的浅层语义信息应用到统计机器翻译中,是一种将规则翻译系统的思想融合到统计机器翻译中的思想。该思想对不同方法下的机器翻译系统融合有一定的指导作用。
在今后的工作中,我们将对格框架在机器翻译下的应用进行深入研究,将格框架下的深层语义信息应用到机器翻译中,以期实现真正意义上的基于语义机器翻译。本文方法并没有深入研究格框架的中心谓词时态对统计机器翻译的影响,这是一个值得深入探讨的问题。同时,在研究中心谓词格框架的同时,对日语名词格框架的研究,对机器翻译也应当有一定的帮助。
[1] Yamada K, Knight K. A syntax-based statistical translation model[C]//Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2001: 523-530.
[2] Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 609-616.
[3] Liu Y, Huang Y, Liu Q, et al. Forest-to-string statistical translation rules[C]//Proceedings of ANNUAL MEETING-ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. 2007, 45(1): 704.
[4] Mi H, Huang L, Liu Q. Forest-Based Translation[C]//Proceedings of ACL. 2008: 192-199.
[5] Xie J, Mi H, Liu Q. A novel dependency-to-string model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 216-226.
[6] Watanabe T, Sumita E, Okuno H G. Chunk-based statistical translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 303-310.
[7] Hoshino S, Miyao Y, Sudoh K, et al. Two-Stage Pre-ordering for Japanese-to-English Statistical Machine Translation[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing. 2013.
[8] Wu X, Sudoh K, Duh K, et al. Extracting Pre-ordering Rules from Predicate-Argument Structures[C]//Proceedings of IJCNLP. 2011: 29-37.
[9] Wu X, Sudoh K, Duh K, et al. Extracting preordering rules from chunk-based dependency trees for Japanese-to-English translation[C]. Proceedings of the 13th Machine Translation Summit, 2011: 300-307.
[10] Wu D, Fung P. Semantic roles for smt: a hybrid two-pass model[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009: 13-16.
[12] Kawahara D, Kurohashi S. Case frame compilation from the web using high-performance computing[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation. 2006: 1344-1347.
[13] Kawahara D, Kurohashi S. A fully-lexicalized probabilistic model for Japanese syntactic and case structure analysis[C]//Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Association for Computational Linguistics, 2006: 176-183.
[14] Sasano R, Kurohashi S. A Discriminative Approach to Japanese Zero Anaphora Resolution with Large-scale Lexicalized Case Frames[C]//Proceedings of the IJCNLP. 2011: 758-766.
[15] Koehn P, Och F J, Marcu D. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics, 2003: 48-54.
[16] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 160-167.