基于语言学资源的汉- 英机器翻译
2021-03-06张春祥冯禹瑄贾永刚王淇桢
金 鹏 张春祥 冯禹瑄 贾永刚 王淇桢
(哈尔滨理工大学 软件与微电子学院,黑龙江 哈尔滨150080)
1 概述
在机器翻译系统中翻译知识是重要的知识源,能够完成源语言到目标语言的转换任务。目前,从语料库中学习翻译知识已经占到了主流地位。基于语料库的机器翻译可以分为两种形式:基于统计的翻译系统和基于实例的翻译系统。
1.1 统计机器翻译(Statistical Machine Translation,SMT),又称数据驱动的翻译,是一种采用统计学习技术来获取知识的方法。这种方法将翻译知识表示为模型参数,利用双语语料来优化模型参数。统计机器翻译主要包括基于信源信道模型的统计翻译、基于平行概率语法的统计翻译和基于最大熵的统计翻译[1]。
1.2 基于实例的机器翻译(Example-Based Machine Translation,EBMT),其基本原理是:把双语语料看作翻译知识库,通过实例的查询和相似度计算来实现知识的查找和匹配。类比源语言与翻译实例,通过组合相近的实例片断来生成目标语译文。实例的查询和相似度计算本身就是一个知识获取的过程。这种方法不通过深层次的分析,仅使用已有的经验知识,通过类比原理来进行翻译[2]。
本文对汉英双语语料进行词汇对齐,根据词链从中抽取汉英对译片断对。同时,给出了基于对译片断对的机器翻译框架,对输入的汉语句子进行翻译转换。
2 汉- 英对译片断对获取
对译片断对也就是人们常说的翻译等价对。翻译等价对获取不但是机器翻译课题中的一个重要环节,而且也是自然语言处理中亟待解决的问题。在处理像汉- 英这样具有异构语法体系的语言对时,现行的对译片断对抽取方法会遇到很多问题。对以下汉- 英双语句对,其对译片断对的抽取过程如下所示:
汉语句子:这是收据和零钱
英语句子:Here is the receipt and your change
词汇对齐结果如图1 所示:
图1 汉英句对的词汇对齐结果
对译片断对:这是<->Here is 收据<->the receipt和<->and 零钱<->your change
在实际应用中,对译片断对是很复杂的。片断既可以是符合语法的,也可以是不符合语法的。无论是哪一种情况,对于机器翻译系统而言都是有意义的,都应该搜集起来作为翻译知识。对以上的例子而言,对译片断对也可以包括以下形式:是收据 和<->is the receipt and、和 零钱<->your change and。
因此,对译片断对获取的原则为:
(1)直接由词汇对齐结果得到的对译片断对称为原子对译片断对。
(2)如果汉语句子的片断中被对齐的所有词汇经过词汇对齐映射到英语句子的片断中,并且英语句子的片断中被对齐的所有词汇经过词汇对齐映射到汉语句子的片断中,那么汉语句子的片断与英语句子的片断称为对齐闭包。
(3)在一个对齐闭包中,如果边界词汇也被对齐,那么认为由对齐边界词汇从对齐闭包中所划分出来的片断也是对齐的。
(4)如果一个对齐闭包,不能由连续的子片断对顺序组合得到,那么该封闭片断对称为封闭对译片断对。
从汉英双语句对中抽取对译片断对的过程如图2 所示。
图2 基于词汇对齐的对译片断对获取
3 基于对译片断对的机器翻译框架
本文给出了一个基于对译片断对的机器翻译框架,如图3所示。
图3 基于对译片断对的机器翻译框架
以对译片断对库为基础对输入的汉语句子进行分割,找到与汉语片断最相近的对译片断对。对输入的汉语句子,有多种片断划分方案。每一个汉语片断可能有多个英语译文。对于每种片断划分方案而言,其英语译文组合形成了一条译文路径。因此,每个汉语句子有多个不同的候选英语译文。
从多个候选英语译文中选择一个与输入的汉语句子语义最相似的英语译文是提高机器译文输出质量的关键因素。
本文将根据输入的汉语句子与候选英语译文之间的相似度来进行译文选择。在计算相似度时,主要采用以下三种策略:
(1)累积汉- 英词对之间的翻译概率来计算片断对的译文相似度。
翻译概率可以度量出汉语词汇与英语词汇之间的互译程度,能够从某种角度反映出汉语词汇与英语词汇之间的语义对等关系。在大规模汉英双语句对中,通过统计汉英词对共现的频率可以计算出汉语词汇与英语词汇之间的翻译概率。以此为基础,可以形成汉英词汇翻译概率表。在输入的汉语句子与英语译文之间,计算出每个汉语单词c 与每个英语单词e 之间的翻译概率P(c,e)。
累积对译片断对中汉- 英词汇之间的翻译概率来计算对译片断对的可信度。对于汉语片断CSeg=c1,c2,…,cm与英语片断ESeg=e1,e2,…,en,对译片断对可信度PT(CSeg,ESeg)的计算过程如公式(1)所示。
(2)利用对译片断对中对齐词汇个数评价译文质量。
词汇对齐是度量汉英词汇互译的重要手段。在经过词汇对齐工具处理之后,若汉英词汇之间存在词链,则该汉英词汇的互译程度较高。反之,则认为该汉英词汇的互译程度较低,或者是语义上是不等价的。在对译片断对中,若对齐词链密度越大,则认为该对译片断对互译的质量也越高。在译文路径选择过程中,计算每一条译文路径的词链个数,优先选择对齐词链密度最高的路径。
对于汉语片断CSeg=c1,c2,…,cm与英语片断ESeg=e1,e2,…,en,若对齐词链数为L,则对齐词链密度Den(CSeg,ESeg)的计算过程如公式(2)所示。
(3)译文片断的最小覆盖数。
若输入的汉语句子划分片断的数量过多的话,则其英语译文将从多个对译片断对中获取。若汉语句子的英语译文来自一个汉英句对的话,则其译文质量最高,最接近于人工译文。若输入的汉语句子的英语译文来自多个汉- 英对译片断对,则其译文质量较差。
4 实验
本文使用Visual C++开发了基于语言学资源的汉- 英机器翻译工具,如图4 所示。
图4 汉英机器翻译工具
搜集了60000 汉- 英双语句对,使用哈尔滨工业大学的汉语分词工具对其中的汉语句子进行词汇切分,利用哈尔滨工业大学的英语词形还原工具对其中的英语词汇进行词形还原。使用哈尔滨工业大学的汉- 英词汇对齐工具对双语句对进行词汇对齐。利用本文所提出的方法从中提取汉- 英对译片断对,搜集所提取的汉- 英对译片断对形成对译片断对库。搜集了50句汉语句子,用于测试机器翻译工具的译文输出质量。人工给出这50 句汉语句子的英语译文答案。分别使用Bleu 和Nist 评价方法对机器译文进行评分,其结果如表1 所示。
表1 测试句子的机器译文评测分数
5 结论
本文在分析了现有机器翻译技术的基础上,提出了一种基于语言学资源的翻译知识获取与译文选择方法。对汉- 英平行双语语料进行词汇对齐,根据词链抽取汉- 英对译片断对并建立翻译知识库。以对译片断对为基础,建立机器翻译模型,对输入的汉语句子进行翻译。实验结果表明:机器译文的Nist5 评测分数达到了5.4188,Bleu5 评测分数达到了0.4400。