两种机器翻译的对比及测评

2017-02-04刘启源

课程教育研究·上 2016年10期

刘启源

【摘要】机器翻译在近三十年兴起并被广泛运用，但机器翻译的结果却差强人意，尤其是其准确性和可读性往往令人失望。为了从语言学的角度更具体地发现和分析机器翻译的问题，笔者设计了12句英文被动句，运用谷歌翻译（Google translation）和美商系统翻译（SYSTRAN translation）两种机器翻译软件进行英汉翻译对比。

【关键词】机器翻译被动语态翻译对比

【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089（2016）10-0123-02

一、被动语态和机器翻译

在被动句或被动短语中，主语是动作的承受者而非执行者，且语句的重点是动作。被动语态在英语中使用率极高，英语被动语态有多种结构，最常见的结构为：主语+be动词+动词过去分词。然而，被动语态在中文里使用率并没有如此高，且其语法结构也和英语中的有所不同。

本文将使用谷歌翻译和商英翻译进行被动语态的英汉翻译对比。谷歌翻译是当今最流行的机器翻译软件之一。谷歌翻译属于统计机器翻译，它的运行包括了两种不同的、单独进行的过程——瞄准和解译，其翻译主要依靠分析大量人为翻译的文本。

商英翻译创建于1968年，是最老的机器翻译公司之一。其运行属于基于规则系统，主要基于不同的语法规则进行翻译。2006年，该公司开发了混合翻译引擎，将基于规则系统和统计机器翻译相结合，统计机器翻译的功能主要是后期编辑。

二、对比方法

为了更全面的说明机器翻译在翻译被动语态时出现的问题，笔者将测试内容分成四类，这四类包含了英语被动语态中的主要语法结构：

1.含有动作执行者的被动句（通常由介词“by”引导）

2.不含动作执行者的被动句

3.get+过去分词

4.非人称被动语态

根据以上四类被动句，笔者创建了本次对比的测试集，测试集中的部分被动句是笔者自己创作的，其余则是通过语法书或网上搜集的，每个种类分别含有三测试句。翻译结果分为三个层次——准确、可理解和错误。准确意味着翻译的意思和语法都正确；可理解意味着翻译的意思可接受，但可能存在一些语法问题或者表达方式不够地道；而错误则说明翻译的结果完全不能令人理解、语句完全不符合正确的语法构成。

测试集和翻译结果如下：

三、对比结果分析

由对比结果表可见，虽然谷歌翻译和商英翻译所输入的测试句是一样的，他们输出的翻译内容却有很大差异。第一组测试为1到3句，均为含有动作执行者的被动句。从结果中可看出，谷歌翻译无法识别1句的被动语态，其翻译为颠倒了动作执行者和承受者的中文主动语态，使得输出句毫无逻辑。根据Hearne and Way的理论可得出推论，谷歌翻译的程序中拥有所输入单词的正确翻译模型，但它无法正确地分析输入句的语法结构，也没有此类英文被动句足够的翻译模型。谷歌翻译识别出了2句和3句的被动语态并正确翻译了2句，但在翻译3句时，却没有译出“written”一词，导致最后的输出句子在意义和语法结构上都不完整。因此，谷歌翻译在第一组测试中1句和3句的评分档次为“错误”，2句的评分为“正确”。商英翻译在此组测试中的表现则明显略胜一筹。它用正确的语法转换了输入句中的被动语态、译出了准确的意思。商英翻译在本组测试中的精确度可能要归功于其大量的、正确的语法规则和其成熟的筛选技术。但是，在3句的翻译中还是出现了一个语法错误。在翻译副词“usually”（通常）时，它将副词的位置按照原句的英文习惯放在了动词“写”的前面，但中文里正确的表达方式应该放在介词“由”的前面。由此可见，商英翻译所运用的混合引擎中的统计机器翻译没有起到很好的后期编辑作用。商英翻译在1句和2句的测试中的评分为“准确”，3句的评分为“可理解”。

第二组为不含执行者的被动句，包括4、5、6三句，其测试结果与第一组相比大有不同。谷歌翻译在第二组测试中可识别出所有输入句的被动语态，并用正确的中文语法表达出准确的意思。值得一提的是，它在翻译第二组句子时将原句的被动语态全部译为中文的主动语态，这是中文的惯用表达方式。谷歌翻译在第二组测试中的表现说明此类被动语态的语言模型已经比较成熟了，其评分均为“准确”。商英英语虽识别出的了本组的被动语态但将其翻译成了中文被动语态，而此类被动语态一般不会在中文里用被动句表达，不符合习惯用语。因此，商英英语在本组的得分均为“可理解”。

第三组的被动语态结构为“get+过去分词”，两个机器翻译在本组的表现都可圈可点。谷歌翻译识别出了7、8、9句中“get+过去分词”的被动语态形式并将其正确地翻译成中文主动语态，再一次证明了谷歌翻译对于此类被动语态语言模型的成熟，并说明其刷选最佳表达方式的能力。因此，谷歌翻译在第三组测试的评分均为“准确”。商英翻译在第三组的测试中虽然识别出了“get+过去分词”的被动语态并将其译成了中文主动语态，但是在最后输出语言时形成的却不是惯用的表达方式，比如7句和8句的翻译“谁是否受到了伤害”和“请赶紧并且换衣服”，虽然这两句在理解意思上没有问题，但却不是最准确和地道的表达方式，说明商英在后期的文字编辑上任然有所欠缺。所以，商英翻译在本组测试的得分均为“可理解”。

最后一组的测试句为非人称被动语态句，其语法结构是：it+is+过去分词+that…，在英文中运用较广泛。中文中虽没有相对应的语法结构，但也有意思相同的表达方式，比如“据说”、“据报道”等等。谷歌翻译成功识别出了10-12三个测试句的被动语态，并用“据推测”、“据认为”等进行了正确的翻译。所以，此组的评分均为“正确”。商英翻译在本组的表现则逊色不少，虽然它用“据说”正确翻译出了10句的被动语态，但把“男人”译成了“人”，把“长寿”译成了“长期活”，这两个词语的翻译都不准确；另外，它没有识别出11句的被动语态，而在12句的翻译中，将被动语态直接逐字的翻译成“被相信”放在句首，也是不符合中文语法规则的。由此可见，商英翻译在本组测试时所使用的语言转换器和语法规则都是错误的，其在本组的评分都为“错误”。

四、结论

由测试结果可得出结论，谷歌翻译的结果好坏主要取决于其翻译模型是否成熟，对于含有动作执行者的被动句的翻译模型还不够成熟，但其他测试的被动句类型都可被识别并正确翻译成中文惯用表达方式；商英翻译的结果则取决于其语言规则是否完善、后期语言编辑是否正确，商英翻译针对第一组到第三组被动语态的语法规则都较充足，都可正确识别出，但其无法识别第四组“非人称被动语态”、语法规则不够完善。另外，商英翻译在四组测试中都出现了选词不当、排序错误和表达方式不够地道等后期编辑问题，说明其后期编辑水平还有待提高。

参考文献：

[1]Hearne， M. Way， A. （2011） ‘Statistical Machine Translation： A Guide for Linguists and Translators. Language and Linguistics Compass.

[2]Arnold， D.（2003） Why translation is difficult for computers. In Somers， H.（ed.）.Computers and Translations ： A translators guide. Amsterdam/ Philadelphia： John Benjamins Publishing.

[3]White， J. S. （2003） How to evaluate machine translation. In Somers， H. （ed.）.Computers and Translations： A translators guide. Amsterdam/ Philadelphia： John Benjamins Publishing.

猜你喜欢

机器翻译被动语态

被动语态复习(The Paasive Voice) 九年级 Unit5—7

两种机器翻译的对比及测评

猜你喜欢

杂志排行

课程教育研究·上的其它文章