主谓宾结构英汉机器翻译中的词汇错误分析
2020-04-22陈媛
陈 媛
(河南科技大学 外国语学院, 河南 洛阳 471023)
一、引言
机器翻译(Machine Translation)指的是利用计算机程序把一种语言的文本(源语文本)翻译成另外一种语言文本(目的语文本)的过程,用以完成这一过程的软件叫做机器翻译系统。步入21世纪以来,机器翻译经历了一个快速发展的繁荣时期,并且在各种领域获得了广泛的利用,例如国外的谷歌、微软以及国内的百度、有道等公司开发了在线多语言的机器翻译系统,它们已经成为互联网上重要的应用工具[1]。现今我们已经可以利用自动翻译系统翻译某些语言信息[2]16, 但遗憾的是到目前为止机器译文的准确性还不太令人满意,尤其是英汉机器翻译,究其主因是对英语语法的分析还未能满足机器翻译的需要。因此,本研究立足于英汉机器翻译主谓宾结构,特别是探讨主谓宾结构机器翻译中的词汇错误,尝试为英汉主谓宾结构翻译寻找切实可行的规则。
面对实现全自动翻译所带来的挑战, 在过去的几十年,专家学者对英汉机器翻译进行了大量的理论与实证探讨,获得了丰富的研究成果。比如王祁、邹冰[3]归纳总结出机器译文中存在词义选择、层次切分和特殊句型处理的若干问题,就译文质量的提高给出了解决策略。马建军通过对 SYSTRAN 和 GOOGLE 两个机译系统90句商务英语英汉翻译译文的比较分析, 从词义歧义和句法歧义两方面, 研究基于规则(RBMT)和基于统计(SMT)两种机器翻译方法消歧处理的优与劣[4]。李梅、朱锡明根据具有规律性且出现频率高的机译典型性错误,对机器译文做二次加工,即做译后编辑的自动化处理以过滤这些典型性错误,从而加快机译速度并提高机译质量[5]。王祁等人的这些研究主要围绕英汉机器翻译的翻译方法,消歧处理和机器译文译后编辑来进行,属于宏观的研究范畴,缺少对机器翻译适用的语法规则进行细化和总结,有一定的局限性。此外,杨南提出通过基于神经网络的预调序模型,提高机器翻译质量[6]。这种方法不考虑语言的语义、语法因素,单纯用数学的方法来处理语言问题,也存在很大的局限性。
由此可见,机器翻译的完善和发展,取决于人机对语言基本结构的认识, 首要就是完善英语语言的语法分析。从目前研究情况来看,大多数语言学者主要集中在分析某种受限语言或某一词类、词组的英汉机器翻译,而关于英语基本句式结构的英汉机器翻译问题研究较少。例如,罗季美、李梅以汽车技术文献翻译语料库作为受限语言研究对象,在这一限定范围内展开了对英语源语及其机器译文和人工译文的对比研究[7-8];李侠提出在动词语义模式上运用以语义、句式及变量为基础的方法对动词进行英汉翻译[9];黄淑美以乔姆斯基的“核心语法”和Goldberg的“构式语法”作为出发点,探讨动宾结构的汉英机器翻译表现[10]。主谓宾结构是句子的核心部分, 是句子的主干, 在日常生活说话交流中的使用频率也越来越高。国内外学者在对英语的口语和书面语言做篇章分析研究后发现,书面语言中主谓宾结构占80%, 口语中则占90%以上。因此,基于英语最基本句式结构主谓宾语句的英汉机器翻译研究是十分必要和迫切的。词汇是构成主谓宾句子的基本单位,而英语和汉语主谓宾句子的内部词汇构成千差万别,词汇语义的相通才使得英汉互译成为可能。在机器翻译实际操作过程中,由于机器不具有人工译者对译文词汇进行分析斟酌、搭配和润色的能力,因此一些英语源语言词汇被错误翻译,直接导致产生许多荒唐可笑的译文。因此,本论文着重研究主谓宾结构中英汉机器翻译的词汇错误类型,旨在于机器翻译系统原有的基础上对英语主谓宾语句这一基本句式结构范畴内的机器翻译质量提供语言分析基础。
二、主谓宾结构机器译文词汇错译的语料收集和研究过程
为了系统地对主谓宾结构的英汉机器翻译进行分析,首先有必要对主谓宾结构的类型进行分类界定。由于英语主谓宾结构从句型上看,它的基本骨架就是主语和一个及物动词,其后带上宾语,其他任何数量的修饰语在意思上很重要,但在语法上是可以删除的。因此,本研究基于《英语语法大全》一书中对英语主谓宾结构作出的较其他词典更全面的分析[11],把主谓宾句型定义为:任何可以简化为“主语+及物动词+宾语”(SVO),同时可包含不同类型修饰语的句子,从而极大地方便了这次实验。《英语语法大全》中主谓宾句型列举如表1所示, 其中斜体部分为修饰语。
表1 英语基本主谓宾句型示例
本研究选取各大权威新闻网站上的英文新闻为原始语料。新闻英语表述准确、语言精炼清晰,词汇属性多变,且文中有大量的主谓宾结构,因此可以为本研究提供丰富的语料。这些网站收录的英文原版新闻报道涉及时政、国际、商业、科技、财政、文化、旅游、观点等8个栏目。因为这项研究关注错误的一般情况,而不是某一种特定的情况,目标英语新闻语料应该覆盖所有栏目,所以笔者从这8种栏目当中,选取了2018年6月至2018年12月的50篇英语新闻,所选英文语料与其他语料相比,准确可靠,规范性、可信度强。其次,参照主谓宾句型结构的分类,把语料当中所有的主谓宾结构进行标注,共收集到1 187项。再把标注好的1 187项主谓宾句子分别输入在线翻译系统进行英汉机器翻译。本文采用谷歌翻译系统为主要工具对主谓宾结构的英汉翻译进行测试,有需要时也会与必应翻译、有道翻译的结果作参考比对。为了确保本研究的错误分类合适,笔者在对所有翻译输出进行综合研究之前,先进行了200句的初步抽样对比研究。为了确保人工译文的质量,本次研究的人工译文均来自河南科技大学专业翻译人员。在机器译文和人工译文对比过程中,以个人的英语水平和素养作为监督,首先对出现的机器翻译错误根据词汇、 句法、 其他错误进行一级错误类型归类;在一级错误类型中,再根据具体的错误特点进行二级错误类型归类和统计[2]16。具体结果如表2所示。
表2 主谓宾结构机器译文错误类型
然后,对1187项英语原始语料、机器译文和人工译文进行全面地平行对比,对机器译文中出现的各种误译根据以上错误类型加以标注和统计,并计算出不同类型机器误译的发生频率。其中对一个主谓宾句子中多次出现的同一类型翻译错误进行一次标注和统计,对同一句子中出现的不同类型错误分别加以标注和统计,结果如图1和图2所示。需要指出的是,错误译文是指机器译文中包含至少表2所列举错误类型中的一种错误; 三种一级错误的错误率为出现该类型错误的机器译文总句数 / 机器错误译文总句数×100%。
图1 机器译文错误率
图2 机器译文三种类型错误率
如图1所示,在1 187项主谓宾结构的英译汉机器译文中,错误译文占全部机器译文的79.13%,其中三种一级错误类型的错误率从高到低依次为: 句法错误,词汇错误和其他错误。由于词汇是构成主谓宾结构的最基本成分,词汇翻译的准确性是评价机器译文质量的关键要素,再者,对句法错误的研究笔者将会在另一篇论文中详细论述。因此,本研究重点对主谓宾结构机器译文中词汇错译的二级错误类型逐一进行标注和统计,结果如图3所示。
图3 主谓宾结构词汇错译类型及错误率
从图3显示的数据可以看出,在词汇错译类型中,词义错译的发生率最高,达到 41.60%。这是因为新闻英语中包含有大量时髦新颖的新词和旧词新意词,扩展和引申了原词的词义,而机器翻译最基本的原则就是按照词序逐句逐字翻译,不能像人工译者那样通过分析词汇使用的语境来判断词义,就容易造成这类错误。所有词汇错译类型中复合词的错译率最低,为2.20%。
三、主谓宾结构机器译文词汇错译的实例分析
本研究将根据主谓宾结构机器译文词汇错误的分类,结合图3的统计数据,对各类典型的机器译文词汇错误实例加以分析和说明。在以下所举实例中,A句为机器译文,B句为人工译文,对比部分以下划线标注以示区分。为了有针对性地对比分析译文,每一实例只用于说明此类型下的单一译文错误。
(一)主谓宾结构中的词义错译
新闻英语的词汇具有鲜明的时代性和社会性。随着时代发展的需要[12],大量现有旧词的内涵和外延被赋予新的意义, 成为一词多义词。一词多义是指同一词性具有多个义项的一般内容词。多义词的某一具体语义取决于语境[13]。而机器翻译的缺点在于缺乏结合上下文本选择适合词义的能力,因此主谓宾结构中的词义误译是英汉机器翻译中的一个主要错误类型,偏重在名词、动词的误译,而名词和动词是构成主谓宾结构最重要的形式。如下实例:
例1. China’s signature high-end spirit maker, has reported booming profit growth in 2018.
A. 中国标志性的高端精神制造商,2018年的利润增长势头强劲。
B. 作为中国标志性的高端烈酒生产商,该公司报告称,2018年利润增长迅速。
例2. Tongren will certify the tube, establish the project and make regulations for the new technology.
A. 铜仁将认证管道,建立项目并制定新技术法规。
B. 铜仁将认证地铁隧道的可行性,建立项目并制定新技术法规。
在例1、例2中,“spirit maker”和“tube”分别做主谓宾结构的主语和宾语,机器译文错误地选取了“spirit maker”和“tube”这两个单词的最高频词义“精神制造商”和“管道”,使译文不能准确体现英文原句的主题内容,而人工译者能够结合上下文,准确判断出这两个单词在具体语境下的引申意义,使译文可读性更强。因此,今后设计的机器翻译软件,需根据词汇自身的复杂递归结构和长距离依存关系,对词汇的歧义现象进行消除,以输出高质量的翻译结果。再者,完善机器翻译系统依赖的双语词典,使词典不仅提供释义功能,了解所指对象,并且还要提供注解、加注词类和附加含义标签等,以避免错解,实现词汇的等值释义。
(二)主谓宾结构中的词性错译
英汉两种语言中存在着许多词形相同但词性不同的词。在英汉翻译过程中,需要根据词汇在句中所充当的成分来判断其词性,这对于人工译者是比较容易理解和处理的,但对于机器翻译始终是一大难题。对比发现,主谓宾结构中词性错译主要包括名词与动词的混淆、形容词与动词的混淆。如例3中的“collapse”和例4中的“ensued”。
例3. A crater collapse on the volcanic island at high tide on Saturday sent waves up to 5 meters high.
A. 星期六涨潮时,火山岛上的火山口坍塌了,波浪高达5米。
B. 周六,在涨潮时, 火山岛上火山口的崩塌,激起高达5米的海浪。
“collapse”作为一个单词,具有动词和名词两种词性。在这个句子中,人工译者通过分析不难得出此句的主语是“a crater collapse”,即“collapse”是名词做主语, 此句的逻辑语义为“A crater collapse sent waves up to 5 meters high.” 对比人工译文,机器译文把“collapse”错误地处理成动词作谓语,导致把原单一的主谓宾结构变成两个并列的主谓宾结构,造成语义模糊,显然不符合原句的逻辑语义。
例4. The years ensued witnessed China’s outbound investment and closer economic integration with not only Western nations, but also countries across the developing world.
A. 几年跟着发生见证了中国的对外投资以及与西方国家以及发展中国家的国家更紧密的经济一体化。
B. 随后的几年见证了中国对外投资大幅增长,中国不仅与西方国家,而且与发展中国家的经济一体化更加紧密。
英语中,大多数动词的分词形式可以置于主语之后作主语的说明性定语,其等同于形容词。正如例4所示,人工译者能够识别出“ensued”正是动词“ensue”的过去分词,作用是形容词做后置定语修饰说明主语“the year”。而机器译文仅基于词汇的形态机械地处理成时态为过去式的动词,显然构成误译。由此可见,为了避免词性混淆引起的误译,应进一步完善机器翻译系统对词汇间句法关系分析的能力,提高句法分析技术的鲁棒性。
(三)主谓宾结构中的专有名词误译
专有名词是指个人、国家、地方、机构、组织等特有的名词。新闻报道覆盖面广,内容包含政治、经济、文化、体育、娱乐等方面,因此,新闻文本中经常涉及不同领域的专有名词。在对比译文中,主谓宾结构中的专有名词误译主要有两种情形:机器译文保留专有名词的原形式和专有名词的不恰当翻译。如例5、例6:
例5. Hyperloop Transportation Technologies Inc, signed a deal on Thursday with State-owned Tongren Transport, Tourism and Investment Group, to build a superfast track in Tongren, Guizhou province.
A. Hyperloop Transportation Technologies Inc周四与国有铜仁交通,旅游和投资集团签署协议,在贵州省铜仁市建立一条超高速铁路。
B. 超级铁路运输技术公司周四与国有铜仁交通、旅游和投资集团签署了一项协议, 拟在贵州省铜仁市建设一条超高速铁路。
此例中,“Inc”是“incorporation”的英文缩写词,在新闻报道中常跟在表示名称的词之后,意思是“某某某公司”。 相比A句机器译文对“Hyperloop Transportation Technologies Inc”原形式的保留不译,B句人工译文将其准确地译为“超级铁路运输技术公司”,使句子语义一目了然,更容易理解。
例6. Moutai’s rivals saw their shares fall in Wednesday’s trading.
A.在周三的交易中,穆泰的竞争对手股价下跌。
B.茅台竞争对手的股价在周三的交易中下跌。
例6中,“Moutai”是中国著名的白酒品牌,人工译者很容易识别,但机器错误地译为“穆泰”,表现出机器翻译对专有名词处理的随意性,同时造成所传达的信息失真,使读者的理解与原句大相径庭。
在对比人工译文时,笔者还发现有些错译句子中同时体现了专有名词误译的两种情况。
例7. Two-time Super Bowl MVP Eli Manning is heading into an offseason.
A.两届超级碗MPV艾利·曼宁即将进入休赛期。
B. 两届美国橄榄球超级杯大赛最有价值球员艾利·曼宁即将进入休赛期。
例7中主谓宾结构的主语部分包含两个并列的专有名词。一方面,机器译文保留了主语结构中“MPV”的原始形式;另一方面,又把“Super Bowl”不恰当地直译为“超级碗”,对比人工译文“美国橄榄球超级杯大赛最有价值球员”,A句的译文句子主语语义不明确,违背了新闻语言通俗易懂,内容准确的要求。
(四)主谓宾结构中的术语误译
术语指的是用来正确标记生产技术、科学、艺术、社会生活等各个专门领域中的事物、现象、特性、关系和过程的词汇。它是对某一特定领域中具有代表性的事物、现象和特征的专业而有限的表达。由于新闻报道内容丰富,信息涉及技术、科学、艺术、社会等多个领域,因此,新闻英语中含有很多的术语。在对比分析译文的过程中,可以看出机器翻译在术语处理问题上表现不佳,再者术语的错误翻译会给读者带来很多不便,有时甚至会导致新闻报道严重失真。如例8、例9中 “backdoor”和“blocker”的处理。
例8. Huawei has not and will never plant backdoors.
A. 华为没有也永远不会建立后门。
B. 华为现在没有、将来也永远不会制造后门程序。
例9. Its multi-site approach appears to be a step up from other blockers.
A. 它的多站点方法似乎是与其他拦路虎相比的一个进步。
B. 它的多站点方法似乎比其他屏蔽插件更先进。
例8、例9中,机器将“backdoor”和“blocker”译为“后门”和“拦路虎”,对比人工译文可以看到机器将计算机领域的专用术语误译为日常用语。显而易见,机器对术语处理的随意性必然造成信息失真,从而给读者带来阅读障碍。
在对专有名词和术语误译实例的归纳分析中,我们发现专有名词和术语语义相对凝固,在汉语中能找到同意义的熟语来对齐,属惯用语,可建立英汉双语惯用语语料库和词典,属于核心语法规则,对译性强,因此可以采用最简单的对译方法来进行翻译处理。
(五)主谓宾结构中的词汇漏译
词汇漏译,顾名思义就是机器没有翻译一些应该翻译的词。在对比译文中发现,主谓宾结构机器翻译发生的词汇漏译,如例10、例11所示, 机器译文直接将主谓宾结构中的词省略不译。
例10: Commuters, strapped for time, often grab breakfast on-the-go at food outlets near subway and bus stations.
A. 时间紧迫的通勤者经常在地铁和公交车站附近的食品店吃早餐。
B. 赶时间的通勤族经常在地铁站和公交站附近的餐馆随便买点可以边走边吃的早餐。
在以上例子中,译文对比发现机器在翻译时省略了原文中存在的复合词 “on-the-go”,使译句A与原句表示的意义不相符。而人工译者通过分析前面动词短语“strap for time” 和动词“grab”所反映出的语义,将修饰谓语动词作副词的 “on-the-go”译为“可以边走边吃”的形容词修饰“早餐”,既保持了原句语义的完整性,又保证了译文的真实性。
例11. His business expansion efforts on the Chinese mainland sparked the accusation.
A. 他在中国大陆的业务扩张引发了外界的指责。
B. 他在中国大陆扩展业务所作的努力引发了这一指控。
此例中机器将主谓宾结构中的主语中心词“efforts”直接跳过不译,A句的译文显然不能完整表达原句的意思,造成语义缺失,影响译文的可理解性。相比之下,人工译文汉语句义完整,清晰明了。
(六)主谓宾结构中的复合词误译
复合词是一种构词法,是一个以上的词的组合,但复合词通常有它自己特定的新的意义,而不是每个组合成分意义的简单叠加。由于复合词的灵活性和多样性,语料库中不可能包含无限个复合词。因此,机器在翻译过程中会简单地将复合词的构成成分逐一进行语义转换。本研究中复合词的误译率最低,主要集中在形容词性复合词误译,体现了机器对英语形式翻译的机械性和随意性。如例12中的“up-loss”。
例12. “Opportunity” likely experienced a low-power fault, a mission clock fault and an up-loss timer fault.
A. “机会”可能经历了低功率故障、任务时钟故障和上行丢失定时器故障。
B. “机会”可能经历了低功耗故障、任务时钟故障和高损耗计时器故障。
此例中,“up-loss”是连字符式的复合词,机器将其译为“上行丢失”,对比人工译文可以看到机器显然只是错误地把复合词两个构词成分的语义简单相加,使整个译文不知所云,给读者造成误解。相反地,人工译者将其翻译成“高损耗”,符合新闻报道严谨和正式的语言特点。由此可见,新闻英语中大部分复合词是不能以类推或意义相加等手段来分析的语法组合,属于整体意义不能通过成分意义简单推知的构式结构,无法以对译或转换规则的方法来正确翻译,属于次核心语法规则。因此,建立和完善英汉复合词双语语料库和词典有助于提高机器翻译的输出质量。
四、结语
本文通过分析主谓宾结构英译汉机器翻译存在的词汇错误,将一些规律性的错误进行汇总、科学总结,用以指导翻译实践,从而提高机器翻译的准确性和译文的可读性。研究发现,主谓宾结构英译汉机器翻译的词汇错译类型分布不均匀,其中,词义错译的发生率最高,达到41.60%;其他错误类型及其发生率从高到低依次为词性错译20.80%,专有名词误译13.10%,术语误译12%,词汇漏译10.30%,复合词误译2.20%。究其原因,这是由于新闻英语中包含有大量时髦新颖的新词和旧词新意词,扩展和引申了原词的词义。因此,在后续的机器翻译软件设计中应充分考虑建立新的语法规则和更完善的语义词典,本文对此进行了初步探索,为主谓宾结构的英汉机器翻译提供了一定的理论指导和语料库支撑。
当然,机器翻译是一项复杂且工作量大的研究,希望本文能为主谓宾结构的英汉机器翻译提供可靠依据。本研究只选取了50篇新闻英语文本,今后, 语料的数量和范围可进一步扩大,使研究结果更具科学性,以期所得结论有助于提升机器翻译的精准度。