《机器翻译》评介
2018-11-28吴玲兰
吴玲兰
(中南林业科技大学,湖南长沙)
1.引言
翻译是一门艺术,更是一门科学。近些年来,翻译技术和自然语言处理技术的快速发展,机器翻译(Machine Translation)再次成为翻译科学中的研究重点,在理论和实践上都有所突破和发展,进而发展成一门技术。
Pushpak Bhattacharrya教授现为印度大学计算机科学和工程系主任,他的《机器翻译》(Machine Translation)(Bhattacharyya,2015)由著名的Taylor&Francis Group出版社2015年出版。该书集作者十余年机器翻译的教学与实践经验,全面归纳和探讨MT原理、语言歧义消除、匹配模型数理以及评估模型等基础理论,结合印地语、马拉地语等机译实例,阐释基于短语、基于规则和基于实例的三种机器翻译模型,并进一步提出了MT中面临的可能挑战和难题。该书有利于广大学者和翻译专业学生深入了解MT的基础理论,以及机器翻译面临的难题,指明机器翻译未来的研究方向。本文先介绍全书的主要内容,后作一简评。
2.主要内容
2.1 基础理论(第1章——第3章)
MT是靠数据驱动将一种自然语言生成另一种自然语言的计算机系统(张政,2006:11),数据能推翻假设,也能限制翻译能力和效率,还能最大限度地阐释翻译概率。作者运用沃古瓦三角(Vauquois triangle/pyramid)理论,分析和阐述MT双语翻译的“分析—转换—生成”过程,以及该过程所包括词汇翻译、翻译匹配、词汇繁衍管理以及短语匹配管理等技术理论。词汇翻译和翻译匹配是循环过程,即在给定的平行语料中,任意词汇都能被匹配和翻译。当缺乏平行句对和词汇翻译时,计算机采用期望最大化理论(Expectation Maximun,EM)的迭代运算法降低平均熵,计算出翻译概率。EM理论通过假设赋值、计算匹配概率、建立数学表达式和似然表达式、预测参数和隐藏参数的迭代等步骤,计算期望值在概率矩阵中的最佳概率值,结合翻译模型中的利益参数,得出新的匹配概率,并更新期望值。双语映射概率通过EM公式得到改善,满足了机器翻译的存储容量和时间要求。
MT的本质问题是语言问题,需要依靠语言知识的运用来解决。语言结构和机器翻译软件间的工具性差异导致MT过程中的上升转换(ascending transfer)和下降转换(descending transfer)的不对称。MT输入过程的语言问题涉及形态学分析、词性标记、名词和动词语块的辨别、语义分析、篇章回指和语用学等。信息层面的形态句法比字形更丰富,组合层次比形态句法更丰富。词汇匹配是机器翻译研究的基础,检验机器在词汇层面的翻译。词汇匹配是指将映射出的词汇在目标语中找到相对应的位置,包括一一位置保留匹配、一一无位置保留匹配、一对多、多对一以及零匹配等种类,任何匹配都必须有两个翻译句对(translation pair),一个句子引入映射,另一个句子筛选出多个映射中的一个,以确定匹配精准度。
匹配精准度受语言间差异的影响,尤其是语言歧义。作者通过对印度语和英语的实例分析,提出MT中的语言歧义包括句法歧义(顺序歧义、附属歧义、零主语歧义等等)和词汇歧义(合并歧义、类别歧义、语境词汇歧义等等)。句法结构上的歧义可通过翻译法则处理,并存储在计算机中(即基于规则的机器翻译,RBMT)。词汇语义上的歧义则通过机器学习处理(基于短语的机器翻译,PBMT)。语言歧义的处理好坏直接影响翻译质量,是MT质量评估的重要参照因素,MT的质量评估直接反映MT的实用价值。传统的人工评估过于主观且速度慢,机器自动评估系统应运而生,主要检验句子层面的忠实性和流畅性,以及附加在文本层面的统一性、连贯性、意向性、可接受性、信息性、情景性和互文性等因素。自动评估系统主要评估N-元输出模式和参考译文之间的匹配,其关键在于参考译文和人工判断的关联性,参考译文数目越多,自动评估的可信度越高,与人工翻译的关联性越强,机器翻译的匹配模型则越好,译文质量随之提升。
影响翻译匹配模型的因素主要有词汇长度、词汇匹配以及词汇翻译等,这些因素间的相互作用决定了匹配结果。最初的匹配模型是IBM模型,由语言模型P(e)和翻译模型P(f|e)组成。IBM模型1中所有词汇映射都是一对一,匹配具有高度相似性。模型2中的匹配分配不均匀,需要考虑词汇位置、词汇出现频率、英语句子长度以及另一语言的句子长度等因素,用EM运算法则计算出句子间较准确的短语匹配概率。模型3主要研究翻译模型的繁衍率,每个词汇可能生成或匹配出多个词汇,但当缺少句法结构和上下文信息时,词汇匹配无法建构源语输入和译文输出之间的结构差异,译文则会失真(distortion)。在这三种模型中,模型1主要聚焦于翻译概率的模型化,简化了词汇匹配的限制,加快了词汇迭代速度,因而出现很多匹配错误。而IBM模型2用“绝对位置”的概率模型,与模型1相比,模型2的匹配更全面,但实际操作中很难实现匹配绝对化。IBM模式3中P(f|e)模型变得更复杂,仍无法解决译文失真,短语匹配有望解决这一问题。IBM模型的翻译方法极大地推动了翻译技术的发展,翻译质量也在不断的提高。
2.2 MT的三种模型 (第4章—第5章)
MT模型的建构基于匹配等基础理论之上。本书中作者着重探讨了机器翻译的三种基本模式:基于短语的机器翻译(Phrase-Based Machine Translation,PBMT)、基于规则的机器翻译(Rule-Based Machine Translation,RBMT)、基于实例的机器翻译(Example-Based Machine Translation,EBMT),以及这三种模式与翻译记忆(Translation Memory,TM)之间的关联。
(1)基于短语的机器翻译(PBMT)
机器翻译存在意义表达、不同数据选择、词汇组合、词汇调序、多义词以及词汇定位等跨语言差异,短语匹配的作用日益突显。PBMT中短语匹配模型中的短语不一定是语言学意义上的短语,而是文本中任意相邻的成分。平行语料是短语匹配的基础,主要的匹配方法有双向匹配法、对称法和抽取法等。短语匹配图表利用沃古瓦三角的分析——转换——生成过程推导出匹配句子成分——理解翻译单元——组合翻译单元的短语匹配过程,短语匹配的质量通过附加的翻译概率值和语言模型来衡量。作者沿用Koehn(2010)的数理知识计算短语匹配的概率值和语言模型参数,主要步骤有:理解基于短语的翻译,派生翻译模型,计算翻译概率和失真概率,给予不同模型参数(如n-元概率)、短语翻译概率和失真概率权值,输入λ值调整参数等。机器调整参数后,对训练好的模型进行解码,完成翻译任务。解码是生成翻译的重要步骤。如统计机器翻译(SMT)的解码器——摩西软件,它可预处理软件、训练语言模型、调整参数、实验数据解码以及评价标准等内容,译者可运用柱状搜索和栈式解码搜索到最有可能的翻译结果。
(2)基于规则的机器翻译(RBMT)
RBMT模式主要采纳基于中间语和基于转换的概念而建构。基于中间语的机器翻译旨在呈现独立于语言的普遍语义表征,要求在词汇意义、语义角色、言语活动和语篇等方面完全无歧义。中间语由通用词汇、语义关联和语义属性构成。由于颗粒度(granularity)不同,以及层次划分的概念空间、多义词的非组合性或搭配的固定性与其他语种自然词位搭配的不确定性,导致通用词的普遍存贮无法实现。因而词性标识、整体认知和词义消歧的分析直接上升到语义关联和语义属性的分析,以期探寻从英语到通用网络语言(Universal Networking Language,以下简称UNL)的转换系统和从UNL到印地语的生成系统,并探讨两个过程中的语义选择、形态组合和句法规划。作者用多语种的翻译实例展示了该过程的不同层次,有利于广大机器翻译研究者更深入地改进RBMT模式。
基于转换的RBMT中,相似语种间存在少量转换规则,不相似语种间需要大量实用性的转换规则,而转换语法规则和同步语法之间有一定关联,如马拉地语机器翻译成印地语的核心难题是词缀和后缀组合的处理。基于转换的规则源自人工分析,主要包括分析领域的关联和附属生成规则以及生成领域的形态综合和句法规划规则。
(3)基于实例的机器翻译(EBMT)
PBMT模型和RBMT模型都有各自的优劣,主要是翻译速度和质量都不够理想。一种新的模式适时而生—EBMT模式,它主要利用规则进行对齐匹配(alignment match),重组匹配翻译部分生成译文,该翻译模型具有易构性,译文质量相对较高。因其本质是建立翻译实例对之匹配,通过推理进行翻译。EBMT从庞大的平行语料库中搜索所有相似的实例进行匹配翻译。实例搜索主要有相似度计算和搜索算法。相似度计算方法主要有编辑距离、词袋算法、矢量相似性计算、术语频率矢量以及基于词汇和结构相似度的计算等。重组计算结果,使匹配翻译部分地适应新的翻译问题,但仍存在边界摩擦问题(the boundary friction problem),可利用句法规则解决边界摩擦(诸如妥协,虚词,形态等)问题,重组自然语言的生成(Natural Langugae Generation,简称NLG)机制。在实例和推理的平行语料库中,若缺乏占优势的相似文本和充足的平行语料时,两者会产生综合效应。
EBMT和翻译记忆(translation memory,TM)都是实例翻译的存贮,但TM是一种人机交互式的翻译过程,EBMT不是人机交互,而是分析——转换——生成的全自动翻译过程。此外,EBMT和SMT都是基于彼此的语料存贮,EBMT系统在分析阶段利用统计匹配探寻合适的匹配项,匹配模板不仅仅是句子,可能是分析树、语义图标等,而SMT的自身语料数据也不够,因此,混合机译系统有望解决这些问题。
3.简评
近些年来,机器翻译取得了令人鼓舞的成果,翻译已进入电子化时代。科技的疆域无限。如果需要成就了创作,那么科技造就了转机(陈善伟,2014∶332)。科学技术为翻译带来新的研究范式,语言服务行业的市场需求实现了机器翻译的应用价值。本书用模式化和经验化的方法阐释翻译现象,内容充实,具有很强的理论指导性和实践应用性。概括起来,本书的创新特色以及给机器翻译研究者带来的启示体现在以下个方面。
第一,宏微观结合,描写充分。作者站在宏观角度回顾早期的研究成果,系统地分析现有评估理论,明确评估参数和标准,提出自动评估体系的几大标准,为机器翻译质量评估研究提供了重要的理论依据。微观层面上,作者借鉴著名的沃古瓦三角理论和图表勾勒出词汇以及短语匹配的全过程,提出主要的匹配方式以及需满足的条件等。匹配是机器翻译的基本原理,匹配产出的译文质量是机器翻译研究者关注的焦点。作者对相关概念的界定有利于国内学者进一步厘清机器翻译的概念内涵以及与翻译技术之间的关系,宏微观相结合的研究方式有利于国内机器翻译理论的建构。
第二,覆盖面广,内容新颖。不同语种间的语言结构差异是机器翻译面临的巨大挑战,本书作者利用丰富的教学经验,结合具体实例阐释机器翻译系统中的核心语言问题、基础概念以及三种翻译模型,并对每种翻译模型做出评论,有利于理解机器翻译的核心技术,也有利于解决机器翻译面临的一些难题。各种翻译模型利弊的分析促进了机器翻译障碍的突破,如词缀给机器翻译带来的难题,足够引起研究者们运用语言学和科学技术等知识理论探寻新的解决路径。本书还从机器的存贮和时间要求等方面阐释机器翻译面临的困境,拓展机器翻译研究的新视野。虽然,目前机器翻译研究处于发展阶段,其翻译质量还有待提高,研究者们可积极吸收和借鉴国内外机器翻译的最新研究成果和研究思路,深入展开国内机器翻译研究,如译后编辑、技术写作、人才培养等都是值得深入探讨的课题。此外,每章末提供的阅读资料能拓展机器翻译研究者的思维和视野。
第三,跨科研究,实用性强。机器翻译研究涉及语言学、自然语言工程、计算机技术、统计学、社会学等多个学科领域,旨在揭示机器、翻译、技术、社会、语言之间的复杂交互关系,本书融合多个学科领域展开研究,有利于人们进一步认识机器翻译的本质,理解机器翻译的内涵和实用价值,更好地服务语言市场,实现产学研一体化。相对技术性章节而言,第二、三、四章提供了大量研究型问题和程序操作练习,如EM公式的推算、短语匹配概率值的计算和语言模型参数的推导等,切实达到理论指导实践,凸显本书的系统性和科学性。
第四,理论扩展,策略发展。宏微观结合、跨学科的研究方法有助于国内机器翻译研究超越单一的理论视角,形成独特的多模态研究模式,扩展了机器翻译的研究范畴。机器翻译研究的系统建构和持续发展需要方法论和核心技术(及其模型)层面上的创新(如统计或神经机器翻译模型),而创新的“物质基础”是大数据语料库的建构。然而,与世界一流的互联网公司(如Google)相比,高校研究单位在“模型、大数据、计算能力”等方面都处于劣势。机器翻译研究视野将扩充到自然语言处理,由于自然语言研究始于机器翻译,机器翻译乃自然语言处理的核心成分之一,自然语言处理的发展历程与机器翻译基本一致(冯志伟,2011),两者相辅相成。机器翻译在自然语言处理中的具体发展策略应视情况而定,如“一带一路”所涉及的语言几乎都属于所谓的“资源贫乏语言”(孙茂松周建设,2016)。研究者对这些语言知之甚少,通常仅能搜集小规模双语语料库,而且大多是黏着语,需要对其进行词法分析,这种情况无法采用经典的神经机器翻译模型。将来我们是否可以在在只有一个常用双语词典、小规模双语语料库、较大规模单语语料库以及于无监督词法分析(甚至不做词法分析)的条件下,设计一个有效的神经机器翻译模型(孙茂松周建设,2016)。这是机器翻译研究者面临的新课题,值得深入探讨,也有利于为“一带一路”沿线国家更好地提供语言服务,加速中国文化“走出去”,推进中国企业跨境出海的进程。
瑕不掩瑜,本书还存在值得我们思考的地方,本书虽然列举了很多参考书目,但很少引用书目中的相关背景知识,如Gupta和Chatterjee(2003)、Sinha&Thakur(2005)以及Goyal&Sinha(2009)中语言歧义的例子。其次,本书对相关软件的关注度不够,如Lopez(2013)已基于研究生水平设计的有关MT体系的难题。总之,本书融学术性、知识性、实用性为一体,为机器翻译教学和研究提供了系统性的思考和导向性的建议,对建构机器翻译理论具有重要的参考价值和启示意义。