浅析机器翻译英译汉中的被动态错误
2018-10-20匡可风
匡可风
摘 要: 本文从“汽车技术文献翻译语料库”中随机抽取2510句,通过机器译文和人工译文进行平行对比研究,对机器译文中出现的各类句法和词汇错误进行分类标注与统计。研究发现,被动态类在机器翻译中几乎无一成功,英译汉别扭趋异。本文旨在从句法学的角度分析被动态句型翻译失败的原因,找寻较为合适的翻译方式。
关键词: 机器翻译 被动态 句法学 错误分析
一、引言
从句法学理论的角度分析英译汉机器翻译的错误问题,有利于清晰地整合统计错误类型,便于程序设计的进一步完善。然而,汉语在句法学理论中一直是一个特殊存在。英语是形合的语言,句法将一个个短语成分,如NP、VP等衔接在一起,形成完整严密的逻辑意群;汉语是意合的语言,所谓“形散而意不散”,句子短语成分较为离散,这一差异在被动语态中尤为明显。因此,本文旨在分析被动态句型在英译汉机器翻译中失败的原因,寻找错译的规律及可能的解决方法。
二、机器翻译背景简概
人工智能时代催生了一个重要的时代课题——机器翻译。它是实现全球无障碍交际的重要技术手段。机器翻译又称自动化翻译,是应用语言学中的一门新兴的实验性学科,研究如何利用计算机按一定程序自动进行自然语言间的翻译问题。由于机器翻译是将提供的源语形式化和代码化,进行程序设计并输出目标语,其适用翻译范围客观性较强,一般适用于如法律行政文件、科技说明、宣传手册及科普文献等,情感色彩浓厚的文学修辞类作品不适用于机器翻译。
“十五”期间,中国科学院计算机研究所对我国现有的机器翻译系统进行了测评,结合机器翻译系统对诗歌、散文和受限语言等不同体裁风格的文本翻译,在对译文进行具体分析对比和综合评价的基础上,确定了英汉机器翻译在受限语言处理中取得了最高的5级适用级别和85%以上的可翻译度(张政,2006:131-162)。机器翻译对外推广已经产生了巨大的经济和社会效益。然而,目前机器翻译系统在翻译质量上无法满足客户的需求是机器翻译无法真正实现市场化最大的障碍(罗季美,李梅,2012:84)。基于此问题,更多语言学领域的学者对机器翻译的完善与提高进行了深入的探究。本文将在已有英汉被动态差异研究的基础上,简析2510句机器译文中的被动语态错译,以图找寻错译的规律及解决方法。
三、语料库错译研究内容
1.研究对象
基于对机器翻译适用范畴的研究成果,本文以同济大学汽车学院的“汽车技术文献翻译语料库”中某一知名品牌汽车操作手册为研究对象,对十万句机器译文和人工译文展开了平行对比研究。语料中的机器译文由“华建机器翻译系统”(中国科学院计算机语言信息工程研究中心研发)生成获取,人工译文来源于该学院资料翻译研究所专业技术人员。
2.错译数据统计
根据研究人员从句法学的角度设立了词汇类、句法类和其他类三大错误类型,其中词汇类错误有词汇术语、词汇词性、词汇赘译和词汇漏译;句法类错误包括句法词序、句法分词、句法名词短语、句法动词短语、句法介词短语、句法被动态、句法不定式及句法分词;其他类错误则是一些符号类的细枝末节问题。基于随机抽取的2510句样本,进行人工译文和机器译文的平行对比研究,发现以上三大错误类型,在样本中总计3318处。其中句法类错误中,句法词序错误399处,占12%;句法被动态错误124处,占3.7%;句法名词短语错误8处,占0.2%;句法动词短语错误45处,占1.4%;句法介词短语错误118处,占3.6%;句法不定式错误13处,占0.4%;句法分词错误24处,占0.7%。
由此可见,句法词序错误发生几率最频繁,达到399处,占所有錯误率的12%。句法词序错误成因较为复杂,与句法动词短语、句法分词等错误交叉成因,无法单独分析。错误率排名第二的被动态将是本文分析的核心。
四、被动态错误实例分析
1.句法学中被动态构造
根据格理论的实质——格检验式(case filter),句中的每一个名词短语都必须得到抽象格(Haegeman,1994:181)。被动态的主要结构是“be done”,其活动的施动者(agent)在被动态中需有介词“by”引导,一般放在句尾。在主动态转为被动态的过程中,动词曲折变化受到影响,动词外在论元角色(external theta role)和结构格被吸纳,转化为分词的动词内在论元角色移动到它能被任格的句首。根据格检验式理论,被赋格内在论元角色的名词短语从宾语移动主语的位置是必需的,因为主语位置在被动化中出现了空缺。
一般来说,被动态强调受动者(patient),介词“by”引导的施动者在许多语言中往往不予表达。然而,在汉语中却是例外,王力先生在《中国语法理论》里说:“中国正常的被动式是必须把主事者说出的。”这就导致了英译汉过程中的一大别扭,“被”字究竟该不该省译,若不能省译,则“被”字要如何转换才能成为最地道的汉语表达?下面一节将通过人工译文与机器译文的对比,指出被动态翻译错误,分析英文被动态应该如何顺利过渡为汉语被动态。
2.被动态构造实例
通过对机器翻译被动句进行详细剖析,发现样本中被动句一般分为两种,一是独立VP,即为“be done”,二是VP后出现介词“by”跟随的施动者,或其他介词短语,即为“VP+PP”,两种类型翻译大相径庭。首先请看“be done”实例。
例1:
例1,与句法被动态相关的是“is not required”,只是单一的“论元+谓词结构”,谓词中携带的内在论元角色在被动转换中填补了主语位置的空缺,可看到机器翻译是逐字对译,人工翻译将被动语序还原成主动语序,将受试者后移,避免了“被”字的别扭使用,同时省略主语——操纵员。特殊的一点是例1中被动语态前的名词短语在人工翻译中动词化,还原成主动态后是“谓词结构+VP”,这是机器翻译的一大障碍,英文习惯使用静态的名词短语,汉语趋向动态的动词短语。
例2:
例3:
例2与句法被动态相关的是“is not completed”,例3为“is centered”,这两句也是单一的“论元+谓词结构”,句法形成原理与上面一样,但是人工翻译中,被动语序并未还原成主动态,把受试者后移。例2中,关键因素就在VP “complete”。“步骤完成”和“完成步骤”在汉语中均为正确表达,即“V+NP”与“NP+V”语法上均正确,类似的还有“达成协议=协议达成”、“吃饭了=饭吃了”,然而像“得出结论”就不能替换成“NP+V”,这类汉语搭配也是句法学特殊的现象,在机器翻译中应单独被挑出,机器翻译时只需去掉“被”字即可。例3中的“be centered”方向性、地点性动词更特殊,翻译成汉语只能是“NP+V”,即使加上主语,“the steering is centered by the operator”,也只能译为”操纵员使方向盘位于正中”,“方向盘”依旧是“正中的逻辑主语,这也是机器翻译程序设计中需要特殊标记的。
例4:
例5:
第二大类型即为“VP+PP”,例4的介词短语“in the HEIGHT SET screen”不是谓词的施动者,是状语成分,在机器翻译中只需注意该类状语在汉语中习惯的摆放位置。一般来讲,状语在句中修饰谓词,那么在译成汉语的位置应变为“PP+谓词+内在论元”,还原成省略主语的主动态,“被”字删除。
例5为“by”引导的介词短语,在机器翻译程序设计中应进行特殊标注。“by”后面的NP是整个句子的逻辑主语,是主动态谓词的外在论元角色,然而,此结论建立的前提是“by”后的施动者为有生命体。在机器翻译中,需划分“by”后面的施动者是否有生命性。倘若施动者是有生命体,翻译语序可直接调整为“‘by后生命体+謂词+内在论元”,即“NP1+VP+by+NP2”转换为“NP2+VP+NP1”,省略“by”。若该施动者是无生命体,除非是文学修辞中的拟人手法,否则外在论元提升为谓词主语,不符合汉语表达习惯,如例5的机器翻译就犯了此类错误。“Active Test”是无生命体,是谓词“switch”表现的方式,对于这一系列句子,翻译时可以添加“by”的原始意义“通过”,即顺序调整由“NP1+VP+by+NP2”转变为“通过+NP2+VP+NP1”,那么机器输出的译文“通过主动测试切换前内脚灯状态”,即视为正确译本。此外,我们也不容忽视by的一些特殊用法,如“by bike”、“by air|”、“by the end of the year”,这些固定搭配应如专业术语一般提前录入程序,在翻译排序中列于最前面。
五、 结语
在对“汽车技术文献翻译语料库”进行样本抽查和平行研究后发现,机器翻译前景较为可观,华建机器翻译系统已经具备了一定的英汉互译能力,一些英译汉文字虽较为不自然,但仍具有可读性。然而,机器翻译在处理长难句时,依旧面临不知道如何划分意群、调整词序等障碍,无法清晰认识句子的整体结构。因此,要想让机器翻译更完善,语言学家需要不断分析英汉两种文字在句法构造上的差异,除特殊的专业术语需要严格统计、一一对应外,还要进行大规模地分类汉语中不符合英语句法学规则的系列短语。此外,在面临诸如被动态系列问题处理时,计算机可根据源语句法构成进行严格的划分排序,如单一的“论元+谓词”,则计算机采取将谓词提前的方式翻译,这样便可提高系列翻译句型的准确性。
参考文献:
[1]刘群.机器翻译研究新进展[J].当代语言学,2009(2):147-158.
[2]罗季美,李梅.机器翻译译文错误分析[J].中国翻译,2012(5):84-89.
[3]熊德意,刘群,刘守勋.基于句法的统计机器翻译综述[J].中文信息学报,2008(3):28-39.
[4]朱跃.英汉机器翻译现状与可信赖机器翻译[J].天津外国语学院学报,2003(7):14-18.
[5]张政.计算机翻译研究[M].北京:清华大学出版社,2006.