APP下载

基于规则和统计的机器翻译方法歧义问题比较分析

2010-09-05马建军

关键词:消歧多义词歧义

马建军

(大连理工大学外国语学院,辽宁大连116024)

基于规则和统计的机器翻译方法歧义问题比较分析

马建军

(大连理工大学外国语学院,辽宁大连116024)

文章通过对SYSTRAN和GOOGL E两个机译系统90句商务英语英汉翻译译文的比较分析,从词义歧义和句法歧义两方面,研究基于规则(RBMT)和基于统计(SMT)两种机器翻译方法的消歧处理的优与劣。研究表明,基于统计方法词义消歧强于基于规则方法,而句法消除歧义能力相当。词义歧义问题主要集中在动词多义词和名词多义词,而句法歧义问题则集中在定语、状语和从句。动词与介词搭配,名词与介词搭配作定语和状语,以及具有商务内涵的动词和名词,成为机器翻译的难点。

机器翻译;词义歧义;句法歧义;RBMT;SMT

一、引 言

基于规则机器翻译(RBMT)和基于统计机器翻译(SMT)是机器翻译的两个主要方法。这两种方法截然不同,其主要区别在于是否需要语言知识库。基于规则机器翻译主要依赖人工提取的规则所建立的各类语言知识库,包括词法、句法、语义及与语言知识有关的世界知识;基于统计机器翻译不需要语言知识库,而是依赖大量的双语语料库,通过机器估计翻译模型参数执行翻译。

根据2005年NIST机器翻译评测结果来看,基于统计方法似乎优于基于规则方法[1]。基于规则机器翻译方法的代表性机译系统是SYSTRAN,至今已应用了30多年,而基于统计机器翻译的代表性机译系统是GOOGLE。2005年NIST机器翻译评测结果表明, GOOGLE在所有四项测评中均名列第1;而SYSTRAN在参加的两项测评中,分列第7和第12[1]。

影响机器翻译质量的问题有许多,但问题主要集中在语言学方面[2][3]。歧义问题就是关键问题之一,已经成为机器翻译发展的瓶颈。然而,机器翻译歧义问题研究大部分工作是讨论理想模式下的歧义问题,即语言本身的歧义或因语言不同在翻译过程中产生的歧义问题,而少有针对某一具体的机译系统或方法[4][5]。

本文拟对SYSTRAN和GOOGLE机译系统英汉翻译歧义问题进行比较分析,研究基于规则和基于统计两种机器翻译方法的消歧处理的优与劣。研究结果有助于两种主流机器翻译方法找出问题所在,突破语言学方面的发展瓶颈,从而提高机器翻译的质量。

二、研究方法

1.歧义项

本文选择对英汉翻译歧义问题进行分析。歧义问题包括词义和句法两个方面[4]。词义歧义主要研究多义词词义、术语词义和固定搭配词义。多义词既包括本身具有多个含义的词,也包括那些引起翻译歧义的词,即在源语言中词义只有一个,但是在目标语言中存在多种含义或不同的表达的词。如repetition,其英文含义只有一个,即something that you say or do that have already said or done before,但是其相应的中文表达有两个:重复,或重复的话,中文含义明显不同。对多义词的判断本文以COBUILD英汉双解词典为准[6]。多义词词义具体细分为动词词义、名词词义、形容词词义、副词词义和介词词义。其中,为研究方便,动词还包括由“be+adj.”构成的谓语动词;形容词只包括作为名词修饰语的形容词;介词只包括那些本身有具体词义的介词,如besides,concerning,till等,而与动词、名词和形容词构成固定搭配的介词则在分析动词、名词和形容词时一并考虑。术语指在具体语境下有特殊含义的短语,如bill of lading(提单),the dead freight(空仓运费),contract terms(合同条款)等。固定搭配包括固定短语和习语,如:on account of,with the exception of,in case of等。句法歧义则主要研究从句、定语、状语和否定四个方面。

2.评价标准

根据严复的“信、达、雅”原则,本文从译文的忠实度和流畅度两个方面对歧义问题进行分析。但是本文认为,忠实度和流畅度并不是相互独立的,忠实度为前提,如果译文不准确,无论表达有多流畅,多符合目标语言的表达习惯,其翻译质量为零。因此,本文采用忠实度和流畅度合并的方法,具体标准如表1所示。

表1 评价标准

3.评价方法

步骤1:各歧义项得分记为SX,其中X代表所观察的歧义项,具体包括:词义、句法、多义词词义、动词词义、名词词义、形容词词义、副词词义、介词词义、固定搭配词义、术语词义、从句、定语、状语、否定。其中,词义包括多义词词义、固定搭配词义和术语词义;多义词词义包括动词词义、名词词义、形容词词义、副词词义和介词词义;句法包括从句、定语、状语和否定。它们的关系用数学公式表示如下:

{词义}={多义词词义}{固定搭配词义}{术语词义}

{多义词词义}={动词词义}{名词词义}{形容词词义}{副词词义}{介词词义}

{句法}={从句}{定语}{状语}{否定}

步骤2:每个具体观察项取值记为VXi,根据评价标准,VXi取值为0,1,或2;

步骤3:观察项个数记为n;取值为0分,1分,或2分的观察项个数分别记为n0,n1,n2;

步骤4:忠实度记为A,流畅度记为F,准确率记为P,则:

4.测试语料

选择商务英语作为测试的语料。商务英语具有独特的语体特征,词法和句法特点突出,如术语丰富,长句结构严谨,用词规范等[7]。且商务英语也是对机器翻译需求较多的专业英语。

本文选择标准样本数为30。为保证测试语料的随机性,且包括难易不同的句子,从自建的有3 000个双语句的商务信函双语语料库中随机抽取3个层次英语句子各30句,共90句。3个层次的句子分别包含1个、2个、3个及以上谓语动词。商务信函双语语料库的语料来自3本商务英语教材[8][9][10]。

5.人工测评

将测试语料的90个句子分别输入2个机译系统: SYSTRAN在线翻译(http://www.systran-software. cn)和GOOGLE翻译(http://translate.google.cn),对系统输出的译文根据评价标准和评价方法进行评测。

三、研究结果及分析

1.歧义项基本信息

表2显示了所观察的歧义项频次。表2中的数据表明,多义词是词义歧义的主要研究对象,共591次,其中,动词出现频率最大,名词居其次。因此,对动词和名词多义词进行词义排歧是词义消岐的关键问题。而在句法歧义中,定语出现频率最大,状语和从句次之。因此,研究句法歧义时,应重点解决定语、状语和从句的句法消歧。

表2 歧义项基本信息

2.词义歧义

(1)GOOGL E在词义歧义处理上比SYSTRAN好(P=0.021)。根据表3,GOOGL E在忠实度、流畅度、准确率和得分四个方面均比SYSTRAN好,且SPSS配对t检验结果:P=0.021<0.05,表明差值有意义。其中,GOOGL E流畅度(88.84%)明显好于SYSTRAN(68.26%)。这表明SYSTRAN在能正确理解的词义中,仍有31.74%的词义表达不符合中文习惯;而GOOGL E只要能够正确理解词义,表达基本上符合中文习惯。

表3 词义消歧结果

(2)词义歧义问题集中在动词多义词和名词多义词。表4表明了各歧义项得分,出现频率最大的动词多义词得分最低(分别为53分和63分),介词也是难点,名词居其次。GOOGL E在形容词(81分)和副词(80分)词义消歧处理最好,而SYSTRAN则是形容词(75分)词义消歧最好。因此,由上面的分析可知, SYSTRAN在固定搭配和术语词义消歧方面还存在较大问题。

表4 词义歧义项消歧比较

(3)SYSTRAN和GOOGLE在动词词义理解存在同样的问题(P=0.382):对具有商务内涵的动词和与名词或介词等构成搭配的动词词义理解有歧义。表5对得0分的动词进行了分析,并对两组数据进行SPSS配对t检验,P=0.382>0.05,表明两组数据无差别。

表5 动词歧义问题

表5表明,动词词义理解难点之一就是具有商务内涵的动词,如cover,draw,quote等。例如:

原文:We usually cover shipments against WPA and War Risks.

参考译文:我们通常将货物投保水渍险和战争险。

SYSTRAN:我们通常盖发货反对WPA和战争风险。

GOOGL E:我们通常包括出货量对WPA和战争险。

该句的“cover”在普通英语中表示“覆盖、包括”等含义,而在商务英语语境中,常表示“投保”之意。动词词义理解另一个难点就是与名词或介词等构成搭配的动词。例如:

原文:We thank you for your quotation of September 17 and are pleased to place a trial order for your electrical products.

参考译文:感谢你方9月17日的报价,现欣然试购你方的电器产品。

SYSTRAN:我们感谢您的9月17的引文日和高兴地指出您的电子产品的一份审讯令。

GOOGL E:我们感谢您的报价9月17日,很高兴把审判为了使您的电器产品。

该句中,动词“place”与名词“a trial order”构成搭配,表示“试购”,但是SYSTRAN和GOOGLE都没能正确理解“place”的含义。又如:

原文:The educational instruments we have just received from you are of very poor quality,which is far below the standard that can be sold in this market.

参考译文:我们刚从你方收到的教学仪器质量很差,大大地低于可在我方市场销售的标准。

SYSTRAN:我们从您接受了的教育仪器是非常质量差,是远低于标准在这个市场上可以被卖。

GOOGL E:教育手段,我们刚刚收到你的质量非常差,这是远远低于标准,可以在这个市场上出售。

该句中,“receive sth.from sb.”是一个很常用且易懂的动词和介词搭配,表明“从某人收到某物”,人工翻译一般不会有问题。但是在机器翻译中,因为知识库不够丰富,或者因为介词from与动词receive的距离问题,较难通过统计方法估计翻译模型,动词与介词的搭配往往成为难点。

(4)SYSTRAN和GOOGL E在名词词义理解也存在同样的问题(P=0.184):对具有商务内涵的名词理解有歧义。表6对得0分的名词进行了分析,SPSS配对t检验结果:P=0.184>0.05,表明两个机译系统存在同样的问题。表6表明具有商务内涵的名词是机器翻译的难点,如enquiry(询价),offer(报盘),negotiation(议付)等。

表6 名词歧义问题

3.句法歧义

(1)SYSTRAN和GOOGLE在句法歧义处理上没有显著差别(P=0.166)。SPSS配对t检验结果:P =0.166>0.05,表明两个机译系统句法消歧能力相当。但是,表7表明SYSTRAN忠实度和准确率都略好于GOOGL E。

表7 句法消歧结果

(2)句法歧义问题集中在从句、定语和状语。从表8可知,两个系统基本上都能够将句法结构区分开来,但是语序处理还需改进,尤其是状语的语序(得分最低,分别为61和63分)。SYSTRAN定语歧义处理(83分)好于GOOGL E(73分),而GOOGLE否定歧义处理(94分)要好于SYSTRAN(79分),其余两个歧义项:从句和状语,两个系统分数几乎一致。

表8 句法歧义项消歧比较

(3)从句歧义主要问题在于定语从句的理解。表9分析了得0分的个数,并与观察到的从句个数相比较。

表9 从句歧义问题

从表9可知,SYSTRAN和GOOGL E都没能区分约有50%的定语从句。主要有两种情况增加了机译难度:一是没有连词that的定义从句;二是名词先行词在从句中作介词的宾语。例如:

原文:Please let us know immediately the detailed risks you wish to insure against for your shipment in question.

参考译文:请你方立即告诉我们对你方该批货物要投保的详细险别。

SYSTRAN:请告诉我们立刻您希望保险反对为正在考虑中您的发货的详细的风险。

GOOGL E:请让我们知道了详细的风险立即要投保的运送问题。

在该句中,从句“you wish to insure against for your shipment in question”修饰名词“risks”,而两个译文基本上是语无伦次。又如:

原文:To accept the prices you quote would leave us with only a small profit on our sales since this is an area in which the principal demand is for articles in the medium price range.

参考译文:如果我们接受你方报价,我们销售起来只能获得薄利,因为本地区主要需求的是中等价格范围的商品。

SYSTRAN:要接受您引述的价格将留给我们仅小赢利在我们的销售,因为这是主要需求是为在中等价格范围的文章的区域。

GOOGL E:接受你的价格竞标将使我们只有一个小的销售利润,因为这是在这一领域的主要要求是,在中条的价格范围。

人工翻译该句子,是需要将名词“area”连同“in which”中的介词“in”还原到从句中,即:the principal demand is for articles in the medium price range in this area,然后再翻译。很明显,两个机译系统都无法实现这一点。

(4)定语歧义主要问题在于对介词与名词作后置定语的区分及语序的确定。表10分析了得0分和1分的定语的分布情况,发现介词与名词作后置定语时,问题最多。例如:

原文:We thank you for your order of March 8 for electric motors,but regret to inform you that because of our stringent supply position we are unable to make supply immediately.

参考译文:感谢你方3月8日关于电动机的订单,但遗憾地通知你们,由于我们供货紧张,无法立即供货。

SYSTRAN:我们感谢您的行军序列电动机的8日,但是后悔通知您那由于我们无法立刻做供应的我们的严密供应位置。

GOOGL E:我们感谢你为了3月8日的电动马达,但遗憾地通知你,是因为我们严格的供应状况,我们无法作出立即供应。

在该句中,“your order of March 8 for electric motors”有2个介词与名词作后置定语修饰名词“order”,一是:“of March 8”;二是“for electric motors”。SYSTRAN和GOOGL E基本上是语无伦次,与原义相差甚远。另外,介词连接2个名词时,需要确定哪个名词是中心词,哪个名词与介词构成定语,否则会引起歧义。例如:

原文:When you place insurance for the shipment of our porcelain ware,please do not forget to include the risk of breakage.

参考译文:当你们为我方这批瓷器投险时,请别忘了包括破碎险。

SYSTRAN:当您安置我们的瓷器的发货的时保险,不要忘记包括破损的风险。

GOOGL E:当您在保险货物的瓷器,请不要忘记,包括破碎险。

该句的“place insurance for”决定了其后的名词应是货物,因此,“the shipment of our porcelain ware”中“porcelain ware”是中心词,其含义只能是“我方这批瓷器”,而不能是“我们的瓷器的发货”,也不能是“货物的瓷器”。因此,名词与介词搭配作定语,增加了机器翻译的难度。

表10 定语歧义问题

(5)状语歧义主要问题在于对介词与名词作状语以及副词作状语的区分及语序的确定。表11表明,类似于定语歧义问题,介词与名词搭配,又一次增加了机器翻译的难度。介词+名词除可作定语之外,还可作状语,修饰动词。如:

原文:We have learnt that there is a good demand for groundnuts in your market,and take this opportunity of enclosing our quotation sheet No.5233 for your consideration.

参考译文:获悉你地市场对落花生有较大的需求,现奉上第5233号报价单,供你方参考。

SYSTRAN:我们获悉有对落花生的好需求在您的市场上,并且利用附寄我们的您的考虑的报价单没有这机会5233。

GOOGL E:我们已经获悉,有一个很好的需求,花生中的市场,并借此机会附上我们的报价单的第5233号为您的考虑。

该句中,“for your consideration”是固定搭配,作目的状语。此外,两个机译系统在一些副词的区分和语序上也存在着问题,如:herewith,regretfully,immediately,kindly,accordingly,here,now,yet,even,just等。

表11 状语歧义问题

四、结 论

消除词义歧义和句法歧义是解决机器翻译问题的关键。基于规则和基于统计两种主流机器翻译方法的歧义问题比较分析结果概括如下:

(1)基于统计方法词义消歧强于基于规则方法,而在句法消歧方面能力相当。

(2)从译文质量看,基于统计方法的流畅度好于基于规则方法。

(3)词义歧义问题主要集中在动词多义词和名词多义词,而句法歧义问题则集中在定语、状语和从句。

(4)动词与介词搭配,名词与介词搭配作定语和状语,成为机器翻译的难点。

(5)具体语境下(如商务英语)具有特殊含义的普通词,如动词和名词,成为词义消歧的难点。

总之,为提高机器翻译质量,基于规则机器翻译方法需丰富知识库,解决流畅度问题;而统计机器翻译方法则需改进统计建模方法,提高句法消歧能力。

[1]GEER D.Statistical machine translation gains respect[J]. IEEE Computer,2005,(10):18-21.

[2]姚振军.句法“最简方案”与“最简模式”机器翻译[J].大连理工大学学报(社会科学版),2005,26(1):86-91.

[3]鲁孝贤.机器翻译语义排歧的方法[J].中国科技翻译, 2007,20(4):20-25.

[4]HUTCHINS J,SOMERS L.An Introduction to Machine Translation[M].London:Academic Press,1992.81-98.

[5]ARNOLD D,BAL KAN L,MEIJ ER S,et al.Machine Translation:an Introductory Guide[M].London:NCC Blackwell, 1994.111-128.

[6]SINCLAIR J.COBUILD英汉双解词典[Z].上海:上海译文出版社,2002.

[7]吴洁.商务英语的特点及翻译[J].中国科技翻译,2008,21 (4):18-20.

[8]黄水乞.外贸英文信函范例与常用精句[M].广州:广东经济出版社,2006.62-242.

[9]李爽.国际商务函电[M].北京:清华大学出版社,2008. 1-207.

[10]松尾裕一,增泽史子.英语商务书信110[M].大连:大连理工大学出版社,2003.12-129.

A Comparative Analysis of the Ambiguity Resolution of Two English-Chinese MT Approaches:RBMTand SMT

MA Jian-jun
(School of Foreign Languages,Dalian University of Technology,Dalian 116024,China)

This paper makes a comparative analysis of the ambiguity resolution of two MT approaches:Rule Based Machine Translation(RBMT)and Statistical Machine Translation(SMT),by analyzing the Chinese translation work for 90 English sentences in the domain of business,translated by SYSTRAN and GOOGL E translation systems.The results show that SMT is better than RBMT in terms of lexical ambiguity resolution, while they are the same in terms of structural ambiguity resolution.Lexical ambiguity mainly includes problems that occur when verbs and nouns have more than one sense,such as homographs and polysemes,as well as lexical transfer problems.Structural ambiguity arises in the aspects of modifiers,adverbials,and clauses.Verb+ preposition collocations,noun+preposition collocations,and verbs and nouns with special senses in business domain,remain three difficult problems for disambiguity for MT.

machine translation;lexical ambiguity;structural ambiguity;RBMT;SMT

H085

:A

:1008-407X(2010)03-0114-06

2009-09-01

中央高校基本科研业务费专项资金资助项目(DUT10RW202)

马建军(1972-),女,辽宁海城人,副教授,主要从事机器翻译和功能语言学研究。

猜你喜欢

消歧多义词歧义
基于关联图和文本相似度的实体消歧技术研究*
多义词
基于半监督集成学习的词义消歧
eUCP条款歧义剖析
藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究
English Jokes: Homonyms
浅议多义词在语境中的隐喻认知
“那么大”的语义模糊与歧义分析
多义词way的语义认知分析及实证研究
基于《知网》的中文信息结构消歧研究