英语功能名词短语研究及其应用
2012-05-31马建军,黄德根
马 建 军, 黄 德 根
(1.大连理工大学 计算机科学与技术学院,辽宁 大连 116024;2.大连理工大学 外国语学院,辽宁 大连 116024)
0 引 言
在英语语言中,名词短语的结构非常复杂.英语名词短语结构中可以包含多个修饰语和中心词,结构关系具有可变性、不确定性,因而极易产生歧义.根据传统语法对名词短语的定义,名词短语可以是一个名词,也可包括名词之前名词的限定词、形容词或其他修饰语,还包括名词之后的介词短语或关系从句,还可以是一个代词[1].同时,名词短语在句子中具有丰富的句法功能:可以作主语;可以作动词宾语;可以放在小品词后,作介词宾语;可以作补足语,补充说明主语或宾语;可以与介词搭配作状语.Halliday的系统功能语法[2]将这些句法功能概括为主语(subject)、补语(complement)和状语(adjunct).另外,名词短语还与动词构成搭配,如take part in(参加)等,成为谓语动词不可分割的一部分.若能确定这些句法功能,就能提高句法分析的正确率,提高机器翻译的质量.但是目前的英语名词短语研究主要以名词短语的结构来定义名词短语,而没有考虑名词短语的句法功能.
Church[3]利用统计方法进行名词短语的识别,Voutilainen[4]设 计 了 名 词 短 语 识 别 系 统NPtool,但是这两种方法识别的名词短语非常简单,甚至不包括名词前的修饰成分;Ramshaw等[5]提出了基本名词短语(以下简称baseNP)的概念,把名词之前的修饰语包含在名词短语中.baseNP指非嵌套名词短语,即不包含其他任何名词短语的名词短语.Ramshaw等采用了Abney[6]关于组块的定义,将组块分为名词类组块(即基本名词短语)和动词类组块两大类,把介词及其宾语构成的介词短语归为名词类组块.CoNLL-2000[7]将组块识别作为共享任务,定义了英语中11种基本组块,其中名词短语组块与baseNP的定义十分类似,主要将修饰名词的形容词短语归入名词短语组块,但是不包括名词的后置定语.同时,介词短语(PP)作为单独的组块列出.值得一提的是,这里的PP并不是Halliday所定义的介词短语(prepositional phrase)(介词+名词),而是介词词组(preposition group)[2],即指介词本身,或由多个介词组成的介词短语,如because of,such as,due to,或由副词修饰的介词短语,如well above,just after,even in.此外,还将动词小品词作为单独的组块列出,与介词进行了区分.
Koehn等[8]在研究德英机器翻译时,提出了一种面向统计机器翻译的最长名词短语(本文以下简称maxNP)的定义,把名词后的修饰语包含在名词短语中.其定义如下:给定一个句子s和它的句法分析树t,一个名词短语是t的一棵子树,它至少包含一个名词而不包含动词,并且不被更大的包含名词并且不包含动词的子树包含.实际上,maxNP是名词短语和介词短语的组合,将名词短语之后的介词短语合并到名词短语中.这里的介词短语是真正意义的介词短语,即介词+名词.与baseNP相比,maxNP将名词的后置定语与名词结合起来,简化了翻译过程;但是却没有将介词和结构词区分开来.baseNP和maxNP都没有将“介词+名词”作状语的结构区分出来.
国内对英语名词短语的研究主要集中在基本名词短语的自动识别[9~11],而最长名词短语的识别研究多以汉语为主[12~14].
本文根据名词短语的句法功能,提出一种新的名词短语——功能名词短语(以下简称funNP).首先阐述名词短语引起的结构歧义问题,提出功能名词短语的定义,同时与基本名词短语和最长名词短语相比较;应用Google在线翻译系统对英语商务信函语料翻译,分析其译文,对其中的功能名词短语进行处理,以解决结构歧义引起的翻译错误.
1 名词短语结构歧义问题
文献[15]研究了英汉机器翻译中的歧义问题,发现动词与介词搭配、介词与名词搭配做定语或状语,极易引起歧义.这些结构歧义都是由一个结构引起的,即“baseNP1+介词+baseNP2”结构.
本文将名词短语结构歧义概括如下:
(1)baseNP1与前面的动词是否构成固定搭配?
例1 How many countries took part in the last Olympic Games?(文献[16]的P922)(参考译文:多少个国家参加了上届奥林匹克运动会?)
在该句中,take part in是固定搭配,构成句子的谓语动词.因此不能将part in the last Olympic Games识别为NP来理解.
(2)介词是否与动词构成固定搭配,成为小品词?
例2 You tie the rope in knots.(文献[17]的P381)(参考译文:你把绳子系成结.)
在该句中,in是由动词tie决定,是小品词(particle),knots是介词in的补语,in knots表明结果.
(3)介词+baseNP2是baseNP1的后置定语还是句子的状语?
例3 He is getting pains in his back.(文献[1]的P169)(参考译文:他后背疼.)
在该句中,in his back作后置定语(post modifier),表明疼痛的部位.
例4 I have described this case in detail.(文献[1]的P286)(参考译文:我详细地叙述了这件事.)
在该句中,in detail作状语(adjunct),表示方式.
2 功能名词短语的定义
2.1 功能名词短语
基于系统功能语法[2],本文将功能名词短语的句法功能归纳为主语、补语和状语.
功能名词短语定义如下:功能名词短语是指在句中作主语、补语和状语,且至少含有一个名词但不包含动词的短语.即功能名词短语含有可嵌套的结构,主要包括名词词组(nominal group)、介词短语(prepositional phrase)和“形容词+介词”短语3种结构.
其逻辑结构如下:
(1)名词词组:“前置修饰语 + 名词 + 后置修饰语”。其中:前置修饰语可以是限定词、数词、形容词或名词;名词包括普通名词或代词或专有名词;后置修饰语可以是介词+名词词组结构或形容词;前置修饰语和后置修饰语不是必须的结构.
(2)介词短语:“介词+名词词组”.
(3)“形容词+介词”短语:“形容词+介词+名词词组”.
该定义不包括与动词构成固定搭配的名词短语,从翻译角度,将与动词构成固定搭配的名词归入动词短语(VP)会更合适.如“take part in+n(参加)”中的part不是名词短语,take part in构成动词短语,定义为VP.如果将part in+n定义为NP,则往往会译为“…的一部分”,而引起歧义.
同理,在“be+adj+prep+n”结构中,如be interested in+n(对…感兴趣),be interested in的句法功能相当于谓语动词,本文将be interested in定义为VP,其后的n才定义为NP.其他情况的adj+prep+n结构,如free from charge(免费),往往在句子中作补语,则定义为NP.
上述例1~4的funNP识别、功能块表达式、句法功能表达式见表1.
2.2 功能名词短语与基本名词短语和最长名词短语的关系
表2从介词、小品词、“介词+名词”作定语、“介词+名词”作状语和与动词构成固定搭配的名词5个方面概括了3个定义的主要区别,表3比较了3种方法的识别结果.结果表明,funNP不同于baseNP和maxNP,是介于baseNP和maxNP的一个短语概念;funNP识别在理论上能解决上述结构歧义问题,且效果优于baseNP和maxNP识别.
表2表明,baseNP和maxNP都没有将“介词+名词”作状语和与动词构成固定搭配的名词区分出来,这对机器翻译造成了一定的难度.
表3表明,funNP识别能够在识别阶段区分4种歧义情况,而baseNP和maxNP识别则不能完全区分这4种情况.
根据表3,funNP识别针对4个例句有3种不同句法功能表达式,所识别的名词短语模式也不同,且不同于baseNP和maxNP识别.例1表明take part in是固定搭配;例2表明in是动词tie的小品词;例3将in归入到名词词组中而例4将maxNP识别中的NP拆分成2个短语,并且表明in不是动词describe的小品词,成功地区分了动词+名词固定搭配、小品词、后置定语和状语.这些都将大大简化之后的翻译过程.
表1 funNP分析Tab.1 The analysis of funNP
表2 baseNP、maxNP和funNP的定义比较Tab.2 The definition comparison of baseNP,maxNP and funNP
表3 baseNP、maxNP和funNP识别比较Tab.3 The recognition comparison between baseNP,maxNP and funNP
而baseNP识别只区分出小品词,至于介词+名词作后置定语还是状语,在识别阶段还不明确,需要在翻译过程中进行大量的组块重组.maxNP识别对于4个例子句法功能表达式一模一样,尤其未能区分固定搭配、介词和小品词.这会引起歧义,以例2为例,若将例2中the rope in knots翻译成短语,很可能得到“结绳”或“结的绳索”,造成翻译错误.
3 从译文质量分析funNP识别
名词短语识别只是机器翻译的一个子系统,识别效果还是要通过具体的翻译结果才能体现.因此本文选择Google机译系统来进行译文质量分析.Google是基于统计机器翻译的代表性机译系统.2005年NIST机器翻译评测结果表明,Google在所有4项测评中均名列第一[18].
所选择的语料来自自建的有3 000个双语句对的商务信函双语语料库.对译文质量从两个方面进行分析:一是与动词构成固定搭配的名词歧义问题,二是“介词+名词”作状语的歧义问题.这两个问题是baseNP和maxNP识别未能处理的问题,也是funNP识别试图解决的关键问题.
采用funNP的定义进行消歧处理,比较消歧前后的结果.正确率A=翻译正确的句子数/句子总数×100%,每个句子只观察一个歧义问题.
3.1 实验1:与动词构成固定搭配的名词的歧义问题及处理
本文选择没有确切意义的3个动词make、take、place进行分析.对商务信函双语语料库进行搜索,找出所有含有3个动词的固定搭配,并进行分类,共得出74种不同搭配,具体分类见表4.
表4 动词固定搭配测试语料Tab.4 Testing data of VP pattern
将74个句子输入到Google在线翻译系统,人工统计固定搭配的翻译结果,发现问题主要在于与动词形成固定搭配的名词没有被识别出来,却与之后的介词短语合并,形成名词短语,引起歧义.如:
句子:One of our clients takes interest in your products.
Google译文:我们的一位客户发生在你的产品的兴趣.
参考译文:我们的一位客户对你们的产品感兴趣.
在该句中,take interest in本是固定搭配,意为“对…感兴趣”,take interest相当于动词,in是动词结构词,无意义.而在Google译文中,却将interest并入in your products,将take译成“发生”,将“interest in your products”译成“在你的产品的兴趣”,造成翻译错误.这是个很常见的固定搭配,对机器翻译却形成困扰.
因此,funNP识别将这种搭配中的名词定义为VP的一部分,而不单独形成NP.据此,本文设计了5种消歧方法,其目的就是实现这种搭配的VP识别.
(a)取名词的动词形式替代短语.如:arrange make arrangements.
(b)取名词的形容词形式替代短语.如:be interested in take interest in.
(c)取同义的动词替代短语.如:examine take a look at.
(d)取同义的动词短语替代短语.如:order the goods place an order.(注:消歧时,必须将其后的介词短语等成分删去,否则又变成名词+介词,造成结构歧义.该方法最适合具有许多语义的动词多义词,如order.没有名词作宾语,很难判断动词的含义,会引起新的歧义问题.)
(e)在名词后加分隔符“,”将短语与其他部分隔开.如:place the order,on the understanding that place the order on the understanding that.
译文质量和消歧结果见表5.
表5 动词固定搭配消歧结果Tab.5 Disambiguation results of VP pattern
表5表明,应用funNP的定义,大幅度地提高了译文质量,正确率从之前的39.2%提高到93.2%.在3个动词中,place+n是难点,尤其是place+order,如:place regular orders,place a trial order,place a further order,place a substantial order,place a large order,place a first order,place an order,place orders,place a further and large order,place another order等.没有解决的问题主要包含下列5个名词:make offers,make shipment,make an allowance on,make an order for,place insurance中的“offer,shipment,allowance,order,insurance”.这些名词是多义词,且所对应的动词“offer,ship,allow,order,insure”也是多义词,且很难找到具有相同用法的同义动词或动词短语,因此在实验中没能消解歧义.
3.2 实验2:“介词+名词”作状语的歧义问题及处理
本文选择介词in进行分析.“in+n”结构,既可能作之前名词的后置定语,也可能作状语,很容易引起结构歧义.本文对商务信函双语语料库进行搜索,找出所有含有“n+in+n”结构,且“in+n”作状语的句子,并进行分类,得出表示地点、时间、情况、方式和目的等5类状语,合计92个测试句子,具体信息见表6.
表6 “n+in+n”测试语料Tab.6 Testing data of″n+in+n″pattern
将92个句子输入到Google在线翻译系统,人工统计“in+n”的翻译结果,发现问题主要在于“in+n”作状语没有被识别出来,却被当作后置定语,修饰之前的名词,造成歧义.如:
句子:We look forward to hearing a favorable reply from you in due course.
Google译文:我们期待着听到您在适当的时候有利的答复.
参考译文:希望在适当的时候听到贵方的好消息.
可以看出,Google在翻译该句时,将a favorable reply from you in due course作为一个NP进行翻译,将in due course看做reply的定语,译成“在适当的时候有利的答复”,而没有考虑到in due course是状语,修饰动词hear,应译为“在适当的时候听到”.
因此,本文采取以下消歧策略,将“in+n”作状语同之前的名词短语区分开来:
在in前加分隔符“,”将“in+n”与其他部分隔开.如:We have pioneered your new product,
in our market. We have pioneered your new product in our market.消歧结果见表7.
表7表明,将“in+n”作状语识别出之后,可以提高机译的质量(消歧前正确率为22.8%,而消歧后为75.0%).根据表7,“in+n”表示情况时,是翻译的难点,消歧后的准确率也只有64.7%.
表7 “n+in+n”消歧结果Tab.7 Disambiguation results of″n+in+n″pattern
仍有23个句子,占25%,没有消解歧义,问题主要有两种:
(1)所采用的消歧策略对译文无影响.即采用消歧策略后,得到的译文与消歧前一致,占总数的13%.
(2)消歧后,译文仍错,占12%.原因主要在于“in+n”为固定搭配,对机器翻译造成困难,如:in the spirit of(本着…的精神),in the absence of(在没有…的情况下),in the hope of(希望…),in the most effective manner(最有效地)等.
4 结 论
本文基于系统功能语法,提出了功能名词短语的概念,并运用该功能名词短语,对英文商务信函语料进行处理.结果表明,功能名词短语能够在名词短语识别阶段消解两种主要结构歧义:与动词构成固定搭配的名词引起的歧义和“介词+名词”结构作状语引起的歧义.消解这两种歧义后,机器翻译的译文质量有较大提高.实际上,名词短语的结构歧义消解问题转化为了功能名词短语的识别问题.而功能名词短语的识别,既要考虑名词短语的结构,又要考虑名词短语的句法功能,限于篇幅将另文深入阐述英语功能名词短语的自动识别.
[1] SINCLAIR J.柯林斯COBUILD英语语法句型2:名词与形容词[M].上海:上海外语教育出版社,2000
[2] HALLIDAY M A K.功能语法导论[M].北京:外语教学研究出版社,2000:106-214
[3] CHURCH K.A stochastic parts program and noun phrase parser for unrestricted text[C]//Proceedings of Second Conference on Applied Natural Language Processing.Austin:Association for Computational Linguistics,1988:136-143
[4] VOUTILAINEN A.NPtool,a detector of English noun phrases[C]//Proceedings of the Workshop on Very Large Corpora:Academic and Industrial Perspectives. Columbus: Association for Computational Linguistics,1993:48-57
[5] RAMSHAW L,MARCUS R.Text chunking using transformation-based learning [C]//Proceedings of the Fourth Workshop on Very Large Corpora.Copenhagen:University of Copenhagen,1995:82-94
[6] ABNEY S.Parsing by chunks[C]//Principal-Based Parsing.Dordrecht:Kluwer Academic Publishers,1991:1-18
[7] SANG E F T K,BUCHHOLZ S.Introduction to the CoNLL-2000shared task:chunking[C]//Proceedings of CoNLL-2000and LLL-2000.Lisbon:Association for Computational Linguistics,2000:127-132
[8] KOEHN P,KNIGHT K.Feature-rich statistical translation of noun phrases[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.Sapporo:Association for Computational Linguistics,2003:311-318
[9] 周雅倩,郭以昆,黄萱菁,等.基于最大熵方法的中英文基本名词短语识别[J].计算机研究与发展,2003,40(3):440-446
[10] 梁颖红,赵铁军,岳 琪.英语基本名词短语识别技术研究[J].信息技术,2004,28(12):22-24
[11] 吕 琳,刘玉树.最大熵和Brill方法结合识别英语BaseNP[J].北京理工大学学报,2006,26(6):500-503
[12] 冯 冲,陈肇雄,黄河燕,等.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139
[13] 代 翠,周俏丽,蔡东风,等.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115
[14] 钱小飞.以“的”字结构为核心的最长名词短语识别研究[J].计算机工程与应用,2010,46(18):138-141
[15] 马建军.英汉机器翻译歧义问题分析[J].大连理工大学学报(社会科学版),2010,31(3):114-119
[16] HORNBY A S. Oxford Advanced Learner′s Dictionary[M].Oxford:Oxford University Press,2000
[17] SINCLAIR J.柯林斯COBUILD英语语法句型1:动词[M].上海:上海外语教育出版社,2000
[18] GEER D.Statistical machine translation gains respect[J].IEEE Computer,2005,38(10):18-21