汉英机器翻译中的结构分析和处理
2010-07-25张蓥朱兰娟
张蓥,朱兰娟
0 引言
目前,机器翻译软件的程序设计者大多并未能科学地在软件方案中运用语言学理论,只涉及到浅层语法,并充分利用统计学,帮助翻译软件在很短时间内学会解决大量的实际翻译问题[1]。虽然统计机器翻译是目前非限定领域机器翻译中性能较佳的方法[2],但是,基于统计学的翻译软件对于连贯较长字段的翻译非常不力,语言学研究与翻译软件的设计可谓处于脱节状态,导致翻译软件的输出仍采取“原语”的结构表达方式,忽视了短语和句子结构的复杂性,只简单地将其以线型结构的方式分析处理,极容易产生语法和语义上的丢失和混乱[3,4]。
本文将研究重点放在以语法语义规则为基础的翻译策略上,旨在尽量精确地剖析句子的每个层次和结构。作为辅助,我们建立了语料库,不仅使常用的语素包含更多的语义内容,并以概念代替词作为基本单位,添加更多的新信息[1]。
1 基于依存树和短语结构的翻译
1.1 基于依存树的句法结构
本文中句法结构的表现形式是依存结构。
美国计算语言学家J. Robinson于1970年提出了依存语法的4条公理:任何句子只有一个成分是独立的;句中的其它成分直接依存于某一成分;任何一个成分都不能依存于两个或以上的成分;如果A直接依存于B,而C位于A和B之间,那么C依存于A或者 B,或者A和B之间的某一成分[5]。
动词之间的层次关系,决定了句子中动词与相关的其他成分之间的依存关系,动词为“支配词”,其相关成分为“从属词”[6]。
句子的依存关系,一般被描述为一个树状结构[4]。句子唯一独立成分即句子主句的谓词,就是整句的主支配词,其他从句的谓词为辅支配词,每个节点都只依附于一个支配词。我们以主支配词作为依存树的根节点,动词依存关系决定了整个依存树的“主干”。如在句子“他发现小孩喜欢一起踢足球。中主干就是“发现”->“喜欢”->“踢”,其中“发现”为主支配词,“喜欢”和“踢”为辅支配词(参见图1和图2)。
图1 依存结构树的线性表示
图2 边标记的依存结构树
为了正确地描述句子的语义关系,在句法分析时,我们会参照“格语法”标准,给依存树的每条边加上不同的标记,即对各句子成分之间的依存关系进行分类[5]。
“格语法”是Charles J. Fillmore于1966年提出的一种理论[5],用来描述超越语法层次之上的语义关系。Fillmore认为,每一个动词都有自己固定的“格框架”,其中包含丰富的语法语义信息。在实际应用中,把“格框架”中的格映射到动词周围的短语结构上[6]。
“格框架”从语义的层面上,给出了新的句法分析的体系和规则[6],但是其主要的缺陷是,“格集合”的确定没有客观的标准,在应用中总会遇到各种问题:过分归纳或者归纳不周等[5]。故我们以语法关系为主分类依存关系,“格语法”起辅助判断的作用,采用如图2所示的方法标记依存树。
1.2 基于规则的短语结构分析
短语结构具有如下特点:一个短语只有一个中心;短语的中心反映该短语所表现的成分属性;同一个短语可以表现为不同的成分属性;短语结构最重要的构成法则是语素之间的关系规则。
短语结构的分析也有必要参考动词以外的语素所具有的类似于“格框架”的属性组。由于“格语法”的局限性,我们以语素之间的制约关系和短语结构之间的制约关系等为主,“格语法”为辅,来分析短语结构,步骤如下:
(1) 将语素聚成小的多个语义群;
(2) 基于每一个语义群自己的固有属性,以某个群为中心,将小群合并为大群;
(3) 将语义群定义为特定句子成分。
主要模块调用流程见图3:
图3 分析模块流程图
2 状语结构的处理
本文中状语结构的分析思想是:独立于句子主干,只对其支配词负责。状语分析模块的运作步骤如下:
(1) 删除副词语素和充当状语的其它成分;
(2) 分析副词语素,合并为语义群;
(3) 根据某些状语改变当前的动词时态;
(4) 状语加回句中。
状语按照作用分为:描述、程度、时间、地点、频度、时态和否定。其中,描述(或频度)、否定和程度副词语素在一定情况下需要合并为新的描述性状语。
状语模块工作流程如下:
(1) 以支配词为中心依次寻找所有的副词,区分出直接作用于动词的状语和附属于描述或频度副词的副词;
(2) 修改动词时态,存储该动词的各种相关的时态和语态;
(3) 动词之后,按照时态副词->描述副词->地点->时间副词->程度副词->时间名词的顺序加回;动词之前,按照时态副词->频度副词的顺序加回。
图4中是句子“他上个学期已经在学校里学了整个课程。”的状语分析思路:
图4 状语分析处理及加回
附属于形容词的副词与附属于动词的副词一样处理。
3 名词结构的处理
一个句子当中的名词结构,除了“简单定语+名词”这种常见的构成模式之外,还会包含“定语从句+名词”、“名词性动词”和“名词性句子”这几种模式。本文采用了 4个模块来分析这四类名词性结构。
3.1 简单名词分析模块
该模块以一个名词概念为中心,按照名词结构构成规则,扩张为一个语义群。
一个简单名词结构由形容词、介词结构、数量词、所有格和指示代词作为定语,由于汉语中的定语都在被修饰词前面,确定定语时,以中心名词为起点,向前逐个寻找定语并与中心名词合并,同时修改中心词的属性,直至没有定语。然后将所有定语和中心名词放到一个定语排序子模块中进行排序翻译。
3.2 名词性动词分析模块
本模块根据语法和短语构成的规则,分辨出充当名词的动词,将该动词作为动词中心,按照语法规则和“格框架”,映射到周围的语素成分,扩张为动词结构(可能包含多个动词),然后转换为对应的名词结构。
汉语语素本身不具有可以区别词性的特征标记或时态标记,所以一个概念语素可能同时具备多种词性,我们将优先级最高的词性写入机器字典,其他的词性特征以属性的方式记录。词性的优先级从高低排列为:形容词->动词->名词->方位词、连词、介词->副词。
3.3 定语从句+名词分析模块
复杂的名词结构在分析之前,必须处理好所有简单的名词结构和状语。如果定语是动词短语甚至句子,我们不一定能通过语法规则和简单的短语构成规则直接判断出中心名词,必须借助动词的“格框架”,对其周围的名词进行映射,才可以确定中心名词以及中心名词与定语从句的依存关系。中心名词确定之后,再分析定语从句中的动词结构。
所有名词结构分析完之后,必须再次调用简单名词分析模块进行分析。
3.4 其他的词性变换
大体来说,我们需要的词性转换如下:动词到名词、形容词到名词、形容词到副词及介词结构到副词。
词性转换都只包含从高级别词性到低级别词性的转换。判断出某个结构需要词性变换以后,就要重新考虑其词典中的所有属性,对于转换为副词的结构,必须按照状语的分析规则,从句中删除。而转换为名词结构的短语,也同样需要经过名词分析模块的处理,成为完备的名词短语结构。
3.5 名词性句子分析模块
名词性句子是指一个具备句子特点的结构充当名词结构,在中文中是一个真正的句子,其中心动词的英文表述一般是动名词结构。
本模块在动词主干进行分析的时候,根据动词之间的层次判断出充当名词“格”的句子,然后进行分析。
在主干分析中,将名词性句子通过本模块分析并整理成为一个名词结构。名词性句子的判断仍然需要考虑动词 “格框架”之间的比较以及各动词本身的分类属性的层次关系,层次高的动词就可以以低层动词结构或句子为宾语。
4 动词主干的处理
对主干的分析采取的方法是“从后向前”分析法,核心思想是,将一个动词及其后面的部分封装起来,作为前面动词的宾语或者补语。主干和动词结构进行分析时,会调用状语分析模块为每一个动词分析状语并修改时态。由于当前谓词的主语以及前面的动词还没有分析,在当前谓词的状语分析之后,我们主要为其存储图5所示的如下几个形式:
图5 动词的时态处理
· 现在时:根据当前谓词的状语分析之后当前谓词应该表现的时态(后称“当前时态”);
· 第三人称单数:当前时态对应的第三人称单数;
· 过去时:在当前时态基础上,向前推一个时态;
· 过去式第三人称单数:针对be动词,指当前时态之前一个时态对应的第三人称单数形式。
动词主干分析采用递归算法,步骤大致如下:
(1) 考虑最后一个动词及其后的成分,通过分析其“格框架”,将其后面的成分定为宾语或者补语,或是一个从句(非动词谓词),也可能该动词属于前面的结构,后面的非动词结构为谓语成分;
(2) 考虑除了最后动词以外的动词及其后的成分,确定其宾语、补语及从句,或者该动词和后面动词组合为一个结构,同样,该动词也可能属于前面的动词结构;
(3) 对于最前面的动词,后面的成分已经分析完毕,要考虑之前的成分,如主语和主语之前的关联词或者介词,还要根据后面动词的情况,判断是否有复杂的主语需要由3.5中的模块处理;
(4) 一条动词主干的翻译是不包括逗号的,对于一个带有分句的句子,每个分句都分开翻译,所以须考虑主语的省略问题,例如,在“在学校的时候,他喜欢数学”。时间状语从句中就没有主语,所以在主干分析模块中,设计了用来“寻找”主语的子模块。
5 软件实现和测试结果
本汉英翻译软件用,实现符合规范语法的完整的或带有分句的陈述句或者疑问句的翻译。
下图是本软件经过大量样本的测试,得出的各种动词主干类型和各种短语结构类型的翻译准确度。图6中的测试项,句中的其他成分都一样,分句都定为含有3个动词。图7中的测试是专门针对短语的。每一个测试类型都至少选择了30个样本进行测试,并尽量覆盖各种类型。
图6 不同主干类型的翻译准确度
图7 各种短语结构的翻译准确度
6 结论
本文以依存结构树和短语结构规则为基础,借鉴了“格语法”的基本思想,提出了一种复杂句子汉英翻译软件的设计思路,介绍了该软件借助于短语分析模块进行翻译策略,以及如何按照汉语语法中的典型的知识内容判断并完成词性转化的方法,最后,给出了该算法的实用性测试结果。
[1]冯志伟.机器翻译研究[M],中国对外翻译出版公司,2005.
[2]Wikipedia, Machine translation[EB/OL]. (2008-10-19),[2009-04-15].http://en.wikipedia.org/wiki/Machine_tran slation .
[3]刘彬,李丽.浅析基于依存语法的翻译软件词典的构建[J],湖南医科大学学报(社会科学版), 2005.
[4]李霞.一种小型汉英翻译软件的设计原理及实现[J],福建电脑, 2007, (3).
[5]刘群.机器翻译中的知识表示与歧义消解[R],北京大学软件与微电子学院2006-2007年度夏季课程.
[6]刘海涛.依存语法和机器翻译[J],语言文字应用1997,(3).