从语言理解的心理过程看机器翻译的词汇歧义
2012-01-14黄雅雯董俊虹
黄雅雯,董俊虹
(西北工业大学 人文与经法学院,陕西 西安 710129)
语言是人们身边的科学,它作为信息的重要载体,不仅是人类相互交流的工具,也是计算机与人之间的沟通桥梁。机器翻译,最早是由科学家G.B阿尔楚在20世纪30年代提出的,就是通过计算机把一种自然语言翻译成另一种不同的语言。机器翻译的过程分为三步:解析、转移、生成。这个方法被人们认为是计算机模拟人工翻译的最佳机制,其在某种程度上模仿了人类的思维方式。当今设计的翻译软件系统包括理性主义、经验主义和多引擎三种类型。机器翻译的问世,给语言学科带来了机遇和挑战。由于自然语言是极端复杂的,机器翻译就更为复杂和困难,它是当代科学技术的十大难题之一[1]。
机器翻译是网络信息时代的前沿领域,是一门涉及语言学、数学、心理学、计算机科学的交叉学科。机器翻译的发展必须建立在语言学研究的基础上,是应用语言学研究的重点。目前大部分机器翻译系统仍然依照传统的语言学理论,通过对语言表层句法的分析和句法树的构建,对翻译内容进行浅层的语义分析。近年来,国内计算机科学家和语言学家一直致力于寻找提高机器翻译质量的突破口,但是所取得的成绩大多都局限于自然语言的分类和处理上,并没有将人类语言理解的心理学理论应用于机器翻译之中。心理语言学正是以语言的心理过程作为研究对象的一门新兴学科,它研究人的高级心理过程,包括语言理解、语言产生和语言习得。
从语言学科的分类来看,心理语言学与机器翻译同属于认知科学的研究领域,心理语言学是在心理学和语言学的边缘上产生的;机器翻译则是计算语言学和人工智能的交叉学科,二者之间存在着千丝万缕的联系。
一、语言理解的心理过程在自然语言理解中的应用
人们在理解语言时,首先要接受由外部输入语音的或文字的刺激,并按照这些刺激的物理属性而产生最初的外部代码,接着对这些代码进行初步加工得到语词后在心理词典中进行搜索,从而获得单词的句法与语义的代码。然后再进行句法分析和语义分析,并获得理解句子和话语的意义所需的命题代码[2]。
Halvorson强调,自然语言理解是对人类语言处理能力和心理过程的功能的模拟[3]。自然语言是相对于人工语言而言的,它是人类用来表达思维和交际的工具。自然语言理解(简称NLU),源自机器翻译,从微观上讲,是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上讲,是指机器能够执行人类所期望的某些语言功能[4]。自然语言理解的任务是要建立一种计算机模型,模拟出人脑理解语言的结果,而这种模拟离不开对人类语言理解的心理表征的了解,也就是认识人类理解和运用语言的心理过程。
(一)前人对机器翻译的研究
语义网络:1968年,美国人J.R.Quillian提出的一种知识表示工具。在语义网络中,代替概念的单位是节点,而表示概念之间关系的是节点间的连接弧,这种网络又称为状想网络。
扩展转换网络(ANT):1970年,美国人W.Woods依据乔姆斯基的转换生成语法而设计的。在这个网络中,文法被表示为一组图或是网,这些网表示了句子成分的可能顺序及在处理过程中分析器可能进行的各种选择。
概念从属理论:1973年,美国人Schank R提出的新理论。他认为句法分析对语言理解帮助不大,自然语言理解要根据输入词语找所需的概念结构。
概念层次网络理论(HNC):由中科院的黄曾阳先生提出,以语义表达为基础,强调用概念化、层次化和网络化的形式来实现对知识的表达。
知网:董振东先生提出的一种汉语知识的表示方法。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间及概念所具有的属性之间的关系为基本内容的常识知识库。
(二)语言理解的心理过程与机器翻译
机器翻译的实现是根据人类对人脑的思维过程和自然语言的理解,让计算机模拟人工翻译的过程。人脑和计算机是进行自然语言理解的两种认知系统。人和计算机有相似的信息加工系统,都是对信息进行加工:输入信息、进行编码、存储记忆、做出决策、输出结果[2]。机器翻译专家陈火光就认为,如若计算机对人脑的翻译过程模拟得越逼真,译文的质量就越高[5],然而,人脑对于语言理解的心理过程并没有很好的应用到机器翻译之中。
人们期望机器翻译终能代替人工翻译,但它始终是机器翻译无法克服的难题,计算机对自然语言的“理解”只是对内存的双语或多语数据库进行匹配运算的结果。在机器翻译研究的早期,人们没有认识到这一课题的艰巨性和复杂性。然而,当人们对所谓“全自动高质量机译系统”的期望破灭后,开始意识到机器翻译的突破点应该是让电脑能够理解和表达人类的语言[6]。由此可以推断,计算机科学家仍无法将人类理解语言的心理过程完美地体现在机器翻译的流程中。近年来,人类力图使计算机模拟人脑的方式进行“思考”,越来越多的研究小组致力于“神经元网络”的研究,人们期待有一天,这种基于神经元网络的计算机系统可以提高计算机自然语言理解和处理的能力。当然,人们的主要目的不是仿造出人脑的构造,而是从中获得启示,优化机器翻译的质量。本文的目的,就是通过心理语言学中语言理解的相关理论获得对机器翻译难点的新启示。
二、语言理解的心理过程对机器翻译词汇歧义的启示
自然语言本身变化多样,给机器的理解带来很多困难,词汇歧义就是其中最难解的问题之一。但是对于人类来说,要判定词汇歧义并不困难,可以通过语言环境或上下文从歧义词的几个不同的意义中选择一个合适的意义。研究人类词义消歧的心理过程有助于机器翻译早日突破消歧困境。
(一)词汇歧义现象
每一个词都有其对应的意义,有的词语只有一个意义,而有的词具有多重意义。把这些歧义词从上下文中独立出来考虑,就会产生语义歧义。
词的多义现象可分为三种类型[4]。(1) 意义相关的多义,是指一个词的多个意义彼此有一定的联系。例如“open”有两个意义“开着的”与“公开的”。(2) 意义无关的多义,是指一个词的多个意义彼此没有相关性。例如“bank”有两个意义“银行”、“河堤”。(3) 词性不同的多义,是指一个词在不同词性下有不同的意义。如“打”的意义是“hit”和“dozen”,前者为动词,后者为量词。
例如:Hecompletedhis novel.
他写完了他的小说。
他读完了他的小说。
Complete 的一般意义是“完成”,在此句中可以被理解为“写完”或是“读完”,它在句中的具体意义要取决于主语是作者还是读者。
又如:Peter is apoormechanic.
彼得是个贫穷的机械师。
彼得是个不称职的机械师。
这句话有两种理解,是因为poor 在这里既可被认为是“贫穷的”(having little or no money),又可以理解为“拙劣的”(lacking something needed) 。
词汇的一词多义是引起词汇歧义的内因,语境不定则是外因,在不同的语境下,同样的词语可以表达多种含义。人类创造出了灵活多变的语言,这也正说明人心理词汇的复杂性和神秘性。
(二)词汇歧义消解的心理过程[7]
心理过程指的是心理词汇的组织、检索和提取模式。词汇歧义的形成和消解都与语境有关,当信息进入到人们的大脑时,第一个阶段是句法语境,运用语法知识在短语或句子中选择和初步定位多义词的意义,之后,在现场语境和背景语境中得到巩固和修正。词汇消歧的心理过程大致为:语义输入→检索→语义激活→选择→语义抑制→定位→语义输出,整个过程都是在认知语境的引导下进行的,如图1所示。
2.2.1 他人的偏见:Byrne等[15]认为当患者感觉他人的对待有差异时就会产生病耻感,这种感觉很难量化,会产生在公众里“格格不入”或者是“异常醒目或突出”的错觉。在经历疾病过程中,患者常强迫用他人存在偏见的想法来看待自己,产生自我歧视,加重内在病耻感。
图1 词汇歧义消解的心理过程
1.心理词汇的组织模型
心理语言学家把词在人的长时记忆中的表征称为心理词汇[8]。大量的心理语言学实验证实,心理词汇是一个庞大的结构及组织良好的系统,并非零乱和无序的储存在人的长时记忆之中。于是,心理语言学家提出了语义网络的概念,其中最具代表性的两个模型是层级网络模型和扩散激活模型。
层级网络模型是由Collins和Quillian根据语言理解的计算机模拟而提出的,其原理是将单词之间的种属关系联系起来,组成一个词义层次网络。这个模式的基本单元是概念,表示为节点。例如fish的概念将被储存在既高于shark的而又低于animal的节点上。层级网络模型突出了词汇之间上下义的语义关系,但它无法解释同级词汇的差异。
扩散激活模型是Collins和Loftus提出的第二种心理词汇的组织模型,它延续了网络的思想,将节点的连接方式改变为网状,取代了严格的层级组织,如图2所示。
图2 扩散激活模型片段
扩散激活模型是通过概念之间的语义联系和语义相似性建立起来的模型。当一个概念受到刺激后,该概念被激活,从一个节点向四边扩散,先到达直接相连的节点,再逐渐扩散到其他节点。这些概念之间不仅有逻辑层次关系,更有横向联系。如“红”被激活,就会将刺激传给“苹果”、“黄”、“绿”等联系紧密的词,而这些词又继续激活其他相关的词。歧义词激活的过程较为复杂,它的激活和抑制是共同作用的,如果没有抑制,歧义词的多种含义就无法区分,而抑制不当,将本该激活的意义抑制了,一样会造成词汇歧义现象,要选取正确的词义就取决于心理词汇的检索和提取模型。
2.词汇项模型
Morton提出了词汇项模型,强调词的提取并不是取决于它在心理词汇中的位置,而是靠它激活到一定阈限的程度。在词汇项模型中,每个词都有它自己的词汇项,精确规定了词的各种属性。词汇激活的方式包括感觉输入和语境信息,第一种方式允许各种方式的感觉输入加在一起发生作用,以决定提取出正确的词。第二种方式是通过句子的语义或句法结构去影响某一个词汇项的激活。
例如:Her closest relative was appointed as herlegalguardian.[8]
她最亲的亲戚被指定为她的法定监护人。
句子中的“closest”、 “relative”等词的激活影响了legalguardian的词汇项,暂时降低了它的阈限。因此,与单独呈现相比,这个句子情境中的“监护人”比较容易识别。
词汇项模型的提取原则为:(1)词汇项直接提取;(2)几个候补词同时被激活;(3)多种类型的信息都可以用来提取正确含义。
人类通常在翻译过程中能够短暂地激活歧义词的所有含义,同时,我们还能做到相当迅速地在两个或多个含义之间做出选择。但是歧义词的多个意思往往不是同样重要的,使用频率较高的含义更有优势。当歧义词明显具有优势含义和次要含义,并且存在于具体语境中时,只有优势含义的歧义词会被激活。因此,当优势含义和有偏向的语境都倾向于激活同一个含义时,译者会选择这个趋向含义。简而言之,含义的使用频率和语境偏向共同影响词义的激活。
(三)讨论
词汇歧义虽然对人们之间的语言交流没有造成很大影响,但是对现今的机器翻译系统来说翻译它是非常困难的。因为在很多情况下,排除歧义的前提是要准确理解语境信息,而现阶段的机器翻译系统并没有足够的语言理解能力去解决此问题。
很多专家学者认为自然语言具有极其复杂和抽象的特征,而现今人们对大脑认识语言机制的了解还处于初级阶段,还不能满足计算机的工作原理和设计中精确、严密的形式化指令的要求。也有悲观论者认为:语言感知过程密切依附于大脑中千亿神经元的神经网络和浩瀚的世界知识海洋,在对大脑这个“黑箱”的奥秘还未做充分揭示之前,模拟语言感知过程是不现实的。近年来,黄曾阳先生提出的概念层次网络理论(HNC)充分证明了突破的契机是存在的,他认为自然语言理解的本质是概念联想脉络激活、扩展、浓缩,语句的理解必须定位于概念联想脉络运作全过程的激活。这种设想也同样适用于机器翻译的发展探索。
1.前人研究和机器翻译发展现状
语义网络的设想已经为很多研究团体所信奉,但是还处于基础的实现阶段。今后的发展方向可以拓展到建立起丰富和完善的新型词汇知识库,连接以词所代表的概念之间的网状关系,使扩散激活网络的构建更好的应用到机器翻译系统当中。
2.词汇知识库中的概念相互联系
根据这些概念中本义和语境中的关联性,可以将其范畴化。例如:“胜”、“败”、“僵持”属于本义关联词;“课堂”、“教师”、“教育”属于语境关联词。概念之间的本义关联性是其本身固有的,包括同义词、反义词、近义词等。概念之间的语境关联性是指它们的意义密切相关。范畴化的设想可以缩小激活歧义词的范围,帮助机器翻译更快捷、有效而准确地提取歧义词的正确含义。
三、结论
计算机自然语言理解没有获得根本性的突破是造成机器翻译质量不高的主要原因,是制约机器翻译、语言信息处理发展的瓶颈。目前的机器翻译系统在处理词汇歧义问题时,仍然无法理解自然语言的多样性。本文在这个问题上没有提出完备的发展框架,但所讨论的问题反映出机器翻译在今后的词汇消歧研究中应该多从语言理解的心理机制中寻求突破。总之,将机器翻译与人类语言的认知系统联系起来,可以更好地帮助解决机器翻译的难点。
参考文献:
[1] 冯志伟.机器翻译研究 [M].北京:中国对外翻译出版社,2004.
[2] 李伯约,赛 丹.自然语言理解的心理学原理[M].上海:学林出版社,2007.
[3] 孙玉强,王海燕,陈继光.人-机语言理解的歧义性比较研究[D].新乡:河南师范大学,2008.
[4] 蔡自兴,徐光佑.人工智能及其应用[M].北京:清华大学出版社,2004.
[5] 陈火光.电子翻译 [M].天津:天津大学出版社,2000.
[6] 白锡嘉.机器翻译与自然语言的理解 [J].中国科技翻译,1996(2):31-34.
[7] 周明强.词汇歧义消解的认知模式 [J].浙江外国语学院学报,2011(3):1-7.
[8] Carroll D W.Psychology of language [M].Beijing:Foreign language teaching and research press,2000.