APP下载

自然语言处理中机器翻译发展态势的哲学思考

2023-12-26王汝发

绥化学院学报 2023年11期
关键词:经验主义实例语料库

王 鼎 王汝发

(1.西北民族大学;2.甘肃政法大学教学质量管理运行监控中心 甘肃兰州 730000)

20世纪50年代以来,研究者根据计算机运算速度加快,内存容量增加等性能的提高及其处理能力,研制成功了基于规则的机器翻译,这种翻译方法“机器可以根据源语语言分析规则理解源语语言,并依据源语语言和目的语之间的转换和目的语语言生成规则,将源语语言自动转换成目的语言。”[1]基于规则的机器翻译其核心主要在语言“规则”上,这里的“规则”有几方面的涵义,一方面必须具备大量的知识积累,知识由手工按一定的规则译成代码,这本身就是一件困难的事情;另一方面,大量知识的积累也是一种不易的事情,因为知识获取和知识的调整对机器翻译系统的开发有阻碍作用。

一、由基于规则的机器翻译到基于实例的机器翻译

我们知道,技术存在于人类目的性活动的各个领域,张成智等[2]认为:“翻译学的技术转向是指随着信息技术、计算语言学、术语学等学科发展,翻译学实践发生了从纯人工翻译到人工翻译与信息技术相结合的变化,从而引发翻译理论研究的变革。”这实际上正是我们所说的翻译技术创新,通过技术创新解决原有技术系统功能有限的矛盾。从认识论的角度看,基于规则的机器翻译其规则包括源语言的分析规则和源语言的内部表示到目标语言内部表示转换规则等,这些规则是高度抽象的,它受制于人工编写规则的质量和数量,与人的主观因素相关,编写工作费时费力,且在知识的获取和调整上不利于机器翻译系统的快速发展。归纳总结出这些规则同样是一件不仅比较困难而且成本很高的事情。为了解决这一难题,20世纪80年代,日本学者Nagao根据平行语料库中的信息和计算机计算能力的提升,又提出了一种新的方法,他在其论文《采用类比原则进行日-英机器翻译的一个框架》中指出:“人类在翻译一个简单句子的时候,并不会作深层次的语法分析,而是实现将源句适当分为若干短语片段,然后再把这些短语翻译成目标语言,最后把翻译好的短语片段(fragmental phrases)恰当的组合成为一个句子。而对每一个短语片段则是相应的例子作为参考,通过类比原则进行翻译的。”[3](P10)这里的“实例”指的是在平行语料库中许多的信息可以直接被用作机器自动翻译的例子,以取代基于规则的机器翻译方法。学术界通常把这种翻译方法称为基于实例的机器翻译(Example-Based Machine Translation),显然,这与基于规则的机器翻译相比,又是更高一阶的技术转向。它克服了基于规则的机器翻译由“规则”引起的不足和局限性,在学术界也有人把这种机器翻译称为基于类比的机器翻译(Analogy-Based Machine Translation)。类比指的是根据两类不同对象之间在某些方面的相似或相同,推出它们在其他方面也可能有相似或相同的一种推理方法。其结果是猜测的,它是具有创造性的一种方法,是获得新思路、新方法的一种观点和一种手段。基于实例的机器翻译技术自提出后,多位学者进行了深入研究,取得了许多重要的成果,例如中科院专家团队联合开发研究的“基于词对齐的EBMT 系统。”[4]这一系统的工作一般主要分三个步骤进行:首先,根据相似度计算实例选择;其次,根据确定下来的实例,输入句子与翻译实例进行匹配;再次,利用词典对句子中未匹配上的词语进行翻译。不过这种技术仍有一定的不足和局限性,首先要求必须有对齐的平行语料库,否则无法进行机器翻译,而对于对齐的双语平行语料库的构建又是一个工程量浩大的工程,有时不一定能做到。同时,因语料库是先前建设好的,在语料库的某一段时间内是可行的。而语言作为一种社会现象,它与社会的发展十分紧密,随着社会的变革和新的社会现象的产生,可能涌现出新的词语,这对于机器翻译来说是难以完全实现的。

二、由基于实例的机器翻译到基于统计的机器翻译

基于实例的机器翻译研究在20 世纪80、90 年代出现了很多的方案,这些方案主要以平行语料库为基础,通过类比的方法获取翻译结果,大多数研究主要借助于双语词典。很显然,翻译效果的优劣在一定程度上取决于平行语料库的质量和覆盖面,如果没有可用的高质量覆盖面广泛的双语平行语料库,则这种翻译方法的匹配率极低,仅限于特定专业领域应用。一旦处理的语言种类繁多,五花八门,利用基于实例的机器翻译方法要解决自然语言里无穷无尽的翻译任务着实是一件不易的事情。当人们发现基于实例的机器翻译方法的不足和缺点后,不得不寻求更高一级的翻译技术,也就是我们所言的翻译技术更高一级的转向。开始主张以数据为中心而不是以人为中心,这也就是人们通常所说的经验主义方式,经验主义方式主张利用数学的理论与方法,通过建立数学模型,借助计算机技术这一高科技手段来解决复杂的语言转换问题。这是机器翻译领域发生的又一次重大变革,称之为基于统计的机器翻译。这种方法就是我们所说的基于统计的机器翻译方法。

如前文所言,基于规则的机器翻译是理性主义占主导的,而基于统计的机器翻译则是经验主义占主导的[5](P3)。随着信息技术特别是Internet 技术的广泛应用,这种模型的方法成了解决两种语言之间翻译“屏障”的重要工具。建立这种模型是一种积极的思维活动,一般包含两部分,即模型的理论基础和模型的假设。2007年中科院院士高庆狮在为宋成庆先生《统计自然语言处理》的序言中曾言:“由于统计法能使自然语言处理的正确率从比较低的水平有较快增长,引起人们广泛注意,所以近十年来有比较快的发展。”[5](P3)可以说,基于统计的机器翻译的理论基础正是哲学中的经验主义。

让我们来看基于规则的机器翻译技术与基于统计的机器翻译技术的差异。首先来看两种技术的哲学基础:前者其哲学基础是理性主义的,后者是经验主义的,这种理性主义方法主张由人类专家观察不同自然语言之间的转换规律,通过编撰规则的方式,以语言规则的形式表示翻译知识。经验主义的一个显著特征是主张以数据为中心并非人,以数学模型描述自然语言的转换过程。虽然在观念层面上,两种技术在意识形态上具有较大差异,但是,两者各有所长,在追求技术效用和目的上又是一致的。

在2014 年以后,基于神经网络技术的翻译取得了重大进展,比基于统计的机器翻译在翻译质量上有进一步的提升。由于目前主流的神经网络机器翻译实际上还是以经验主义方法为主导的,故限于篇幅本文在此不再多赘。

三、从机器翻译技术再看科学与技术的几个问题

多年来,学术界特别是科学技术哲学界的学人们进行了深入的研究和探讨,有技术哲学专家们提出了一些非常值得研究的问题,如“机器是不是技术?如果是,该怎样区分作为生产成品、生产手段的机器同作为技术要素的机器?”“科学与技术之间究竟有怎样的对称性、非对称性和互补性?……能否把技术看作是科学的应用,或接受应用科学'(applied science)?”笔者想以机器翻译技术为例,谈谈我们对这两个问题之见。首先,我们把机器翻译分解成“机器”和“翻译”两部分来看,这里的“机器”就是指计算机,计算机是现代化智能电子设备,是集成网络、计算、媒体等技术为一体的电子设备。[6]因此,这里的机器是硬件,并且是大规模的机器硬件。从这一点上说,似乎机器不是技术,但创造这个机器却需要现代化的集成网络、计算、电工等技术才可以完成,并且既有生产手段的机器成分也有技术要素的机器成分,由此又可以认为这里的机器又是技术,结合二者我们是否可以说,机器翻译中的机器是技术与硬件融合而成的一个电子设备。如果视语言翻译中得到的译文为产品,则机器翻译中的计算机又是生产产品的机器。其次,翻译部分则是由语言学、计算机科学技术、数学、认知科学等为基础(支撑)的技术,它是以这些科学为基础,经实验成功后得到的应用技术(有人也称“应用科学”“实验科学”“技术科学”,实际上这是从学科角度而言的)。在机器翻译技术领域近年来国内外获得了不少发明专利,从机器翻译技术看,呈现出一体化发展态势。当然,由于我们水平所限,加之“技术”概念本身定义的特殊性,这里不可能全面探讨专家学者们提出的这些问题,仅以“机器翻译技术”为例,从一个侧面对这些问题进行一些思考,希望成为一块引玉之砖,引起更多人关注机器翻译的研究。

由机器翻译技术的创立之路及其转向的讨论可以看出,理所当然机器翻译技术是一种技术,并且是一种新兴技术,为什么这么说呢?这是因为它符合新兴技术的定义:“新兴技术指建立在科学基础上的创新,它们有可能创造一个新行业或改变某个已经存在的行业,具有高度不确定性。”[7]反过来看,它又是科学,更准确地说是实验科学或应用科学。在此方面高庆狮院士有着自己独到的见解:“自然语言理解和处理不仅是一门社会需求巨大的应用技术,而且也是一门具有非常重要科学意义的自然科学。”[5](P3)这是因为从机器翻译的理论基础及其发展历程分析具备实验科学的定义。因此,我们认为机器翻译技术兼有技术与科学双重性,或者说兼有技术与科学两种品质,应属于技术科学的范畴。笔者认为,虽然机器翻译冠名为“技术”,但实际上它主要是以多种学科于一体的复合型交叉学科,其理论根据主要是建立在多种学科的理论基础之上的,这些学科的理论基础缺一不可,它是一项将这些学科的理论基础与技术融为一体的一个综合体,它们之间具有相互包含的融合关系。换言之,机器翻译技术是以理论科学为基础的技术,对其而言在科学与技术之间的划界不能简单归之于“是”与“非”的二值逻辑,也无法简单把技术的重要组成部分:人类知识的三大部类——自然科学、社会科学和人文学科[8]进行隔离开,这种多重性的多个部分是紧密联系无法分开的一个整体。也就是说,机器翻译技术它又是一项技术科学,是一个由以上多重因素复合而成的复杂系统,在这里基础科学是机器翻译技术的基础,如果把这项技术看作大楼,则基础科学就是构建这座大楼的建筑材料,它是技术的基础和源泉。机器翻译技术是由科学理论推导出来的技术,没有基础科学做基础,不可能产生出机器翻译技术。

结语

笔者从多个方面考察了自然语言处理中机器翻译技术在升级发展过程中的转向态势,它经历了一个从无到有,由简单到复杂、从低级到高级再到更高级的不寻常的转向发展历程。与很多技术转向不同的是,机器翻译技术的转向是信息技术发展和市场需求共同作用的结果,这一结果正是为人类将语言学的研究从单纯的语言学范畴拓展到计算机技术、数学、认知科学等多种看似毫无相关的多重领域的过程,通过分析使我们对机器翻译技术在自然语言处理中的本质有了更深刻的认识和理解;同时,也使我们认识到了机器翻译技术的转向升级的规律和特点。实际上,每次翻译技术的转向升级也是由机器翻译外的科学技术的进步推动而形成的,其过程由理性主义逐步过渡到经验主义。当然,对于机器翻译技术还面临着许多一时难以解决的困境和问题,诸如自然语言中普遍存在的词义问题,更细一点而言,如一词多义、一义多词、同形异义、词义模糊、词义歧义等问题;同样小说、散文、诗歌等表现性文本的翻译,还有思维、情感、语气等都是在今后的机器翻译中需要解决的问题。同时,翻译技术还需要受翻译规律和语言规律等客观因素的制约,必须处理好“语言与技术”“翻译与技术”“语言与文化”等之间的关系。这是因为世界上不论哪个国家或民族的语言,都蕴含着极其丰富的文化内涵,彰显着不同国家或不同民族的文化精髓。“各国如何消除文化隔阂和文化发展过程中的历史差异,以及文化呈现状态上的形式差异和文化系统之间的不同层次差异,这是一带一路'建设中最迫切的核心问题。”[9]机器翻译是一种跨语言跨文化的交际活动,面对的是跨越语言与文化的双重“屏障”。必须防止工具之上、工具无所不能的片面认识。在未来的自然语言处理领域,机器翻译只能部分代替人工翻译,将是人工翻译与机器翻译共存、人机协同、相辅相成的时代。我们应该看到,机器翻译技术同一般技术具有共同的地方,也具有两面性,不能只看到这一技术的优势,这是孤立的、静止的乐观主义观点;反过来也要警惕只看到这一技术的劣势和不足,这是片面的悲观主义观点。应该全面、客观、公正的评价机器翻译这一科学技术,辩证地看待这一技术的转向与发展态势。

猜你喜欢

经验主义实例语料库
《语料库翻译文体学》评介
批判的语境经验主义:数据与语境
——第十七届《哲学分析》论坛专题研讨之二
思 辨
走出经验主义、拿来主义迷津——苏宁峰《表现论视野下中学语文的批判性解读》序
走出经验主义、拿来主义迷津——苏宁峰《表现论视野下中学语文的批判性解读》序
把课文的优美表达存进语料库
基于JAVAEE的维吾尔中介语语料库开发与实现
完形填空Ⅱ
完形填空Ⅰ
语料库语言学未来发展趋势