信息化时代下机器翻译发展的现状、问题与思考
2021-02-01姚伏生
姚伏生
安徽农业大学经济技术学院,安徽合肥,230011
机器翻译是指“使用计算机系统将文本或语音从一种自然语言自动翻译为另一种语言的过程”[1]。作为人工智能的一种,机器翻译不仅具有重要的科学研究价值,同时还具有重要的应用价值。随着信息化的程度进一步扩大,机器翻译不仅在日常生活中发挥了越来越重要的作用,还为不同国家与民族之间的交流提供了便利。随着人工智能技术的不断革新,机器翻译的能力也在逐步提升,继而引发了翻译产业的变革,导致从业人员的分流。人们对机器翻译的未来发展充满了期待,也出现了不同的声音,评论机器翻译的是非功过。基于此种现象,文章首先梳理了机器翻译的发展现状,继而分析了其面临的局限性,最后就其未来的发展进行前瞻性思考,以期对机器翻译有一个理性的认识,对机器翻译研究提供一定的借鉴。
1 机器翻译发展的现状概述
机器翻译诞生于1947年。自问世以来,机器翻译经过七十余年的发展,已经取得了巨大的进步,在一些特定的领域如日常交流、媒体新闻、常规性文本翻译等方面,机器翻译已广泛使用,在给普通大众带来便利的同时,也产生了一定的社会效益。由于篇幅所限,文章的讨论只限于机器的文本翻译。
机器翻译的发展主要经历了三个阶段,即基于规则(Rule-based)的机器翻译,基于统计(Statistics-based)的机器翻译以及基于深度学习(Deep Learning)的神经机器翻译[2]。这三个阶段见证了机器翻译质量的逐步提升。某些特定领域的文献的机器翻译基本上达到了人工翻译的水准,如代表机器翻译较高水平的谷歌翻译。国内的机器翻译如百度翻译、有道翻译、360翻译等虽然起步较晚,但也在较短时间内取得了惊人的进步,在某些领域并不逊色于谷歌翻译。这里以百度翻译为例予以说明。
例1:In this paper,we introduce a novel domain adaptation approach,called the adaptive local neighbors for transfer discriminative feature learning,which not only leverages discriminative domain-invariant features,but also addresses the challenges of multimodally distributed data by respecting the local manifold structure.furthermore,the local neighbors are revealed adaptively that is insensitive to data noises.Extensive experiments show that the proposed approach not only significantly outperforms several state-of-art domain adaptation methods,but also obtains desirable results when the data noises exist.[3]
百度翻译:本文提出了一种新的域自适应方法,即自适应局部邻域转移判别特征学习方法,它不仅利用了区分域不变特征,而且通过尊重局部流形结构来解决多模式分布数据的挑战。此外,自适应地揭示了对数据噪声不敏感的局部邻域。大量实验表明,该方法不仅明显优于现有的几种域自适应方法,而且在存在数据噪声的情况下也能获得令人满意的结果。
原文是有关计算机科学方面的一段文献资料,涉及的专业术语较多,如domain adaptation,discriminative domain-invariant features,且句式较为复杂,既有插入语,又有主从结构,翻译难度相对较大。但是整体来看,百度翻译的译文较为准确而流畅,个别地方稍微润色一下即可。
可以预见,随着人工智能技术的日益提升,机器翻译的水平也必将更加完善。机器翻译将来也会被更多地应用到实际生活之中。
2 问题分析
机器翻译技术虽然取得了长足的进步,但它仍然受到诸多因素的制约,使其在某些层面或领域难以替代人工翻译,或无法与之抗衡。
2.1 语料库的建设问题
语料库是机器翻译赖以发展的驱动力之一,因此语料库的规模、领域范畴自然关乎机器翻译的效率和质量。然而,语料库的建设本身也面临各种难以解决的问题。如规模问题、滞后性问题,等等。
有学者在调查时发现,只有语料库规模达到1 500万词条以上时,神经网络翻译的性能才开始优于统计翻译[4]。语料库低于此规模时,机器翻译的能力无法施展。但现在的问题是,除中文、英文、德文、日文、法文等主流语言的资源比较丰富,许多小语种的数据收集很难达到此种规模。面对这些小语种,神经机器翻译难以发挥有效的作用。虽然“谷歌翻译”“百度翻译”能在多种语言之间切换,但除了大语种之间的互译在日常用语、媒体新闻、科技论文等领域达到了较高的水平之外,其他小语种之间的互译远未达到理想的程度。即便是大语种之间的互译,现在的语料库也是主要集中在时政新闻和科学技术等方面,绝大多数其他领域的语料库都严重缺乏。究其原因,除了资金问题,还与这些领域的实用性程度较低有关。如:
例2:通过文献研究,分析糖尿病患者延续性护理的应用现状及存在的问题,为进一步开展糖尿病患者延续性护理的相关研究提供参考[5]。
谷歌翻译:Through literature research,analyze the application status and existing problems of continual care for diabetic patients,in order to further develop diabetes.Relevant research on continuity care of patients provides reference.
百度翻译:Through literature research,the application status and existing problems of continuous nursing care for diabetic patients were analyzed,so as to further develop diabetes mellitus.The related research of continuous nursing of patients provides reference.
谷歌和百度都将原文中的“糖尿病患者”译为了diabetic patients,而标准的译文为people with diabetes或是patients with diabete。这两种国内外较为先进的机器翻译系统都不能正确地翻译这一医学中非常普通的术语,可见目前数据库残缺的程度。
语料库的另外一个缺陷就是滞后性问题。在科技领域,一些介绍最新科研成果的文本如学术论文、教科书,常常使用大量新生的专业术语。此外,随着社会的快速发展,日常生活中新的表达方式也不断地被创造出来,如“接地气”“洪荒之力”“佛系”等。这些新生术语或表达方式的译文产生需要一个过程,无法被语料库收集。因此,面对此种情况,机器翻译就显得捉襟见肘。如:
例3:游戏公司仿佛进入了“水逆”。今年国家对网游加大了监管力度,早在3月就暂停了国产网游的版号审批[6]。
谷歌翻译:The game company seems to have entered a “mercury retrograde”.This year,the state has increased its supervision of online games and suspended the approval of the version number of domestic online games as early as March.
百度翻译:Game companies seem to have entered the “water reverse”.This year,the state has strengthened the supervision of online games,suspending the approval of the version number of domestic online games as early as March.
“水逆”是近年来流行的时尚语,由“水星逆行”引申而来,以此来喻指“遇事不顺”,具有一定的调侃味,颇受年轻人喜爱。但是我们看到,谷歌翻译和百度翻译分别将其译为了“mercury retrograde”和“water reverse”,均取其表面意义,在英文中并无实质性意义。
总而言之,目前的数据库主要存在规模性较小和语料滞后性两大问题,在一定程度上揭示了机器翻译对语料库的依赖程度。
2.2 机器翻译的技术问题
虽然机器翻译在技术方面不断取得突破,但是就目前而言,还面临三种难以克服的缺陷。一是以句子为输入单位;二是缺乏形象思维能力,三是无法把握文本的深层意义。
自2014年以来,“端到端”的神经机器翻译获得了快速发展。所谓“端到端”的翻译方法,简单来讲就是指机器学习时以句子为单位进行输入,在输出端同样得到以句子为单位的译文。但是如果句子偏长的话,机器翻译就难以理清其中的逻辑关系。实验表明,当句子片词数大于60词时[4](介于40-50词之间),机器翻译的效果则明显下降。如:
例3:Closely linked with this commitment is the new last paragraph of the preamble which reaffirms that principle of the Charter of the United Nations in accordance with which Member States must refrain from the use of force or the threat of force against the territorial integrity or political independence of any State and which declares that the establishment and the maintenance of international peace and security are to be promoted with the least diversion for armaments of the world’s human and economic resources.[7]98
谷歌翻译:与这项承诺密切相关的是序言部分的新的最后一段,重申了《联合国宪章》的原则,会员国必须根据该原则避免对苏丹的领土完整或政治独立使用武力或威胁使用武力。 任何国家都宣布将促进建立和维持国际和平与安全,而要转移世界上最少的人力和经济资源。
原文是由各个分句构成的长句,从句与从句之间借助各种连接词环环相扣,体现了英语形合的特点。谷歌的译文从意义上来看,还勉强说过去。但是句子之间的衔接较差,给人一种支离破碎的感觉。尤其是最后一句的翻译,更显得逻辑混乱。
此外,缺乏形象思维是机器翻译的另外一个缺陷。尽管深度学习成为机器学习研究中一个新的领域,但翻译是人类最为复杂的实践活动之一,涉及形象思维和逻辑思维两个方面。机器翻译在一定程度上能够学到人类的逻辑思维能力,但无法学习包含情感、想象在内的形象思维。因而机器翻译常用于以事实描述和信息传递为目的的程式化文本。这些文本实用性较强,较少涉及情感和文化背景。而表现型文本侧重于情感表达和主观想象,语义表达具有不稳定性和模糊性。在翻译表现性文本时,机器翻译只能译出大意,缺乏“人味”。如:
例3:I was all the more delighted when,as a result of the initiative of your government,it proved possible to reinstate the visit so quickly.[7]54
谷歌翻译:由于贵国政府的主动行动,事实证明能够如此迅速地恢复访问,我感到非常高兴。
人工翻译:由于贵国的提议,我才得以这样快速地重新实现访问。这让我感到特别高兴。
谷歌的翻译,就意义而言并无大碍。但是比起人工翻译而言,前者缺乏一种人情味道,如“主动行动”“恢复访问”,是一种地地道道的机器语言,比起人工翻译的“提议”“实现访问”,显得语气僵硬。
机器的优势不仅体现在效率层面,还体现在文本的全译方面,弥补了人工翻译可能会出现的遗漏等问题。但正是这种“原文有什么,就翻译什么”的模式也暴露了其局限性,因为很难兼顾文本的深层意义。如:
例4:许多人说:人稠的地方没有土地[8]48。
谷歌翻译:Many people say:There is no land in crowded places.
百度翻译:Many people say that there is no land where people are thick.
人工译文:Many people claim that there is no spare land in the densely populated areas.[9]48
原文所谓的“没有土地”是一种表层意义,其深层意义为没有“多余的土地”。无论是谷歌翻译还是百度翻译,都将其译为了“no land”,人工翻译通过添“spare”一词,使得译文更加准确。可见,在文本的深层理解方面,机器翻译还存在欠缺。也就是说,机器翻译的理性思维仍然处于低水平阶段。
总而言之,无论机器翻译如何学习,也只是一种技术性的进步。而翻译是集技术与艺术为一身的复杂的交际行为。技术可以学习,它是属于大众的。而艺术强调的是独创性和个性化,它是属于个人的,是无法被模仿的。从这个意义上来讲,机器翻译永远无法取代翻译的艺术维度。
3 几点思考
机器翻译的发展方兴未艾,其应用市场日趋广泛,也为普通大众带来了实实在在的便利。但是其存在的局限性也是显而易见的。那么,应如何理性地看待机器翻译呢?笔者尝试从翻译的工具性、翻译的人文性和翻译的生态分布三个方面进行前瞻性思考。
3.1 翻译的工具性
就翻译的功能而言,我国外语界存在工具论与人文论的分野[9]62。工具论者强调非文学作品翻译的社会功能。而机器翻译技术的优势则表现在非文学作品的翻译上,甚至可以说强化了翻译的工具性。这可以从符号学的角度进行阐释。
符号学把符号分为两大类,一类是所指优势符号,另一类是能指优势符号。大部分科学的、理性的符号都属于所指优势符号,这种文类注重的是文本的信息性,如法律文书、学术论文、科普作品等,它们以达意为旨归,属于所指优势符号,或者说是一种规约性符号,即这种文本的语言其意义是相对固定的,拒绝模糊性和歧义性。机器翻译所擅长的正是非文学作品的翻译。因为这类作品属于规约性符号,语意较为固定,便于机器学习。质言之,机器翻译所擅长的是规约性语言之间的转化。因为这类语言之间的类似性和差异性是可以分析的,因而是可以学习的。也就是说,在语言层面,规约性程度越高的文本,机器翻译发挥的作用就越大,如理工方面的文献作品。这种类型的文本以说理为根本,不容语言歧义或多义的产生,语言的规约性较高。因此可以预见,随着翻译技术的进一步提升,语料库的进一步扩充,机器翻译对规约性较高的文献的应对能力也会日益增强。至于哲学社科,虽然以规约性语言为主,但是也会夹杂其他文体,以及个人风格,因此语言的模糊性、多义性也会逐渐增强。对于这一部分语言的翻译,仍然需要人工介入。
另外需要指出的是,传统意义上的翻译指的是不带格式的纯文字转化,这种观念在信息化时代下已经显得不合时宜。随着数字化时代的到来,翻译的对象和内容都发生了根本性变化,涉及产品手册、网站、软件、电子资料等诸多超文本形态。在文本转换的同时,还涉及排版格式、界面模式等方面的要求。这些问题体现了翻译的工具属性,同时也说明了人工介入的必要性。
3.2 翻译的人文性
机器翻译技术的日益提升使得某些业界人士认为机器翻译取代人工翻译指日可待。这其实夸大了翻译的工具性,忽视它的人文性。这种人文性是机器翻译无法取代、也永远不可能取代的。
翻译的人文性主要体现在文学作品类型的翻译上。按照符号学的划分,文学作品之类的文本类型其语言属于能指优势符号。文学语言在本质上是反常规的。常规语言只能作为一种背景,用来衬托文学语言的艺术化扭曲,而这种扭曲的语言就在这个背景上被前推出来。文学语言的反常规性表现的是作者或人物的情感世界。文学作品借助各种诗学手段,延长了人们的认知过程,因此其语言具有模糊性、多义性、美学性等特点。如古诗词“菡萏香销翠叶寒,西风愁起绿波间”,这里的“菡萏”就是今天所谓的“荷花”,但是如果将原诗中的“菡萏”改为“荷花”,原诗意境则大减,因为“菡萏”不仅寓意古雅,还构成叠韵词。但是转化为英文时,不论是“菡萏”,还是“荷花”,机器翻译均会将其译为“lotus”,缺少一种人文关怀。因此,文学作品的翻译从根本上讲是一种情感移植。这种情感的移植,需要译者的灵感和顿悟,以及丰富的社会经历与人生阅历。如果译者的此种能力得不到充分的锻炼,译文必将生硬乏味,没有美感可言。过分依赖翻译技术会造成人的思维模式化、单一化、机械化的不良倾向[10]。人工翻译一方面避免了机器译文对自然语言的侵蚀,另一方面有利于译者主体性的发挥,创造出丰富多样的语言表达形式,使得生活富有灵性、美感和生命力。
3.3 翻译的生态分布
机器翻译技术的迅速发展引发了翻译产业的变革,导致了翻译人才的分流。从目前的趋势来开,翻译行业的人员结构正朝向多元化发展。机器翻译、专业译者、普通译者、译前/译后编辑者等将占据翻译市场上不同的生态位置,进行错位竞争,彼此之间保持着一种动态的平衡。
对译文质量要求较低的文本如邮件、微信、网页、新闻、信息检索等,可以由机器翻译完成。这种文本类型占据主要的大众市场,其译文仅供参考,对精确度的要求较低。因此,采用机器翻译可以降低成本,提高效率。新闻、经贸、产品说明书、用户界面等常规级文本,其译文质量要求适中,可以采用人机结合的形式。而专业内容较强的文本,如法律文书、医学专著、政治文献等,以及需要高度创造力的文本,如文学、艺术、哲学等人文学科,仍然需要高端的专业译者才能完成。译后编辑也是机器翻译催生的一种新生产物。机器翻译完后,在对文本进行各种修订即译后编辑,使之具有较高的可读性。其实,无论何种文本的机器翻译,如要达到精确的目的,都需要不同程度的人工介入,只是介入的程度不同而已。有时译后编辑也充当译前编辑的角色,对待译文本进行预先处理,使之符合机器翻译的运行原理,尽量减少不必要的低级问题。此外,众包翻译模式下大众化译者的出现也是互联网时代下催生的一种现象,参与其中的大都是对翻译感兴趣的普通译者。他们借助互联网上的各种平台如译言网、果壳网、东西网、虎扑王登,以志愿的形式参与各种翻译任务中。涉及的翻译内容主要包括社交、新闻、娱乐、文化等。大众译者把译文分享给更多的读者,方便了大众读者的各种信息需求或交流需求。
4 结 语
随着技术的进一步完善,机器翻译必将能够更好地服务于人类,但不能因此过于强调机器翻译的功能。翻译是一种集工具性与人文性为一体的社会实践行为。机器翻译凸显了翻译的工具性,其人文性的一面只能由人工来完成。机器翻译的飞速发展引发了翻译行业的变革,导致从业人员的分流。机器翻译、不同层级的译者与译后编辑占据了不同的市场位置,他们彼此之间保持一种动态的生态平衡。而机器翻译由于技术的不断进步也必将发挥着越来越重要的基础作用。可以预见,在信息化日益发达的未来,这种生态关系将更趋明朗。