“遭遇”第四范式的浪潮：大数据时代的翻译研究∗

2018-11-28肖开容

外语学刊 2018年2期

肖开容

（广东外语外贸大学，广州510420；西南大学，重庆400715）

提要：大数据带动科学研究第四范式的出现，引发科学思维的深刻变革。同样，大数据驱动的翻译及翻译研究也会发生翻译思维的转变，出现相关性翻译、基于全部数据的概率度翻译以及对不同精确度翻译的区别性容忍。大数据和新技术催生新的翻译现象，产生新的研究领域。对此，翻译研究有必要更新学科体系、重新界定核心概念、采用新的研究方法，有效应对大数据和新技术驱动的多元化翻译新形态。

1 引言

上世纪80年代，著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中指出，人类社会如今正进入信息化社会。进入21世纪，大数据逐渐引起各界关注。2001年，美国高德纳公司的分析师道格拉斯·兰尼（D.Laney）对大数据的特征作出界定。2010年以来，大数据得到迅速发展。据IDC公司统计，2011年全球被创建和复制的数据总量为1.8ZB（1021），远远超过人类有史以来所有印刷材料的数据总量（200PB）（李国杰 2012：8）。有专家预测，到2020年全球数据量较2010年将增加43倍，达到35ZB（钱志新 2013：1）。

大数据掀起的浪潮影响深远。美国政府2012年3月宣布投入巨资启动“大数据研究和发展计划”，著名电商阿里巴巴集团将大数据作为三大战略之一。奥莱利（O'Reilly）更出惊言，声称“数据是下一个‘Intel inside’”，未来属于将数据转换成产品的公司和人们”（李国杰2012：8）。大数据同时引发科学研究范式的变革。2007年，图灵奖获得者、微软研究院高级研究员吉姆·格雷（J.Gray）在他人生最后一次演讲中提出科学研究的“第四范式”，即基于数据密集型计算的科学研究范式（Hey et al.2012），这是继计算科学时代的模拟研究范式以来的又一次科学研究范式革命，意味着科学思维的深刻变革。

翻译以及翻译研究与大数据浪潮的相遇不可避免，而且基于大数据的翻译正在引发新的翻译热潮，重新点燃人们对机器翻译以及与技术相结合、以数据为基础的新型翻译模式的希望。谷歌、百度、必应和有道等公司颠覆机器翻译基于规则的传统模式，采用基于大规模平行语料的统计机器翻译，推出在线、移动端翻译服务，受到普通用户热捧。据悉，谷歌翻译提供浏览器、网页、移动端3个平台，支持103种语言，拥有五亿多用户，每天翻译量超过1000亿单词。2015年1月后陆续推出手机语音即时翻译、拍摄翻译和点击翻译等多种形态的翻译。百度翻译于2011年推出在线服务，2013年又推出手机端服务，2016年1月获得2015年国家科技进步二等奖，“通过开放应用程序编程接口（API），为华为、金山、OPPO、敦煌网等上万家第三方翻译应用提供支持”（张慧玉冯全功2016）。

那么，在以大数据为背景的第四范式时代，翻译思维将发生怎样的变化，翻译领域将出现哪些新现象，翻译研究应采取何种理论思考，应着力解决哪些问题，以顺应大数据和新技术进步的趋势。本文拟参照科学范式的本体论、认识论和方法论维度，对翻译研究的对象、理论思维和研究方法做一些尝试性探索和思考。

2 科学研究第四范式与翻译新思维

2.1 科学范式演化与第四范式

托马斯·库恩在《科学革命的结构》（1962）中将“范式”定义为：某一学科领域的科学家共同体共同遵从的世界观和行为方式。科学演化遵循范式转化的基本模式：前范式科学（无范式）—常规科学（建立范式）—科学革命（范式动摇）—新常规科学（建立新范式）（库恩2003）。科学发展内在规律以及外部条件推动的共同作用，就会引发科学范式的演化。格雷指出，人类的科学研究共有4种范式，即：经验科学时代的经验范式、理论科学时代的理论范式、计算科学时代的模拟范式以及大数据科学时代的第四范式（Hey et al.2012：x）。经验科学范式以描述经验事实为主，较少做理论概括。理论科学范式以理论概括、演绎推理构建科学定律和原理。计算科学的模拟范式通过模型建构、定量分析和计算分析，借助计算机的模拟获取研究发现。

如今，在大数据时代，科学研究面临4大挑战，即大数据的挑战，信息技术发展的挑战，科学研究过程的挑战以及科学数据管理贡献的挑战（邓仲华李志芳2013：20－21）。在这些挑战下，信息技术与科学家相遇，催生eScience，通过各种技术手段以及互联网收集的大规模数据，使科学家们能够直接从密集型数据中了解事物之间的相关性，得出科学发现，这便是格雷所说的第四范式。在这一范式下，数据不仅是研究的结果、手段和工具，更是研究的对象，研究者从对数据的研究中得出知识发现。

2.2 第四范式下的科学思维

大数据的基本特点是“大”，兰尼提出大数据的3V 特征，即体量（volume）、类型（variety）和处理速度（velocity）（Laney 2001）。后来，人们又提出另外的3V加1C，即价值（value）、变化性（varia⁃bility）、准确性（veracity）和处理与分析难度（com⁃plexity）（何小朝2014）。以大数据为基础的第四范式研究呈现出与以往研究截然不同的科学思维，体现出3种转变。

2.21 从因果关系到相关性的转变

传统的逻辑推理研究重在寻找因果关系，而大数据研究是对大数据做统计性搜索、比较、聚类和分类，寻找两个或两个以上变量取值之间存在的某种规律。上世纪90年代，美国沃尔玛超市发现啤酒与尿布经常同时出现在消费者购物篮里，于是将这两种商品放在同一个区域，大大提升了啤酒的销量。这就是通过数据统计分析寻找相关性的成功案例。严格来讲，统计学方法无法、也不旨在检验逻辑上的因果关系，但是通过大规模数据分析，往往能找到看似不相关变量之间的相关性，得出有实际效果的研究发现。

2.22 从随机样本到全部数据的转变

维克托·迈尔－舍恩伯格在其著作《大数据时代》中指出，基于有限数据的随机抽样考察因便捷而深受青睐，但存在明显缺陷。一方面，取样的随机性很难控制，难以避免偏见导致的误差。另一方面，随机采样不适合考察子类别情况。当需要了解更深层次的细分领域时，随机采样方法就不可取。如今，大数据技术的发展使得全部数据模式和总体样本考察成为可能。采样的目的是用最少的数据得到最多的信息，当可以获得海量数据并加以分析的时候，随机采样方法就失去意义，全部数据成为考察的对象，因而可能得出更为直接的发现。

2.23 从精确性到混杂性的转变

基于相对少量却更具准确度的数据，可以在有限范围内得出有一定质量的结果，但是其适用范围也相对有限。大数据本身的构成来源复杂决定其混杂性特征。目前，基于全部数据的统计分析已经带来一些成效，包括以谷歌翻译为代表的统计机器翻译取得的进展，但是面对包含大量冗余信息的大数据，第四范式下的科学活动面临巨大挑战。李国杰指出，基于大数据的研究，重要的不仅是如何获取越来越多的数据，更重要的是，如何对数据去冗分类、去粗取精，从数据中挖掘知识（李国杰2012：14）。以前的研究一直追求从薄到厚，把小数据变成大数据，现在要做的是从厚到薄，把大数据变成小数据。

2.3 第四范式下的翻译新思维

参照第四范式的思维方式转变，以大数据为基础的翻译体现出3种翻译新思维，即相关性翻译理念、基于全部数据的概率度翻译和对不同精确度翻译的区别性容忍。

2.31 相关性翻译理念

这里的相关性翻译指基于数据的统计相关性（data⁃based statistical correlation）（褚东伟 2010：51）。古今中外，有关译文与原文关系的讨论总是围绕着语言与意义的关系展开。不管是“词对词”与“意义对意义”翻译的对立，“直译”与“意译”的争锋，还是各种不同“对等”的界定（如形式对等、动态对等、功能对等、文体对等和语用对等等），“归化”与“异化”的对立，以及“语义翻译”与“交际翻译”的差异，无一不是基于这样一个基本假设，即任何不同语言的表达之间总是存在着以共同的意义为基础的对应关系，这是联系原文与译文的必然纽带。只不过语言表达方式和手段的差异，以及语言模糊性的限制，导致同一个源语文本的不同译本之间也很难实现同一性（same⁃ness），更遑论处于不同语言中的译文与原文之间（Bassnett 1980／1991： 36）。所以，对等掩盖原文与译文之间的真实关系。从大数据思维来看，原文与译文之间是以意义或信息为基础的对应关系。

在传统的人工翻译中，译者借助语言知识和百科知识，基于对意义的理解，结合语境和翻译目的，从诸对对立元中选择偏向某一方面的译文表达，实现多样关联中的一种，通过理性判断实现原文与译文的对应相关性。而在大数据时代，只要有理想规模的双语平行语料供检索，人工翻译至少可以减少相当比例的理性思考，从数据库中直接查找到具有相关性的对应表达，既可减少译者查找资料的时间，也会找到更准确的翻译，特别是固定表达、专有名词、专业术语，这便是计算机辅助翻译工具的基本原理。

统计机器翻译充分利用这一原理，避免基于规则的机器翻译系统在原文分析和译文表达方面难以解决的复杂性弊端（Quah 2006：77）。以谷歌翻译为例，计算机通过对大量平行语料进行统计分析，构建翻译模型，进而使用此模型进行翻译。在这一翻译过程中，语言表达的相关性发挥十分重要的作用。据Softky（2007）介绍，谷歌拥有大量匹配好的翻译平行文本（特别是联合国文件）及单一语种文本。

2.32 基于全部数据的概率度翻译

应该说，基于随机样本的模式并不适用于翻译这项语言活动，因为翻译选择是从所有可用数据中查询并选择具有最高相关度的语言表达。在缺乏电子资源的人工翻译时代，译者获取已具对应关系的表达，要么依靠大脑记忆，要么从词典或百科全书等纸质资料中查询，而纸质资料的有限性严重制约翻译的质量和速度。另外，纸质资料受制于编者掌握对应表达的数量或准确度。于是便出现译者因使用的工具书不完整而难以译出某个术语，或因工具书错误而造成译文表达错误。

在理想规模的大数据中，由于语料足够大，译者可快速搜索到所有具有相关性的对应表达，然后再结合语境，选择其中相关概率最高的译文表达。机器翻译也同理，只不过对译文表达的选择依靠的是统计算法得出的最高相关概率度。概率算法公式为：P（T／S）＝［P（T） x p（T／S）］／P（S），其中，S代表原文，T代表多个具有相关性的译文表达，P代表概率度（Quah 2006：78）。基于概率算法的机器翻译在消歧方面有时也有不错表现。比如，在谷歌翻译中输入中文“中国总理李克强与新加坡总理在夏季达沃斯会面时强调，加强两国外交领域合作”，就会得到英语译文：Chinese Premier Li Keqiang and Prime Minister of Singapore in the summer Davos meeting emphasized strengthe⁃ning diplomatic cooperation.原文的“中国总理”和“新加坡总理”分别处理成Chinese Premier和the Prime Minister of Singapore.

当然，基于全部数据的翻译会受制于语料的规模与质量，数据库的规模毕竟是相对的，而且数据库的质量又受制于数据来源等多种因素的影响。不管是基于翻译记忆的计算机辅助翻译，还是基于平行语料库的统计机器翻译，产出的译文质量都会随着数据规模的增加和质量的提高而提升。因此，扩充数据规模和提升数据质量成为大数据时代翻译发展的必然要求。

2.33 对不同精确度译文的区别性容忍

有关判断译文质量的翻译标准，尽管不同的流派有不同的表述，但总是少不了“忠实”与“通顺”这两个基本要求。然而，在大数据背景下，翻译的实用需求呈现多元化特点。大数据时代的基本特征是“广泛而深入的数字化”以及整个人类社会范围内“数据的互联互通”，在这一趋势下，如何实现跨语言信息联通成为首要任务（何小朝2014：11）。张春良在环球网上发表的题为“机器翻译会不会成为下一波产业浪潮”的文章称：“我们正在以前所未有的速度从单语世界（国内）转向多语世界（国际化）。小到出国旅游翻译或者技术资料翻译，大到基于互联网的在线电商、外贸活动、金融等服务的国际化市场推广，一个无法避免的痛点在于面临多语种语言翻译问题”（张春良2015）。应该说，人工翻译很难完全满足这些海量而又高效率的跨语言信息交流需求，最快捷、最方便、最低成本的翻译方式便是通过机器翻译技术提供智能自动翻译。在这些情景下，人们对跨语言信息交流的首要需求是快速、方便、海量和低成本，而不是高精确度。因此，在大数据背景下，翻译需求的多元化催生不同精确度的翻译需求，要求我们区别性容忍，基于不同的用户需求提供差异化的译文服务。

3 翻译研究的新对象与新领域

如果以大数据的出现为界限，在此之前的翻译研究对象大体可以划分为人工翻译和翻译技术。前者占据翻译研究的主流阵地，后者在Holmes勾画的“翻译学”图谱中属于“应用翻译研究”下面的“翻译工具”，仅为译员培训和翻译实务提供服务（Holmes 1988／2000：181 －182）。翻译技术和机器翻译的发展由于未能取得预期的效果，从20世纪60年代到90年代陷入低谷（So⁃mers 2008：143）。但是，新技术的发展让该领域的翻译呈现新的活跃态势，出现多元化翻译形态，形成翻译研究的新对象，也产生许多新的研究领域。

3.1 多元化的翻译形态

从技术角度出发，Hutchins和Somers（1992：148）归纳出4种翻译形态：机器翻译、人助机译、机助人译和人工翻译。这种4分法已经很难描绘如今纷繁复杂的翻译形态。机器翻译方面，除传统的机器翻译系统外，目前还有在线翻译、网页翻译、社交平台翻译和移动设备上的翻译等形式。

在线翻译大都是统计机器翻译。著名的在线翻译服务包括谷歌翻译、百度翻译和必应翻译等，提供所支持的任意两种语言之间的字词、句子和短小篇章的翻译。目前谷歌翻译影响最大，支持90种语言，每天翻译次数达10亿次，翻译处理的文字相当于一百万册图书（张春良2015）。

网页翻译一般都以在线翻译系统为基础，如谷歌的Chrome浏览器可自动将网页翻译为某种主要语言，百度翻译和有道翻译则可直接输入网址实现翻译。一些商业网站利用翻译为客户提供更好的服务，著名的酒店预订网站“缤客”（boo⁃king.com）提供42种语言版本的选择。此外，为电子商务平台提供服务的网页翻译也已出现。科技博客网站TechCrunch报道，eBay在2013年开拓俄罗斯市场的时候已经尝试机器翻译。俄罗斯用户输入俄语搜索关键字，也能返回与关键字匹配、用英语描述的商品。阿里巴巴研发出英语与俄语、英语与葡萄牙语之间的多套机器翻译系统。

社交平台翻译主要是各种网络社交媒体上提供的翻译，如Facebook，Twitter和微信等利用必应、谷歌、百度等在线翻译的API功能进行二次开发，为用户提供翻译服务。很多电子邮件服务也提供翻译功能，如Gmail设置140种语言的切换。

移动设备上的翻译主要是手机翻译应用软件。谷歌、百度等都开发手机端翻译软件，可实现离线翻译、语音和实时翻译、跨软件翻译、拍照翻译和点击翻译等。比如拍照翻译，用户可利用手机摄像头实现实物翻译、涂抹翻译、取词翻译、整屏翻译和菜单翻译等。另外，视频通话平台Skype Translator推出实时跨语言通话服务，目前支持汉语、英语、法语、德语、意大利语、葡萄牙语和西班牙语7种语言的对话翻译和五十余种语言间的信息翻译。

在翻译技术和翻译应用不断发展的过程中，人机互助翻译模式也进一步突显。一方面是机助人译。利用翻译记忆的计算机辅助翻译目前已成为专业译者不可或缺的工具，机助人译已成常态。另一方面是人助机译。为不断提高译文质量，许多在线机器翻译增加“修改建议”功能，用户可对机译结果进行修改，并自动存入语料库。一些非在线机器翻译系统也都在通过让人参与机译过程来解决机器在自然语言理解和表达方面的弊端，包括译前编辑（pre⁃editing）、译后编辑（post⁃edi⁃ting）和人机互动翻译等（Quah 2006：57 －92）。很多计算机辅助翻译软件都有内置或外接的机器翻译功能，可实现CAT＋MT＋PE工作模式（王华树 2015：135）。

3.2 翻译研究的新领域

大数据时代的翻译现象和翻译形态势必极大地拓展翻译研究的领域。目前看来，在现有研究分支基础上，至少在以下几大领域有待突破：数据技术研究、译文评测研究、多模态翻译研究和翻译应用研究等。

3.21 数据技术研究

大数据驱动的人工与机器翻译首先依赖的是语料。语料的数量、类型和质量决定译文的质量。因而，翻译研究的一个重要挑战便是采用恰当的技术手段，以人工翻译的双语平行语料、高质量的单语语料为来源，获取和构建大规模可用的书面语、口语语料。同时，制定规范、适用的数据格式标准、构建数据资源共享模式和平台，实现资源的开放共享。开发适用于翻译功能的数据挖掘技术，为翻译获取有用适切数据提供技术支持。

3.22 译文评测研究

在翻译形态呈现多元化的背景下，人工翻译并不是译文产生的唯一方式，由机器翻译衍生出的新形态翻译，并不符合传统的译文评价标准，但是却在发挥着人工翻译无法取代的作用。那么到底何种译文能够满足哪些用户在什么情况下的使用，如何对机器翻译及其衍生翻译作出评测，这是译文评测研究需要解决的问题，未来的目标是“采用合理的自动评价准则应用于翻译评测活动，同时引入高效的人工翻译方式，以评测促进机器翻译的研究与应用”（杜金华等2013：8）。

3.23 多模态翻译研究

在移动计算和大数据时代，随着智能设备的进一步发展，翻译愈加呈现多模态趋势。翻译研究的一个重要拓展是，结合先进的移动和多媒体设备，开发语音翻译、视频翻译、文字—语音—视频相结合的多维翻译，其中语音识别、口语翻译、语音合成和视频转换等是关键技术。口译资源的构建与深度处理是需要攻克的另一大难题。另外，也有一些研究者从事动物语言与人类语言、人类肢体语言与自然语言之间的翻译，大大拓展翻译的应用领域。

3.24 翻译应用研究

如今的翻译正以空前的节奏进入生产和生活，其中的关键是如何将翻译研究成果、特别是基于大数据的机器翻译研究成果转化为实际应用，包括专门领域的行业应用和日常生活应用。行业应用涉及几乎所有需要实现跨语言信息交换的行业，日常生活应用包括涉及吃住行等各方面活动的翻译应用，如电子商务翻译、旅游翻译、信息浏览与检索翻译和餐饮翻译等。

4 翻译研究的新思考

在大数据时代，基于大规模语料，借助于各种新技术，翻译活动正在经历剧烈变革，机器翻译及其衍生品日新月异，翻译手段和方式不断更新，翻译形态呈多元化趋势，快捷、方便、低成本的翻译服务已经进入人们的日常生活，引发翻译思维的深刻变化，催生翻译研究在理论体系、核心概念和研究方法等方面的思考。

4.1 翻译研究体系的重新规划

Holmes（1988／2000）勾画的翻译学结构图，在当时条件下，为翻译学科体系做出清晰的规划。不过，在大数据背景下，翻译形态愈加多元化，许多新模式、新现象、新技术和新设备不断出现，翻译的应用性不断增强，翻译研究的多学科、跨学科性质愈加突出，研究领域和阵地不断扩大，越来越多的学科进入翻译研究领域，引发一些学者关于翻译学科体系稳定性的隐忧（Mundy 2009：12），使得翻译学科体系的重新规划成为必须。

翻译研究需要关注翻译新现象，涵盖更多内容，将人工翻译、机器翻译、人机互助翻译以及多模态智能终端的各种翻译纳入考察，对各种形态的翻译提出指导性理论模式，促进新形态翻译的进一步发展。结合实际翻译活动对翻译过程做出新的描述，将机器翻译中人的参与和人工翻译中机器的参与纳入翻译过程模式。描述翻译研究要关注机助人译、人助机译、人机互助模式产生的译文及其效果和影响，以及所引发的人类沟通方式变革。应用翻译研究领域发生的变化最为突出，已有学者（如Quah 2006：42）对该分支进行重新描述，特别对翻译技术领域研究做出细化，但是最近10年是翻译技术飞速发展时期，出现许多新的现象，应用翻译研究分支也有必要进行重新规划。

4.2 传统翻译概念的重新界定

以上所述翻译新形态和新现象，以及大数据背景下的翻译新思维，对部分传统翻译概念提出挑战，须要作出重新界定，下面试举两例加以说明。

一是翻译标准问题。传统的翻译标准主要针对人工翻译，特别是文学、文化类具有较高文学艺术价值和文化传承价值的译文，或者实际应用领域对文本有较高要求的译文。但是如今的翻译需求日渐多元化，翻译服务更加行业化、生活化，因此有必要针对不同需求提出多元化的翻译标准，让不同类型、具有不同精确度的翻译发挥不同的作用。针对机器翻译，建立行业评测标准，形成机器自动评测、人机互助评测与人工评测相结合的翻译评测体系。

二是对等问题。可以说，翻译学的发展历史始终围绕原文与译文关系这一主线，出现无数种类型的对等。但是，上述一些新的翻译现象引发我们思考：对等还是原文与译文之间的真实关系吗？是一切翻译的内在属性吗？以大数据为基础的翻译引发翻译思维方式的变革，原文与译文的关系属性从“对等”变为“相关性对应”更为合理，或者可以中性化地界定为“相关性对等”，以消解“对等”概念对多种翻译形态的制约。

4.3 翻译研究方法的更新

技术进步正在主导翻译学研究方法的不断更新。研究方法的更新在翻译认知过程研究方面已有显著发展，呈现出研究工具革新、跨学科性深入、研究规模扩大的趋势。在此背景下，一方面，翻译学研究要从其他学科，特别是大数据工程、计算机与信息科学、认知科学等与大数据驱动的翻译研究密切相关的领域吸收借鉴技术手段和研究方法，构建符合翻译学研究需要的方法论体系。另一方面，要对新的技术手段和方法开展方法论研究，考察其有效性和可靠性，构建大数据时代翻译研究方法评估和比照模式，对不同研究对象与目标的翻译研究设计做出方法论指导。

5 结束语

总之，大数据时代的到来及其引发的科学范式转变带动翻译形态和翻译模式的深刻变化。对于这些变化，乐观主义者高估技术的作用，鼓吹“机器翻译有望消除语言之间的界限，实现巴别塔的重建”。悲观主义者则表现出对机器翻译及其衍生品的隐忧，担心人工翻译被机器取代，或者因译文准确性不足而唱衰其实用价值。我们认为，科学第四范式不仅是新的研究范式，更是新的思维方式。在这一浪潮中，翻译研究须要转变思维方式，正视翻译领域出现的新现象、新手段和新模式，更新理论观念和研究方法，对新范式下的各种问题作出理性思考，充分利用大数据及相关技术的优势，真正让大数据成为翻译以及翻译研究的“金矿”。