翻译汉语语言特征研究综述

2017-01-17朱一凡

当代外语研究 2016年6期

关键词：原创代词语料

朱一凡

(上海交通大学，上海，200240)

翻译汉语语言特征研究综述

朱一凡

(上海交通大学，上海，200240)

近十几年来基于语料库的汉译语言特征研究取得了相当大的进展，在词汇、句法的研究上都有丰富的成果，这有助于我们更全面、准确地认识翻译汉语所具有的特点。然而，目前的研究也存在一些缺陷: (1)数据多、语言实例少;(2)数据的罗列多于解释;(3)偏重于文学语料;(4)共时的研究多、历时的研究少; (5)热点问题的重复研究多，开创性的研究少。

翻译汉语，语料库，语言特征

1.引言

对翻译文本的阅读，如今已占了现代人日常阅读相当大的一部分，翻译汉语尽管以汉文字为载体，但其语言的使用明显区别于原创汉语的特征，是现代汉语的翻译语言变体。尽管以汉语为母语的读者在阅读中能够直觉地感受到这种变体与原创语言的区别，但要明确描述这些区别的特征却并非易事。在计算机和大规模语料库出现之前，对翻译汉语的研究多是印象式、点评式的，凭借的往往是研究者超凡的语言感知能力，例子多靠研究者日积月累加以收集，数量也只局限于少数几个。自Baker(1993)具有奠基性的文章Corpus Linguistics andTranslationStudies:Implications and Applications发表以来，语料库方法在翻译研究中的运用为翻译研究开辟了新天地，其中一个重要的研究内容就对翻译语言特征的研究，即翻译文本有哪些不同于源语文本的典型语言特征。基于语料库的翻译语言特征的研究在国外开始于20世纪90年代，代表人物有Sara Laviosa(1998)、Mona Baker(2001)和Maeve Olohan(2003)等，研究目标多为西欧语言。自 2001年北京外国语大学创建GCEPC(General Chinese－English Parallel Corpus)以来，国内陆续涌现出可用于翻译语言研究的多个大型语料库，其中具有一定规模且可用于翻译汉语研究的有浙江大学的汉语译文平衡语料库ZCTC(ZJU Corpus of Translational Chinese)、上海交通大学的莎剧英汉平行语料库ECPCSP(English－Chinese ParallelCorpus of Shakespeare＇s Plays)等，研究的方法是与具有可比性的原创语料库进行比较，以观察翻译汉语具有哪些不同于原创汉语的特征。目前已有的汉译语言特征的研究主要涵盖三个方面:(1)翻译汉语的词汇特征;(2)句法结构特征;(3)搭配及语义韵特征。

2.翻译汉语词汇特征研究

对翻译汉语词汇特征的研究开始最早，相关的论著也较为丰富。研究的路径主要有三种:(1)标准化类符/形符比、词汇密度与词长;(2)关键词表; (3)具体词类研究。这三类研究途径都充分体现了语料库的统计和搜索优势，用传统研究手段是不可能实现的。

2.1 标准化类符/形符比、词汇密度与词长

对标准化类符/形符比、词汇密度和词长的计算是常用的统计手段，标准化类符/形符比(Standardized Type/Token Ratio，简称STTR)是类符(type)和形符(token)的标准化比率，是Scott(2004: 27－42)在原来类符/形符比(Type/Token Ratio，简称TTR)的基础上提出来的，可以弥补TTR受库容大小影响的缺憾。类符指文本中一共出现了多少种词，形符指文本中词的总数，标准化类符/形符比能够反映文本中词汇的丰富程度。词汇密度的概念最早是由Ure(1971)提出的，他认为词汇密度可以用实词数除以词汇总数进行计算，即词汇密度=实词数÷词汇总数×100%。Stubbs(1986)则将其定义为实义词与总词数之比，并认为该比值可以衡量篇章的信息量，英语的实义词(lexical word或content word)指具有稳定词义的词语，包括名词、动词、形容词和副词等词类，与之相对的是功能词(functional word)，包括介词、连词、冠词、助动词等，然而需要注意的是这一划分方法在汉语中会出现问题，因为汉语中词语兼类的现象相当普遍。杨惠中(2002:168)提出了另一种词汇密度的计算方法:不同词语数÷总词数× 100%;此外，用实词总数除以虚词总数求得百分比也是目前常用的一种词汇密度的计算方法。词汇密度在一定程度上能够反映词汇的变化以及文本的信息密度。词长统计的是文本中各种长度词的频数，WordSmith有此功能，亦可计算平均词长，平均词长在一定程度上可体现文本的正式程度，越正式的文本往往平均词长越长，越接近口语化的文本平均词长也会趋于下降。平均词长对英语文本就更有统计意义，由于现代汉语文本以双音节词为主，词长这一统计数据往往说明不了什么问题。

此类研究最具代表性的当属王克非和胡显耀(2008)、Xiao(2010)、肖忠华和戴光荣(2010)的研究。王克非和胡显耀(2008)的研究运用了北京外国语大学研制的“通用汉英对应语料库”，主要分文学和非文学两类文本，研究表明文学类翻译汉语相比文学类原创汉语类符形符比和词汇密度都较低，说明文学类翻译汉语的词语变化度较低;此外，文学类翻译汉语的各种虚词频率和代词频率均高于原创汉语，且常用词数量更少而频率更高。而非文学翻译汉语与同类原创汉语语料相比，也出现了词汇密度降低和虚词代词增多的趋势，只是差别不及文学类明显。

肖忠华和戴光荣的研究运用浙江大学的汉语译文语料库ZCTC(ZJU Corpus of Translational Chinese)与兰卡斯特汉语语料库LCMC(Lancaster Corpus of Mandarin Chinese)两个多文体平衡语料库进行对比，发现翻译汉语所有文体的词汇密度(即实义词占总词数的比例)都远低于汉语母语文本，尤其是报告和公文、武侠传奇小说、幽默几类文体(科幻小说相差不大)。但从标准型次比角度来看，词汇密度差异并不明显。他们的研究还发现，汉语译文中实义词与功能词之比相比原创汉语更低，即相对于功能词来说，实义词比例偏低，翻译汉语还呈现高频词比例偏高，常用词重复率偏高等特征。

以上两个研究尽管运用了不同的语料，但就翻译汉语的用词特点方面得出了相似的结论，这有助于我们对翻译汉语用词的特点有一个宏观的了解，并将对后续的微观研究有所启发。但需要注意的是，标准化类符/形符比、词汇密度和词长研究的研究只是从统计学角度让我们确信翻译文体是确确实实存在的，却无法展现翻译文本在微观层面的特征，微观层面的研究还需深入文本内部，考察具体字词的使用。

2.2 关键词表

关键词(Keyword)分析是语料库语言学中重要的分析手段，WordSmith和AntConc都提供该关键词分析功能，把翻译汉语库的词频信息(Wordlist)与可比的原创汉语库的词频信息进行比较，可以得出关键词表，既包括正关键词(表示使用频率偏高)也包括负关键词(表示使用频率偏低)。关键词表可以反映翻译汉语与原创汉语在词汇使用频率方面的差异。

秦洪武和王克非(2009)最早开展了此方面的研究，他们运用WordSmith的关键词功能研究了北京外国语大学通用中英对应语料库中翻译文本和原创文本在词汇使用上的差异。研究表明，翻译汉语高频使用的单音节词较原创文本少，原创汉语中单音节动词如凑、搁、甭、傍、嚷、嫌、吵、捧、混、怔，单音节形容词如脆、高、贵、好、红、厚、慌、紧、老、俏、小、饱、苦等的频率要远远高于翻译汉语;翻译汉语较原创汉语更高频地使用第一、第三人称代词和指示代词，其中包括她、他、他们、它、它们、我、我们、那、那儿、那个、那时、那种、这个、这时、这种、这样、其他、另、别的、任何、每个、一切等;此外，翻译汉语还更高频使用方位词和连词，如以前、之前、之间、不过、但等。在词语的组合上，他们发现翻译汉语过度使用某些语素，如“－性”、“－度”等;且受源语某些典型译法的影响，出现了一些固定的表达形式，如“随着时间的推移”和“是(不)可能(的)”。他们在结论中还特别指出，翻译语言可能使用原创文本不常用的词或多词组合形式，因此不能简单认为原创文本在词汇运用上不如目的语文本丰富，这一点也值得进一步思考。

Xiao和Dai(2014)通过与参照语料库LCMC的对比，找出了ZCTC中前100个最具显著意义的关键词，其中最多的是名词共有45个，如公司、美国、美元、英国、全球等，其次是字母词18个、动词六个、副词四个、数字四个，翻译语料中显著超用的词多是由于内容的需要而在使用上较原创汉语更频繁。他们还发现翻译汉语在功能词的使用上明显较原创汉语更频繁，其中代词、连词，助词“的”和连词“在”都出现明显的超用(见表1)。

表1 ZCTC与LCMC对比的关键词表

Xiao和 Dai的研究还发现一些助词(“了”、“着”、“之”、“等”)、代词(“咱们”、“啥”)、动词(“有”、“搞”、“办”)以及逗号和顿号在翻译汉语中使用得更少，反映出翻译汉语少用体标记词、口语词、形式动词和句内标点的趋势。

肖忠华(2012)还以LCMC为参考语料库，对ZCTC的关键词类做了分析，关键词类分析与关键词分析相似，只不过研究的对象是具体的词类而不是具体的词。这项研究表明翻译汉语中的关键词类包括字母词、音译专名、标点、代词、连词、介词、助词、后缀词、形式动词等;负关键词类包括汉语专名、汉语专用标点、处所词、语气词等。

对翻译汉语语料关键词及关键词类的分析可以将翻译汉语与原创汉语在微观上的差异展现出来，有助于我们深入了解汉语翻译变体的区别特征。在此方面，现有的研究都做出了极有意义的尝试，但也有进一步提升的空间，如对具体关键词的研究会流于零散，且关键词受语料的内容影响较大，比较难于从中发现具有代表意义的关键词，因而从关键词入手的从下而上的方式是比较耗时费力，效率很低。而对关键词类的研究比较容易让研究者迅速捕捉到具有研究意义的切入点，但缺点是容易缺少具体的词例和分析，让读者只见森林不见树木，因而如能从关键词类入手，再与具体词的分析相结合，则容易获得有意义的发现。

2.3 具体词类的研究

通过关键词的研究发现翻译汉语中某些类别的词与原创汉语有较大的差异，因而一些研究者进而开始考察翻译汉语中某个类别的词的使用特点，目前已有的研究主要集中在连词和代词的研究上。

Chen(2004，2006)以自建的英汉科普文本译文语料库ECPC(English－Chinese Parallel Corpus)为研究对象，以中国台湾“中研院平衡汉语语料库(Sinica Corpus)”中的科技部分为参照库，对但、因为、所以、如果、因此、但是、由于、因、不过等连词在ECPC简体中文译文库、繁体中文译文库的频率与Sinica原创汉语科技库中的频率进行了对比，发现翻译汉语连接词的使用频率普遍高于原创汉语，小句以及句子之间更倾向于使用连接词来标记逻辑关系。从微观上看，翻译汉语更集中使用某些高频连接词，且有些在翻译汉语中高频使用的连接词在原创汉语中使用频率并不高，成了翻译汉语的区别性特征。此外，翻译汉语连接词在连接功能上也发生了变化，更倾向用于小句之间的连接而不是句与句之间的连接，且更趋向于单独使用，而不是成对使用。

柯飞(2005)对北外通用汉英对应语料库中80多万原创汉语语料和近80万汉字的汉译语料进行了考察，发现时间连接词、条件连接词和因果连接词使用上的一些差异。其中时间连接词“在……时”、“在……时候”、“当……时”等在翻译汉语中的使用频率都远超过原创汉语;条件连接词“如果”、“要是”以及因果连接词“以致”在翻译汉语中的频率都远超过原创汉语。

许文胜和张柏然(2006)以南京大学英汉名著翻译语料库(NUCECC)为资源，选用《傲慢与偏见》、《最后的莫希干人》两本小说的英语文本和汉语译本，并运用《郑重的故事》、《围城》等几部小说形成参照文本，研究了其中因果关系连词的运用，英语文本考察了“for，because，why，therefore，as，since，thus，hence”等八个高频因果关系连词，汉语考察了“因为、所以、由于、既然、因此、因而”等六个因果连接词，结果发现汉语译文的因果连接词使用频率不仅大于英语原文，更是远高于汉语原创小说。

黄立波(2007)通过考察北外通用汉英对应语料库，对条件、转折和因果三类连接词在翻译汉语和原创汉语文本中的使用情况进行了对比，发现这三类连接成分在汉语翻译文本中的使用频率均高于汉语原创文本。

夏云(2013)以14部英文原文在民国和最近20年的译本为研究对象，并以同期的汉语原创文本为参考库，研究了翻译汉语连接词和介词的历时变化情况。结果发现，民国时期翻译汉语更多使用正式和古朴的连接词，如“如其、纵使、如、诚然、乃、再则、于是乎、纵算、甚而至于、如若、乃至、不拘”等，而最近20年的译本中连接词较原创汉语更趋于非正式、口语化和简单化，如“结果、不是……就是、要不然、就算、要(if)、谁想”等。该研究还进一步对比了介词的使用，分析发现最近20年译本中的介词数量偏少，在介词的选择上更为保守，更贴近原创汉语的选择，而民国时期译本与原创文本差异较大，词汇变化性强，非常规用词较多。

黄立波(2008)以18万词(八万文学语料，十万非文学语料)的英文语料及其译文为研究对象，17万字的原创汉语(九万文学语料，八万非文学语料)的参照，考察了代词主语的翻译情况，发现英汉翻译中人称代词主语的转换，在数量与频次上呈递减趋势，转换类型则以对应关系为主，语际显化不明显，语际隐化也不明显。翻译汉语与原创汉语相比，无论文学还是非文学文本，其人称代词主语的使用频次都要高，这表明翻译文本受原语文本的影响，表现出人称代词主语的迁移现象。

王克非和胡显耀(2010)运用北外通用汉英对应语料库探讨了翻译文学中人称代词的使用特征，其中特别考察了第三人称代词“他”的指代能力，多“他”同句和不同指“他”的交替使用。他们发现翻译文学比原创文学更倾向使用“他”，人名的重复率较低，且更多地在同一句中连用多个“他”，还出现了不同指“他”在同一句话中同时存在的现象。

任小华(2015)针对之前的研究在文体上有所局限的问题，运用ZCTC多文体平衡语料库对人称代词进行了研究，研究发现人称代词在翻译汉语中的显化特征明显;第三人称代词显化最明显，第一人称代词次之，第二人称代词排在最后。而文体因素对人称代词整体的显化影响不太明显，但对具体人称代词的显化有一定的影响。

除了对翻译汉语连词和代词的研究外，也有一些对其他词类的研究。如王克非和胡显耀(2008)、胡显耀(2010)运用不同的方法都发现翻译汉语中起语法功能的虚词比例高于原创汉语，其中包括介词、连词、助词等词类使用频率均比原创汉语文本高;肖忠华和戴光荣(2010)研究了汉语译文语料库中习语与词簇的使用特征，其分析表明，翻译汉语总体而言不及原创汉语使用习语频繁，有显著性差异，仅在侦探小说文体中出现了逆转;此外，翻译汉语中各种长度词簇出现的频率都显著高于原创汉语中相应的词簇频率，且高频词簇使用更为频繁，有些在翻译汉语中的高频词簇是译文特有的，如指代结构“他的”、“你的”、“这样的”与修饰结构“最重要的”、“公司的”。肖忠华(2012)的研究发现翻译汉语比原创汉语较少使用量词、体标记词“着、了、过”、助词“之”和语气词，较多使用“的、地、得”。戴光荣(2013)运用ZCTC与LCMC对比了介词的使用，发现翻译汉语介词使用的频率显著高于原创汉语，并结合BABEL英汉平行语料库考察了“动词+about”、“在”和“因为”，发现源语投射是造成翻译汉语介词使用频率升高的原因。许文胜(2015)运用自建的ECCC小说翻译语料库，研究了具有衔接意义的副词在译文中的运用，研究发现翻译小说在衔接性副词的运用上，比较接近现代汉语小说文本的平均值，并未出现连词、介词等在翻译汉语中的超用现象。

除了对具体某类词的研究之外，还有研究者对话语标记进行了考察，如肖忠华和戴光荣(2010)对ZCTC中的话语重述标记与LCMC进行了比对，包括“也就是说、换句话说、归根到底、归根结底、总之、总的来说、总而言之、更不用说、简而言”，研究表明翻译汉语中更常用非正式的、口语体的话语重述标记，如“总的来说”、“换句话说”等，而不常用正式的、书面体的重述标记，如“即”、“总之”、“简言之”等。赵秋荣(2014)用历时研究的方法考察了复合语料库中话语重述标记的使用情况，其中包括类比语料库(1910～1949)、双语平行语料库(1930～1949)和参考语料库，考察的对象有“总之、总而言之、总的说来、一句话、归根结底、归根结蒂、简言之、简而言之、由此看来、如上所说、讲到底、说到底、综上、综上所述”等30余个总结类话语重述标记，研究表明在1910～1949年间，翻译汉语中话语重述标记的使用频率普遍高于当时的原创汉语，在翻译过程中，译者倾向于使用旧白话中一些不太稳定或低频使用的结构来翻译汉语中没有的重述标记，且在翻译汉语中高频出现的重述标记有向原创汉语渗透的趋势。秦洪武和王玉(2014)、秦洪武和李婵(2014)、秦洪武和司佳冰(2015)利用历时翻译和原创语料库，对详述类、对比类和言聚类话语标记进行了研究，研究发现翻译汉语在过去近百年的时间里各类话语标记形式越来越多样、使用频率逐渐增高，且推动了原创汉语话语标记的发展，丰富了汉语本身的言语资源和表达形式。

对翻译汉语具体词类的研究在数量上相比其他几个方面有一定的优势，所涵盖的词类包括了连词、代词、助词、介词、习语和话语标记，其中连词和代词的研究最为丰富，而对助词、介词、其他词类和话语标记的研究仍有可为的空间。对翻译汉语具体词类的研究有一个突出的特点，即研究者多针对平行语料库和可比语料库开展研究，对英语原文倍加关注，这也体现了研究者在发现语言特征的同时，试图给出合理解释的尝试，这样的研究方法代表了翻译语言特征研究的一个趋势，即平行语料库与可比语料库相结合，上可追溯源语文本，下可展开与原创汉语的对比，描述与解释并重。新的研究方法的优点是克服了早期翻译语言特征研究缺少源语文本的缺憾，如TEC和ZCTC都没有源语信息，提供了进一步解释翻译语言现象的可能性，但缺点是抬高了研究的门槛，因为平行语料库的建库难度要大大高于单语语料库，靠研究者一人之力难以完成，现如今较为成熟的平行语料库多是团队合作的成果。

3.句法及结构特征研究

王克非(2003)通过对平行语料库的考察发现在英译汉的过程中，英汉语句一一对应比例很高，换而言之，译文的句子会带有英语原文的一些特征。又由于英汉句子本身在形态标记、行文逻辑、句式结构上有很大差异，翻译汉语在句式结构上也理应呈现出既有别于英语源语又区别于原创汉语的特征。这方面的研究目前主要集中在两方面:(1)句长、平均句段长及结构容量;(2)典型句式结构。

3.1 平均句长、句段长及结构容量

平均句长的计算是以总的形符数除以句点标记(句号、问号、感叹号)的个数而得出的，WordSmith可直接统计出该结果。而句段是指语句中由逗号、分号隔开的短句或短语，因此平均句段长的计算是用总形符数除以句段标记的总个数(逗号、分号、句号、冒号、问号、感叹号)得出的。结构容量是与句段长紧密关联的概念，指短语结构的长度，如“当……时”这一短语结构中的形符数的多少。平均句长、句段长和结构容量可以反映语句的复杂程度及可读性，因而可用来衡量翻译汉语在句法上的一些特征。

王克非和秦洪武(2009)应用北大通用汉英对应语料库比较了翻译汉语与原创汉语的句长，发现翻译汉语受源语影响平均句长和句段长都明显高于原创汉语，且翻译汉语中某些结构式的容量发生了扩展:(1)英译汉时常把原本后置且开放的英语定语(从句)前置于宾语之前形成“的……的NP”结构式，因而扩展了谓宾之间的结构容量;(2)汉语的一些封闭式的介词短语(如介词+NP+方位/时间)结构，在翻译汉语中也发生了扩展，其间增加了多重修饰成分。

秦洪武(2010)用三部小说的名家译本(口碑译本)、普通译本与原创小说做对比，研究这三种文本在平均句长与句段长上的差异，并考察了“介词……方位词”、“指示代词/数量词……名词”这两个结构在三种文本中容量的大小。分析表明，句段长度和结构容量比句长更能反映汉语翻译语言的特征，名家译本比普通译本对结构容量的控制更好，句子的可读性更强。这项研究还说明了一点，即翻译汉语并非都是同质化的，相反是以变化的连续统的形式呈现出来的，其中一端是与原创汉语很接近的、归化程度很高的汉语，而另一端则是欧化程度很高的汉语形态，而欧化程度越高，其翻译语言特征也越明显，反之则与原创汉语越接近。

Wang和Qin(2013)进一步运用因子分析的方法对反映汉语翻译语言特点的因素进行了考察，分析表明句段长度是评估汉语翻译语言的重要指标，他们又以含有“的”的修饰成分为例，研究了北大通用汉英对应语料库不同子库中的结构容量的差异，结果表明，翻译汉语相比原创汉语句段长度增加、结构容量变大，尤其是结构容量的变大会降低可读性。

Xiao和Dai(2014)接纳了王克非、秦洪武有关汉语句段长度的观点，对ZCTC中不同文体的翻译汉语的句段长与原创汉语进行了比对，发现学术文体的翻译汉语与原创汉语的平均句段长差异最大，小说的句段长最为接近。由此得出结论，翻译汉语与原创汉语平均句段长度的差异因文体的不同而有所不同(见图1)。

图1 ZCTC与LCMC平均句段长的对比(Xiao＆Dai 2014:35)

3.2 典型句式结构

除了关注翻译汉语的句长和结构容量，研究者还将目光投向了一些典型句式结构，研究最多的是“把”字句和“被”字句。

最早是柯飞(2003)的研究对比了“把”字句在翻译与原创汉语中的使用，结果发现无论在文学还是非文学语料中，翻译文本“把”字句的频率要远远高于原创文本，并提出“把”字句更适合于表达复杂、细微的含义。胡开宝(2009，2011)对莎剧《汉姆雷特》的梁实秋和朱生豪译本中“把”字句的使用频率进行了研究，并将其高频使用的原因归结为戏剧对白中大量使用的蕴含位移图式的语句结构的存在，其结构特点及语用功能均与“把”字句相吻合，故引起了“把”字句的频繁使用。此外，译者所采取的翻译策略也会影响“把“字句的使用频率。胡显耀和曾佳(2011)利用文学翻译语料的研究表明，文学翻译中的“把”字句一改其原来短小精悍的句式特点，长度比原创汉语更长，结构更复杂，层次更丰富，表达的信息量明显增加，但也带来了节奏上的拖沓感，增加了理解难度。肖忠华(2012)利用ZCTC对“把”字句进行的多文体研究，有了新的发现，与原创汉语相比，翻译汉语的“把”字句确实在小说类语体中的频率更高，而在非文学类文体如新闻类和学术类中则频率明显偏低，而在包括报告和公文在内的一般类语体中，无明显差异。此研究提示我们对于翻译汉语的研究要有文体意识，文体的不同往往会带来研究结果的迥异，目前在分文类汉译语言特征研究方面还有待进一步研究的需要。

Xiao等(2006)最早运用语料库对汉语译文中的“被”字句进行了研究，结果显示翻译汉语与原创汉语中“被”字句在不同文体中的分布有差异，在非文学类文体如新闻报道、新闻综述、操作文体、报告与公文以及学术文体中，译文“被”字句频率要比原创汉语高得多，而这种差异在文学类文体中不明显，侦探小说类还出现了逆转。他们进一步研究了源语渗透对“被”字句的影响，发现从英语翻译成汉语的过程中，非文学类文本中的源语渗透效应比文学类更加明显，这是因为非文学类的翻译原文本中本来就存在超用被动句式的特点。胡开宝和邹颂兵(2009)对七部莎剧中的“被”字句进行了分析，分析表明原文中大量存在的受事前景化的表达引发了译文中“被”字句的增加。此外，为语篇衔接的方便，一些主动句也会译为“被”字句。胡显耀和曾佳(2010)利用汉译小说语料库的研究发现，与原创小说相比，翻译小说“被”字句频率更低，更倾向于使用长被动式，且整体呈否定和消极意义。

除了以上两个典型句式之外，也有其他一些句式研究。如秦洪武和王克非(2004)对翻译汉语中“so..that”对应句式的研究发现，翻译可以使汉语原有句式增加新的功能，可以提高先前罕见结构的使用频率。肖忠华(2012)还考察了“有”字句，发现其在译文中频率比原创汉语低;“是”字句在译文中使用更频繁，尤其是“是+(副词)+形容词+的+标点”结构的使用频率显著高于原创汉语;“所”字句在新闻类、一般类和小说类文体的译文中受源语影响呈现出超用情形，而在学术类文体中则出现少用现象。“连”字句则在译文中的使用频率明显低于原创汉语。戴光荣(2013)对“是”字句做了进一步研究，他认为随着译文中“是”字句的增多，出现了语法化的趋势，“是”已经不仅仅是判断词的标记，而成了焦点标记、强调标记与对比标记。

现有的翻译汉语句法特征的研究已经相当丰富，要继续深入研究需要在以下方面有所突破才能做出新意:(1)注意翻译汉语非同质化的特点，对不同欧化、归化程度的汉译语言做区别化研究;(2)关注文体差异，对特有文体的句式现象做深入研究; (3)发掘新的典型句式进行研究。

4.搭配及语义韵特征研究

搭配是语料库最常见的研究对象，指词语之间习惯性的共现关系，Sinclair(1991:170)将搭配定义为“同一文本中一定距离内两个或多个词的共现”，语料库研究所说的搭配要比一般语法意义上的搭配其涵盖范围更广，只要在“节点词”周围有一定共现频率的词都可称为搭配词。Firth(1957:12)进一步指出:“从词的搭配可以知道该词的意义。”因而对搭配的研究可以与语义趋向(semantic preference)与语义韵(semantic prosody)的研究相结合，语义趋向与语义韵是Sinclair(1996)基于共选研究(co－selection)提出的扩展意义单位中的两个要素，节点词的语义趋向是由其搭配词的共同语义特征构成的，而语义韵则是指节点词由于与具有某种语义趋向的搭配词的习惯性共现所呈现的语义氛围(Stubbs 2002)。

搭配研究是汉译语言特征研究的一个薄弱环节，目前仅有的研究是戴光荣(2013)利用ZCTC与LCMC的对比，研究了其中十个高频名词的搭配，结果发现汉语译文中高频名词节点词的搭配范围要比原创汉语的搭配范围广，词汇变化模式更丰富。

考察语义韵的研究由于涉及语义，难度更大，因而也非常有限，Xiao等(2006)基于LCMC考察了“被”字句的语义韵，结果发现“被”字句在文学作品和演讲中更趋于贬义，在新闻、官方文件和学术论文中则中性意义的比重依次加大。胡显耀和曾佳(2010)针对文学翻译文本中“被”的语义韵进行了研究，发现文学翻译中“被”字句与原创汉语文学作品相比表现出更明显的消极语义韵。Xiao和Dai (2014)将FLOB的被动结构与LCMC、ZCTC的“被”字句的语义韵做了对比研究，结果表明英语的被动结构是趋于中性的，而原创汉语的“被”字结构趋于贬义，翻译汉语的“被”字结构介于其间，总体趋于中性(见图2)。

图2 FLOB、LCMC和ZCTC中被动式语用意义的对比(Xiao＆Dai 2014:37)

夏云(2014)运用历时语料库同样考察了“被”字结构，研究表明在近20年的汉译文本中，具有消极含义的“被”字句远远低于50%，不及中性含义的一半，这一趋势在非文学语料中尤为明显。

以上几个涉及语义韵的研究，为汉译语言特征研究开辟了新的可能性，突破了语料库翻译语言特征研究重语法、轻语义和语用的瓶颈，但已有的几项语义韵研究都脱离了具体的搭配，因而只能对翻译语言中某个结构的语义特征作笼统概述，其中细化的语义差别却被掩盖其中。朱一凡和胡开宝(2014)基于新闻翻译和原创语料库对“被”字句的考察将搭配、语义趋向、语义韵的研究相结合，发现新闻汉译语料中“被”字句的主导语义趋向为“弱及物义”，相比原生汉语“被”字句的主导语义趋向(遭受义)发生了质的变化。此外，新闻汉译语料中“被”字句的语义韵整体呈中性化趋势，与呈消极趋势的原生汉语也有较大的区别，翻译语料中“被”中性语义韵比重的加大主要由于“弱及物义”和“承赐义”动词搭配的增多。

5.小结

不难看出，近十几年来基于语料库的汉译语言特征研究取得了相当大的进展，语料库方法的借入开拓了新的研究可能性，以前无法研究的词汇丰富度、结构容量、可读性、语义韵等领域的研究都成为可能，这有助于我们更全面、更准确地认识翻译汉语所具有的特点。然而，目前的研究也存在一些缺陷: (1)只见数据不见具体的语言实例，尽管语料库的优势即在数据的统计，但传统语言研究重典型实例分析的方法不应该丢弃，没有实例的数据就像空中楼阁，不接地气;(2)数据的罗列多于解释，现有的研究多将重心放在研究设计和数据呈现上，解释的部分往往一掠而过;(3)研究多偏重于文学语料，对多文体翻译汉语的研究则多侧重于文体间的差异，概述性的研究居多，而对某一实用文体的全面研究较少; (4)共时的研究多、历时的研究少，对翻译语言历时变化的研究对考察特定历史文化背景下的翻译行为、语言接触的影响会有重大启示意义，很值得深入考察;(5)热点问题的重复研究多，开创性的研究少，其中就搭配、语义韵的研究仍存在大有可为的空间。笔者希冀随着新角度的出现和新语料的介入，此领域的研究可以有新的突破。

Baker，M.1993.Corpus linguistics and translation studies: Implications and applications［A］.In M.Baker，G.Francis＆E.Tognini－Bonelli(eds.).Text and Technology:In Honour of John Sinclair［C］.Amsterdam:John Benjamins.233－250.

Baker，M.2001.Investigating the language of translation:A Corpus－based approach［A］.In P.Fernandez＆J.M.Bravo (eds.).Pathways of Translation Studies［C］.Valladolid: University of Valladolid.47－56.

Chen，W.2004.Investigating explicitation of conjunctions in translated Chinese:A corpus－based study［J］.Language Matters35(1):295－312.

Chen，W.2006.Explication Through the Use of Connectives in Translated Chinese:A Corpus-based Study［D］.University of Manchester.

Firth，J.R.1957.Papers in Linguistics，1934-1951［M］.London:Oxford University Press.

Laviosa，S.1998.Core patterns of lexical use in a comparable corpus of English narrative prose［J］.Meta43(4):557－570.

Olohan，M.Spelling out the optionals in translation:A corpus study［J］.UCREL Technical Papers13:423－432.

Scott，M.2004.The WordSmith Tools［M］.Oxford:OUP.

Sinclair，J.1991.Corpus，Concordance，Collocation［M］.Oxford:Oxford University Press.

Sinclair，J.1996.The search for units of meaning［J］.TEXTUS9(1):75－106.

Stubbs，M.1986.Lexical density:A computational technique and some findings［A］.In M.Coultard(ed.).Talking about Text-Studies Presented to David Brazil on His Retirement［C］.Birmingham:English Language Research，University of Birmingham:27－42.

Stubbs，M.2002.Two quantitative methods of studying phraseology in English［J］.International Journal of CorpusLinguistics7(2).215－244.

Ure，J.1971.Lexical density and register differentiation［A］.In G.Perren＆J.L.M.Trim(eds.).Applications of Linguistics［C］.London:Cambridge University Press.443－452.

Wang，K.＆H.Qin.2013.What is peculiar to translational Mandarin Chinese? A corpus－based study of Chinese constructions’load capacity［J］.Corpus Linguistics and Linguistic Theory(2):57－77.

Xiao，R.＆G.Dai.2014.Lexical and grammatical properties of Translational Chinese: Translation universal hypotheses reevaluated from the Chinese perspective［J］.Corpus Linguistics and Linguistic Theory10(1):11－55.

Xiao，R.2010.How different is translated Chinese from native Chinese—A corpus－based study of translation universals［J］.International Journal of Corpus Linguistics15(1):5－35.

Xiao，R.，T.McEnery＆Y.Qian.2006.Passive constructions in English and Chinese:A corpus－based contrastive study［J］.Languages in Contrast6(1):109－149.

戴光荣.2013.译文源语透过效应研究［M］.上海:上海交通大学出版社.

胡开宝.2009.基于语料库的莎剧《哈姆雷特》汉译文本中“把”字句应用及其动因研究［J］.外语学刊(1):111－115.

胡开宝.2011.语料库翻译学概论［M］.上海:上海交通大学出版社.

胡开宝、邹颂兵.2009.莎士比亚戏剧英汉平行语料库的创建与应用［J］.外语研究(5):64－71.

胡显耀.2010.译语体特征多维分析［J］.外语教学与研究(6):451－458.

胡显耀、曾佳.2010.翻译小说“被”字句的频率、结构及语义韵研究［J］.外国语(3):73－79.

胡显耀、曾佳.2011.从“把”字句看翻译汉语的杂合特征［J］.外语研究(6):69－75.

黄立波.2007.基于汉英/英汉平行语料库的翻译共性［M］.上海:复旦大学出版社.

黄立波.2008.英汉翻译中人称代词主语的显化——基于语料库的考察［J］.外语教学与研究(6):454－459.

柯飞.2003.汉语把字句特点、分布及其英译研究［J］.外语与外语教学(12):1－5.

柯飞.2005.翻译中的隐和显［J］.外语教学与研究7(4): 303－307.