APP下载

基于语料库的英语专业学习者译文语言特征研究

2019-11-06孙丽

成都工业学院学报 2019年3期
关键词:语言特征应用型本科院校语料库

孙丽

摘要:将中国大学生英汉汉英口笔译语料库和英国国家语料库作为参照语料库.对自建应用型本科院校学习者语料库的词语丰富度、词长分布、词汇难度、词汇密度、平均句长和形合度等词汇、句法和语篇的特征进行研究,从学习者译文的角度部分验证了翻译共性的簡化、明确化和规范化假说,也发现源语渗透效应对学习者翻译中实词使用和句长的影响。

关键词:应用型本科院校;语料库;语言特征;翻译普遍性;源语渗透效应

中图分类号:H315.9文献标志码:A 文章编号:2095-5383(2019)03-0096-05

自20世纪90年代,基于语料库的翻译研究已逐渐成熟,研究成果颇丰。笔者以“语料库”和“翻译”为主题词在中国知网进行搜索,共得到5177条记录。笔者对这些论文进行梳理发现国内现有的基于语料库的翻译研究主要集中在以下方面的内容:介绍语料库翻译学理论、研究对象和研究方法、语料库建设;探讨语料库在翻译教学中应用的可行性,构建基于语料库的翻译教学模式,提升翻译教学质量;基于语料库对经典著作译作文本的语言特征、翻译共性和译者风格的研究。本研究将以现有研究为基础,对自建学习者汉译英译文为语料进行研究,将中国大学生英汉汉英口笔译语料库和英国国家语料库作为参照语料库,一方面,探索应用型本科院校英语专业学习者在词语、句式和语篇等方面呈现的语言特征,另一方面,研究学习者译文是否符合翻译共性的简化、明确化和规范化假说,并尝试作出进一步解释。

1翻译普遍性

英国曼彻斯特大学的Mona Baker早在1993年就提出了翻译普遍性(即翻译共性),她将翻译普遍性定义为“译文而非原文中展现的典型特征”。而后越来越多的学者关注并发展了翻译普遍性假说,他们认为翻译共性主要包括简化、显化、规范化等特征。Laviosa利用可比语料库考察翻译文本的简化特征,她指出翻译文本在词汇范围、实词和功能词使用比例、平均句长方面呈现简略化趋势。显化,也称明确化,最早由Blum-Kulka提出,她认为,译者倾向于添加衔接性标记和额外信息帮助读者理解。Vanderawera指出了明确化的方法,如使用插入语,扩展浓缩篇章,增添修饰词、限定词和连接词,增加额外信息和明确信息等。规范化,也称作保守化,指的是翻译语言具有“遵从甚至夸大译入语中典型特征和表达法的趋势”;译者有意识或无意识地将原文独特的文本特征翻译为与译语典型的文本特征一致,即消除原文的独特性使译文更加规范化。“源语渗透效应”(source language shiningthrough)作为翻译共性假说的一种,指翻译文本较为贴近源语的特征。

2研究方法

本研究所使用的语料库分别是自建的学习者汉译英译本语料库(简称LCCE)、中国大学生英汉汉英口笔译语料库(PACCEL)和英国国家语料库(BNC)。本研究中的自建语料库总形符数为30745字,为某应用型本科院校英语专业大三学生在笔译学习中的汉译英译本语料,文章共26篇,其中包括文学体裁(小说)9篇,法律题材说明文1篇,描写记叙文5篇,地理状况说明文1篇,科普说明文10篇。《中国大学生英汉汉英口笔译语料库》收录了全国18所高等院校英语专业三、四年级学生的英汉、汉英口译和笔译翻译测试语料,本研究使用其中的汉译英笔译平行语料库的译文部分,总词容量为493534字。英国国家语料库词容量近1亿,本研究使用其笔语部分的语料进行研究。

本研究使用Worthsmith Tool 6.0统计语料库的类符、形符、类符/形符比、词长和平均句长;利用Tree Tagger词性赋码器对LCCE和PACCEL两种学习者语料进行词性赋码,利用Range软件统计语料库词表,利用AntConc对赋码后的语料库进行词汇密度和功能词的统计;利用BNCweb(CQP-Edition)在线(网址:http://bncweb.1ancs.ac.uk/)统计BNC的词汇密度和功能词数量。

3学习者语料语言特征分析

3.1词语层面

3.1.1词语丰富度:类符形符比

类符型符比(TTR)指的是语料库中类符和型符的比例,是衡量文本中词汇密度的常用方法,但是用它来计算长度不等的文本词汇密度并不合理,常用的补救方法是标准化类符型符比,即标准类符/型符比(STTR)。STTR值越大,词语使用的重复率越低,词语使用越丰富。由于LCCE和PACCEL中部分单个文本形符数较少,单一文本在wordsmith中分析时,STTR无法计算,笔者将所有txt文档先压缩,将压缩文件名rar改为戗t就得到了两种学习者语料各自所有文档的一个合并文档,并据此再做进一步分析。表1是wordsmith6.0对3种语料的形符、类符、类形符比和标准类/形符比的统计数据。

表1显示,LCCE的STTR值(38.22)介于PACCEL(30.57)和BNC(43.10)之间,卡方检验的结果显示,LCCE与PACCEL的平均差(+7.56)具有显著性差异(X2=307.79,P<0.05),LCCE与BNC的平均差(-4.88)也具有显著性差异(X2=54629.73,P<0.05)。这表明,自建学习者语料库的词语使用丰富度高于PACCEL,但两者均低于英语母语使用者,该结果验证了Laviosa的翻译“简化共性假设”。而对于两种学习者语料库的差异,笔者认为,PACCEL收录的是全国18所高校英语专业学生的笔译测试语料,学生是在没有借助任何翻译工具的情况下完成的,而LCCE的学习者是在课下完成,教师鼓励使用各种翻译工具,这可能是促成LCCE词语丰富度高于PACCEL的原因之一。

3.1.2词长分布

词长指单词长度,即单词构成的字母数量,词长越长,单词的复杂度越大,在一定程度上可以反映语料库文本的复杂度。笔者使用wordsmith 6.0对词长分布进行了统计,从平均词长来看,BNC平均词长是4.66,LCCE是4.43,PACCEL是4.72;鉴于3种语料库容量不同,笔者将词长数量进行了标准化处理,图1为3种语料库每千字的词长分布情况。

如图1所示,在2和8个字母词汇的使用上,BNC远少于其他两个语料库,在1~17词的使用上(除2和8个字母词之外),三种语料库差异不大。在18以上字母词的使用方面,两种学习者语料库都为0,而BNC语料库则从0.14/千词呈逐渐递减趋势。从18以上字母超长词来看,两种学习者语料库采用了相对简单的词汇,譯文可读性高,这样的结果也验证了翻译共性的“简化趋势”。

3.1.3词表:词汇难度分析

Range BNC是基于整个BNC语料统计词汇的跨文本分布情况。Paul Nation主张利用词簇信息判断词汇难度和丰富度,而梁茂成等认为三级词表中,第三级和词表外词汇,特别是第三级词表的类符对文本整体的词汇难度有较好的判断能力。笔者利用Range BNC对LCCE和PACCEL对词汇分布进行了统计,结果如表2、表3所示。

表2、3显示,从词簇来看,LCCE有271个词簇属于第三级词表,在PACCEL中只有114个;从类符列来看,LCCE有366个类符属于第三级词表,占总类符的9.02%,而PACCEL有147个类符属于第三级词表,占总类符的5.02%。无论是从词簇还是类符来看,LCCE的词汇难度和丰富度都高于PACCEL,这与两语料库的标准类符/形符比的结果一致。

3.1.4词汇密度

词汇密度是指实词占总形符数的百分比。词汇密度可以衡量不同文本在信息上的差异和难度大小,词汇密度偏高,则说明文本信息含量大,难度相应偏大。笔者利用TreeTagger对LCCE和PACCEL两种语料库进行词性赋码.利用AntoConc的wordlist的搜索功能对实词(形容词、副词、动词和名词)所对应的不同编码进行搜索;利用BNCweb(CQP-Edition)在线统计BNC语料库的实词数量。图2为3种语料库每千词的实词统计。

统计显示,LCCE、PACCEL和BNC的实词使用比例分别是59.01%、55.75%和51.87%,LCCE和PACCEL实词使用高于英语本土使用者,这表明两种学习者语料库的信息承载量高于英语本土使用者,这与Laviosa”译文实词使用比例呈简化趋势”的说法相违背。从具体实词的使用来看,LCCE的形容词使用高于BNC,但这种差异不具备显著性(P>0.05),动词和名词使用均高于BNC,且差异具有显著性(P<0.05),副词使用低于BNC,差异也具有显著性;PACCEL形容词和动词使用高于BNC,副词和名词使用则低于BNC,4种实词的使用均呈现显著性差异(P<0.05)。与英语本土使用者相比,两种学习者语料库的形容词和动词使用均呈现较高态势,副词使用呈低态势;在名词使用上,与BNC相比,LCCE较高,而PACCEL则较低。

笔者认为,学习者在翻译时使用了更多的实词加大信息含量以明确译文信息,这符合Blum-Kulka提出的明确化原则,通过增添和扩展的方法增加和明确信息。LCCE学习者增加了名词的使用,用于解释概念和范畴,使译文信息更清晰易懂。LCCE和PACCEL语料的动词使用也呈显化特征,这可能是因为学习者在翻译中采用了转译成动词的翻译方法,以准确表达源语信息,增加译文的连贯性。与英语本土使用者相比,两种学习者语料库在形容词使用上也呈显化特征,这可能与英汉语言形容词的功能差异有关,张益芳等指出,“汉语形容词在句中所起的语法作用要比英语形容词多,英语形容词通常用作定语修饰名词或表语来说明主语的特征或状态,而汉语形容词除了作定语外,还可以充当谓语、状语甚至主语和宾语”。受源语渗透效应影响,学习者过度使用形容词,从而导致形容词使用高于英语母语使用者,呈现了显化特征。在副词使用上,两种学习者语料库均低于英语本土使用者,这与英汉副词在各自语言中的功能和地位差异相关,姚吉刚等指出,“英语副词的语法功能较多,接近实词,汉语副词语法功能相对较少,介于实词和虚词之间。英语副词的词类地位高于汉语副词”。同样,受到源语效应影响,学习者的副词使用低于英语母语使用者。

3.2句法和语篇层面

3.2.1平均句长

平均句长是指以单词为单位,计算每个句子平均的单词量。Buffer根据句长将句子分为三类:短句(1-9词)、中句(10-25词)、长句(>25词)。就整个语料库而言,句子的长短在一定程度上反映句子的复杂度,句子越长,目标读者的阅读复杂度越高。统计结果显示,LCCE、PACCEL和BNC的平均句长分别为15.95、18.77和26.75词,LCCE和PACCEL平均句长均属于中句,而BNC属于长句,这符合Laviosa提出的译文简略化倾向,即翻译文本的句子平均长度比翻译文本的句子平均长度短。这表明,中国翻译学习者受地源语影响,短句较多,句子结构相对简单,倾向使用短句再现源文本内容。

3.2.2形合度

功能词数量在总词频中所占的比例称为形合度。功能词在语料中的比例越大,句法显化程度越高,形合度则就越高,反之则越低。功能词包括并列连词、介词或从属连词、人称代词、所有格代词、不定式to和疑问代词。笔者利用前文提到的词汇密度的统计方法,对3种语料中的6种功能词数量进行统计,图3为3种语料库每千词功能词的数量。

统计显示,LCCE、PACCEL和BNC的功能词使用比依次为为23.49%、18.95%和21.23%,LCCE功能词使用比例最高,BNC处于LCCE和PACCEL之间。从功能词总体使用比例来看,PACCEL符合而LCCE则违背了翻译普遍性的简化特征。LCCE学习者通过增加功能词的使用实现译文的语篇衔接,使其更符合英语语言形合的特征,这符合翻译普遍性的规范化特征。

与BNC相比,LCCE和PACCEL在并列连词、不定式to和疑问代词使用高于BNC,且卡方检验结果显示差异均具有显著性(P<0.05);在介词或从属连词方面,两种学习者语料库均呈现低于BNC的趋势,且差异具有显著性(P<0.05);在人称代词方面,LCCE使用高于BNC,而PACCEL则低于BNC,且两种差异均具有显著性(P<0.05)。从具体功能词的使用来看,两种学习者语料在并列连词、不定式to和疑问代词的使用方面均高于英语母语使用者,介词或从属连词的使用低于英语母语使用者,对于人称代词的使用两种学习者语料库则呈现了不同的态势。对于本研究中的LCCE学习者来说,尽管使用了大量的功能词,但平均句长仍低于PACCEL和BNC,这足以表明LCCE学习者句式复杂度较低,从这角度来说,LCCE语料符合翻译普遍性的简化原则,学习者通过结构简单的句式再现原文本内容。

4结论

本研究将自建学习者语料库与中国大学生英汉汉英口笔译语料库和英国国家语料库进行对比分析,从词语丰富度、词长分布、词汇难度、词汇密度、平均句长和形合度等方面对学习者译文的词汇、句法和语篇等方面的特征进行了研究。研究发现,两种学习者语料库的词语丰富度和18及以上字母词的使用上低于英语本族语者,这进一步验证了翻译普遍性的简化趋势;与PACCEL相比,自建学习者语料库的词汇难度和丰富度较高:两种学习者语料库的词汇密度均高于BNC,自建学习者语料库和PACCEL通过增加不同实词使用加大文本信息含量以明确译文信息,符合翻译普遍性的明确化特征;受地源语的影响,与英语本族语相比,两种学习者语料库的形容词使用偏高,副词使用则偏低。从句法和语篇层面看,自建语料库学习者利用功能词实现英语语篇衔接,这符合翻译普遍性的规化特征。但是,尽管使用了大量的功能词,其平均句长仍低于英语本土使用者,这表明学习者句式复杂度较低,符合简化特征。

本研究存在不足之处,语料来源于仅限于1所应用型本科院校的学习者翻译语料,且库容量较小,今后的研究可以关注更多同类院校学习者的语料。以提升研究结论的可靠性。

猜你喜欢

语言特征应用型本科院校语料库
基于语料库翻译学的广告翻译平行语料库问题研究
运用语料库辅助高中英语写作
物流英语的语言特征及翻译
茶艺英语的中国英语研究
高职与应用型本科院校协同开展技术应用型本科教育课程衔接的探析
社会参与美国社区学院治理及对中国应用型本科高校治理的启示
新建应用型本科院校教学管理队伍建设研究
解构口语化新闻的语言特征
语料库与译者培养探索