基于自建语料库的矿业文本特征分析
2017-09-11詹露
摘 要:在中国矿业积极学习借鉴西方国家先进矿业技术的背景下,矿业文本的翻译变得越发重要。但目前该领域翻译人才缺乏,相关翻译活动有一定难度,故本文以Maptek公司矿业相关文本作为语料自建语料库,从词频、词汇密度、平均词长、平均句长四个方面对矿业文本的特征进行分析,以期为矿业领域的翻译实践提供些许建议。
关键词:语料库;矿业;文本分析;翻译实践
1引言
近年来,随着中国工业化、城镇化进程不断加快,经济高速发展带动了矿产资源需求的高速增长,中国矿业展示出了前所未有的发展势头,2003—2011年,我国矿业产值从7357亿元增长到了5.86万亿元,增长了7倍,年均增长率为29.6%,但相较于西方发達国家,我国矿业发展仍处于一个初始阶段,距资本—技术密集型相差很远。鉴于此,对西方发达国家矿业领域的文本进行翻译,有助于学习和借鉴其先进的采矿技术和工艺,促进中国矿业不断发展。但由于多种原因,目前国内该领域翻译人才欠缺,矿业文本翻译相关研究不足。
2介绍
当译者着手翻译一篇文章时,对文本的分析无疑是第一步。文本分析对于翻译而言就如同台阶的第一步,万丈高楼的基石。文本分析对译者透彻理解原文、制定翻译策略起着至关重要的作用。谈及文本分析的方法,德国功能学派理论学家诺德所提出的文本分析模式(以下简称“诺德”模式)无疑占据了很重要的位置。诺德认为文本分析应该从语言和非语言两方面因素进行,即文本内因素和文本外因素,文本外因素包含文本发送者、发送者意图、文本接受者、媒介等,文本内因素则涉及篇章结构安排、词汇层面、句子结构、超音段特征等方面。诺德模式无疑为文本特征分析提供了方向和角度,但其缺陷在于没有提供分析文本内外因素的具体方式和衡量标准,比如分析词汇层面的特定术语,该如何分析,有怎样的指标,都没有涉及,因而运用诺德模式进行文本分析会不好衡量和把握。但语料库手段的引入无疑为进行客观的文本特征分析,尤其是文本内因素的分析提供了一个很好的途径。
3自建语料库
当前,基于语料库的翻译研究不断增多,所建语料库类型也是种类繁多,内容日趋完善,但仍缺乏针对矿业文本专门建立的语料库。自建语料库大小比较灵活,可根据需要自行确定,但通常适用于没有现成语料库,现有语料库不适用或不能满足研究需求,需要对比语料库以及需要特殊语料的情况。鉴于目前没有直接可用的矿业文本语料库,探寻矿业文本的文本特征以服务该领域翻译实践的需求又越发凸显,故而本文作者专门建立了一个小型矿业文本语料库,在此基础上对矿业文本特征进行分析。
3.1语料搜集
Maptek公司是澳大利亚一家全球领先的矿业创新软件、硬件以及技术服务供应商,本次自建语料库所使用的语料是Maptek公司Vulcan软件和I-Site软件应用于采矿作业的案例,内容涵盖整个采矿流程,涉及地质勘探、品位控制、矿山优化以及地质建模等方面,语料字数总计为105,430字。
3.2语料整理
语料整理对于自建语料库而言十分关键,会直接影响语料的处理速度和结果。语料文本如不加以清理会导致词汇分析、统计不准确,词性赋码出错或分析无法进行。此外,大多数语料库软件只能识别纯文本类型的文件,不能识别其他编码格式的文本,一些特殊格式标识符号在读取中会出现乱码,因而影响处理结果。在语料整理过程中,为确保语料库统计高效且准确,预先使用了文本整理编辑器对文本进行了清理,删去了多余空行、段首尾空格、全角空格,统一了中英文标点符号和文字格式,并保存成了纯文本格式。
4矿业文本特征分析
利用Wordsmith和Concordance语料库软件从词频、词汇密度、平均词长、平均句长四个方面对语料进行分析。考虑到语料来自于一家澳大利亚公司,因而选取了BNC(British National Corpus)语料库以及FLOB(Freiburg-LOB Corpus of British English)语料库作为参照语料库,进行矿业文本特征对比分析。
4.1词频
词频可以反映某类型文本或某个作品中的用词倾向,进而反映出文本的特征。在Concordance软件中,去除功能词后根据词频从高到低排序,前20位词语分别是:data,Vulcan,mine,model,I-Site,Maptek,coal,mining,modelling,block,project,pit,grade,planning,3D,ore,laser,time,design,scanner,其中“Maptek”,“Vulcan”,“I-Site”三个词代表的是该语料所涉及的产品名称,本文不予考虑。通常词表中排在前面的高频词是功能词,或者说是表达语法意义的虚词,接着是较抽象、概括的词,然后逐渐过渡到具体、含有特定含有的词,像“data”,“mine”,“model”,“pit”,“ore”这样的词出现在高频词范围内需要引起我们的关注。
语料库软件可以显示出每个单词在文章中使用频次所占的百分比,从客观数据上体现某个单词对于整个语料库的贡献。以“mine”和“pit”为例,对比BNC语料库中这两个词的使用频率,按不同文本类型进行统计,结果如下:
图1和图2分别表示的是“mine”和“pit”两词在BNC语料库中使用分布的文本类型及使用频率,其中的“FREQ”表示的是出现频数,“PER MIL”是指语料库中某一词汇、短语每百万词(per million)出现的频数,又叫标准化频数。结合词频统计中的百分比,利用“各自频数/总字数*100 million”,可以推算出在矿业类型文本中每一百万字中这两个词的使用频次分别约是6127次和2665次,高于BNC语料库总计的使用频次。此外,BNC语料库中并没有对两词不同词义的使用频次进行区分,但通过Concordance软件中的词语语境筛查可以发现在矿业文本中这两个词都具有单一专业含义,分别表示“矿山”和“基坑”,因而就专业含义来讲,自建语料库中两词的使用频次是远高于其在其他英语文本类型中的频次。endprint
词表前20位中多数词都与采矿作业流程相关,专业词意明确,涉及地质数据采集、块体建模、基坑修建、矿床勘探等,如“model”,“block”,经过比较,这些词的使用频次都高于其在其他单个英文文本类型中的使用频次,因而这些词可以反映矿业文本在用词上的倾向。矿业涉及内容多,涵盖弹性力学、土力学、岩石力学、爆破工程等多方面知识,在翻译该类型文本时需要对涉及这些方面的专业词汇有所重视。利用自建语料库对矿业文本的词频进行研究,明确矿业领域中的常用词或通用词汇,并基于词频建立起矿业领域的词汇分级,广泛应用于专业词典编纂、专业教学,这将推动该领域的相关学习及翻译实践。
4.2词汇密度
词汇密度可以反映出某类文本用词的多样性、词汇的丰富度。类符/形符比(type-token ratio,TTR)可以用来计算文本的词汇密度,TTR比值越高,文本用词越丰富,反之,则越贫乏。但若语料超过了1000字,类符数会随着形符數的增加而增加,到后面类符数就会趋于稳定,类符形符比就会不断减小,所以需要采用标准类符形符比(standardized TTR)。经语料库软件处理所得的标准类符形符比结果为41.43,FLOB语料库的STTR值为39.03,相较而言可以发现矿业文本中词汇的使用是灵活且丰富的。矿业涉及学科多,文本内容广而丰富,尤其是专业词汇,多而细化,因而在翻译过程中需要意识到矿业领域内用词的丰富性,注重积累。
4.3词长
词长在一定程度上代表了语言单位的复杂性,是反映文本阅读难易程度的一个标准。通常由2~5个字母组成的词看作是小词或常见词,这些词在整个语料库中的比例越高,近似地反映出语料使用的小词或常见词越多。单词越短小,文本越易理解,难度越低,文本的正式程度就越低;反之,文本越不易理解,难度越大,文本越正式。语料库统计得到的单词词长分布结果如下:
根据表1的数据可以计算出5个字母以下单词的总数为62,717个,占全部语料文本的59.5%,按照杨秀珍等人的推论,矿业文本中使用的小词多,文本阅读起来应该更为简单。由于人类的惰性、大脑信息处理能力的有限性乃至语言使用惯性,人们在言语交际过程中倾向于选用短小、简单的词汇表达特定意义以节省力量消耗,但矿业文本属于专业领域的文本,语料所用文本来自于门户网站,书面规范性强,词汇的选择较之口语表达肯定是更为谨慎认真的,但使用短小词的占比那么高,不由得引人注意。
结合本文作者翻译矿业文本的实践,发现文本中有很多常见短小词并非常见通用意义,而是具有特定含义,比如“pit”指的是“基坑”,“grade”代表的是“品位”,“block”代表的“块体”。这从某种程度上可以说明即使从词长标准上来讲矿业文本中使用的短小词更多,但考虑到词语含义非普遍意义,那么文本阅读起来也并不一定容易。仅仅依据5个字母以下单词的使用占比来判定文本难易程度是较为不当的。
平均词长是指文本中词的平均长度,以字母数为单位。该指标考量的是文本用词的平均情况,是对文本整体用词的评估。一般文本的平均词长为4个字母左右。语料库统计得到的平均词长为5.23,而FLOB语料库的平均词长为4.37,相较而言可以发现矿业文本在用词上是较为复杂的。从表2也可以计算出5个字母以上词汇(中长词)的使用占比达到了40%,这一比例是较高的,对于矿业类型文本而言中长度词语不仅具有专业意义,也更可能从长度上反映词汇的难易程度。
以上分析表明,虽然短小词使用的占比一定程度上反映出了文本词汇的难易度,但尤其是在专业领域中词汇的难易度并不能单纯地从词长进行判定,往往短小词汇所具有的专有意义是文本阅读的一个困难。综合词长和平均词长的数据结果,可以发现矿业文本阅读起来较为不易,即使短小词多,但意义可能并不常见。此外,矿业词汇专业化强,表达细节信息的词数量多,还有很多派生词和复合词,如“geomorphological”,“auto-registration”,“back-transformation”,词汇较为复杂。
4.4平均句长
平均句长是以句子所包含的词数为依据,是衡量文本难度的一个参数。句子长度越长,句子越难理解;反之,理解则更为容易。句子长短的判定遵循一定的标准,根据句子长度把句子分为三类:短句(1~9个词)、中长句(10~25个词)和长句(25个词以上)。运用语料库软件统计得到的平均句长结果是48.59,结合词频表中that,which以及其他连接词使用的频次较高,我们可以合理地推测矿业文本句式较为复杂,多用从句、分句。这一方面符合英语倾向于用从句的特征,另一方面可能是矿业文本阐释详尽的一种体现。
从衡量句子的难易程度来讲,其涉及的因素比较多。郑锦全提出了句子阅读难易度的三个考量因素:一是句子长短;二是句中所有词语在文本中出现频率的高低;三是词语语意类别的多少。就句子长度而言,结合考量句内使用的专业词汇,矿业文本可以算得上较难,译者在翻译该类型文本时,需要对长句引起重视。但就句中词语在文本中的出现频率和词语语意类别而言,由于词语所属领域较为单一,在文本中出现的频率也高,因而只要接触足够多,就会更加容易。这一点无疑说明矿业文本的翻译可能在入门时由于专业原因较为困难,但只要注重积累,后期就可以更加轻松。
5发现与展望
根据语料库分析所得数据可以发现矿业因其涉及的知识广泛、内容众多,使得该类型文本中词汇使用灵活丰富,相关专业词汇使用广且使用频次高,词汇平均词长大,句子多用长句,文本难度较大、专业性强。翻译人员在从事矿业领域文本翻译时,需要对长句予以重视,注重矿业学科专业词汇的积累,尤其要对文本中常见短小词的专业意义引起关注。但只要积累达到一定程度,矿业文本的翻译是可行的且可以更为高效的。
对于专业领域的文本而言,由于词汇的特定含义,单从5个字母以下单词使用的频次来判定文本用词的难易程度有所局限性,而中长词往往可以从长度上普遍反映出文本用词的情况,故而分析文本特征时需要结合考量中长词的使用情况以及平均词长。
但本篇研究也有值得深入改进和发展的地方,自建语料库所用语料的数量还可以有所增加。此外,可以在自建语料库基础上,利用参照语料库,制作出矿业领域的专业词汇,服务于翻译实践。
参考文献:
[1]陈其慎,于汶加等.矿业发展周期理论与中国矿业发展趋势[J].资源科学,2015(05):891-899.
[2]Nord,Christiane.Translating as a Purposeful Activity:Functionalist Approaches Explained. Manchester:St Jerome,1997.
[3]邓晓宇,胡小婕等.基于类比语料库的红色旅游文本语言分析研究[J]. 江西理工大学学报,2015(06):102-106.
[4]梁茂成,李文中等.语料库应用教程[M].北京:外语教学与研究出版社,2010.
[5]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.
[6]姜文东,任娟.基于语料库的《格列佛游记》文本词汇特征分析[J].山东广播电视大学学报,2013(02):55-56.
[7]杨秀珍,续娜等.基于语料库的《暮光之城》系列小说词汇特点初探[J].长春理工大学学报(社会科学版),2010(02):71-73.
[8]邓耀臣,冯志伟.词汇长度与词汇频数关系的计量语言学研究[J].外国语(上海外国语大学学报),2013(03):29-39.
作者简介:
詹露(1994.03.08—),女,重庆人,同济大学外国语学院英语语言文学2015级研究生,主要研究方向为翻译学。endprint