基于语料库的中外英文景点介绍词汇特征研究
2017-09-29马换娜
马换娜
(郑州大学外语学院,河南 郑州 450001)
基于语料库的中外英文景点介绍词汇特征研究
马换娜
(郑州大学外语学院,河南 郑州 450001)
语料库研究方法是一种自上而下的、基于大量数据、以概率统计为方法的实证性研究方法。利用AntConc 3.2.3,Range和Readability Analyzer 1.0等语料库分析检索软件对自建中外英文景点介绍语料库进行定量和定性分析,通过比较中国英文景点介绍和英国英语原生文本在词汇特征方面的差异。发现中国英文景点介绍的类符/形符比低于英国英文景点介绍,但是在实词比,平均句长,形容词和连词的使用等方面高于英国英文景点介绍,而且中国英文景点介绍难度较大。
语料库;景点介绍;词汇特征
旅游文本作为一种专门用途型语言形式,是语言学领域专家和学者研究的主要对象之一。旅游文本在宏观上可以概括为一切旅游语言文字资料,包括旅游景点介绍、旅游告示牌、旅游宣传广告、导游解说词、民俗风景画册等各方面的内容[1]。其中景点介绍最具有旅游特色,最易被选取为研究语料,此方面的研究一直未间断。郭欢欢等[2]在顺应论的视角下对比了温州地区景点介绍以及其英译文的语用效果。朱兵艳等[3]以海南国际旅游岛景点介绍英译文为例,分析了景点介绍英译文的文本特点,并提出相应的翻译策略。林菲[4]基于汉英语言的修辞差异对比了汉英景点介绍在话语内容、构建方式和美学手段等方面的差异。
语料库是基于计算机用来储存大量语言信息材料的资料库。20世纪70年代末80年代初“语料库语言学”这一名称真正得到使用,并赢得语言学界的尊重[5]。语料库语言学作为一种新的研究方法,能够提取、利用自然真实的语料,是收集数据的重要手段。“语料库语言学作为一种研究方法,今天没有人怀疑,事实上众多研究领域已经离不开基于语料库的研究方法,比如社会语言学、语用学、会话分析、语体分析、儿童语言发展研究等等”[6]。
随着语料库语言学的兴起,众多绿色免费分析统计工具的开发,学者在研究景点介绍或其他旅游文本时,也引入了基于语料库的研究方法。李德超等[7]基于自建百万字旅游文本对应语料库和类比语料库,根据语料库比较和检索结果,探讨了数据驱动学习方式在旅游翻译教学中应用。张淑静[8]基于自建微型国外著名景点介绍语料库,分析了中国英语景点介绍的词簇模式和文类特征。熊兵[9]基于自建旅游文本平行语料库和可比语料库对旅游文本英译文的文本特征及特定旅游语用的汉英翻译问题进行了探讨。本研究旨在基于自建单语语料库,对比中外英文景点介绍的词汇特征,扩充旅游景点介绍的研究广度,为这方面的研究添砖加瓦。
一、研究方法
研究语料来源为中外官方旅游网站。从中国旅游网站(www.travelchina.gov.cn)和英国旅游网站(www.tourist-information-uk.com)分别随机抽取40篇中国英文景点介绍和40篇英国英文景点介绍,自建两个语料库:中国英文景点介绍语料库和英国英文景点介绍语料库。然后利用文本整理器对两个语料库文本进行清洁,主要是删除文本中多余的空格空行,整理标点符号,修正乱码等等,并进行人工复查,保证文本干净整洁,增加之后统计分析结果的可信度。
研究工具主要是TreeTagger for Windows 3.0,AntConc 3.2.3,Range,Readability Analyzer 1.0。TreeTagger for Windows 3.0和Readability Analyzer 1.0是由北京外国语大学语料库团队成员开发,本研究利用TreeTagger for Windows 3.0对两个英文本进行自动词性标注,利用Readability Analyzer 1.0计算文本的易读性(Flesch Reading Ease)、困难程度(Text Difficulty)、平均句长(Average Sentence Length)、平均词长(Average Word Length)等进而测量文本的难易程度。利用日本早稻田大学Laurence Anthony编写的文本检索软件AntConc 3.2.3,获取文本中的形符数、类符数、名词数、实义动词数、形容词数、副词数等等。Range工具是由新西兰维多利亚大学语言学家P.Nation 和A. Coxhead设计,A. Heatley编写,用来检索词汇广度和深度的统计分析软件。Ranger内置了三个词汇表,这三级词汇表代表了英语中出现频率较高的词汇,每一级的词汇难度递增。本研究利用该软件测量不同等级词汇在两个文本中的分布情况。
二、研究结果与讨论
(一)词汇密度
1. 类符/形符比
类符(Type)指文本中任何一个独立的、不同于其他词的词。形符(Token)是一个语言单位,指文本中所有出现的词,即文本中有多少词就有多少形符。类符/形符比是衡量语料库文本中词汇密度的常用方法,可辅助说明文本的词汇难度,也可以用来衡量语篇的信息量[10]。运用AntConc 3.2.3分别统计了中国英文景点介绍语料库和英国英文景点介绍语料库的类符数和形符数,并计算出各自的类符/形符比,得到如表1所示信息:
表1 类符/形符比
从表1可以看出,中国英文景点介绍的类符/形符比小于(26.32% < 31.58%)英国英文景点介绍的类符/形符比。Baker[11]指出类符/形符比比值的高低与写作者词汇使用的丰富度和多样性成正比,可以在一定程度上反应文本作者使用的词汇量大小和遣词的变化性。通常比值越小,词汇应用就越简单;比值越高,作者用词的变化性越大。由此可见,与英国英文景点介绍相比,中国英文景点介绍用词变化性较小,重复率较大,词汇丰富程度较低。
2. 实词/总词数之比
另一个测量词汇密度的方法是统计实词形符在总形符数中的比例,该方法是文本信息量大小的一个衡量标准。根据Biber et al的论述,英语实词主要包括名词、实义动词、形容词和副词四类[10]。首先利用TreeTagger for Windows 3.0对两个英文语料库文本进行词性标注,利用PatternBuilder获取统计任意名词、实义动词、形容词和副词的正则表达式,然后运用这些正则表达式在AntConc 3.2.3中检索所有的名词、实义动词、形容词和副词的数目,并计算实词/总词数之比,统计结果如表2:
表2数据显示,中国英文景点介绍篇幅较长、实词/总词数比较大,说明中国景点介绍信息量较大。因为中国景点介绍常常利用大量篇幅描述景点,包括其风光景色、人文特色、历史发展、社会影响等等,而英文景点介绍重在对地理环境、服务设施等信息的传递,对风光景色的描述性篇幅则着笔不多[12]。在分析英国文本时,发现英国景点介绍偏于简明写实,详细信息多以链接的形式呈现,由读者自由选择是否点开链接阅读更多详细内容。而中国英文景点介绍与中文文本相似,更倾向于将全部相关信息呈现出来。
表2 实词/总词数之比
(二)词长与句长
平均句长是文本中句子的平均长度。平均词长指的是在语料库文本中的类符平均长度。平均词长越长说明该文本中较长的词越多,所以文本内容显得较复杂; 反之,如果词长较小,证明该文本内容越简单,内容自然越浅显易懂。利用软件Readability Analyzer 1.0计算两个文本的平均句长和平均词长。计算结果显示,两个文本的平均词长相同,均为4.90个字母。但是,中国英文景点介绍的平均句长为28.20,英国英文景点介绍的平均句长为19.80,即中国的景点介绍中长句子较多。可能原因是为了使文本叙述更加清晰,中国英文景点介绍的写作者采用长句完整表达意思。也可能是因为写作者为了表现自己的英文水平,或者说中国人整体的英文水平,特意采用复杂长句。
(三)形容词的使用
根据上文统计出的两个文本各自的总形容词数,计算两个文本使用形容词的比例。中国英文景点介绍中总形容词数是969,占文本总词数的11.30%。英国英文景点介绍共使用530个形容词,比例为8.55%。可以看出,中国景点介绍使用形容词更频繁,11.30% > 8.55%,说明中国景点介绍的写作者更倾向于使用华丽的言辞。孙红梅[13]对比汉英旅游景点介绍文本时,发现汉英民族不同的文化背景、价值观念及思维方式表现在英汉旅游景点介绍中,汉语表达的华丽溢美和英语表达的直观明快形成了鲜明的对比。典型的中文旅游文本在传递信息时往往用字凝练含蓄、言辞华丽,追求客观景物与主观情感的和谐交融之美,大量使用形容词和四字成语,景点简介都非常有文采。英语景点介绍文本大多风格简约,表达直观通俗,注重信息的准确性和语言的实用性,常常用客观的具象罗列来传达景物之美。这些统计数据准确地反映出这一对比,中国景点介绍虽是英文的,但与中文文本却有极大相似之处,言辞华美。英国英文景点介绍则较少使用形容词,语言朴实,简洁明快。
(四)高频连词的使用
连词是语料库中一种语法功能词,其占总词符数的比例,可以反映出文本的语法连接手段。利用AntConc 3.2.3检索文本中的高频(频率大于0.10%)连词,并计算不同连词在文本中使用的比例,结果如表3所示:
表3 高频连词的使用情况
通过表3可知,中国英文景点介绍中高频连词有and,as,that,which四种,合计频率为6.34%,英国英文景点介绍中高频连词有and,as,or,that,which五种,总频率为6.06%。与英国景点介绍相比,中国景点介绍使用连词较多,这也是上文显示中国景点介绍平均句长较长的原因。这表明中国英文景点介绍的写作者意识到了英语重形合的表达习惯,有意增加连词的使用,使文本的语法层次更分明。
(五)词汇难易程度
利用Range软件对两个文本的用词进行检索统计,将文本中的词汇与其提供的三级常用词汇表做比较,用以衡量文本的词汇难度,以对比中国英文景点介绍和英国英文景点介绍的难易程度。Range软件检索结果如表4:
表4 Range检索结果
对比两栏数据可知,与英国英文景点介绍相比,中国的英文景点介绍中第一级词汇较少(65.9% < 69.3%),第二级词汇较少(6.3% < 7.6%),第三级词汇较多(5.6% > 4.1%),词表外词汇较多(22.2% > 19.0%)。“三级词表中,第三级和词表外词汇,特别是第三级词表对文本整体的词汇难度有较好的判别能力”[14]。所以中国英文景点介绍文本的词汇难度在一定程度上超过了英国英文景点介绍文本。虽然英语并非中国人的母语,但随着英语国际地位的提升,越来越多的中国人开始学习英语,中国人也越来越希望展现自己的英语水平。
为了更加准确地说明两个文本的难易程度,本研究利用专门计算文本易读性的软件Readability Analyzer 1.0对比两个文本的困难程度。分析结果如表5所示:
表5 Readability Analyzer 1.0分析结果
从表5可以看出,与英国景点介绍相比,中国英文景点介绍易读性较低(38.1 < 48.00),困难程度较高(61.90 > 52.00),对读者受教育水平要求较高(14.60 > 11.40),这足以说明中国英文景点介绍确实比英国英文景点介绍难度高。综合本研究可以发现,上文中出现中国英文景点介绍的实词比较大、平均句长较长、连词使用较多等研究结果都是导致中国英文景点介绍相对较难的原因。
三、结束语
本研究基于自建中国英文景点介绍语料库和英国英文景点介绍语料,对中外英文景点介绍的词汇特征进行了探讨,重点考察了景点介绍的类符/形符比,实词/总词数之比,平均句长,平均词长,形容词的使用,高频连词的使用,不同难度词汇分布等情况。研究发现,中国英文景点介绍的类符/形符比低于英国原生文本,但是在实词比,平均句长,形容词和连词的使用等方面高于英国英文景点介绍。对比相关研究发现,中国英文景点介绍受汉语影响,与中文景点介绍文本存在很大相似之处,言辞华美,描述性语言较多。同时,中国英文景点介绍也显示出英语的影响,例如较多连词的使用。另外,在中国英文景点介绍中高频低难度词汇分布较少,低频高难度词分布较多,即中国英文景点介绍的难度在一定程度上比英国原生文本还要大,显示出中国人英文水平的提升或展现英文水平的意愿。语料库研究方法方兴未艾,未来的研究应该扩大语料库库容,并且增加中文景点介绍。同时还应增加旅游告示牌、旅游宣传广告、导游解说词、民俗风景画册等内容,建立旅游文本专门语料库,为以后各方面的研究分析做准备。
[1] 王治奎.大学汉英翻译教程[M]. 济南:山东大学出版社,2001:434.
[2] 郭欢欢,叶苗. 温州地区汉英旅游景点介绍语篇翻译的语用顺应研究[J]. 温州大学学报(社会科学版),2009,22(4):67-72.
[3] 朱兵艳,刘士祥. 旅游景点文本特点与英译策略——以海南国际旅游岛景点介绍英译为例[J]. 内蒙古农业大学学报(社会科学版),2012,14(2):316-318.
[4] 林菲. 新修辞理论视域下的汉英旅游网站文本的修辞对比与翻译[J]. 西华大学学报(哲学社会科学版),2015,34(4):81-86.
[5] 李文中. 语料库语言学的研究视野[J]. 解放军外国语学院学报,2010,33(2):37-40.
[6] 杨惠中. 语料库语言学与中国外语教学[J]. 现代外语(季刊),2010,33(4):421-422.
[7] 李德超、王克非. 基于双语旅游语料库的DDL翻译教学[J]. 外语电化教学,2011,(1):20-26.
[8] 张淑静. 中国英语景点介绍中的词块研究. 中南民族大学学报(人文社会科学版)[J].2012,32(6):173-176.
[9] 熊兵. 基于语料库的旅游文本英译文词汇特征及翻译研究[J]. 华中师范大学学报(人文社会科学版),2016,55(5):94-103.
[10] 牛桂玲.中外学术论文中英文摘要语料库的创建及应用[M]. 北京:知识产权出版社,2013:69-71.
[11] Baker, Mona.Corpus Linguistics and Translation Studies: Implications and Applications[M]. Amsterdam:John Benjamins Publishing Company, 1993.
[12] 杨雪.中英文旅游资料对比分析[J].科教文汇(下旬刊),2008,(8):237-238.
[13] 孙红梅. 功能翻译理论视角下汉英旅游景点介绍文本的对比研究[J]. 中国矿业大学学报(社会科学版),2010,(3):140-144.
[14] 梁茂成,李文中,许家金. 语料库应用教程[M]. 北京:外语教学与研究出版社,2010:138.
[编校:杨英伟]
A Corpus-based Study on Lexical Features of English Scenic Spot Texts From Domestic and Foreign Tourism Sites
MA Huan-na
(School of Foreign languages, Zhengzhou University, Zhengzhou Henan450001)
The corpus research method is a top-down empirical method which is based on a large number of data and uses the knowledge of statistics. Using the software AntConc 3.2.3, Range and Readability Analyzer 1.0 to carry on qualitative and quantitative analyses of the self-built corpora of English scenic spot texts from Chinese and British tourism sites, it aims to contrast the lexical features of English scenic spot texts in China and original English scenic spot texts in Britain. It is found that the Type/Token Ratio of English scenic spot texts from Chinese tourism sites is lower than that from British tourism sites, that the Content Word Ratio,Average Sentence Length, the number of adjectives and conjunctions are higher in English scenic spot texts from Chinese tourism sites, and that English scenic spot texts from Chinese tourism sites are more difficult than those from British sites to some degree.
corpus; scenic spot texts; lexical features
H031
A
1671-9654(2017)03-0112-05
10.13829/j.cnki.issn.1671-9654.2017.03.022
2017-06-09
马换娜(1991- ),女,河南安阳人,在读硕士研究生,研究方向为应用英语教学。