语料库中国内媒体英语新闻词汇丰富性研究
2021-07-31韩冬娇
韩冬娇
(黑龙江大学 黑龙江 哈尔滨 150086)
词汇丰富性是二语词汇研究的重要领域,涉及词汇变化性、词汇密度、词汇复杂性和词汇错误数量四个维度,英语新闻词汇的丰富性直接影响着新闻质量。本研究选取主流媒体人民网的英文版作为观察语料,将CNN原生新闻作为参照语料,自建两个小型语料库,并借助软件wordsmith 6.0、Range 32和Antconc 3.4.4,对国内媒体英语新闻词汇丰富性展开分析。
一、研究背景
20世纪80年代以来,二语词汇研究备受国内外专家学者的关注,研究领域主要为词汇广度和词汇深度。
词汇丰富性是反映二语写作水平的一个重要指标。Laufer&Nation指出,词汇丰富性主要由四个维度构成,分别是密度、变化性、复杂性及新颖性。[1]Engber在前者的研究基础上,将词汇错误作为词汇测量的另一个重要维度纳入其中,指出词汇丰富性的考察必须将有错误的词汇变化性、无错误的词汇变化性、错词比例等考虑在内。[2]Read指出,一篇好文章应具备以下词汇特征:词汇丰富,非重复使用有限的单词;使用符合话题和文体的低频词;相对高比例的实词和较少的词汇错误。[3]这几个特点被定义为评估词汇丰富性的四个要素,即词汇多样性、词汇复杂性、词汇密度和词汇错误的数量。
有关国内媒体英语新闻的研究多集中于新闻标题、导语、词汇、文体特征等方面,对词汇丰富性的研究较少,而英语新闻的词汇丰富性直接影响着新闻质量。本研究基于Read的理论,将词汇丰富性的维度界定为词汇多样性、词汇密度、词汇复杂性和词汇错误数量,通过自建语料库,对国内媒体英语新闻的词汇丰富性进行研究。
二、研究设计
(一)语料来源
本研究选取国内主流媒体人民网的英文版作为观察语料,将CNN原生新闻作为参照语料,自建两个小型语料库;其中观察语料库7237词,参照语料库7178词,新闻内容主要涉及政治、经济、文化三个方面。
(二)研究内容
本研究借助语料库分析工具,分析人民网英文版新闻的词汇丰富性,并将其与CNN英语原生新闻进行对比,发现国内媒体英语新闻与原生英语新闻之间在词汇使用上差距较大。由于本研究选取的人民网英语新闻是国内主流媒体,文章质量较高,因此词汇错误数量不作为本文的研究内容。本研究主要从以下三个方面展开讨论:词汇多样性、词汇复杂度和词汇密度。
(三)研究方法
本研究借助wordsmith 6.0,通过计算标准类符和形符比(STTR)测量语料库的词汇多样性;将《英语通用词表》作为词汇频率档案,运行Range 32测量词汇的复杂度;通过软件Antconc3.4.4检索语料库中实义词数,计算词汇密度。
三、数据分析
(一)数据分析
1.词汇多样性
词汇多样性可看作词汇的广度,是词汇丰富性的多维特征之一。词汇多样性传统上采用类符和形符比(type token ratio,TTR),但该方法受文本长度影响较大。因此,一般采用标准化类符/形符比(standardized type/ token ratio,STTR)作为衡量标准,以减少文本中功能词词频过高造成的误差。[4]因此本研究借助wordsmith 6.0,采用Scott(2008)介绍的标准化类符和形符比(STTR)来测量国内媒体英语新闻词汇多样性,测量结果更稳定。STTR值越高,说明文章中使用的类符数越多。两个语料库的类符数和形符数,以及标准类符和形符比见表1。
表1 人民网语料库和 CNN 语料库标准化类符、形符比
表1显示,人民网语料库的TTR值为27.36,而CNN语料库为31.66;从稳定性更强的STTR值看,人民网语料库是44.21,CNN语料库为48.14,两组数值均说明国内媒体英语新闻的词汇多样性低于原生英语新闻。
2.词汇复杂度
词汇复杂度是评估词汇丰富性的指标之一,所谓复杂度指的是文本中能够适当使用与主题、文体相关的低频词,而非只使用常用的高频词。[5]本研究通过运行Range 32测量词汇的复杂度[6],所用词汇频率档案是《英语通用词表》(GLW),其中最常用1000词和次常用1000词为高频词,学术词汇和表外词为低频词。[7-8]低频词比例越高,说明语料库词汇复杂度越高。两个语料库的词汇复杂度见表2。
表2 人民网语料库和 CNN语料库词汇复杂度
词汇复杂度指标主要看的是低频词,即学术词汇和表外词。表2显示,对于学术词汇,人民网为14.94%,CNN为12.19%,人民网高于CNN;对于表外词,人民网为28.86%,CNN为33.54%,人民网低于CNN。低频词指的是学术词汇与表外词汇,人民网的学术词汇与表外词之和为43.80%,CNN为45.73%,人民网低于CNN,说明人民网的词汇复杂度低于CNN。
3.词汇密度Read(2000)认为,词汇密度是词汇丰富性的一个重要参数。在词汇密度测量上,本研究计算的文本中实词数与总词数之比[8-9],其计算公式为:
本研究借助Antconc3.4.4检索两个自建语料库的实义词数。通过以上公式,分别计算人民网语料库和CNN语料库中实词总数与总词量的比例,从而得出两个语料库的词汇密度。该比值越高,说明语料库词汇密度越大。两个语料库的词汇密度见表3。
表3 人民网语料库和 CNN语料库词汇密度
表3显示,两个语料库的词汇总数相近,人民网语料库的词汇密度为59.66%,CNN语料库的词汇密度为57.59%,人民网语料库的词汇密度高于CNN语料库。
四、讨论
人民网语料库和CNN语料库词汇丰富性的相关数据表明,人民网英文版的词汇多样性和词汇复杂度均低于CNN原生新闻;但人民网的词汇密度高于CNN,说明国内媒体英语新闻重复使用相同词汇处多,词汇的广度和复杂度较低。这与表2两个语料库中高频词汇的使用情况相吻合:对于《英语通用词表》中最常用1000词,人民网语料库为45.79%,CNN语料库为43.79%,人民网高于CNN;对于次常用1000词,人民网语料库为10.40%,CNN语料库为10.48%,两个语料库相差不大,即国内媒体英语新闻更多地使用高频词。
五、结语
本研究通过自建语料库分析了国内媒体英语新闻的词汇丰富性,并与原生新闻进行对比,结果显示:国内媒体英语新闻的词汇多样性和词汇复杂度均低于原生新闻;但词汇密度较高,说明国内媒体英语新闻多处重复使用高频词汇。为提高我国新闻外宣能力,国内媒体应提高英语新闻的词汇多样性和复杂度,注重低频词汇的运用,以提高英语新闻的文本质量。本研究只是对国内媒体英语新闻的词汇丰富性进行初步分析,虽然在一定程度上揭示了国内媒体英语新闻与原生新闻之间词汇使用差距,但仍有不足之处,如选取的语料范围较小、语料库规模有限。因此,今后需建立更大库容的语料库,开展更加深入且全面的研究。