APP下载

基于语料库的《综合教程》词汇广度和深度分析

2015-10-14陈乾峰

文教资料 2015年23期
关键词:词汇表词表教程

陈乾峰 宋 倩

(杭州师范大学钱江学院,浙江 杭州 310016)

基于语料库的《综合教程》词汇广度和深度分析

陈乾峰 宋 倩

(杭州师范大学钱江学院,浙江 杭州 310016)

本研究运用语料库的研究方法,以英语专业四级词汇表为参照词表,对英语专业教材《综合教程》的词汇进行广度和深度分析。结果表明,教材中的词汇密度、词汇类型呈现逐册递增趋势,但是新增词汇类型的复现率偏低,不利于学习者习得。此外,整套教材词汇基本覆盖了专业四级词表,适合学习者学习。

词汇 语料库 词表

1.引言

“没有语法,人们可以表达的事物寥寥无几;而没有词汇,人们则无法表达任何事物”(胡壮麟,李战子,2004:47),因此可见英语学习中词汇学习的重要性。英语教材对于专业学习者的重要性不言而喻,但是教材兼顾单元、话题、主题、任务、结构等因素,系统合理地选择和呈现词汇确非易事,“常常缺乏系统性”(Sheldon,1988:239)。因此,分析和评估教材中课文涵盖的词汇选择、词汇特点及词汇分布等是一项意义重大的研究课题。

但是,以前的教材词汇评估大多通过人工阅读、统计和分析,不仅耗尽人力和物力,而且收效甚微。更有学者凭借经验和印象,进行主观分析和片面臆断,其信度和效度很难得到保证。近年来,随着语料库技术的发展,通过大量的真实语料,一次性批量统计和分类,能更加全面、客观、高效地呈现教材中的词汇特点,成为教材词汇评估的一种重要手段和方法。国内外学者也逐渐开始进行此类研究,Koprowski(2005)对英国三套英语中级教材(New Headway,Innovations,Inside Out)的词块做了研究;谢家成(2010)评估了中学英语教材词汇。为了更好地培养英语人才,提高其英语综合能力,进行符合本专业特点的教材词汇评估研究迫在眉睫,意义重大,但到目前为止,鲜有相关实证性量化研究。

本研究以何兆熊主编的《综合教程》四册128篇课文(包括Text 1和2)为研究语料,借助语料库技术对它们进行批量导入、提取和分析,客观和直观地呈现出教材中的词汇分册分布特点,并将这套教材课文词汇和《大纲》规定的英语专业四级词汇(参见姚乃强等学者的《英语专业四级词汇表》)进行覆盖率测试,以检测本系列教材词汇与大纲词汇的相关性。

2.数据收集

本研究基于《综合教程》(1-4册),每一单元涉及Text A和Text B两篇课文,共收集到了128篇课文,总字数为128975。随后,对所有语料进行了*txt纯文本处理和标记,以便于计算机软件检索、识别和统计,如B1U1T1表示第一册第一单元Text A。我们将每册课文放入单独的文件夹,这样便于进行册与册和整体的对比分析。

传统的课文阅读势必会占据研究者太多的时间和精力,且往往存在片面性和主观性,而采用语料库技术提取语料的方法恰恰能弥补传统阅读的缺陷。本研究采用AntConc语料库检索软件一次性地检索和提取所有文本。提取好语料后,可以通过软件的基本程序,检索和分析每册教材的词汇特点,并探究教材词汇与大纲词汇之间的覆盖率。

3.结果与讨论

3.1类符、词次和类符/词次比

利用检索软件AntConc对《综合教程》教材四册进行单词列表(WordList)统计,从而得出每一册书出现的类符、词次和它们之间的比值。从理论层面来讲,随着年级的上升和学习时间的增加,学生对于英语词汇学习的能力和大纲对其要求的高度逐步递增,因此每一册的课文难度应该逐步递增,也就是说,第二册要比第一册难,第三册要比第二册难,第四册要比第三册难。这种难度可以体现为类符数的增加,词次的增加,以及类符/词次比的增加。我们将词表统计的数据列入表1,并针对这些数据稍作探讨和分析。

表1 类符/词次(TTR)的统计结果

3.1.1类符数的统计从表1

来看,《综合教程》1-4册的单词类型(类符)总数分为:第一册共5171类;第二册为5885类;第三册为6095类;第四册为6623类。从中可以发现,第二册比第一册增加714个;第四册比第三册增加528个;第三册比第二册略微增加120个。这种学期之间的高梯度增加及学年之间的低梯度增加恰恰反映了学生的学习规律:寒假较暑假时间短1个月,学生的寒假词汇遗忘率比暑假要低,所以难度可以适度增加;相反,过了一个暑假,学生需要更长的时间来恢复遗忘的词汇。因此,这种类符数在每一册的体现是比较科学的,也是值得提倡的。

3.1.2词次的统计

从表1来看,1-4册的单词词次总数分为为:27377、32018、34414及35166;每册每篇课文的平均长度为:27377/ 32=856个;32018/32=1001个;34414/32=1075个;35166/32= 1099个。可见,随着学期的推移、年级的上升、学习时间的增加,综合教程教材的课文总字数逐学期增加,每篇课文的平均长度也相应递增。当然,这种递增反映在每一册的总数和平均数上,册内的32篇课文各篇的长度并非一定逐渐递增,同一单元中有时Text B要比Text A要长,有时要短;后一单元有时比前一单元要短。这些需要根据课文的题材、类符数、教学目的、教学内容和教学效果等而定。

3.1.3类符/词次比统计

类符/词次比这个指标反映出了所选课文中词汇出现的难度和密度。《综合教程》教材的类符/词次比按照第一到第四册分别为:18.9、18.4、17.7和18.8,可见,它们都基本维持在18.5左右,就第三册的比值低于18.0。当然,这个指标无法很好地反映出词汇的复杂度。

3.2课文词汇与专四大纲词汇对比

词汇是英语学习中的一个重要部分,词汇出现的类型、出现的次数,以及其在每篇文章及每册书中的分布都直接关系到英语专业学生对于词汇的习得。本研究主要探讨一套广泛使用的《综合教程》四册的词汇特点,并与姚乃强、邹申等主编的《英语专业四、八级词汇表》中的四级词汇表进行对比分析,主要探讨两个问题:第一,《综合教程》册与册之间的词汇类型特点;第二,《综合教程》词汇与专四大纲词汇对比。

要进一步探讨以上两个问题,首先要提取《综合教程》各册词汇表。具体是用AntConc工具从自建语料库中提取出词汇表并进行削尾处理(如had/has/have/having/'ve就 会自动归到同一个词簇have里面),在进行词频统计后生成频率词表,作为目标词表。其次将英语专业四级大纲词表作为参考词表,与目标词表进行对比分析。

3.2.1《综合教程》册与册之间的词汇类型特点通过

上述步骤,共计生成目标词汇表5个,分别为每册目标词表1个,以及四册总词表1个。具体如表2

表2 目标词表中的词簇统计结果

从表2可以看到,《综合教程》第一册有词簇共计3827个,第二至第四册则分别为4286、4546和4846个,每册分别增加词簇为:459个,260个和300个,呈现逐册递增趋势。这一趋势较符合学生的学习规律,因为随着学期的推进,年级的上升,专业学生习得词汇的能力和实力理应逐年、逐学期递增。

但是,纯粹从每册词簇的数量来判断教材词汇编排的科学性和合理性还显得比较牵强,缺乏一定的说服力。我们应该看册与册之间词簇类型的重复性和差异性。通过关键词统计(Keyword List),分别以前一册的词簇为参照词表,得出如下数据:第二册要比第一册新增词簇2254个,如abound(B2U14T1),abundant(B2U13T1),abut(B2U13T2),accommodate(B2U2T2),adamant(B2U15T1)等;第三册比第二册新增2395个,如abatement(B3U4T2),abhor(B3U14T2),abolish(B3U5T2),abridge(B3U10T1),accomplice(B3U16T2)等;第四册比第三册多2528个,如ablaze(B4U12T1、B4U16T2),accessory(B4U5T1),accrue(B4U10T2),adhere(B4U4T2),aggression(B4U11T2),alienate(B4U3T1)等。这个显著的增加很客观和直观地反映了《综合教程》册与册之间词汇难度编排的梯度性、科学性和合理性。

此外,英语教材中词汇的重复率和重复模式直接影响学生的词汇习得(陈潇潇,2011:9)。词汇重复频率是语言习得的关键(Ellis 2002:145-148)。因此,我们有必要检测每一册新增的词汇在后面几册中的出现频率。从上文可以看出,第二册新增的2254个新词,有1663个没有出现在第三册、1308个未出现在第四册中,复现率分别为26.2%和42.0%,如afflict,aftermath,altruistic,ammunition,anonymous等都未出现在后面两册中;第三册新增的2395个词汇中有1786个未再次出现,复现率也仅为25.4%,如adrift,advent,aesthetic,affluent等。从这个低复现率或重复率来看,《综合教程》还不能完全为英语学习者提供足量的语言输入,也较难帮助学习者将短时记忆的词汇转化为长期记忆,容易导致词汇量不足。

3.2.2《综合教程》词汇与专四大纲词汇对比

本研究所使用的语料为全国诸多高校英语专业采用的精读教材,具有很强的代表性。英语专业四级词汇是教育部对英语专业低段学习的词汇要求,具有很强的指导性。那么比较教材词汇与专四词汇表具有很强的教学实践意义。

对目标词表与专四词表的相关性统计后可以看到,教材第一册有词簇3827个,其中461个超出专四大纲词汇,如abstinence,anguish,animate,assortment等;第二册有523个超出专四大纲词汇,如abut,afflict,appendix,atonement等;第三册和第四册分别超出587和622个,如abatement,accomplice,admixture,anthology等,共计有2193个词簇超出专四词表。反过来,我们有必要探究专四大纲词汇在本研究语料中的出现频率,经过关键词表对比,共计有2397个词簇未出现在四册教材中,如sprout,abdomen,abolition,acupuncture等。

但是细细分析,我们发现两个词表之间的差异可以进一步缩小,如allotment出现在目标词表,而allot出现在专四词表,但是统计时分别为两个不同的词;还有目标词表中的differently和专四词表中的different分别被视为两个词。因此,有必要更进一步地分析它们的词缀,进一步“去噪”,使得对比更加具有信服力。但是就本研究而言,我们可以发现目标词表超出专四词表2193个单词,而专四词表超出目标词表2397个词,两者相差不大,具有一定的互补性。因此,从很大程度上而言,四册教材词汇基本覆盖了大纲所要求的专四词汇,覆盖率高达87.0%。

4.结语

本研究基于《综合教程》四册教材对其进行词汇量化分析,并通过与英语专四大纲词汇表对比,检验其词汇的覆盖率。结果显示,四册词汇的密度和数量、词簇的类型等都是逐册递增,符合学习者词汇习得规律。但是,通过册际词类对比分析后发现词汇的复现率和重复率偏低,不利于学生重复学习,加深印象,真正习得词汇。此外,通过与专四大纲词表对比后发现,教材词汇基本覆盖了大纲所要求的词汇,并有少数词汇超出专四词表。因此,学习者能通过学习本套教材来认识专四词汇,但是要真正习得词汇还需要教材编写者在词汇的重复率上再下工夫。

[1]Ellis,N.2002.Frequency effects in language processing:A review with implications for theories of implicit and explicit language acquisition[J].Studies in Second Language Acquisition,24:143-188.

[2]Kennedy,G.1998.An Introduction to Corpus Linguistics[M].London:Addison Wesley Longman.

[3]Koprowski,M.2005.Investigating the usefulness of lexical phrases in contemporary coursebooks[J].ELT Journal 59:322-332.

[4]Sheldon,L.1988.Evaluating ELT textbooks and materials[J].ELT Journal 42/4.

[5]陈潇潇.大学英语教材课文词汇分布特征实证研究[J].外语电化教育,2011(3):9-14.

[6]何兆熊.综合教程(第一册至第四册)[M].上海:上海外语教育出版社,2005.

[7]胡壮麟,李战子.语言学简明教程(中文版)[M].北京:北京大学出版社,2004.

[8]谢家成.基于语料库的英语教材虚化动词对比研究[J].外语教学理论与实践,2010(3):13-17.

[9]姚乃强,吴古华,邹申.英语专业四八级词汇表[M].上海:上海外语教育出版社,2004.

本论文为杭州师范大学钱江学院2015年度科研项目研究成果,项目编号:2015QJJW02。

猜你喜欢

词汇表词表教程
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
叙词表与其他词表的互操作标准
《阅读教程》三、四册修辞格分析
国外叙词表的应用与发展趋势探讨*
常用联绵词表
词汇表
词汇表
词汇表