基于语料库的大学生英语写作词汇特征研究

2013-01-15杨柳

成都理工大学学报（社会科学版） 2013年6期

杨柳

（浙江理工大学外国语学院，杭州 310018）

写作，作为外语学习五大基本技能之一，是考察二语学习者中介语发展的重要方面。Connor（1984）［1］提出词汇特征更能反映母语和二语写作的差异。Read（2000）［2］曾详细探讨一篇好的作文应当具备的词汇特征。我国对二语写作词汇的探索与中介语研究的发展相一致。中介语假说（Interlanguage Hypothesis）［3］在中国自1992年开始成为学者研究和讨论的中心议题之一［4］。目前的研究更趋于跨学科、应用语料库等新工具、注重实证［5，6，7］。但仍比较缺少纵向研究（Longitudinal study）。王海华等指出“近几十年来，对二语写作中词汇使用特点的研究引起了越来越多研究者的兴趣。然而针对词汇丰富性在中国英语学习者写作中的历时研究尚未存在。”［8］“历时研究”即中介语领域中的“纵向研究”（1），此类研究中，语料积累是难点。在计算机技术被引入语言研究之前，很多学者尝试用人工记录的方法积累语料。20世纪90年代初期，国际英语学习者语料库（International Corpus of Learner English）开始筹建，自此国内外已建成了一批颇有影响的学习者语料库［9］。本文尝试以非英语专业学生为对象，基于自建语料库和其它学习者语料库及本族语语料库，进行纵横两个角度的对比分析，追踪学习者中介语写作中词汇特征的变化发展。

一、研究方案设计

（一）研究思路

中介语的特性之一就是母语的词条、规则和次系统倾向保留在与目的语相关的中介语中，不管学习者的年龄有多大，也不管学习者接受的解释和指导有多少，这种倾向都不会改变，这就是中介语的石化［10］。石化现象按其性质可分为暂时稳定化和永久性石化两种。实际上不能称暂时稳定化为石化，它是产生石化的预兆。对于中等水平的二语学习者而言，谈到石化似乎言之尚早，与之更为密切相关的是稳定化。通过对非英语专业学生写作词汇的稳定化趋势进行追踪、分析，可以发现中介语发展的特点，从而提出相应的对策。

具体说来，本文在以往同类研究的基础上更进一步，尝试利用多个语料库进行纵横两个维度的探索。横向上，以三个涵盖不同时期语料的学习者语料库与本族语语料库作对比，从中发现中国学习者写作词汇的特点及和本族语的差距。三个学习者语料库的语料具有互补性，从而可以预期综合得出的代表中介语的数据更加客观，结论更有说服力。纵向上，三个学习者语料库彼此进行比较，由于三个语料库收集的是不同时期的语料，它们之间的对比就可以勾勒出我国英语学习者写作词汇发展的一幅宏观图景，反映整体英语水平的变迁以及英语教学的成效。

（二）本研究使用的语料库

本文所使用的语料库为自建非英语专业学生写作语料库（Written English Corpus of Non－English Majors）、中国学习者语料库（Chinese Learner English Corpus）、中国学生英语口笔语语料库（Spoken and Written English Corpus of Chinese Learners），和 NESSIE Corpus Version 1（Native English Speakers’Similarly－ and Identicallyprompted Essays）。其中前三个为中介语语料库，第四个为代表本族语的参照库。

自建非英语专业学生写作语料库（WECNEM）为2011年教育部人文社科青年项目成果之一，容量约为50万词，全部进行了词性标注，主要包括两个子库，2009级学生作文库和2011级学生作文库。作文均为课后作业，不限完成时间，所有语料产出时间为2009年至2012年。该库的特点是规模相对较小，但优势是语料新鲜，并且两个子库分别对同一批受试在大学一二年级产出的作文进行了为期两年的积累，适合进行纵向研究。

中国学习者语料库（CLEC）是国家社科基金“九五”归化项目的成果，从1996年开始筹集，至2003年正式出版，其中包括大学一、二年级非英语专业学生的作业209，043词次，是我国最早一批中介语语料库，产出了大量成果。受试对象水平与自建语料库（WECNEM）相当，适合纵向比较不同历史时期同一水平二语学习者的语言发展特点。此次作为对比的数据主要来自CLEC中的子库ST3和ST4，分别代表四级和六级水平的非英语专业学生。

中国学生英语口笔语语料库（WECCL）系南京大学“211工程”二期子项目，其书面语料主要从国内9所不同层次的高校英语专业1～4年级的学生中采集。［11］该库代表了较高水平的二语学习者，与WECNEM和CLEC的语料对比，可通过观察中级水平和高级水平学生的不同表现，探索中介语在不同阶段的发展情况。

NESSIE corpus 1．0版是一个约18万词次规模的英美本族语者英语作文语料库。其中所收文本主要是英美本族语者依照中国四六级、四八级作文题所撰写的英语作文。也有部分语料文本取自BAWE、MICSUP等英美大学生语料库中话题近似的文本（2）。该库的优势是作为对照库，其语料的主题与我国的学习者语料库较为接近，这一点十分难得，可使对照结果更为准确。

（三）文献检索参数

1．标准化型次比、平均词长和句长标准差

我们使用 Wordsmith 3．0对 WECNEM 的语料的基本信息进行统计，其中包括类符／形符比（Type／Token ratio，简称 TTR，中文亦称型次比），标准化类符／型符比（Standard type／Token ratio，简称STTR）（3），平均词长（Average word length），以及句长标准差（Standard sentence length）。继而与三个对照库进行对比。值得一提的是，CLEC、WECCL和WECNEM的语料分别属于2002年之前，2005年之前和2009至2012年之间。在时间上，三个语料库形成了一个纵向对比，为研究中国学习者中介语的发展提供了较长时间跨度的参考数据。

2．常用词分布模型

建立WECNEM的常用词分布模型，与对照库进行比较。这一目标，可以通过词表分析（Word list）来实现。在对语料库文本进行的统计分析中，词表功能和语篇统计功能把语料库中出现的所有“类符”（4）统计列表。通常可以直观地提供三种信息：类符总数，每个类符的频数，每个类符的频率［12］。结合第一步中统计的其他基本信息，就能够得到语料库的词频分布图，绘制常用词分布模型，借助它来了解二语学习者中介语词语的使用情况。

二、研究结果及分析

（一）标准化型次比、平均词长和句长标准差

首先，根据检索方案，运用 WordSmith Tools 3．0、AntConc3．2等语料库检索软件对 WECNEM进行分析，得到数据如下（参见图1）。

继而，我们把自建库和其他对比库的主要数据列表对比，结果见表1。

图1 WECNEM基本数据

表1 四语料库基本数据对比表

如表1所示，就标准型次比而言，本族语语料库最高，英语专业的学生次之，自建库与CLEC中的ST4，即六级水平学生相仿，但高于该库中的四级学生。至于平均词长和句长，本族语都明显高于学习者语料库。就三个学习者语料库之间进行对比，则发现自建库中的学生和CLEC中的六级水平学生（ST4）更倾向于使用长句，甚至高于专业学生（WECCL），CLEC中的四级学生（ST3）的平均句长最短；至于平均词长，除本族语使用者外，专业学生的数据最高，继而是自建库，CLEC中的四、六级学生相仿，并无明显差异。

由于语料库代表的是宏观数据，因此我们可以从这些基本信息中看到每个库所代表的群体写作的一些整体趋势和相互之间的差异。首先，除英语专业的平均词长与本族语接近外，三个学习者库的数据说明了大学生群体使用的中介语具有一些共性——在词汇丰富度、平均词长和句长上均低于本族语。

此外，自建库的三个指标均明显高于CLEC中四级和六级水平的非英语专业学生，标准型次比和平均句长也高于专业学生。考虑到自建库与CLEC和WECCL的两个明显差异，即语料覆盖面和语料产出的时间，我们做两点说明：第一，自建库只包含一所工科院校非英语专业学生的语料，因此只能说明这所院校学生的三个指标高于CLEC与WECCL所代表的平均水平；第二，自建库包含的语料产出时间段主要集中在2010年至2012年，而CLEC的语料则属于1996年至2002年，之间存在十年左右的跨度。由此可以推断，经过这十年的英语教学探索与改革和学生学习方式改变，目前学生写作使用的中介语词汇更接近本族语。

（二）常用词分布模型

根据词表（Wordlist），我们分别计算出三个学习者语料库和一个本族语语料库使用的前100、500、1000、3000和5000的词型和词次比例，得到其在整个库中的分布（6），据此我们做出四个语料库的词汇分布对比图。为了便于说明，我们仍然把CLEC中代表四级和六级水平的ST3、ST4分开计算，具体结果参见图2。

图2 常用词分布对比图

从图2可以看出，自建库和代表专业学生的WECCL两条曲线数值相近；CLEC中四级和六级水平学生的两条曲线数值相近；并且这四条线的发展趋势（斜率变化）十分相似。代表本族语的浅色线条的发展趋势（斜率变化）则与它们明显不同。

在桂诗春、杨惠中的研究［11］中，他们发现，对本族语语料库BROWN和LOB等而言，最常用的5000词的使用频次占整个库的90%以下，相反“CLEC有一个鲜明的特点，即积累词型频数的百分比比较大，而占的积累词次数也大”（97．6%）。他们对此现象的解读是，“这更进一步说明中国学习者词汇量有限，他们掌握的词汇量比较少，而使用面却比较宽”，“很多词都在超量使用”。在本文的研究中，我们对三个中介语和一个本族语语料库的比较，却似乎得出一些不同的结论：

第一，本族语语料库NESSIE中的累计词频数在四个库中居中，并不像BROWN、LOB等低于所有学习者语料库。对此，笔者认为，NESSIE、BROWN与LOB等语料库并不同质。布朗语料库（Brown Corpus）包括500个美语样本，每个样本约2000字，涵盖报道、社论、传记等15个类别，库容100万词（7）。作为BROWN的对照库的LOB（Lancaster－Oslo／Bergen）完全遵循BROWN的标准，样本选自英国英语文本（8）。而NESSIE，如前文介绍，是英美本族语者，主要为大学生的英语作文语料库，以议论文为主，库容只有18万。因此不难理解BROWN和LOB累计词频数为什么相对较低，其原因是因为其库容大、题材多。相反，NESSIE的检测结果说明，就议论文写作而言，本族语大学生作者使用的词汇主要就是最常用的5000词（94．40%）。

第二，代表英语专业的 WECCL和自建库WECNEM的常用词覆盖率最高，分别为97．6%和97．9%，与本族语大学生写作者（NESSIE）相对接近。

第三，CLEC中的ST3和ST4二者的常用词覆盖率相似，约为87%，反而是四个库中中最低的，这似乎与之前的中国学习者超量使用常用词的说法不符。

针对以上第二条、第三条两个发现，我们需要做更详尽的分析。首先，前5000常用词累计频次高本身并不能说明这5000个词被过度使用。词频分布曲线的变化可以揭示出其中规律。从图2可以观察到，代表中介语的四条曲线尽管数值不同，但变化趋势几乎完全一致，前500词的斜率最大，之后越来越小，也就是说，前500词的使用次数最多，覆盖面最大，之后排位的词在总词量里面所占比重很小。而本族语曲线的斜率在500词之后明显大于中介语曲线，这意味着对本族语库而言，常用词分布相对平均，除了最常用的500词外，词表中的500至5000词也占有相应比例（29．8%）。因此，中介语使用者存在着高频使用前500词的现象，这与“中国学习者超量使用常用词”的说法不矛盾，只是更加细化。

此外，分别代表四、六级英语水平的ST3和ST4的前5000词覆盖率最低，约为87%。从绝对值上看，ST3和ST4使用了更多的前5000词以外的词汇，但这并不代表这两个库的学生使用词汇的丰富度高于专业库和自建库中的非英语专业学生。查阅ST3和ST4两库的词表，可以看到其使用的前5000词后出现了error，energy，cancel，cast等常用词，这说明ST3和ST4两库的学生除过量使用某些常用词外，可能还存在对某些常用词使用不足的问题。这与现实中非英语专学生大量背单词但语用能力较低、作文使用生僻词、出现错误搭配等现象相一致。

我们进一步列出图2中每个词汇标志量覆盖率增加的百分比，就会更加清晰地看到中介语库和本族语库的差距。

表2 词汇覆盖率增加比

从表2可以看出，中介语词汇覆盖率的增幅持续递减，本族语词汇覆盖率的增幅也在减少，但是幅度小于中介语，并且至第3000词时，其覆盖率增幅大于前1000词，说明对本族语使用者而言，前3000词的使用都较为均衡。换言之，我国大学生在写作时与本族语的差距之一就体现在常用词第1000至第3000词的使用上。

三、研究结论及建议

（一）研究结论

本研究主要有三点结论：首先，尽管水平不同，语料产出时间不同，但我国大学生进行英文写作使用的词汇存在一些中介语的共性特征，如在词汇丰富度、平均词长和句长上均低于本族语；其次，2009年至2012年产生的语料比1996年至2002年产生的语料在上述三个方面以及常用词分布上更接近于本族语，说明目前大学生的写作词汇在中介语持续体上向目标语更加靠近；最后，CLEC中的六级水平学生的词汇使用数据并没有比四级水平的学生有明显提高，自建库中的三个子库的数据也无明显变化，说明大学生在英文写作中，其词汇运用确实存在稳定化的趋势，是石化的前兆。

（二）英语教学及研究建议

综上，本文对于英语教学及研究主要有三点建议：

第一，我国的英语教学长期以来受到“耗时低效”的批评，但本文以数据为根据说明与十年前相比，当前的大学生英语词汇习得能力确有显著提高，因此建议进行更加细致深入的研究，总结我国近年英语教学中的积极因素，而非一味否定。第二，要正视中介语石化现象，重视稳定化阶段。根据Selinker的观点，中介语石化不可避免。本文印证了词汇习得的稳定化趋势，在英语教学及研究中如何推迟稳定化比如何避免石化更具有现实意义。第三，微观上，本文发现常用词第1000至3000词可能是学生习得写作词汇的关键点，可以预期从此点着手对延缓词汇石化会有显著效果。可见，与传统方法相比，基于语料库的研究变抽象为具体，在英语教学与研究中有广阔的应用前景，将产生重大的影响。

注释：

（1）“纵向研究”是指在一段相对长的时间内对同一个或同一批被试进行重复的研究，定义引自http：／／baike．baidu．com／view／1351133．htm．

（2）引自许家金博士在语料库语言学在线上的介绍（参见http：／／www．corpus4u．org／forum／showthread．php？t＝8507介绍）

（3）每一个在语料库中首次单独出现的词形称为类符（type），而同一个词在语料库中出现的次数称为该词的频数，又称为该词的形符（token）。类符和形符二者的比率在一定程度上反映了语料库词汇的丰富度。STTR，即每千字的类符／型符比则可在每个语料库的容量相差巨大时做出标准化的比较。

（4）“类符”，即“词型”，是type的不同译法；“形符”，即“词次”，是token的不同译法。

（5）由于NESSIE语料库目前由于版权问题尚无法下载文本，这里取同质语料库LOCNESS的数据替代。

（6）具体计算方法参见桂诗春、杨惠中的《中国学习者英语语料库》，上海外语教育出版社，2004．

（7）BROWN 语料库简介参见 http：／／bulba．sdsu．edu／docwiki／BrownCorpus．

（8）LOB 语料库简介参见 http：／／en．wikipedia．org／wiki／Lancaster－Oslo－Bergen＿Corpus．