中美大学生英语演讲词中词块的使用
——基于语料库的研究
2022-01-20任小华
任小华
(陕西科技大学 文理学院,陕西 西安710021)
用英语演讲是许多中国大学生渴望具备的能力之一。国内各类英语演讲比赛的举办,如外语教学与研究出版社主办的“外研杯”全国英语演讲大赛和中国日报社主办的“21世纪杯”全国英语演讲比赛,在一定程度上促使中国大学生更加重视使用英语,尤其是用英语进行演讲的能力。高质量的演讲词对成功演讲起着举足轻重的作用。研究表明,词块(有时被称为语块或词束)能力是语言能力的一项重要指标[1],有助于提高口语和写作能力[2],也有助于提高学生的英语演讲水平[3]。Altenberg的研究甚至表明,实际语言输出中的70%是通过词块实现的[4],因而“词块在英语演讲教学中越来越多地受到重视”[5]。过宇认为,对预制语块(词块)语用功能知识的掌握有助于演讲者准确、得体地使用英语与听众交流[6]。罗宪乐也认为词块是提高学习者演讲语言地道性和流利性的关键所在[7]。然而,学生在英语演讲中对词块的使用存在一些问题,如搭配不合理[8]。由于缺乏英语本族语学习者演讲词,目前国内相关研究大多针对中国大学生的英语演讲词[9],或将其与英美国家专业人士的演讲词进行对比[10]。我们无意否定这两类研究的价值,而是将中国大学生与美国大学生英语演讲词中词块的使用进行对比,以期对中国大学生英语演讲词中词块的研究有所启示,进而对提高中国大学生英语演讲能力有所裨益。
一、词块理论及文献述评
(一)词块界定及特征
词块,又叫(预制)语块,是“可以整体储存、提取和产出的程式语”[11]9。词块具有心理现实[12],这已部分得到了证实[13]。Wray对词块的界定比较模糊,相比之下,卫乃兴和王晓婷的定义更为可取,他们把词块定义为“以一定结构在语料库中高频出现的不同长度的有意义的连续词语片段”[14]60,词块一般语法结构良好、长短不一、意义相对完整、高频并连续出现[14]60-61。结构良好是为了排除软件机械切割而产生的噪音序列,词块长度一般介于2~6词之间,意义不完整的语言单位研究价值不大,词块遵循“成语原则”[15]110,因而高频出现,因提取技术所限,软件目前还无法提取非连续的词块。另外,“2词序列大多可以作为一般搭配研究”[16]210,故不在本研究之列。对中美大学生英语演讲词中的词块提取时,我们发现,7词词块在两种类型的语料中都存在,故本研究将考察3词、4词、5词、6词和7词词块。
(二)文献回顾
通过语料库对中国大学生和英语本族语者(包括学习者)演讲词中词块的研究还不多见,目前我们收集的文献有5项,这些研究主要基于Altenberg或Nattinger和DeCarrico的研究框架[4][17]。
基于Nattinger和DeCarrico的框架,王立非和钱娟对自建中国学习者英语演讲语料库和英国国家语料库(British National Corpus,简称BNC)口语库中的即兴演讲语料中的词块进行了研究,结果发现:中国英语演讲者使用多元词、短语架构、习俗语和句子构造框架等4类语块,且使用频率上存在差异,较少使用习俗语和多元词;中国演讲者的语块使用与英国演讲者相比存在显著差异,在语块总体丰富度上未见显著差异,但表现出过多使用习俗语块的倾向[18]。基于同样的理论框架,黄晨晨和鲁修红对2008年“CCTV杯”全国英语演讲大赛决赛选手的定题演讲与即兴演讲文本进行了分析[9][19],结果发现多元词和句子框架在即兴演讲中的使用相对较高,而短语架构和习俗语在定题演讲中使用较高。
基于Altenberg的理论框架,张艳研对近十届“21世纪杯”全国英语演讲比赛前三名选手的演讲稿中的词块进行了研究,结果发现,2词词块最为频繁,其次为3词词块,4词词块最少;在演讲者的话语构建中,分句成分所起的作用最大[10]。陈清对中国大学生英语演讲语料库和BNC口语中的4个词块进行了研究,结果表明,本族语者高频使用的口语化程度很高的词块,而中国大学生却用得很少[20]。
对有关文献的梳理后发现,首先,目前对中国英语演讲中词块的实证研究大都基于Nattinger和DeCarrico的分析框架,但是该框架中的“多元词”“短语架构”“习俗语”和“句子构造框架”的判定目前缺乏比较科学的依据。其次,因为“习俗语”虽然结构和意义比较固定,但是在实际语言使用中不太常见,将其看作词块难以令人信服。再次,对中国学习者和本族语者英语演讲中的词块研究缺乏可比性。最后,对英语演讲词中词块的诸如组篇、立场等功能的研究依然很缺乏。鉴于此,本文借鉴相对容易于通过软件实现的Altenberg理论框架,结合软件识别和人工核查,主要对中美大学生英语演讲词中的词块的长度和功能进行研究。
二、研究设计
(一)研究问题
本文要回答的两个研究问题是:
1.中美大学生英语演讲词中的词块使用在长度上有何异同?
2.中美大学生英语演讲词的词块使用在功能上有何异同?
(二)研究所用的语料库
本研究所使用的是作者自建的小型英语演讲语料库,美国大学生英语演讲语料来自美国大学生的演讲词,共26篇①第1-20篇来自蔡基刚编著的《美国大学生英语演讲点评》,上海交通大学出版社,1998年版;第21-26篇来自祁寿华编著的《英语演讲艺术》,上海外语教育出版社,2005年版。,37 909词,题材为大学生的学习生活以及社会问题。中国大学生英语演讲语料来自中国大学生的演讲词②来自“21世纪杯”全国英语演讲比赛第1至18届冠军演讲词和第三、四、五、八、九、十、十一、十三、十四、十五、十六、十七、十八届亚军演讲词。,共31篇,17 909词,题材与美国大学生演讲词的大体一致。“外研杯”英语演讲比赛始于2002年,而“21世纪杯”英语演讲比赛始于1996年,在时间上后者与美国大学生演讲词更接近。
美国大学生的演讲词没有电子版,故我们将纸质文本扫描后转化word,在和原文核对确保无误后,将其保存为.txt格式。对于中国大学生的演讲词,有电子版的,我们将其与纸质的或其他网站的演讲词进行比较,选出质量优者,随后保存为.txt格式;没有电子版的,我们重复采集美国大学生演讲词语料的做法。
(三)词块的提取
词块提取分两步:软件自动提取和人工核查。自动提取时,我们使用的是AntConc3.3.3的Cluster/N-Grams功能,加载语料后,我们将N-Grams Size分别设定为2、3、4、5、6和7就得到对应词数的语言片段。由于语料库库容比较小,对于三词语言片段,我们提取阈限设为3次,对于四词语言片段及四词以上的语言片段,阈限设为2次③参阅卫乃兴《词语学要义》,上海外语教育出版社2011年版,第210页,故研究者可根据语料库大小确定。。由于软件所进行的只是机械切割,故自动提取后,我们根据词块的结构和意义相对完整性的要求,对所得语言片段逐一核查,将最终所得的语言片段看作词块。此外,中美大学生语料库容不同,为了便于比较,我们将原始频数转化为标准频数(次/每万词)①换算方法为:(原始频数/库容)x10000,如中国大学生三词词块原始频数为70,标准频次经过换算为39.09[(70/17909)x10000)次/每万词。。
三、结果与讨论
在本部分,我们将从长度和功能两个角度对中美大学生英语演讲词中词块的使用进行研究。
(一)中美大学生英语演讲词中词块的长度比较
2~7词词块在中美大学生英语演讲词中的频次如表1所示。
表1 英语演讲词中词块的长度分布
由表1可见,就词块的长度而言,中美大学英语演讲词中词块使用的频次由低到高依次为7词词块<6词词块<5词词块<4词词块<3词词块,即词块越长,出现频次越低。Biber等基于学术语篇和对话的研究表明,“一般而言,词语单位越长,在语料库中出现的频率越小”[21]990,作为一种语言单位的词块也不应例外,这已得到了张艳研、李文中和张宁等研究的验证[10][22][23]。李文中对中国英语的研究得出了“词簇长度越大,复现频率越小”[22]的结论。张艳研对2~4词词块研究结果显示,2词词块所占的比例最大,3词词块次之,4词词块较少[10]。张宁对美国总统就职演说词中词块的使用研究也表明,词块的出现频率随着其长度的增加而递减[23]。我们对中美大学生英语演讲词的研究再次证实了Biber等的结论。从表1可以看出,由3词词块到7词词块,随着词块增长,不管是中国大学生,还是美国大学生,演讲词中词块的频次一直在下降,图1比较形象呈现了这种特征。
图1 词块长度的频数分布
由表1还可见,除了5词词块(按标准频次)外,在其他类型词块的使用上,美国大学生均高于中国大学生。此外,由表1还可见,2~7词词块分别在中美大学生英语演讲词中占80.96%和91.01%。Altenberg在其研究中声称,实际语言输出中的70%都是通过词块实现的[4]。我们通过研究得出的这两个比例均高于Altenberg的比例,这充分表明演讲词高度词块化的特征。对表1数据整理后还发现,中美大学生在演讲词中使用较多的是3词词块和4词词块,分别占68.13%和80.72%。就词块长度而言,对中美大学生词块使用频次的卡方检验显示,二者存在显著差异(X2=175.023,df=9,p=.000,<.01)。这在一定程度上说明,尽管“21世纪杯”英语演讲赛的冠、亚军代表了中国英语演讲者中的较高水平,但与同为学习者的美国大学生在词块的使用上还存在较大差距。王立非和钱娟对中英演讲选手的词块使用研究也发现,二者之间存在着显著差异[18]。所不同的是,王立非和钱娟比较的是中国演讲选手和英国本族语演讲者的演讲词,而我们比较的是中美大学生演讲者的演讲词。
(二)中美大学生英语演讲词中词块的功能比较
Biber、Concrad和Cortes区分了词束所起的三种功能:表述立场、组织语篇和指称[24]。立场类词束表明人们对命题肯定性的态度/评价,如we need to,I would like to;组织语篇类词束反映前后语篇之间的关系,如last but not least,first of all;指称类词束直接指向具体/抽象的实体,或语篇语境本身,或者指认实体/把实体某一点特征凸现出来[24],如more and more,from all over the world[24]。任小华对大学英语教材中的词块进行研究后,发现Biber,Concrad和Cortes对词束的三种功能的区分也适用于词块的研究[25]。在英语演讲过程中,演讲者需要在某种程度上表述自己的立场,也需要将前后话语有机联系起来,更不可避免地会指称人、物、时间、地点和事件等,故在本部分我们从表述立场、组织语篇和指称角度对中美大学生英语演讲中的词块进行研究,按三种功能对词块的频次进行整理,如表2所示。
表2 英语演讲词中词块的功能分布①在表1和表2中,中美大学生使用的词块总数不一致,主要是重复计算了中国大学生的立场词块和组篇词块,如like to begin with,这样的词块可以看作立场词块,也可以看作组篇词块;美国大学生则有部分词块无法归入上述三类。
由表2可见,中国大学生使用的指称词块最多,其次为组篇词块,最后为立场词块,美国大学生使用的指称词块也最多,但其次是立场词块,最后是组篇词块。由此可见,不论是中国大学生还是美国大学生,在演讲词中使用指称词块的频次最高,这与Biber、Concrad和Cortes和任小华的研究结论一致[24-25]。Biber、Concrad和Cortes对教材中词块的研究显示,频次在每百万次20词以上的指称词块远远多于立场和组篇词块[24]。任小华对我国大学英语教材的研究发现,指称词块数量也最多[25]。Biber、Concrad,Cortes、任小华和我们的三项研究在一定程度上表明,指称词块是教材和演讲词中主要的词块类型。
由表2还可见,美国大学生对立场和指称语块的使用频次高于中国大学生,而他们对组篇词块的使用却比中国大学生低,图2比较形象呈现了这一特征。
图2 词块的功能分布
卡方检验表明,总体而言,中美大学生在语篇功能词块的使用上存在显著差异(X2=44.797,df=5,p=.000,<.01)。为了探明中美大学生在立场、指称和组篇词块使用上有无差异以及差异到底有多大,我们对这三类词块进行了对数似然性检验(Log-likelihood test)②计算工具由曲阜师范大学秦洪武老师在上海交通大学2013年语料库翻译学暑期讲习班上提供。,LL值和显著性如表3所示。
表3 英语演讲词中三类词块功能的对数似然性检验
由表3可见,中美大学生在演讲词中对立场和指称词块的使用存在显著差异(p分别等于.002和.000,均小于.01),他们对组篇词块的使用虽然存在差异,但不显著(p=.335,>.01)。
既然“词块能力是语言能力的一项重要指标”[1],并且本族语者高频使用口语化程度很高的词块[18],那么作为本族语者的美国大学生对词块使用在数量上应该优于英语作为外语的中国大学生,然而,我们的研究数据显示,中国大学生对5词词块和组篇词块的使用均高于美国大学生,是中国大学生超用了这两类词块,还是另有他因,语料库方法难以对此做出解释,我们将在后续研究中予以关注。
四、结 语
基于自建语料库,本文对中美大学生演讲词中的词块的长度和功能进行了研究,结果表明:就词块的长度而言,词块的使用频次随着其长度的增加而下降;除了5词词块外,在其他类型词块的使用频次上,美国大学生均高于中国大学生;中美大学生在演讲词中对词块的使用总体上存在显著差异。就词块的功能而言,中美大学生对指称词块的使用最频繁,但对立场和组篇词块的使用顺序则相反;美国大学生对立场和指称语块的使用频次高于中国大学生,而他们对组篇词块的使用却比中国大学生低;中美大学生在组篇词块的使用总体上存在显著差异。此外,他们在立场和指称词块的使用上也存在显著差异,在组篇词块的使用上也存在差异,但不显著。
本研究还存在三个问题。第一,自建的中美大学生英语演讲词语料库容较小,难以对词块进行全面深入的考察。第二,软件提取后对词块的认定依然没有公认的标准,人为因素的介入在一定程度上影响了对词块的确定。第三,对词块的其他功能,如语法功能,本文没有考察。我们将在后续研究中尽可能多收集有代表性的中国大学生和英语本族语大学生的英语演讲词,并努力增加本族语者英语演讲词部分,除了让中国大学生认识到他们与美国大学生演讲词中词块使用的异同外,也为他们提供可能的终极努力目标,即像本族语者那样在演讲中熟练灵活使用词块,从而使得他们的演讲更地道。此外,后期我们将通过文献阅读并反复尝试的办法,为词块的识别提供较为科学的依据。我们还将考察不同类型和不同水平的演讲者在使用词块时,他们在诸如语法功能、名词词块、动词词块等方面的特点。