中国英语学习者口语准确性测量和口语成绩的相关性分析

2018-07-13同济大学青岛农业大学蒋长刚同济大学

外语教学理论与实践 2018年2期

同济大学/青岛农业大学　蒋长刚　同济大学　戴　劲

提　要：本研究从频数测量和比率测量两方面探讨准确性指标与口语成绩之间的关系。本研究采用诱导任务方法，收集了61篇中国英语专业学生口语语篇。通过对准确性指标数据分析，本研究获得三个主要发现。对口语教学以及引导学生注意形式与意义的连接，提高语言使用的准确性有一定的启示。

一、引言

准确性指“学习者产出的二语相对于目标语言规范的合规性(conformity)”(Wolfe-Quinteroetal.，1998： 4；Yuan & Ellis，2003)。准确性可用作衡量二语交际能力的重要指标，也是学习者语言水平的重要体现(Norris & Ortega, 2009)。在国外，对口语准确性的研究兴起于20世纪90年代。首先，国外研究者通过是否符合目标语语法来衡量口语输出的准确性，如语言形式与目标语的接近或相同(Foster， 1999)，无错误句数量、每百单词的错误量以及词序和词汇选择错误次数(Mehert， 1998)、名词和修饰语的形态一致及定冠词的运用(Ortega， 1999)。其次，对测量指标的有效性做了大量探讨，发现无错误T-单位与全部T-单位之比是“一项将准确性与复杂性区分开来的测定指标”(Polio， 1997)，无错误分句比例能够反映不同实验条件间学生口语产出的差异，也是有效的准确性测量指标(Skehan & Foster，1999)。在国内，吴旭东(1999)指出，最能表现受试英语口语能力发展的是在“过去时间”的表达和概念表达手段上，具体为不规则动词形式的误用、所讲述事件的时间顺序排列、口头叙述时所做的自我改正及所采用的交际策略。肖德法等(2008)基于SECOPETS语料库*SECOPETS为“公共英语等级口语考试语料库”(Spoken English Corpus of Public English Test System)的简称，其语料来源于2004—2007年全国公共英语等级考试口试录音。研究中国学习者英语口语，发现学习者英语水平和言语失误数量间并非线性关系。

然而，在口语准确性定量研究中存在的不足主要有：口语错误类型及其识别、测量指标的效度及测量指标与口语成绩之间的关系。首先，现有研究对书面语中的错误类型、分布等研究较多，但对口语的错误类型及其识别关注极少；其次，对口语准确性测量指标的研究也很少，在2001—2015年间发表于国内主要外语类期刊的相关文献使用了一到三个准确性测量指标，而且研究样本也都较小；最后，对准确性测量指标的有效性及其与口语成绩之间的关系研究很少，如准确性测量指标能在多大程度上解释口语成绩，对成绩水平具有多大的区分力。鉴于此，本研究拟对英语口语产出的准确性测量指标和口语成绩的关系进行探讨。

二、文献回顾

国内英语口语准确性研究大致分为三大路径：一是从二语习得的角度，探讨与学习者背景、口语任务或教学口语环境相关的因素对英语口语准确性的影响，如任务类型、任务难度、任务复杂度及语言水平对中国学生交际中语言表达准确度的影响；二是从语言发展的角度，探讨口语准确性与流利性、复杂性三者之间的相互关系；三是从语言测试的角度，探寻英语口语准确性的观测维度和可以有效衡量各维度的测量指标，继而探究准确性与语言水平和口语成绩之间的关系。路径一是将学习者、口语任务或教学环境等因素作为自变量，将口语产出的准确性作为因变量，探究以上外部因素对于学习者口语产出中准确性的影响；路径二是将准确性、流利性、复杂性作为确定学习者语言发展不同阶段的手段，同时研究三者的交互关系，如竞争关系或促进关系；路径三是将口语准确性作为自变量，将口语质量或口语水平作为因变量，探究口语准确性本身的观测维度、可测量指标及其跟口语质量或口语水平之间的关系。仔细分析国内口语准确性的研究成果，发现学界对准确性和口语成绩之间的关系研究不多，尤其缺乏准确性测量对于口语成绩的预测力和区别力的研究。张一平(2007)综述了英语口语交际任务的测定因素和方法，但未展开实证研究；王海贞(2015)分析了任务条件、口语产出和分数之间的关系，发现当语言能力是测试目的而任务仅是诱导手段时，任务条件对分数不产生影响，在口语产出的三个维度中，流利性对分数的预测力最大。但她主要采用Yuan & Ellis(2003)的口语产出测量指标与方法，三个维度共计包含七个测量指标，而准确性仅包括无错误小句比和动词形式的正确率两个指标，测量指标的不足可能影响口语准确性测量和口语成绩的相关性结果。

准确性测量指标与口语成绩的相关性研究必须建立在口语错误类型的确定和测量指标的选择之上。首先，对于口语错误类型的划分和识别。Skehan & Foster(1999)认为整体准确性(识别所有错误类型)最全面，考虑所有可能的错误类型，但难以操作。相对而言，具体错误类型可操作性更强，通常选择动词时态、单数第三人称、复数标记、介词和冠词的使用等项目(Ortega，1999)。国内外的英语准确性研究主要建立在书面语错误分类基础上，对口语准确性或口语错误的研究较少。但近年来有少量基于口语语料的研究可以借鉴，如肖德法等(2008)发现中国学习者口语中失误排在前五位的依次是动词词组、名词词组、句子、介词和代词方面的错误，分别占总数的38.66%、18.75%、13.91%、12%和8%，占到错误总数的91.32%。前三项错误与基于学习者书面语的同类研究结果一致，而学习者口语中介词和代词的失误数量明显高于书面语。Tingetal.(2010)研究了四十二名学生十四周内的126段课堂口语交际语料，发现介词、疑问句、冠词、名词复数形式和动词时态为最常见的五个语法错误。因此，本研究参照Ortega(1999)、肖德法等(2008)和Tingetal.(2010)的研究结果，选取动词时态、单数第三人称、复数标记、介词和句子结构错误五种错误类型来标注中国学习者的口语准确性。

其次，测量指标的有效性。英语口语准确性的测量指标分为频数指标和比率指标。由于研究目的不同，前人研究选择的学习者水平、口语任务、准确性测量指标也不尽相同。现有研究主要采用的频数测量有单词数、动词数、句子数或T单位*T单位被界定为“主句和所有从句及附着或嵌入的非从句结构组成的句法单位”(Hunt 1965)，基于T单位来测量语言能力的相关研究有Gaies(1980)，Wolfe-Quintero et al. (1998)，Iwashita(2008)、文秋芳等(2010)、秦晓晴等(2012)等。、子句数(Iwashita， 2010)，无错误T单位数*无错误T单位指没有出现动词时态、单数第三人称、复数标记、介词和句子结构错误五类错误的T单位。或无错误子句数*无错误子句指没有出现动词时态、单数第三人称、复数标记、介词和句子结构错误五类错误的子句或小句。(Larsen-Freeman， 2006)以及错误数(Iwashita， 2008)。比率测量是对频数按照一定计算公式计算后得到的指标；主要比率测量包括无错误T单位和子句均长(Larsen-Freeman，2006)、无错误T-单位与全部T-单位之比(Polio，1997；张文忠、吴旭东，2001)、无错误小句比*无错误子句比例(REFC)指无错误子句除以子句总数所得的比例。(Skehan & Foster，1999等)和每百词错误数(张文忠、吴旭东，2001等)，及正确的动词形式比*正确的动词形式比例(RCVP)指正确的动词形式除以口语产出中的动词短语总数。等(Yuan & Ellis，2003等)。可见，现有研究采用的测量指标比较分散，且普遍较少。另外，现有研究发现的有效指标也存在差异，如Iwashita(2008)选择了冠词、时态标记、第三人称单数、复数、介词等五类错误作为准确性的测量指标，发现它们对不同水平的学生均有一定的区分性，其中无错误子句数和无错误T单位数区分力较强；张文忠、吴旭东(2001)通过跟踪研究发现，中国英语学习者在无错误T单位比例上不呈现显著变化。由于我们无法先验地确定哪些测量指标是与口语成绩显著相关的有效指标，为了全面地探寻准确性测量指标与口语成绩之间的关系，本研究拟将以上研究中所列的口语准确性指标全部包含在内，通过统计分析确定其有效性。口语产出的频数测量包括单词数(W)、子句数(C)、T单位数(T)、VP数(VP)、错误数(NE)、无错误子句数(EFC)及无错误T单位数(EFT)，而比率测量包括每百词错误数(REW)、无错误子句比(REFC)、无错误T单位比(REFT)及动词形式正确率(RCVP)*下文的表格里采用括号中的代码来代替以上测量指标，即： W=total number of words， C=total number of clauses， T=total number of T-units， VP=total number of verb phrases， EFT=Number of error-free T-units， EFC=Number of error-free clauses， NE=Number of errors, REW=errors per 100 words， REFC=ratio of error-free C-units， REFT=ratio of error-free T-units to total T-units， RCVP=ratio of correct verb phrases。。

三、研究方法

1. 研究问题

本文将从相关分析、区分力和解释力三方面探究口语准确性测量指标与口语成绩之间的关系，研究问题如下： 1) 英语口语准确性指标与口语成绩之间有多大程度的相关性？2) 英语口语准确性指标对成绩水平有多大程度的区分力？3) 英语口语准确性指标对口语成绩有多大程度的解释力？

2. 语料收集

研究对象为华东两所高校英语专业三年级61名学生，年龄19至22岁。研究语料收集于2014年秋季期末口语测试，诱导任务为“Why do you choose XX University and choose English as your major?”录音前给学生3分钟准备时间，之后正式录音3分钟。教师向学生说明本次口语成绩将作为受试的平时成绩处理，以获得他们的重视与配合。最终，本研究共收集了61篇语料。

3. 语料分析和数据收集

为了对收集的语料进行深入分析，首先，我们将口语语料转写成文本，经两位研究者交叉检查，确保文本语料和口语语料的一致；其次，根据上文确定的五种错误类型标注文本。为确保错误识别的准确性，我们请了一位来自美国的外籍教师进行了校对；最后，统计出频数，然后计算出比率指标。本研究的口语作文由三名批阅人按照英语专业四级口试评分标准第二项任务“即席讲话”的评分标准*“即席讲话”的评分标准参见《高校英语专业四级口试大纲》第4—5页。进行平行评分，采用百分制。三名批阅人均有英语专业四级口试评分的经验，分别具有8、9和12年的英语教学经验。三个评分之间的信度系数介于0.712—0.821之间，符合评分信度要求；将三个评分的平均成绩作为学生的最终口语成绩。准确性指标的确认由人工和电脑程序分析完成。

为了回答上述三个研究问题，本文使用描述统计、相关分析探讨准确性指标与口语成绩是否显著相关，使用方差分析以检验准确性指标对不同成绩水平的区分力，通过多元回归分析评估准确性指标对口语成绩的解释力。本研究采用的分析软件为 SPSS19.0。

四、研究结果与讨论

1. 准确性指标与口语成绩的相关分析

通过皮尔逊相关分析，我们可以得出准确性各测量指标与口语成绩之间的相关系数和显著性。表1结果显示，准确性频数指标中的无错误子句数(EFC)和无错误T单位数(EFT)与口语成绩显著相关；而比率指标中除了无错误T单位比(REFT)之外，其余均与口语成绩显著相关，其中每百词错误数(REW)与口语成绩显著负相关。另外，错误数(NE)和无错误T单位比(REFT)与口语成绩不存在显著相关关系。从相关系数看，各变量与口语成绩的相关程度由大到小依次为：无错误子句数(EFC)、无错误T单位数(EFT)、动词形式正确率(RCVP)、无错误子句比(REFC)、每百词错误数(REW)。

表1. 准确性测量指标与口语成绩的相关系数

**. 在.01水平(双侧)上显著相关。*. 在0.05水平(双侧)上显著相关。

相关分析发现，除错误数之外，其余频数测量变量与口语成绩呈显著正相关，其中无错误子句数、无错误T单位数与口语成绩的相关强度明显大于其他测量变量。动词形式正确率和无错误子句比对口语成绩也具有比较显著的效应。每百词错误数与口语成绩之间呈显著负相关关系，说明口语产出中错误比越高，成绩越低。

另外，本研究还发现错误数和无错误T单位比与口语成绩之间无显著相关关系。因为交际双方在语言交际中或评分者在口语测试中考察受试口语能力时更关注的是对方传达的正确信息，即言语产出的语流部分；除非错误次数过多、过于频繁影响到信息的传达，故交际者对于错误数的感知可能并不敏感。无错误T单位比的结果与过去的研究结果比较一致，张文忠、吴旭东(2001： 348)对比28周前后的学习者发现，这项指标上的得分从0.23降至0.21，标准差由0.13降至0.1，t=0.82，没有显著意义。这说明无错误T单位比可能不是有效的准确性测量指标。

2. 准确性指标对口语成绩水平的区分力

为探寻准确性指标对口语成绩水平是否具有区分力，本研究将受试按成绩分为高中低三组。高分组20人，口语成绩在72.67到最高分之间(M=77.40，SD=4.393)；中分组20人，口语成绩在64—71.67分之间(M=67.16，SD=2.598)；低分组21人，口语成绩在63.67至最低分之间(M=59.38，SD=3.093)。表2是高中低分组在准确性频数测量和比率测量上的描述统计结果及方差分析结果。

表2. 不同成绩水平的准确性测量的描述统计和方差分析结果

表2结果显示，语言产出单位的频数测量指标中高中低分组呈递减趋势，即随着成绩下降，受试产出的单词数(W)、子句数(C)、T单位数(T)及VP数(VP)都在减少。在准确性频数测量上，在成绩水平上呈现一定的变化规律，即随着成绩的下降，无错误子句数(EFC)和无错误T单位数(EFT)呈线性递减趋势，而在错误数(NE)上规律不明显。在无错误T单位比(REFT)方面各成绩水平组变化不大，但在每百词错误数(REW)上，受试随着成绩的下降，错误在增多，而在无错误子句比(REFC)和动词形式正确率(RCVP)上，从高分组到低分组呈线性递减趋势。

为了进一步揭示高中低分组之间的差异是否达到显著性水平，我们对各变量进行了方差分析。在分析之前首先做了方差齐性检验，结果发现十个变量均达到方差齐性要求(p>0.05)，只有动词形式正确率(RCVP)未达到方差齐性要求(p<0.05)。对这十个变量采用参数检验方法(One-Way ANOVA)，对于后者使用非参数检验方法(Kruskal-Wallis test)。方差分析统计结果显示，除错误数(NE)、每百词错误数(REW)和无错误T单位比(REFT)三个变量以外，其余七个变量在成绩水平上均存在显著差异，其中语言产出单位的F值最为显著，其次是准确性频数指标中的无错误子句数(EFC)和无错误T单位数(EFT)以及比率指标中的动词形式正确率(RCVP)和无错误子句比(REFC)[F(2，58)分别为11.674、9.598、 8.638和3.257，p<0.05]，说明这些变量对成绩水平均具有显著的区分力。

表3. 　　　准确性指标多重比较分析[Post Hoc (Turkey)]

*. 在0.05水平(双侧)上显著相关。

事后多重比较分析可以确定以上十一个指标能够区分哪些口语成绩水平。由表3可知，与语言产出单位相关的频数变量，包括单词数(W)、子句数(C)、T单位数(T)及VP数(VP)，区分力很强，它们既可以区分相邻的不同成绩水平组，也能区分不相邻的成绩水平组。这说明在语言产出量上不同成绩水平的学生之间的差异非常显著。在准确性频数测量变量上，高分组在无错误子句数(EFC)和无错误T单位数(EFT)与其他两组存在显著差异，说明高分组的学生不管是在产出的子句还是T单位上，错误都明显少于中分组和低分组。而在动词形式正确率(RCVP)上，低分组与其他两组存在显著差异，说明低分组的学生还处于动词形式错误较多的阶段。另外，错误数(NE)、每百词错误数(REW)、无错误子句比(REFC)和无错误T单位比(REFT)不能够显著区分成绩水平，表明高分组产出的单位数量多，错误也不少，所以比率测量指标不能区分各成绩水平。这些结果可概括为，高分组产出的正确的子句数和T单位数均显著多于中分组和低分组，而低分组产出的正确的动词短语数量上显著少于高分组和中分组学生。

综上所述，方差分析未能发现错误数、每百词错误数和无错误T单位比对不同成绩水平的区分力，这意味着口语产出中，高分组学生未必比低分组学生犯的错误更少。除上述三个变量外，本研究中其他准确性指标均对成绩水平具有不同程度的区分力。首先，单词数、子句数、T单位和动词短语数四个变量从高分组到低分组呈线性递减趋势且有显著效应。其次，准确性频数变量中无错误子句数和无错误T单位数区分力也较强，它们既可以区分相邻的成绩水平组，也能区分不相邻的成绩水平组，且基本上呈递减趋势。这一结果与前人的研究比较一致(Wolfe-Quinteroetal., 1998； Iwashita, 2008)。Wolfe-Quinteroetal.(1998)指出，随着受试者语言能力的提高，他们产出正确长句的能力会得到相应的提高，因而正确的T单位或子句单词数量也会相应地增加。再次，基于子句的准确性比率测量，即无错误子句比(REFC)虽然对于成绩水平具有一定的区分力，但是在事后多重比较分析中却不显著，所以无错误子句比可能也不是有效的准确性测量指标。这一结果与前人的研究不太一致，Skehan & Foster (1999)发现，无错误分句比能够反映不同实验条件间的差异，原因很可能是本研究的受试是在相同环境下完成同一口语任务，而且他们都是英语专业的学生，所以他们口语产出中的错误比差别不显著。

然而，基于动词短语的准确性比率测量对于本研究受试更具区分力。这一结果与以往的研究不同，如Iwashita(2008)指出，因为一个T单位中可能含有几个子句，如果其中一个子句有错误，那么整个T单位就得判为有错误的语言单位，使用子句作为测量单位可将无错误子句与错误子句分别处理。本文认为，动词形式正确率是更加精确的测量指标，原因在于英语口语产出的基本单位虽然是小句，但英语中小句是以动词短语为核心构建的语言结构，所以动词形式的错误更能体现学生的小句产出水平。因此，我们可以推断，产出动词短语数、T单位更多而且在动词形式上正确率更高的学生能够取得更高的口语成绩。

3. 准确性指标对口语成绩的解释力

虽然准确性的频数指标、比率指标与口语成绩具有不同程度的相关性，但仍不能确定准确性指标对口语成绩具有多大的解释力或预测力。因此，我们以频数和比率各变量作为自变量，口语成绩为因变量，采用多元逐步回归分析法进行检验，结果见表4和表5：

表4．回归分析系数

表5．回归模型

表4和表5显示，共有三个变量进入了回归模型的，即频数测量的VP数(VP)、T单位数(T)两个变量以及比率测量的动词形式正确率(RCVP)。由标准化回归系数的值，可知这三个自变量对口语成绩的解释力，三个变量的标准化回归系数分别为.449、.298、.185。这意味着，当T单位数(T)和动词形式正确率(RCVP)得到控制时，VP数(VP)每增加一个标准差(11.364)(见表2)，英语口语成绩就会增加0.449个标准差(8.191)，即3.678个原始分(8.191×0.449)；当控制VP数(VP)和动词形式正确率(RCVP)时，T单位数每增加1个单位，口语成绩也相应增加0.298 个单位；当VP数和T单位数得到控制时，动词形式正确率每增长1个单位，口语成绩也相应增加0.185个单位。最后，由表4中的由R2和校正后R2可以得知，三个变量一共能解释口语成绩60%以上的方差。然而，频数和比率中的其他变量未进入回归方程，说明它们不能预测口语成绩。

如上所述，多元回归分析发现，频数和比率准确性测量中能有效预测口语成绩的变量有三个： VP数和T单位数和动词形式正确率。这说明，相对于子句和T单位(包括频数指标的无错误子句数、无错误T单位数和比率指标的无错误子句比、无错误T单位比)，动词短语的准确性是更有效的测量指标。本研究多元回归分析的结果确认了对口语成绩有较强效应的准确性测量指标。

五、结语

本研究通过对准确性指标数据分析，从相关分析、区分力和解释力三方面探讨了准确性测量指标和口语成绩之间的关系。初步理清了准确性测量指标在评价口语质量中的作用，获得三个主要发现。首先，当任务条件、时长和受试态度等外在因素得到控制时，无错误子句数、无错误T单位数及动词形式正确率是有效的准确性测量工具，能够影响口语成绩；其次，动词短语数、T单位数和动词形式正确率是最能解释口语成绩的准确性指标；第三，无错误子句数、无错误T单位数及动词形式正确率对成绩水平具有较强的区分度。

本研究结果对英语口语教学有两点启示：一是应培养学生以动词及其搭配为基础而产出更长语段的能力；二是引导学生注意形式与意义的连接，提高语言使用的准确性。正如戴炜栋、陈莉萍(2005)指出，关于语言形式的语法教学虽然改变不了语法习得的顺序，但可以加速对语言形式的掌握，从而避免口语和笔语产出中的词汇语法错误。限于时间和人力等原因，本研究所用的样本仍然偏小，未来的研究需增加样本，同时对准确性进行多维度测量，将英语口语准确性测量的研究推向深入。