APP下载

英语学习者故事复述中的非流利度因子结构研究*

2023-11-27王钰棨

外语研究 2023年6期
关键词:句末流利英语水平

鲍 贵 王钰棨

(南京工业大学外国语言文学学院,江苏 南京 211816)

0. 引言

口语流利度或非流利度一直是二语口语测试评估和检验口语任务效应的重要依据。在Levelt(1989)的口语产出模型中,如果概念形成(conceptulizer)、言语形成(formulator)和发音(articulator)三个阶段的认知加工能以自动化方式平行推进,自我监控没有发现问题,则说话者口语就会很流利。另一方面,如果说话者对各个阶段的加工不能平行展开,而是按序列方式推进,语流就会中断,出现停顿和自我修正等不流利现象(Skehan 2014;Lambert et al. 2021)。Segalowitz(2010:47-52)把口语流利度分为认知流利度、话语流利度和感知流利度。在三者关系中,认知流利度指执行言语计划等认知功能的效率;话语流利度指对话语速度和停顿等的客观性听觉测量,反映认知流利度对言语产出的影响;感知流利度则指听者由话语流利度对认知流利度所做的推断,具有主观性。

前期有关流利度的研究主要包括两个方向。一是话语流利度客观测量与感知流利度、口语水平或语言技能之间的关系(De Jong et al. 2013;Kahng 2018;Suzuki & Kormos 2023;Tavakoli et al. 2020;王华等2018),二是任务特征和条件对话语流利度测量的影响(Tonkyn 2012;Yan et al. 2021;周丹丹2010)。第一个方向研究的重要性在于,感知流利度是口语水平的重要组成部分;如果研究发现话语流利度的客观性测量指标能够预测感知流利度甚至口语水平,这些指标就能被用于口语测试评估,对口语教学有指导意义。第二个方向研究的重要性在于检验任务型教学理论,如取舍假说(Skehan 2009)和认知假说(Robinson 2011)。

以上两个方向研究存在的主要局限是,虽然学界普遍认为话语流利度是一个多维的构念,但是在开展测量和统计分析时并未按照理论分类进行,很少考察各个流利度测量之间的关系,存在测量的冗余性和代表性不足等问题,从而使不同研究的结果缺乏可比性或自相矛盾。有鉴于此,本研究聚焦于话语流利度中的非流利度,把话语非流利度按照因子结构进行测量,利用英语学习者故事听后复述数据,通过结构方程模型验证口语非流利度因子结构的合理性。鉴于全国英语专业四级测试成绩是英语水平的重要表现,在英语教学中发挥着重要作用,本研究将之纳入结构方程模型,进一步考察非流利度因子之间以及与英语水平之间的关系。

1. 文献综述

在流利度研究中,书面语研究偏少(陈建林,李筱媛2018;朱茜,徐锦芬2019),口语研究居多。在以流利度为主题的实证研究中,话语流利度是研究的核心,研究的主要目的是依据与感知流利度或口语水平之间的关系确定有意义的话语流利度客观性指标。前期研究大致按照话语流利度的三个维度开展:速度流利度(speed fluency)、中断流利度(breakdown fluency)和修补流利度(repair fluency)(Skehan 2003;Tavakoli & Skehan 2005)。中断流利度和修补流利度本质上是非流利度类别,是本研究关注的焦点。从理论上看,这三个维度虽都和言语表达的流畅与轻松自如程度有关,但有不同侧重。速度流利度涉及语流的速度和密度,中断流利度涉及连续的言语信号被打断的程度,而修补流利度关涉言语重复和修正等(Bosker et al. 2013:160)。各个维度指标的测量可能是时长,也可能是频率,如停顿的测量包括平均停顿时长和每分钟停顿频率。在实际测量中,有些指标的归类存在一些争议。例如,由于说话时间排除了无声停顿时间,因而有研究把发声时间比归为中断流利度(Tavakoli et al. 2020)。由于发声时间比是时间性变量,也有研究将之归为速度流利度(Bao 2023; Kormos& Dénes 2004; Saito et al. 2018)。即便在同一个类别中,不同指标测量的相关度可能差异甚大,从而导致不同的结果(Kormos & Dénes 2004; Bosker et al. 2013;Kahng 2018)。例如,Kormos & Dénes(2004)把以上三类测量统称为时间变量,利用16 名不同水平英语学习者的看图讲故事任务检验各个变量与母语者感知流利度评分结果之间的相关性,发现感知流利度评分与发声时间比(rs=0.80,p<0.01)和停顿时长(rs=-0.58,p<0.05)呈显著相关,而与无声停顿频率(rs=-0.10,p>0.05)、填充停顿频率(rs= -0.08,p>0.05)和修补流利度频率均无显著相关(rs=-0.10,p>0.05)。Bosker et al.(2013)通过对30 名荷兰语学习者的口语样本(语篇类型为描述和论说)中的非流利度研究发现,感知流利度评分与无声停顿频率(r=-0.42,p<0.001)、重复频率(r=-0.35,p<0.001)、自我修正频率(r=-0.24,p<0.05)以及(无声)停顿时长均呈显著负相关(r=-0.47,p<0.001),而与填充停顿频率无显著相关(r=-0.15,p>0.05)。同一个测量的不同操作定义,不加区分地把多个测量包括在研究中,都有可能会导致不同的结果和虚假相关。如果研究采用多元回归分析,相关测量之间高度相关性则会导致多元共线性问题,在样本量小的情况下问题会更严重(如Kormos &Dénes 2004)。

同样的问题也出现在感知流利度与口语水平之间关系的研究中(Ginther et al. 2010;De Jong et al.2015;Tavakoli et al. 2020)。例如,Tavakoli et al.(2020)从大型计算机辅助口语测试库中选择32 名英语学习者的音频数据,比较四个口语水平等级在17 项流利度指标上的差异。虽然这项研究没有报告流利度指标之间的相关矩阵,但是仅从概念上就可以判断指标之间的冗余性问题,如停顿时长(包含无声和填充停顿)与无声停顿时长。

在任务效应研究中,由于流利度通常只是任务表现多个维度(如语言准确性、流利度和复杂度)中的一个维度,除少数研究之外(如李茶,隋铭才2017),大多数研究通常只是选择个别流利度指标,难免以偏概全(Fukuta & Yamashita 2015;Thai & Boers 2016;徐锦芬,陈聪2018)。

以上研究普遍存在样本量偏小、忽略流利度各个测量之间关系的局限。样本量不足导致流利度或非流利度测量的不稳定性。对各个测量依次开展统计分析会扩大第一类错误率,在多元回归分析中产生共线性问题,也易削弱不同研究之间的可比性。需要指出的是,作为全国英语专业四级口试的重要组成部分,听后口语复述任务得到前期研究的关注(Wang & Chen 2016;王华等2018),甚至有研究利用结构方程模型检验英语水平、内容准确性、句法复杂性和流利度之间的复杂关系(鲍贵2023),但是鲜有研究考察非流利度因子的结构问题。因此,本研究使用较大的样本,依据学习者故事听后复述表现,通过结构方程模型检验口语非流利度因子构成的合理性,并进一步考察不同因子之间以及与英语水平之间的关系。

2. 研究方法

2.1 研究问题

本研究主要回答以下两大问题:

(1)英语学习者口语故事复述表现中的非流利度因子结构是什么?

(2)英语学习者口语故事复述表现中的非流利度因子之间及其与英语水平存在怎样的关系?

根据前期文献(Bosker et al. 2013;Tavakoli et al.2020),本研究假设口语非流利度包括中断流利度和修补流利度两个因子,因子之间彼此关联;学习者英语水平能够预测口语非流利度每个因子。

2.2 参与者

华东地区三所高校139 名英专大二学生参加了本研究的口语复述测试,其中男生9 人,女生130 人。所有参与者在参加全国英语专四笔试半个月之后的同一时间在各自学校的语言实验室参加了口语复述故事测试。这批学生专四笔试成绩分布范围较大,最低分为50 分,最高分为91 分,平均分为74.8 分,英语水平整体上较好。

2.3 故事复述和转录

听力原文讲述一个小男孩在村里参加三次赛跑的故事,共计335 个词,听力语速每分钟约为120 个词。故事结构清晰,句法结构简单,每个T 单位平均词数约为10 个,每个T 单位包括子句的比率为1.18。复述任务要求学习者听完故事两遍后即刻复述,允许边听边做笔记。复述时长为3 分钟,复述结果保存为音频文件。

经过培训的四名研究生对139 份有效的音频文件进行了转录。在转录过程中,对错误的开头、自我修正、填充语(如um 和ah)和机械重复做出标注。研究者对提交的转录文件再次核对。

2.4 变量操作定义与测量

本研究选择全国英语专业四级笔试成绩代表学习者的英语水平。口语非流利度包括中断流利度和修补流利度两个类别。根据Tavakoli(2011),中断流利度中的无声停顿测量包括句中停顿时长和句末停顿时长。本研究包括两类停顿是因为它们测量言语加工的不同方面:句中停顿主要考察言语形成阶段的言语编码问题,而句末停顿主要考察概念化阶段的内容计划问题(Lambert et al. 2021)。句中停顿时长定义为子句(至少包括一个主语和一个谓语动词)中无声停顿总时长与停顿总频数的比率;句末停顿时长定义为子句末无声停顿总时长与停顿总频数的比率。停顿的计算以0.3 秒为最低阈限(Kormos & Dénes 2004;Tonkyn 2012;于涵静2020)。本研究在中断流利度测量中还增加了发声时间比,定义为说话时间与产出言语样本总时间(以秒为单位)的比率。

修补流利度包括重复比、自我修正比和填充比三个测量,体现学习者对言语产出的监控。Bosker et al.(2013)的研究发现,重复频率(每秒说话时间包含的重复数)和自我修正频率(每秒钟说话时间包含的自我修正数)没有显著性相关(r= 0.01,p>0.05)。该研究把填充频率(每秒钟说话时间包含的填充数)归为中断流利度,发现它与停顿时长无显著相关(r=-0.17,p>0.05)。不相关的测量不太可能构成一个因子,因此本研究采用以音节为单位测量修补流利度,并把填充比归为修补流利度。重复比指言语机械重复频数与有效音节总数的比率。有效音节是排除各类修补之后剩下的词音节。有效音节数根据转录文本利用R数据包nsyllable 计算得到。自我修正包括改述(通过调整句法和形态特征改变话语)、替代(指词语替换)和错误开头(指未说完就放弃的话语)。自我修正比定义为自我修正频数与有效音节总数的比率;填充比则定义为填充语使用的频数与有效音节总数的比率。

一名熟练使用Praat 软件的研究生一边听录音,一边检查频谱,在文本格中标注以上两类停顿时长和三类修补频数,并将标注文件转化为EXCEL 表格,再根据操作定义计算各类测量值。在标注结束三个月后,研究者从音频文件中随机抽取30 个文件邀请这名研究生重新标注与计算,检验发现每个测量的皮尔逊相关系数值均在0.95 以上(p<0.001),因而每个测量的信度都很好。

2.5 统计分析

本研究构建非流利度两个因子(中断和修补流利度)与语言水平之间关系的结构方程模型。使用结构方程模型不仅利于检验因子结构,而且还利于整体上把握各个因子之间的关系。结构方程模型分析利用最大似然估计,调用的R 数据包为Rosseel(2012)开发的lavaan 包。

3. 研究结果

3.1 口语非流利度与英语水平测量指标描述性统计

在开展结构方程建模之前,本研究对各个观测变量开展皮尔逊相关分析,结果如表1 所示,包括各变量平均数和标准差以及皮尔逊相关系数(保留两位小数)。

表1:各个观测变量皮尔逊相关系数矩阵

表1 显示,口语非流利度各个测量与英语水平(英专四级笔试成绩)呈低相关,没有达到统计显著性(p>0.05)。根据Cohen(1988)建议的效应量大小的标准(r=0.1、0.3 和0.5 依次代表小、中、大效应),这些相关系数表示很小的效应量。中断流利度两项指标(句中和句末停顿时长)呈较高的显著正相关(r=0.61,p<0.01),与发声时间比均呈高度负相关(r<-0.6,p<0.01)。修补流利度三个测量之间均呈中等水平以上的显著正相关(r>0.3,p<0.01)。在两类测量之间,自我修正比、填充比与发声时间比均呈较弱的显著正相关(r≈0.2,p<0.05),与句末停顿时长均呈中等水平的显著负相关(r≈-0.3,p<0.01),而在其他配对之间均没有显著相关(p>0.05)。

以上结果表明,把发声时间比连同两个停顿位置测量归为中断流利度因子,把重复比、自我修正比和填充比归为修正流利度因子似乎是合理的。

3.2 口语非流利度与英语水平之间的关系

本研究利用R 数据包lavaan 中的函数sem 对非流利度两个可能因子与英语水平之间关系的模型开展验检,模型正常收敛。模型拟合卡方检验发现,本研究模型很好地拟合样本数据(χ2(12)= 10.99,p=0.53>0.05)。CFI(比较拟合指数)、NFI(赋范拟合指数)和IFI(增值拟合指数)用于测量假设的结构方程模型相对于基准模型在数据拟合方面所做的改进,指数值依次为1、0.97 和1,均在0.9 以上,说明模型拟合较好。GFI(拟合优度指数)和AGFI(修正拟合优度指数)用于测量结构方程模型多大程度上能够再生样本观测协方差矩阵,指数值分别为0.98 和0.94,分别大于模型拟合参考临界值0.90 和0.80。另外,RMSEA值(近似误差均方根,评估模型是否合理地接近数据)为0,小于模型充分拟合的参考临界值0.08,近似拟合检验得到的p 值为0.783(p>0.05),说明模型很好地近似拟合数据。SRMR 值(标准化残差均方根)0.04小于参照临界值0.05,也说明模型拟合很好(Collier 2020:65-67)。

图1 概括拟合模型的主要标准化参数估计,包括非流利度观测变量误差方差(实线型双向箭头)、因子误差方差(虚线型双向箭头)、因子负荷、路径系数(单向箭头)及其显著性水平(星号显示)。

图1:口语非流利度因子与英语水平之间的关系

图1 显示,在测量模型中,中断流利度因子三个测量(句中停顿时长、句末停顿时长和发声时间比依次简称为句中长、句末长和发声比)的因子负荷绝对值均在0.6 以上,且达到统计显著性(p<0.001),表明它们能够很好地代表中断流利度因子。发声比的负荷值为负值,说明该测量是中断流利度因子的负向测量,即中断流利度越高,发声比就越低。修补流利度因子三个测量(自我修正比简称为修正比)的因子负荷值均在0.5 以上,且达到统计显著性(p<0.001)。以上结果表明,本研究对口语非流利度的因子划分可以接受,因子结构合理。

图1 还显示,在结构模型中,英语水平对中断流利度和修补流利度因子均没有显著预测力(p>0.05),且路径系数很小(分别为-0.1 和-0.18)。中断流利度和修补流利度因子之间呈统计显著性负相关(p=0.001),相关系数为-0.31。如图1 所示,在排除英语水平的影响后,中断流利度和修补流利度因子之间相关强度只呈现微弱的变化(相关系数为-0.34,p<0.001)。

4. 讨论

本研究依据英语学习者故事听后复述数据,利用结构方程模型探究了口语非流利度因子构成及其与英语水平之间的关系。研究发现,口语非流利度包括由句中、句末停顿时长和发声时间比构成的中断流利度因子以及由重复比、自我修正比和填充比构成的修补流利度因子,且两个因子之间呈显著负相关,研究假设得到证实。但是,英语水平对口语非流利度没有显著预测力,不支持研究假设。

4.1 口语非流利度因子结构

本研究发现,中断流利度中的句中和句末停顿时长呈较高正相关,与发声时间比均呈较高负相关。这表明,学习者在一个类别停顿上的时间越长,在另一个类别上的停顿时间也就趋于增加,发声时间比也就越小,显示因子结构内部成分之间的关联性。

学习者产出的语流中停顿的时间越长,有效音节中平均出现的修补数量在一定程度上趋于减少。这与故事复述要求有关。在3 分钟的时间压力之下复述听到的故事内容,迫使学习者在停顿与修补之间做出必要的取舍。本研究发现,学习者平均说话时间(不包括停顿)与言语产出总时间的占比只有67%(见表1),说明学习者话语中有较多的停顿,导致发声时间比与句中、句末停顿有很强的负相关。表1 显示,学习者在复述中不仅有较长的句末停顿,而且还有较长的句中停顿。这意味着,如果学习者在句末停顿时间越多,即在概念生成方面消耗的时间越多,他们也就倾向于消耗较多的时间进行言语编码(包括词语提取和句法结构组织),从而使句中停顿变长。这一结果也得到了一些研究的支持(Kahng 2018; Tavakoli et al. 2020)。在对韩国英语学习者74个言语样本的非流利度测量中,Kahng(2018)发现句中停顿比(子句中的停顿数/子句数/每个子句包含的词数)和句末停顿比(子句间的停顿数/子句数/每个子句包含的词数)存在中等程度的正相关(r=0.33,p<0.01)。不过,本研究发现句中和句末停顿时长呈更强的正相关(r=0.61,p<0.01)。造成这一差异的主要原因可能是测量方法和停顿最低阈限标准的差异。句中和句末停顿之间有较强的相关性表明,学习者在言语形成阶段的词汇和句法编码方面以及在言语产出的概念化方面均出现了较多的困难,凸显学习者口语复述中面临语言形式加工和内容生成的双重压力。

多种修补手段的频繁使用也凸显出言语监控在口语复述中的作用。本研究发现,修补流利度三个测量呈中等程度以上的正相关,因子负荷值也都在0.5以上,说明学习者在一个测量上的修补量增加,在其他同类测量上的修补量也趋于增加,显示因子结构内部之间的正向关联性。填充比与句中、句末停顿时长都与停顿有关,但是填充比与句中、句末停顿时长的相关度偏低,却与重复比和自我修正比相关度较高。类似的结果也见于De Jong et al.(2013)对荷兰语学习者口语流利度不同测量之间关系的研究:填充比与停顿时长(不分句中和句末)呈很弱的负相关(r=-0.18),而与重复比(r=0.34)和自我修正比(r=0.26)均呈较高程度的正相关。这说明填充比与重复比、自我修正比一样都是为了维系言语交流的持续性和言语监控的需要。学习者在多个指标上表现出非流利度现象,其主要原因可能源于时间压力和任务目的。在没有准备时间的条件下,学习者没有机会对言语进行事先计划和组织,以减少在线加工负荷,因而只能较多地依赖在线加工和言语监控。当复述内容成为任务的主要目标时,学习者尽可能提取听力原文的结构形式再现其内容,势必会出现频繁的言语修补现象。

理论上,不同测量有较高的相关性且没有共线性才有可能构成一个因子。虽然鲜有研究对非流利度因子结构进行验证,但是从一些研究报告的变量测量相关矩阵中可以得到部分支持(Kormos & Dénes 2004;De Jong et al. 2015)。Kormos & Dénes(2004)没有区分句中和句末停顿,但是发现发声比与停顿时长呈高度负相关(rs=-0.89,p<0.01),发声比与修补流利度频率呈较低的无显著相关(rs=0.20,p>0.05),与本研究的结果趋于一致(见表1)。De Jong et al.(2015)分析51 名中、高级荷兰语学习者口语产出任务表现后发现,言语分析单位内停顿时长与单位之间停顿时长呈高度正相关(r=0.79,p<0.05),重复比与自我修正比(r=0.42,p<0.05)、填充比(r=0.53,p<0.05)均呈中高度正相关,自我修正比也与填充比呈中等水平以上正相关(r=0.45,p<0.05),与本研究发现趋于一致。以上结果间接表明本研究发现的中断流利度和修补流利度因子结构的合理性。

4.2 口语非流利度与英语水平

本研究发现英语水平对口语非流利度的降低没有积极的作用,与直觉上的理解似乎不符。产生这一结果可能有两个主要原因。一是语言水平的测量,二是复述任务的性质。本研究中的英语水平依据英语专业四级笔试成绩,其中的听写和听力理解部分与口语复述中的听力理解与产出直接关联。鲍贵(2023)的结构方程模型分析发现,英语水平影响复述内容准确性,不直接影响流利度,只是经由内容准确性间接影响流利度。虽然口语和书面语水平之间有许多共同之处,如词汇、句法和语篇能力,但是本研究考察的非流利度同语音语调一样是口语的特有属性,不太可能通过书面语能力的提升而自然降低。

故事复述的性质和要求很大程度上决定了英语水平对口语非流利度的作用。Wang & Chen(2016)通过访谈发现,大多数学生在故事复述过程中主要关注故事内容,因为他们被告知测试评分依据故事包括的意义单位,漏掉一个意义单位就会丢分。几乎所有的受访学生都在笔记中写下名词和动词等重要词,以确保信息准确。这意味着,对故事信息量的提取和产出的准确性消耗了学习者大部分的注意力资源。因此,学习者不论水平高低,都有可能为内容复现的准确性表现出有意或无意地停顿和修补,大大削弱了英语水平对流利度的可能促进作用。

5. 结语

本研究利用结构方程建模考察了英语学习者故事复述中口语非流利度因子的结构和因子之间的关系。研究发现,把非流利度分为中断流利度和修补流利度两个因子在理论上和实证上都是可接受的,中断流利度包括句中停顿时长、句末停顿时长和发声时间比,修补流利度包括重复比、自我修正比和填充比。中断流利度和修补流利度存在适度的负相关关系。研究还发现,学习者书面语水平与非流利度两个因子之间没有显著性相关关系,说明学习者口语非流利度测量是口语水平的特有性质,凸显口语水平和书面语水平之间的差异。

本研究加深了对口语非流利度的理解。外语教师要认识到口语非流利度的多元性。建议教师设计教学任务时应结合实际为学习者提供任务前的语言支持和内容支持,并逐步取消这些支持,通过反复练习提高学习者语言表达的流利度。

本研究只是在故事复述任务中检验了口语非流利度的因子结构和因子之间的关系,研究结果是否适用于其他类任务(如独白和自发性言语)尚需进一步研究。未来研究也可扩大研究范围,考察学习者口语非流利度和语言准确性或句法复杂性之间的关系,比较不同任务准备条件(如任务准备时间或任务重复频次)对学习者口语非流利度因子结构的影响,也可以考察非流利度因子与感知流利度或口语水平之间的关系。

猜你喜欢

句末流利英语水平
国内流利度研究的计量可视化分析
四川方言句末助词“哆”
完整句末不一定都用句号
“也”“还”在英语中的用法
句末“没”和“没有”的演变分析
句子教学——提高学生英语水平的奠基石
通道形式与英语水平对大学生英语听力成绩的影响
英语水平
流利口语练习
提高医务人员英语水平的主要做法与成效