APP下载

基于听力认知属性的动态评估干预模式初探①

2019-12-06孟亚茹晏艺赫马晓梅周泽莹

英语知识 2019年4期
关键词:题项矩阵听力

孟亚茹 刘 丹 晏艺赫 马晓梅 周泽莹

(1. 西安交通大学外国语学院,陕西西安;2. 文澜未来科技城学校,浙江杭州;3. 西部机场集团有限公司,陕西西安;4.西北大学外国语学院)

1. 引言

Vygotsky(1998: 205)指出真正临床上的诊断应该根植于“对各种数据的仔细解读和评判,提供解释、预测和可操作的处方”。同理,外语听力能力的诊断一方面要根据不同证据来评估学习者的强弱项,另一方面还要针对弱点进行干预指导,而不是坐观成败,不施予援手。Vandergrift(2007)指出基于传统测评理论的“听力测试只能展示结果,却无法揭示过程,无法知道学生是如何正确作答或为什么会出现问题的”。而诊断性评估因更紧密联系教和学成为新的关注点,其核心是“发现学习者语言和交际能力强弱项,并提供具体诊断反馈和补救学习的过程”(Lee,2015:1),达到“诊断-反馈-补救/干预一体”的目标。

目前诊断评估的最新发展是认知诊断评估(CDA)和动态评估(DA),前者把教育测量与认知心理学结合,通过被试在题项上的作答反应而推知其不可观察的知识状态、加工技能或认知过程(Leighton & Gierl, 2007),据此生成细颗粒度的反馈;后者在Vy g o ts k y社会文化理论(Sociocultural Theory, SCT)的最近发展区(Zone of Proximal Development, ZPD)基础上通过干预促进学生能力的微观发生(microgenisis)和发展,核心是教学(干预)与评估的一体化。两者基于完全不同的理论视角,而本研究扬长避短,结合前者在题项与属性相关联的优势和后者在干预操作性上的长处,探索基于听力认知属性的干预模式(Attribute-based Mediation Model, AMM),并初步检验其有效性。

2. 相关理论和文献

2.1 英语听力评估

外语听力认知加工过程具有特殊的复杂性(Vandergrift, 2007),致使我们仍缺少评估该能力发展的理论(Alderson,2005),无法完全理解重要的听力微技能,因此听力诊断评估相对较少(Buck, 2003)。尽管如此,学界的探索从来没有力,还包括策略(决策)能力。但这些技能要落实到听力任务上,则需要以被试能够完成的任务为基础进行描述。邹申(2011)结合Richards(1983)对听力微技能的描述将其分为三层次:微语言意义理解(辨别音素、识别单词、辨别句法结构、语法概念)、直接意义理解(领会大意、主要信息,态度或观点)和间接意义理解(演绎和推断)。这些探索有效地指导了诊断测试听力任务的设计,便于有针对性地把诊断、反馈和干预相融合,突破三者各自孤立的现状(Alderson等,1995;Poehner等, 2015)。而目前,英语听力已成为我国大学生的学习瓶颈,如徐锦芬和聂睿(2016)对重点大学新生的研究发现听力的得分最低,由此可推知一般大学的现状。因此针对英语学习者开展诊断性评估与指导十分必要。

2. 2 听力认知诊断评估

2.2.1 认知诊断评估(CDA)

认知诊断评估指对个体知识结构、加工技能或认知过程的诊断评估(Leighton & Gierl, 2007)。认知属性(Attribute,以下简称为属性)是正确完成任务所需要的一系列技巧、知识点、思维过程、认知策略等(Buck & Tatsuoka, 1998)。属性的确定应广泛参考相关领域的理论、(专家)

题项内容分析和(被试)口头报告等(Buck &Tatsuoka, 1998; Leighton & Gierl, 2007)。Q矩阵是属性和题项之间映射关系的二维矩阵表,它直接关系到诊断的准确性(丁树良等,2012)。因此可以说,CDA在效度上超越了经典测量理论和项目反应理论,使准确诊断和针对性反馈有了前提和保证。

2.2.2 听力认知诊断相关研究

近二十年来基于CDA的二语评估研究逐步升温。从关注的技能来看,阅读居多,且多用翻新法,即从非诊断试题上提取认知诊断信息。听力方面国外较早的研究有Buck和Tatsuoka(1998)利用规则空间模型研究TOEFL听力,但仅涉及简答题,且该模型为非补偿模型,对属性的层次和顺序要求严格,不适合语言领域(张启睿 边玉芳,2011)。Lee和 Sawaki(2009)对TOEFL iBT听力进行研究,属性有理解主旨大义、理解文本结构和说话者的意图、连接信息,但颗粒度偏粗、样本较小(N=374)(见表1)。

表1 听力认知诊断文献

国内听力研究屈指可数,孟亚茹(2013)运用CDA方法编制试题,确定了7个属性(语音特征、词汇与表达、句法结构、事实与细节、主旨大意、推理、策略,是本研究的属性依据),但该研究的干预仅限于对应的试题强化训练。肖云南和罗娟(2019)对大学分级听力测试进行研究,其属性与孟亚茹(2013)相比缺少了语音,而把策略中的做笔记和选择性注意分成两个,研究发现学生对初级语言知识的掌握高于策略技能。闵尚超和熊笠地(2019)的校本测试属性的不同是将以上词汇和句法结构合二为一,也不涉及策略。该研究验证了听力理解的互补机制,而技能属性补偿性更强,低水平学生该方面较差,与肖云南和罗娟(2019)的发现吻合。以上研究的属性选取较为接近,但除孟亚茹(2013)外均为翻新法,此方法在内容、难度和编制原理上存在“瓶颈”(张启睿边玉芳,2011),另外,所得反馈并不能被有效用于干预和发展。

2.3 听力动态评估

2.3.1 动态评估概念和模式

Lidz(2003: 337)把动态评估(下面统称DA)定义为有经验的评价者(干预者)和学生在评估活动中进行互动,帮助探索和发现学生潜在发展能力的一系列方式;Lantolf 和Poehner (2011)视其为教学与评价为统一体的诠释框架。DA的核心思想是Vygotsky社会文化理论的最近发展区(ZPD),主要方式是通过提供对学习者ZPD敏感的干预,触发其在较短时间内心理加工的微发生和发展过程。

动态评估模式分为两类:互动式DA和介入式DA。前者以干预者与学习者之间的开放式互动对话为手段,关注学习者对干预的反应并做出相应的改变(Ableeva,2010),对ZPD敏感度更高,便于揭示潜在困难并有助于开发干预步骤和过程(Poehner等,2015)。后者(也称为干预式DA)采用循序渐进标准化提示流程,依据干预的明示程度分配权重,易获得干预的数量和种类,预测未来测试表现(Davin,2013)。Davin (2013)将介入式和互动式结合,即通过预先准备的干预菜单,对学生词汇与语法错误进行干预,口头互动干预针对菜单没有涉及的错误,充分发挥两者的优势,对本研究提供一定借鉴。

2.3.2 相关听力DA研究

较早的外语听力研究有Ableeva的系列研究(Ableeva, 2010; Ableeva & Lanotolf, 2011),他们发现听力问题有词汇、语法、语音和文化背景等,并根据学习者对干预的反应总结出有效的干预框架。但该研究的互动干预随机性大,缺乏与问题相关属性的客观验证。Poehner和Lantolf(2013)以及Poehner等(2015)基于计算机化动态评估(C-DA)的听力研究采用标准化多选题,涉及到语音、词汇、语法、语篇和文化属性。针对每道题目提供暗示到明示渐进式的干预,据此获得学习者所需提示的数量,虽然其干预“尽可能接近该题所测试的某一构念(属性)”(Poehner &Lantolf, 2013: 330),但与题项之间的相关性缺乏证据,诊断和干预的有效性也会受到质疑。国内听力DA的研究屈指可数,韩艳丽(2015)把听前预备、听中策略培训及听后讨论相结合,进行同伴互助式的群体干预性实践;郝文娟(2018)采用PETS听力对中学生的课堂DA评估强调了能力的发展和迁移,以上两个研究的干预主要来自听力问卷,其能力迁移的归因关系也有待商榷。

从以上梳理发现,英语听力诊断性评估研究相对薄弱,DA实证研究较少,干预步骤、干预任务和属性的相关性鲜有涉及。而认知属性的精细化能确保诊断和反馈的有效性,与动态评估的干预结合,有望构建一个从认知诊断到动态评估的英语听力干预模式。基于此,具体研究问题如下:1)英语听力认知属性Q矩阵是什么?准确性如何?2)这些属性能构建什么样的动态评估干预模式?3)该模式在多大程度上有效?

3. 研究设计

研究过程分为试题和属性Q矩阵的确定、干预模式构建和实证验证三部分(见图1)。

图1 研究思路和步骤

第一阶段 确定听力认知诊断试题和属性CDA方法的主要流程包括:1)确定认知属性;2)建立Q矩阵;3)编制试题并收集测试数据;4)分析数据及验证Q矩阵模型的拟合;5)生成诊断报告。如果从已有的试题进行翻新,就省去第3步(Lee & Sawaki, 2009)。本研究干预所用的属性和部分试题参考了孟亚茹(2013),①该试题基于“个性化英语学习诊断与指导系统”(PELDiaG),系国家社科基金项目“基于认知诊断评估的个性化英语学习在线诊断模式构建及系统研发”(12BYY055) 的成果之一。部分属性借鉴Buck(2003)和邹申(2011),共涵盖7类听力属性A1—A7(见以上文献和下表3);试题基于认知诊断的方法构建(题项数I=24),在此基础上根据属性的需要进行题目选编、修正和验证,先初步通过项目分析选定新试题(I=29);8位专家独立对试题的属性进行标注,讨论修订后获得最终矩阵(晏艺赫,2018);然后结合6所不同类别大学1099学生的作答进行基于饱和模型(补偿型)G-DINA的认知诊断分析,确定了试题和Q矩阵(I=22),据此确定了每个题项所需干预的主、次属性;12名学生进行即时追溯性口头报告,具体方法参考张妍华和孟亚茹(2018),以修订Q矩阵。最终版试题包括短对话(1—11)、长对话(12—16)和短文(17—22)三部分,且均为单项选择题,每题五选项。具体过程见图1左侧和表2。

第二阶段 构建干预模式在借鉴前人干预框架基础上初步设计了基于听力属性的渐进式干预框架。随后进行个案实证研究(N=5),干预者与被试进行一对一互动式DA干预。根据被试在各个题目上对干预的反应及建议进一步修订,形成干预模式。

第三阶段 进一步实证研究将构建的干预模式作为模板,预先准备好每道题项的固定化干步骤,8名学生参加进一步的实证研究验证,并通过半结构式访谈了解被试对干预模式的态度和看法。

表2 试题和参与人员

4. 结果

4.1 听力认知诊断试题Q矩阵

题项分析学生对试题(I=29, N=1099)作答之后用BILOG进行IRT项目分析,整套试题的平均难度适中(0.43),区分度和猜测度分别为1.55和0.28,各题目参数均在可接受值范围内。

专家标注8位专家先独立对试题按主次属性顺序标注,Fleiss Kappa一致性平均指数居中(0.541),之后经讨论,个别歧义较大的做了相应调整。根据IRT的结果和7个属性分布需要确定了22个题项的Q矩阵。

认知诊断分析为了检验Q矩阵中题项与属性的对应关系及据此推论的有效性,确定模型与被试作答数据的拟合至关重要(Chen等,2013)。从R软件(V3.5.2)中的饱和模型G-DINA获得该Q矩阵的绝对拟合值,其中max X2值为22.50(p>0),其他指标越接近0表明拟合越好,MADcor为0.0273,远低于Jang (2005)等建议的拟合值,SRMSR(0.0360)和MADQ3(0.0361)低于0.5,也表明该矩阵和学生作答拟合较好。

表3 听力认知诊断试题Q矩阵

根据Q矩阵确定最终的干预属性,具体见下表3,标记1的为该题目考察的第一属性,2、3依次为第二和第三属性。

干预主、次属性验证题项掌握概率即在掌握某些属性时正确回答该题项的概率。如果答对概率跟所测属性相关,则表明该题项的确测量了该属性,这也是效度的本质(Cronbach, 1990)。比如下表题项3考察A1和A2两个属性,其掌握模式为“11”,答对概率为95%,表示两个属性都掌握时,正确回答该题的概率为95%。专家标注将A2标为第一属性,即主属性。以此类推,每题主属性见下表4黑体列,即干预主属性。

表4 属性掌握模式与题项掌握概率

学生口头报告验证12名学生每做完一个题项,立即进行即时追溯性口头报告,以此验证实际作答过程中是否涉及到Q矩阵中的属性。以“推理”属性为例,依据专家标注和认知诊断分析结果,第10题考察推理能力。参考被试口头报告将其细化为“基于背景和文化的推理”,主属性确定为A6。但口头报告反应关键词和短语也有助于正确回答该题,因此将A2作为次属性。据此获得获得干预试题的Q矩阵。

4.2 结合属性的干预模式构建

本研究依据前期研究从暗示到明示的逐步干预框架构建方法(Aljaafreh & Lantolf, 1994;Poehner, 2005),并结合Q矩阵,初步设计了干预框架(见表5),其中1—5步(隐性干预)和11—14步(明示干预)适合所有属性。隐形干预通过提示促使学生自主修改,其中第1步是构建双方合作的身份关系(Aljaafreh & Lantolf, 1994),2—4给机会重新尝试,5指出错误位置;基于属性的干(6—10步)因属性而异,是本研究的重点;明示干预针对错误或答案进行解释,适合前两类干预不奏效的学生。

表5 初始干预框架(改自晏艺赫(2018))

为了将以上初步框架落实到具体属性上,研究者为每一道题目预先准备好基于主、次属性的介入式干预步骤,之后将其应用到对5名学生的互动式和介入式结合的个案干预中。对所有干预步骤的频次统计发现,最高的是第8步“检查对该属性的概念性理解”,其次是第9步“提供元语言线索”,次高频率的有第5、10、7和6步。表6以第4题为例,发现6—10步是高频干预。

个案分析结果还表明,表5初始框架中部分干预相关性强,如类似表6第6、7步干预功能都是确定考查的属性,因此可以合并。另外还发现当涉及属性A4到A7时给出元语言类策略性建议(比如预读选项、捕捉关键词、选择性地注意等)非常有用。据此提出了基于属性的干预模式(AMM)(见下图2)。

图2 基于属性的干预模式AMM(参考晏艺赫,2018)

4.3 干预模式的有效性验证

本研究基于以上干预模式(表5和图2)对另外8名学生进行了一对一介入式和互动式相结合的干预实证研究,进一步验证该模式。图3仍然以第4题为例进行说明。

学生1(S1)虽然初次作答正确,但是干预者(Mediator,M)询问发现S1有可能猜测。据此,干预者首先从最隐含的干预开始(重播),然后再将S1的注意力引导到考察的属性上。以下图3例子展示了干预者在被试作答正确的情况下如何利用预先设计的AMM模式结合互动DA进行诊断和干预。此外,干预也揭示出得分相同的被试的不同知识结构和加工过程,表明仅基于主属性的干预不一定完全有效。

干预结束后的半结构化访谈结果显示5个被采访者(interviewee,I)持积极态度,认为该干预方式能帮他们注意到目标信息、正确回答问题。如I4说“……,现在能将注意力引导到重点信息,而不再是漫无目的了……”;另一个学生I3说“推理题的干预帮助较大,做推理时有了思路”。可见这种干预也有利于有针对性地运用良好的听力策略,增强自我反思和自我监控的意识。从实验结果也发现干预效果最为明显的属性是A3(句法结构类),该能力提升在后续听力中得到验证。

图3 结合属性的干预个案1

5. 讨论

本研究结合认知诊断和动态评估的优势,构建了基于属性的听力动态干预模型AMM,通过个案初步对其有效性进行了验证,证明其在诊断问题、全面解读能力和干预效率方面的作用,也得到学生的初步认可。

首先,本研究通过CDA方法确定属性、构建试题和Q矩阵、能获得被试认知过程与技能的掌握概率,有助于对学习问题的诊断以及动态评估等(陈瑾等,2009)。其中Q矩阵保证了测试任务跟属性的对应关系,且与教学目标密切结合;技术层面上,CDA的多属性处理方法能分析题项跟多个属性的对应关系,超越了传统的分析方法,也符合多种属性补偿的特点,与现有研究结果吻合(Buck & Tatsuoka, 1998;闵尚超 熊笠地,2019)。该过程突破了现有“翻新法”从非认知诊断试题提取诊断信息的瓶颈(张启睿 边玉芳,2011),不仅能达到标准测试下的效度,还能确保题项层面的微观效度。

其次,AMM模式的渐进式能捕捉学生的微发生过程。考虑到外语听力短期记忆负荷很重,最隐性的干预(M1)是重听音频,其有效性在Ableeva(2010)和Ableeva和Lantolf(2011)基础上得到再次确认。M2“检查被试对属性相关概念的理解”需要调用音与形各自的记忆储存系统(桂诗春,1992),如干预片段1,学生较难将两者瞬间相匹配(Vandergrift & Baker, 2015)。另外,在学生正确作答后仍需核对相关属性的掌握(M2),一方面是为了检查猜测因素,另一方面为探寻被试的ZPD。比如上例中的两个属性可能介于S1掌握和未掌握的ZPD敏感地带,如果干预触发到这两点,产生了微观发生,则会促进之后的发展,有望拓展S1的ZPD。S1本人也提到“下次再遇到类似或者更难的题目,可以不靠猜测”。从这一点上,该干预是恰当的、及时的,有益于未来发展,这正是动态评估的宗旨。M3“给出(元)语言线索和例子”需要根据属性特点进行调整,如上例中主要针对微语言意义理解(A1-A3),通过范例讲解较为有效。但针对直接语义理解的A4-A5和间接意义理解的A6,如果再来额外的记忆和心理加工负担。针对这一点,研究者发现进行策略指导非常有效,这一点通过访谈也得到验证。比如他们多次表示实际听力中常忘记采用预读和做笔记,干预者的适时提醒会让他们养成良好习惯,与Vandergrift(2007)对培养策略意识的观点一致,而对听力弱的学生配以培训更有效。

最后讨论AMM的适切性。Poehner(2008)提醒干预者避免高估或低估学生的能力,应该确定问题的范围和根源。而基于传统教学很难在转瞬即逝的听力活动中更好地捕捉到听力障碍和能力的变化(韩艳丽,2015)。本研究构建的AMM模式以介入式为主,针对每个题项的属性提前预备可能的干预步骤,能减少对干预者专业需求的压力,做到快速判断学生的听力问题所在、有的放矢,提高效率、促进干预的准确性,有望发展成计算机化的干预模式。同时,AMM模式也融合了互动式DA,干预者针对每个被试的不同问题可以随机应对,提供有差异的、开放式的帮助,这样能顾及到群体和个体认知能力变化的差异。两者结合,有利于探索学生的最近发展区(Davin,2013)。

6. 结语

外语听力的复杂性需要利用深入的定性方法才能认识学习者的解读过程(Vandergrift, 2007)。本研究的干预步骤来源于一线教师和学生的真实心理加工过程,可靠性好;试题和属性Q矩阵通过IRT项目分析和认知诊断分析验证,具有很好的心理测量学属性,外推性好;有效性验证通过一对一的介入式和互动式结合的方式,初步获得学习认可。但该结果尚属试探性的,还需进一步验证。后续研究可以从历时角度结合更复杂的任务干预来聚焦单项听力微技能发展,也可以验证本模型在能力迁移和提高方面的作用,进一步关注动态干预效度,为计算机化听力动态评估提供更好的理论支撑。

猜你喜欢

题项矩阵听力
黑龙江省新商科创新创业人才多维度协同培养体系研究与实践
矿工安全拒绝敏感性量表开发与应用
90后新生代员工满意度调查分析及策略研究
留守儿童心理健康状况影响因素调查问卷编制
Units 1—2 听力练习
Units 3—4 听力练习
Units 5—6 听力练习
Units 7—8 听力练习
多项式理论在矩阵求逆中的应用
矩阵