APP下载

基于认知诊断的英语阅读研究述评*

2022-03-25南昌航空大学段惠琼景德镇陶瓷大学黄洪燕

外语教学理论与实践 2022年1期
关键词:测验研究者测试

南昌航空大学 段惠琼 景德镇陶瓷大学 黄洪燕

提 要: 认知诊断是在现代认知心理学和心理测量学、现代统计数学以及计算机科学基础上发展起来的一种新的诊断技术。它能够科学地描述测试中所包含的认知属性,准确地诊断学习者的语言技能结构,促进个性化的语言教学,因而在英语教育领域,尤其是英语阅读测试中得到了广泛应用,并引起了国内外学者的关注。本文从认知诊断研究的发展、理论基础、在英语阅读测试中的应用、现有研究的难点和不足等方面对认知诊断进行了综述,以期促进认知诊断在英语教学中的应用。

外语教学与实践的基本目标之一是根据学生在外语测试项目上的作答表现来评估他们对各种知识技能的掌握程度,因材施教,促进学生各种能力的全面发展。认知诊断是指通过认知诊断模型对学生掌握的知识结构、加工技能或认知过程(统称为属性,attribute)进行精细分解的诊断评估。它有助于教育相关人员(教师、家长、学生、学校管理者、教育政策制定者等)获得更全面的反馈,从而解决教与学之间存在的明显不适、难以有的放矢等问题。不同于包括经典测量理论(CTT)和项目反应理论(IRT)在内的测量理论,认知诊断的本质在于通过被试可观察的作答表现来测量不可观察的、细粒度的认知属性结构和加工技能,挖掘被试学习或参与测试过程中的认知潜在特性和属性掌握模式,认知诊断因此成为构建语言深度测评与教师智慧教学的桥梁,具有巨大的诊断评估与促学潜能,为补救教学提供依据。

在我国英语阅读测试中,阅读障碍时有发生,影响到英语学习者的学习热情和学习效果,如何有效地预防和减少这类问题是重要且必要的。采用合适的认知诊断模型对英语学习者在阅读过程中遇到的阅读障碍进行诊断,并考察其认知结构和个体差异,可以有效提高部分英语学习者的阅读能力。本文在查阅现有文献的基础上,综述了认知诊断理论的发展、认知诊断理论在英语阅读中的应用和研究成果、现有研究的难点和不足,并进行反思,以期促进我国英语教育领域的认知诊断研究。

1. 认知诊断发展概况

1) 认知诊断的源起与理论基础

认知诊断研究源于为掌握而学的思想和教育问责制。十九世纪两位著名的美国教育心理学家布鲁姆(B. S. Bloom)和格拉斯(R. Glaser)大力提倡为掌握而学(learning for master),这种思想直接推动了认知诊断测验的兴起和发展。自二十世纪七十年代,认知诊断测验理论的发展历程大体可以分为两个时期(R. J. Mislevy, 1993: 19-39): 第一个阶段是标准测试理论阶段(Standard Test Theory),该阶段涉及经典测量理论(CTT)、项目反应理论(IRT)和概化理论(GT)。第二阶段是以认知诊断为核心的新一代测试理论发展时期。

经典测量理论起源于斯皮尔曼二十世纪初建立的简单数学模型研究,计算便捷、实用性广,但由于其理论假设较弱,数学模型的假定不符合事实,项目统计量的难度和区分度因而严重依赖于被试样本。二十世纪五十年代创立的项目反应理论克服了经典测量理论中项目参数等指标依赖于样本的局限性, 以项目特征曲线和潜在特质为核心,描绘了受试者的能力水平与其正确作答的概率之间的关系。但在标准测试理论阶段,无论是经典测量理论还是项目反应理论,都将受试者的心理特征视为纯统计结构(谢美华,2014),忽视对作答过程的分析,缺乏对能力结构的详细描述,无法说明受试者是否已经掌握知识或技能属性,因此存在较大局限性。

传统测验只提供一个笼统的分数,新一代的测试理论则克服了这一局限性。Frederiksen等人(1992)在《新一代测验的测验理论》()中正式提出认知诊断理论是对传统理论的补充和发展。新一代测试理论主张将认知心理学的理论结果与现代统计学方法相结合,强调需要同时从能力水平和认知水平两个方面进行测试,从微观层面揭示不同个体的认知加工水平和特征。认知诊断理论发展阶段经历了“以使用为导向”的测评(Shohamy,2001)到“不让一个孩子掉队”、“为学习进行评估”(Assessment for learning),再到构建“学教测”全覆盖的诊断反馈与教学指导体系阶段,如今正迈向教育测量结果认知属性可视化和计算机自适应评估阶段。

由于认知诊断需要发现受试者的认知强项和弱项,即测量潜在变量,研究者需要以认知心理学和心理测量学作为认知诊断测试的基础,对所涉及的各种认知变量进行认知分析,获取研究所需的心理模型。研究者随之需根据被试的实质性心理模型选择、编写项目和试题,从而详细描述被试之间的差异。同时,为了深入分析利用数学模型获得的带有随机误差的响应数据,研究者需具备一定的应用数学知识,尤其是统计数学和计算机科学技术领域,否则,认知诊断模型只能停留在理论研究阶段,不能真正应用于实际情况,其发展空间将会缩小。因此,认知诊断依托于心理学(特别是认知心理学、心理测量学)、现代统计数学和计算机科学三大学科的发展。

2) 认知诊断的特征

不同于项目反应理论,认知诊断的确定性特征表现在Q矩阵(Q-matrix)上。传统的项目反应理论在描述作答响应时采用的统计样式如表1所示:

表1. 传统测试学生得分

表2. 学生可能的知识状态

认知诊断得出的测试结果能够呈现出受试者的知识状态,如表2所示:

当学生A和学生B考分相同时,认知诊断报告(表3)显示他们掌握的认知属性数量不同,这是对传统测试报告的改进。

表3. 得分相同的受试者知识状态不同

简而言之,认知诊断与其他项目反应理论的最大区别在于使用了Q矩阵,从而让连续的变量描述(潜在能力)变成了定性化的先验知识(可以是专家设定的能力或技能分类)。因此,Q矩阵被认为可实现潜在项目响应中潜在能力的可操作性。

认知诊断模型不是连续潜能变量的心理测试模型,而是受各种条件约束的潜能分类模型。它将每个响应对象分配到不同的属性组,并将潜在的分类对应于可能的属性。使用较为广泛的模型有逻辑斯蒂潜在特质模型(LLTM, Fischer, 1973)、规则空间模型(RSM, Tatsuoka, 1983)、属性层级模型(AHM, Leighton, Gierl & Hunka, 2004)、DINA模型(Junker & Sijtsma, 2001)、高阶DINA模型(de La Torre & Douglas, 2009)、融合模型(Hartz, 2002)、DINO模型(Templin & Henson, 2006)等。虽然不同认知诊断模型背后的理论思想和测量性能不尽相同,但是认知诊断模型一般具有下列特点: 第一,认知诊断以被试的个体差异为依据,对其进行诊断评估,为教师进行补救教学提供准确信息。其次,认知诊断的目的在于考察被试在测试中表现出的认知结构和解题程序。第三,依据认知诊断结果作出诊断报告及对被试进行描述与其在该学科领域所表现的心理语言模型有关(B. Shanon, 1993: 364-394)。

3) 认知诊断的国内外发展情况

国外的认知诊断研究早于中国。二十世纪六七十年代,认知心理学与心理测量学的结合开始受到研究者的关注,国外学者首先提出认知和测量联姻的认知诊断。八十年代,研究者们开展了相关基础研究,并在实际应用中取得了一些成果。1989年,Robert Linn主编的《教育测量》()提及认知诊断测试的必要性。该书中Samuel Messick撰写的章节《效度》、以及Richard Snow和David Lohman合撰的章节《认知心理学对教育测量的启示》结合了教育测量和认知心理学。自此,教育测量领域学者开始关注认知心理学,并借助认知心理学的研究成果推动了测试研究的发展。(王萌萌,2016: 21)二十世纪九十年代,认知诊断的研究成果逐渐丰富,认知诊断评估专集陆续出版;同时,语言测试领域的研究也开始增加。二十一世纪至今,认知诊断研究的快速发展吸引了越来越多研究者的目光,他们发表了大量相关学术论文,召开了十几次以认知诊断为主题的国际性会议(刘声涛、戴海琦、周骏,2006),并开发了120多个认知诊断模型。

国内的认知诊断研究肇始于二十世纪八九十年代。在此期间,方富熹(1984)对儿童算术的认知诊断研究成果进行了编译;余嘉元(1995)运用规则空间模型对中学生数学考试中的认知错误进行了划分。但直到本世纪初,认知诊断研究才在中国蓬勃开展,开始出现对规则空间模型的系统介绍和应用(辛涛、焦丽亚,2006;戴海琦、张青华,2004)。这一时期的研究还包括理论研究的拓展,比如涂冬波、蔡艳和丁树良(2013)对五种不同认知诊断模型的特点进行了对比;蔡艳、谭辉晖和涂冬波(2015)深入研究了基于DINA模型测验的Q矩阵合理性指标;丁树良等人(2017)对Q矩阵理论进行了创新性探索;杜文博和马晓梅(2021)探究了二语阅读技能间的内在关系及其在不同水平组的表征。

图1. 中国大陆认知诊断文献量折线统计图(1)本文文献获取采用专业检索方法,检索式为: SU=“认知诊断”+“认知诊断评估”+“规则空间模型”+“DINA 模型”+“属性层级模型模型”,SU表示“主题”,“+”表示“或者”,检索年限为 1980~2021年。

通过对中国知网中文文献进行计量学分析可知(见图 1),1980—2001年发表的认知诊断文献仅有4篇;到了2020年,仅该年一年发表的认知诊断文献量就高达74篇。从2012年国家社科基金立项开始,已有6项认知诊断相关的语言学立项,而国家自然科学基金迄今为止更是有20余项相关项目立项,促进了此类研究的快速发展,研究成果逐渐增多,发表的论文数总体呈增长趋势,这些数据均说明该研究领域在国内已有一定程度的发展。

2. 认知诊断在英语阅读测试中的应用与研究结果

1) 认知诊断在英语阅读测试中的应用

国内外学者将认知诊断模型应用于实际测验中,取得了不错的效果(Gierl & Zhou, 2008; Hartz, 2002; Jang, 2009; Tatsuoka, 1995; Tatsuoka & Tatsuoka, 1982; Templin & Henson, 2006;甘媛源、余嘉元,2010; 张敏强、简小珠、陈秋梅,2011; 赵雪晶,2009)。

在英语语言测试领域,认知诊断研究目前主要围绕听力和阅读能力的诊断展开。最早关于英语阅读的认知诊断研究可以追溯到上世纪90年代。例如,Sheehan(1993)和Buck(1997)应用规则空间模型分别诊断美国青少年文本加工技能和托业(TOEIC) 考试阅读试题的认知属性。而后,陆续有研究者(Kasai, 1997; Jang, 2009; Lee & Sawaki, 2009; Kim, 2015)应用不同的认知诊断模型(如融合模型、G-DINA模型、潜在分类模型)对托福考试阅读理解多项选择题、系统锋利英语(LanguEdge)考试阅读试题、托福考试的听力试题等不同对象进行了认知诊断。

就英语阅读测试的认知诊断研究成果数量而言,中国学术界要少于国外,但也有一些成果涌现。例如,蔡艳等人(2011)运用属性层次模型对高考英语卷阅读能力进行群体而非个体的诊断。赵冠芳、陈慧麟和陈劲松(2013)应用G-DINA 模型对国际学生评估项目(PISA)阅读测试进行了认知诊断。杜文博和马晓梅(2018)将认知诊断与树回归分析相结合,量化与质化相结合,研究英语阅读认知模型的构建。张玉美和罗少茜(2018)对八年级学生英语阅读能力的优劣势进行了诊断分析和信息反馈。范婷婷和曾用强(2019)基于中国英语能力等级量表,以认知诊断测试为研究方法,构建了英语阅读能力诊断测评模型。张海云和石运章(2020)运用G-DINA模型对大学英语校本期末测试开展了认知诊断评估,获取了被试的认知属性掌握概率、潜质类型分布情况、试题答对概率等诊断信息,并以此为基础,探索了对被试进行阅读技能掌握情况的群体和个性化诊断。

综上所述,英语阅读测试的认知诊断是目前认知诊断研究的重要课题。认知诊断技术的发展与英语阅读测试和技能的研究相互促进。

2) 英语阅读认知诊断测验的研究结果

到目前为止,不同的研究者从不同的角度出发,界定出了迥异的认知属性。围绕研究者识别出的属性个数,本文对已有研究成果进行了如下梳理。

(1) 包含比较多属性的研究结果

Kasai(1997)结合英语阅读理解的加工模型和阅读理解多项选择题难度的影响变量这两个方面的研究结果,对托福考试中的阅读理解部分重新进行认知属性的分析,并识别出了16个认知属性。Kasai还考虑到属性间的交互作用,借助回归分析得出回归方程的决定系数为0.91, 表明16个属性基本贴合项目的难度。

(2) 包含属性数中等的研究结果

该组研究中,研究结果得出的属性是8、9个,一般包含推断词义、文意和推理主旨大意。典型案例其一是Jang(2005)通过有声思维测验、问卷调查、课堂观察等,采用统计测验及项目分析法在NG TOFEL(Next Generation TOFEL)考试中确定了九种基本的阅读理解技能。Jang将融合模型用于认知诊断,并成功地利用这九个属性对2700多名学生和教师的阅读能力进行了诊断。其二是Wang,Gierl & Leighton(2006)通过调查有关第二语言英语的阅读理解文献,识别出了八个认知属性。此外,他们通过属性之间的关系确定了两种类型的属性关系(见图 2)。通过数据的分析诊断,他们证实第二类属性阶层关系更为贴合实际情况中学习者的认知加工过程。

图2. Wang,Gierl &Leighton的属性关系图

这八个认知属性分别是:

A1 BA基础知识

A2 US对句子的内容、结构及功能的理解

A3 UT对文章片段的内容、结构及功能的理解

A4 PGS分析作者的目的及表达策略

A5 WM依据上下文推断词义

A6 INF依据背景知识进行推断

A7 VC对含有难词的文章段落的理解

A8 SY对复杂语句的理解

其三是杜文博和马晓梅(2018)通过文献回顾、专家确定和有声思维,根据文本阅读双加工理论和“建构-整合”模型,共同确定了8个阅读认知属性。其四是蔡艳(2010)结合国外英语阅读理解的相关研究成果及教育部出台的《普通高中英语课程标准》和NMET(National Matriculation English Test)阅读理解测试要求,运用分析法对我国高考阅读理解试题进行了认知属性界定,获得8个认知属性,并进行群体认知诊断。

(3) 包含属性比较少的研究结果

陈慧麟、赵冠芳(2013)应用LLM认知诊断模型对考生PISA英语阅读测试结果进行实证分析。他们首先选取8位母语是英语的中学生完成英语阅读理解测试,再进行有声思维测试,要求学生根据自己做题时的感受从现有阅读技能分类中选取各题所测的阅读认知属性。随后,他们邀请6位语言学和教育学领域的大学教师进行专家论证,最终确定了5个阅读技能的认知属性,它们分别是:

A1直接信息的提取——在篇章中查找识别显性信息;

A2内容的总体把握——把握篇章中心思想及上下文的归纳;

A3概念及关系的阐释——阐释复杂概念及复杂关系;

A4间接信息的推测——根据言外之意推测隐性信息;

A5篇章评价——评价篇章文体及作者意图;

综上所述,基于英语阅读的认知诊断测验研究已经取得了一些成果。对阅读理解进行诊断性研究是可行的,但困难之处在于,不同的研究者或者同一研究者在不同时期使用不同的方法分析相同的测试可能会得出不同的结果。故而,对英语阅读的认知诊断研究还有很长的路要走。

3. 现有阅读认知诊断研究的难点

发展和确定基于技能的认知诊断测试是未来认知诊断研究的最重要方向(DiBello,Roussos & Stout,1995: 361-389)。现有阅读认知诊断的研究难点与理论基础和技术支持有很大关系。首先,从心理测量学角度来看,很难建立一种完全合适的、实用的认知模型。构建的模型越复杂就能越好地容纳认知变量和认知心理研究的结果,但是参数估计等技术难点一直难以解决。而若使用参数评估技术比较容易的简单模型,往往难以很好地解释心理特质。其次,认知诊断分析工作需要研究人员有丰富的认知心理学知识、理论和实践经验。对于非该领域的研究人员来说,认知心理学的知识和术语等十分陌生,需要学习了解;此外,估计模型中的未知参数需要具备统计数学和计算机科学的相关知识。不仅如此,研究人员还要重视测验的设计,即根据被试的心理模型选择、编制测验项目,进行测试。简而言之,虽然认知诊断为英语阅读测试提供了良好的研究方向,其目标明确,思路清晰,结果也具有重大的现实意义,但要得到理想的研究结果有一定难度。

4. 现有阅读认知诊断研究的不足

虽然目前的英语阅读认知诊断研究产生了令人鼓舞的结果,但也出现了一些令人担忧的难题,包括如何识别有意义的认知诊断和分数报告的属性、确定目标属性的粒度、将现有测试改造成具有诊断功能的语言测试、以及配置文件评分的效度。由于各诊断模型间存在差异,关于相互依存关系的假设、估计方法、估计软件及在处理多项评分项目中的多功能性以及其它重要特征(参见Lee & Sawaki,2009)等可能会对评估被试技能掌握状态及解释语言评估结果产生极大影响。

国外学者依据已有的测验界定认知属性的“翻新(retrofitting)”没有经过认知诊断测验设计,得出的测试结果有一定局限性。而且,界定属性的出发点不同会使研究者得出不同的属性个数。例如,Jang着重从被测能力和阅读方式两个角度识别认知属性,Kasai则从文本信息和回答问题时涉及的选项以及选题策略这两个角度识别认知属性。有的属性在中国测试中少有要求或根本不作要求。因此,就“评估主体的认知技能最合适的粒度是什么?”这一问题,学界仍需进一步讨论。此外,样本量大小对模型拟合和研究结果效度也会产生影响。

在诊断报告上,尽管理论上模型可以扩展到多元/序数水平,例如具有“突出表现”评级变量,“良好表现”、“一般表现”和“表现不佳”,但大多数认知诊断模型和相关的估计程序仅允许二元潜在变量(例如,掌握与未掌握),测量的属性结果(如策略和技能)仍只能呈现有或无的状态。

5. 总结

认知诊断已走出了只重结果,忽视过程和补救的传统测试领域,为纵向视角研究学习轨迹、模拟知识技能的获得过程或学习过程的信息提供了有用的测量框架。鉴于此类研究有可能遇到的困难,对英语阅读的认知诊断感兴趣的研究者需要钻研现有认知诊断理论和方法,补充认知心理学和统计测量学、统计数学及计算机科学等必要的知识,认真探索每一环节工作。英语阅读认知诊断研究需要吸引更多相关领域的研究者,形成分工协作研究队伍,从而有效地促进我国英语阅读的认知诊断研究。

当然,认知诊断可应用的语言测试领域远不止阅读。如今,研究者也在听力、写作、口语等领域展开相关研究。总体而言,认知诊断在语言测试中的应用不仅促进语言及语言测试的理论研究,还可进一步改善语言测试设计和编制、语言教学内容及方式,帮助建立精确的语言技能评分机制,推广个性化语言教学。

猜你喜欢

测验研究者测试
心理测试
饿死的毛毛虫
研究者调查数据统计
两个处理t测验与F测验的数学关系
年轻瘦人糖尿病增多
数字测验
心理小测试
测试
你知道吗?
小测试:你对电子邮件上瘾了吗?