诊断性评价研究的发展

2018-02-08杨吕娜

中国考试 2018年9期

杨吕娜

（北京师范大学，北京 100875）

《国家中长期教育改革和发展规划纲要（2010—2020年）》和2014年国务院《关于深化考试招生制度改革的实施意见》明确指出，要完善教育质量评价制度以及改革、完善测评方式和分数报告。作为能够为学生个体化学习提供全面反馈信息的评价方式，诊断性评价成为研究的焦点。诊断性评价在认知诊断评估、诊断能力以及诊断反馈方面的新进展，将为新一代评分方式和成绩报告的完善提供新的思路和改进路径。

1 丰富的反馈信息：认知诊断

心理与教育测量理论发展至今大约经历了2个阶段：一是标准测量理论阶段，包括经典测量理论、项目反应理论和概化理论；二是以认知诊断为核心的新一代测量理论[1-3]。认知诊断作为教育测量兴起的方法受到人们的广泛关注[4-7]，其聚焦于对个体知识结构、加工技能或认知过程进行诊断评估[8]。由于经典测试理论和项目反应理论实质上是根据测验题目，探索被试在特定能力的连续体的位置。因此，基于这类理论的测试结果不能为学生与教师提供学习和教授的知识与技能的全面信息[9]。认知诊断以现代测量理论为基础，探索被试在考试中的认知过程、适用策略与知识结构及其运用情况，并对高能力被试与低能力被试的差别进行刻画，为教学和学习提供了丰富的诊断信息。与经典测试理论和项目反应理论以测试题考查单一能力的前提不同，认知诊断测验强调试题考查能力的多维性。通过对粒化认知属性（Fine-grained Attribute）呈现的知识结构、加工技能或认知过程的刻画，认知诊断能够为个体提供认知能力结构和性状的认知诊断反馈。

1.1 认知诊断模型

诊断分类模型是基于测量和统计模型发展起来的，其最为人知的术语是认知诊断模型（Cognitive Diagnostic Models），但是，Rupp等认为应当将其称作诊断分类模型（Diagnostic Classification Model）更为合理，可以避免将认知诊断模型只局限于认知心理学的研究和应用[7]。

常用的认知诊断模型有：规则空间模型（Rule Space Methodology）、线性对数模型（Linear Logistic Model，LLM）、融合模型（Fusion Model）、DINA 模型（Deterministic Input，Noisy and Gate Model）、NIDA模型（Noisy Input，Deterministic，and Gate Model）、贝叶斯网络（Bayesian Network）、G-DINA模型（Generalized Deterministic Input，Noisy and Gate Model）。上述认知诊断模型可以归纳为3个类别：学生的思维模拟、概念网络和心理计量的特质模型[9]。目前认知诊断模型的研究发展主要体现在：一方面，对认知诊断模型的整合及模型—数据拟合的研究，如概括诊断模型；另一方面，从0-1评分到多级评分模型的拓展[3]。

1.2 认知诊断的应用研究

许多学科均尝试使用认知诊断方法研究考生的认知过程和心理特征。张伟平使用规则空间模型对中美学生的数学能力进行对比探索[10]；涂冬波等将HO-DINA模型应用到探讨小学儿童数学问题解决的研究[11]；许志勇等尝试开发小学数学五年级的认知诊断测试[12]；李金波等对高考考生在数学知识的掌握情况进行诊断[13-14]；Sun等对小学六年级学生数学分数的认知属性进行诊断[5]；夏良英等对高中物理学业水平进行综合认知诊断的探索[15]；刘婷雁对汉语学习者汉字构形意识进行概括诊断[16]；徐式婧应用认知诊断规则空间模型对参加汉语语言测试的考生进行听力诊断，并为参测者提供听力理解技能掌握情况的诊断性报告[17]。

在英语语言测试方面，认知诊断研究主要集中在阅读和写作领域[18-20]。陈慧麟等使用G-DINA模型对PISA阅读测试属性进行重新标定研究[21]；Buck等对开放式答题的英语听力试题采用规则空间方法的研究，共分离15种认知属性，发现属性之间存在14种交互[22]；Jang针对模拟TOEFL考试的LanguEdge考试阅读试题的认知属性，具体展示了如何使用学生口头报告与专家判断确定试题和属性间的关系，建立Q矩阵[4]；Lee等针对TOEFL考试的阅读和听力试题的认知属性，对概化认知诊断模型、融合模型、潜在特质分析模型3种认知诊断模型的分析结果进行对比[6]；蔡艳等针对中学生阅读能力的认知属性进行研究[23]；Sheehan等针对美国青少年的文本加工技能进行研究[24]；Buck等针对TOEIC考试阅读试题的认知属性进行研究[25]；von Davier对TOEFL的阅读和听力试题的认知属性进行研究[26]；还有学者从评分标准入手，对写作能力进行认知诊断研究[27-30]。

1.3 认知诊断计算机化自适应测验的进展

计算机化自适应测验（Computerized Adaptive Testing，CAT）随着计算机技术和测量理论的发展，从20世纪70年代早期被引入到测试领域，目前已成为流行的测试方式。这种测试方式通过编程控制试题难度，使其尽量接近考生的能力水平，从而可以准确地刻画考生的潜在特质。随着认知诊断理论的兴起和快速发展，认知诊断计算机化自适应测验（Cognitive Diagnostic Computerized Adaptive Testing，CD-CAT）是CAT与认知诊断相结合的新方向。CD-CAT目前在教育测量领域的应用得到了人们的广泛关注，形成了一系列的研究成果[31-38]。CD-CAT不仅可以提供关于考生优缺点的诊断反馈，而且可以提高诊断的准确性和效率。

2 高要求的反馈素养：诊断能力

作为一种评价方式，诊断性评价同样需要教师和学习者具备发现关键特征和正确解读分数的能力，即诊断能力（Diagnostic Competence）。对于教师而言，诊断能力在提倡培养和提高教师评估素养（Assessment Literacy）方面尤为重要。对于学习者而言，自我评估（Self-Assessment）也对学习者自身的诊断能力提出了要求。目前关于诊断能力的研究主要从形成性评价的角度出发[39-40]，更关注对教师诊断能力的研究。

Salder在对形成性评价进行分析后，对诊断能力作出如下定义：“评价者应对学生表现的质量有明确的概念；能辨别学生目前的表现与目标间的差距以及能选择适合的活动帮助学习者向目标迈进。”[40]类似地，Edelenbos等对语言教师的诊断能力进行研究，将其定义为“能解读学生的语言进步，能技巧地处理评价材料，能基于诊断给学生提供适宜的帮助”[41]；同时，将教师诊断能力的行为表现划分为6个级别的能力水平，并对各个级别的水平作出详细的刻画，为对教师诊断能力的培训和评价提供了良好的参照。

Rea-Dickins等通过研究形成性测试的信度和效度，探究教师的诊断能力[39]。这项研究通过将教师对学生课堂活动表现的记录和转录的学生活动表现进行对比，发现在很多情况下教师对学生的表现只是记录，并没有注意到关键特征，而且在记录学生表现时出现很多错误，为此，呼吁加强对教师进行诊断能力的培训。

诊断性评价为学习者提供更全面、更精细的反馈内容，包括优势和劣势信息。为了让诊断反馈信息的使用效果最大化，诊断性评价对教师的诊断能力提出了更高的要求：应能解读学生反馈报告的信息，指导学生根据优势制定学习目标，帮助学生根据劣势信息制定补救措施等。学生则需要能够对语言能力进行自评，解读反馈报告信息并进行有效的使用；这也将成为诊断性评价中诊断能力研究的重要组成部分。

3 精细的反馈内容：多层面架构

诊断性评价需要提供反馈，但是由于种种原因一直很少受到人们的关注，发展也比较滞后[42]。反馈的本质是信息或数据的传递。反馈的研究表明：反馈通过促进学习者的知识建构，改进认知策略和促进学习者的目标设置，以促进学习者学业表现提高[43]。关于外部反馈的研究主要集中在反馈的表达方式、内容属性以及反馈效果上。根据内容表达方式的不同，反馈可分为信息型反馈和控制型反馈。信息型反馈的重点在于告知个体任务完成的情况，包括结果成败、正确作答或详细反馈等内容；控制型反馈强调外界的要求、期望和学习目标[2]。

过去，测验的成绩报告只是报告测验总分，即便总分相同的考生群体，也可能具有不同的能力；现在，提供描述性的成绩报告非常普遍，如在CET考试中，成绩一般包括总分和各维度的分数，这样的反馈虽然给考生和分数适用提供了反映“所长所短”的成绩报告，但也可能导致一些误解，引发困惑。针对不同的反馈群体对象，在设计具体的诊断性反馈和反馈方式时，应考虑将各群体关注的因素包含在内。有学者建议：在考生个人层面上，提供反映各维度水平的诊断性成绩报告，并提供改进学习的建议；在教师层面上，提供团体性诊断报告，报告整个群体在各维度的表现，从而帮助教师发现在教学中存在的问题，并提出教学改进的建议[44]。

许多研究者提倡将诊断性评价融入学业测试和水平测试。从宏观层面上，对听说读写等技能提供反馈信息，现有的水平测试或学业成绩测试在一定程度上也能够实现这一目的，但是要进行深入、具体的诊断却并不容易。鉴于目前许多研究都尝试利用学业测试或者水平测试提供诊断性反馈信息，Kunnan等从大规模评价情境和课堂评价情境角度概述了诊断性反馈[42]。

在TOEFL考试等大规模评价情境中，听说读写的量表分数以及阅读和听力的反馈都比较笼统，口语和写作的反馈则比较细致；IELTS采用1～9个级别的等级量表向考生反馈听说读写4项技能的信息。虽然这种利用水平考试的成绩档案提供诊断信息固然可以，但是由于诊断信息通常是针对某一水平群体，对个人的指导作用相对薄弱，除了提供考生和其他考生相对的成绩位置以外，不能提供更多的信息[42]614。许多自评项目均尝试为学习者提供诊断性反馈，如诊断性语言测试系统（Diagnostic Language Tests，DIALANG）以及Jang研制的DiagnOsis[45]。

诊断测试的反馈报告是多层面的，与测试目的密切相关。有些项目从地区、学校、班级等宏观层面进行反馈；针对教师或学习者个体的微观反馈，则对促进教学和学生的自主学习大有裨益，例如认知测试诊断能够给学习者提供个体化的强项和弱项诊断信息[6]。在中小学学生学业成绩分析、反馈与指导系统（Student Academic Achievement Evaluation，SAAE）项目中，系统从省份、区域、学校、班级4个层面呈现反馈信息，内容包括对总体情况和所辖区县的情况、学生学业成绩的整体情况以及对学生学业成绩的多种相关因素进行报告，诸如师生关系、学习压力、学习环境、学习自信心和教师教学评价等因素。这些信息都将对区域教学改革或改进起到重大参考价值[46]。

4 科学的反馈参照：常模参照、标准参照和个体参照

诊断性反馈的多层面还体现在反馈采用的参照体系的不同上。国内外研究者研发了针对不同语言水平的诊断性评价系统，目前不少“诊断”测试都是以现有学业测试或水平测试为诊断工具，提供诊断性信息[6,42,47]，但真正以诊断为目标设计的主要包括以下系统。

DIALANG测试系统是基于计算机和互联网施测，提供14种欧洲官方语言的多语种诊断性测试。该测试依据欧洲共同语言参考标准（Common European Framework for Reference of Languages:Learning，Teaching，Assessment，CEFR）相关级别的语言能力水平要求，根据考生的答题情况，依照相应的级别描述，提供语言能力评价和相应的语言学习建议。

DELNA（Diagnostic English Language Needs Assessment）是针对新西兰奥克兰大学一年级新生研发的诊断性系统,以区分国内学生和国际学生的英语水平，从而满足这2个群体对不同学术素养语言支持上的需求。考试的结果用于指导学生寻求适合的学术语言支持[48]。

MASUS（Measuring the Academic Skills of University Students）是由悉尼大学语言中心开发和实施，通过对学生写作水平强弱的诊断，为学生学术写作提供帮助[49]。

SAAE系统是针对我国义务教育阶段，基于课程标准的学习诊断性评价体系，涉及中小学的语文、数学、英语、科学、人文等不同学科。该项目旨在向参测地区的教育管理层、学校和教师提供不同的信息反馈[46]。

DELTA（Diagnostic English Language Tracking Assessment）是为香港地区本科生设计的多模块在线诊断测试系统，包括阅读、听力、写作、语法和词汇5个部分。该测试涉及不同文本类型，通过不同的话题，广泛地考查学生的语言能力[50-51]。DELTA系统通过对学生语言能力强弱的诊断，为学生提供语言能力成长报告以及个性化指导与学习资源。

个性化英语学习诊断与策略指导咨询系统（Personalized English Learning Diagnosis and Advice System，PELDAS）由马晓梅课题组研发，包括4个模块。与DIALANG关注学生对各项技能水平进行自评不同，PELDAS提供个性化英语学习诊断与指导。该网络系统重视评估学生自己的个体化学习风格和特征[52-53]。

上述诊断系统提供的诊断性反馈分别采用标准参照、常模参照和个体自身参照3种不同的参照体系。

4.1 标准参照

在SAAE诊断系统的诊断性反馈中，英语学科参照义务教育英语课程大纲4级标准对学生的作答表现划定等级[54]。根据学生的能力级别和得分情况划分为A、B、C、D 4个等级，即优秀、良好、及格、有待及格。学科组与参测地区教研员、教师面对面地进行检测信息诊断性反馈。内容包括学业成绩检测以及分析指导思想与检测工具的研制、检测数据总体归纳分析、结合测试数据的典型题目讲解和问卷信息调查的各种变量数据及其对学生学业成绩的影响。反馈内容既可以是宏观层面，涉及课程教学的整体情况，又可以是微观层面，重点反映教学的具体问题或值得重视的方面[46]。

DIALANG系统针对考生的自评部分和定位测试部分，并无详细的反馈，只根据这2个部分的结果选择考生适合的语言测试水平[55]。反馈内容包括：1）语言水平，即根据测试结果，评估考生在6个水平中对应的级别；2）核对答案，即展示分技能的作答情况；3）词汇量，即提供词汇量水平的信息并描述其意义；4）自评反馈，即考生对其语言水平的自评，着重分析自评与测验结果不一致的原因；5）通过表格展示考生水平与上下相临2个语言水平间的差异，鼓励学生反思其语言学习。

DELNA系统分为2个阶段的考试。第一个阶段考试结果分为：优秀、满意、建议参加诊断测试3个类别。根据测试反馈结果，第一个类别的学生不需要参加任何语言活动；第二个类别的学生需要参加学校学生学习中心或英语自学中心的独立活动；第三个类别的学生需要参加第二阶段的考试。在第二个阶段测试后，为了保证反馈信息使用的高效性，听、读、写分别用A、B、C、D 4个等级报告学生语言能力；A和B水平分别对应第一阶段考试中的优秀和满意类别，处在这2个等级的学生会收到测试结果邮件，C和D水平的学生则会收到DELNA系统的语言建议。

DELTA系统是基于计算机的诊断测试系统，采用正向报告的形式，为学习者提供0～200分的标准分反馈结果。听、读、写、语法、词汇5个分维度报告分别对应考查的语言技能，并附有相应的学习材料。学生可以自主选择或者在教师的指导下，根据反馈报告选择相应的学习资源。该系统的优势在于为多次参加测试的学生提供语言能力发展报告[50]。目前该系统仅提供系统开发时已输入的、固定模块反馈信息，并不能提供具体的个体化反馈信息。这也是目前基于计算机的诊断测试系统的劣势之一[56]。

MASUS诊断系统要求学生根据提供的背景信息，撰写与专业背景相关的文章。所有的文章都由受过培训的阅卷员依照5个维度的标准化评分标准评分。每个维度从低到高分为1～4个等级，其中1～2个等级为“写作能力较弱，需要写作帮助”。学生可以根据反馈报告选择学习中心提供的课程帮助[49]。

4.2 常模参照

PELDAS反馈采用常模参照的形式[52-53]。该系统的诊断报告包括对学习者做个性诊断测量表的诊断分析和动态阅读诊断分析；策略咨询指导平台和成功经验学习平台设计主要以问答形式呈现，点击问题便可进入答案部分。动态阅读诊断模块对学生的阅读水平、阅读技能、阅读习惯、阅读时间从横向和纵向角度进行统计，以图表方式反馈阅读者的绝对成绩统计结果以及在系统常模中所处的位置。

在动态阅读诊断模块和个性特点静态诊断模块，系统针对学习者的阅读行为和习惯、量表统计结果、阅读者回读情况以及英语学习方法提供个体化的分析结果和指导意见。个体阅读者可以及时了解自己的学习、阅读理解水平、阅读过程特征及其不足，根据提供的指导意见，及时纠正不当的学习方法。咨询指导模块可供学习者对自己在听、说、读、写和词汇学习中所使用的策略是否得当进行测试，测试后，系统针对学习者的学习方法提供反馈信息；成功者案例模块主要以学生自行选择案例学习为主，借鉴他人成功的学习方法和经验。

视听诊断模块为学生提供诊断评估报告和数据分析图表，包括用户平均成绩统计、个人成绩曲线和学习进度统计[57]。学生可以查看视听强弱环节、相应的文字评估和详尽的策略指导。听力诊断模块一方面通过测试过程涉及的知识结构、认知策略、属性分布和过程参数等指标，对个体的视听语言能力作出评估判断；另一方面，通过认知心理特征及策略应用作出相应的评估，为学生提供综合的诊断报告及其相应的策略指导。

SAAE诊断系统不同于其他系统的特点在于：参测地区的教育管理部门可以参照项目所建的全国常模数据库，对比所在地区课程发展是否与当地经济发展总体水平以及教育投入相符。这部分反馈信息可作为区域教育有效性评估和教育决策的重要参考。

另外，一些研究者对不同学科的诊断性测试进行研究。夏良英等给出了高中物理学业水平综合诊断和分层提高系统的评估报告[15]，该诊断报告主要以文本形式呈现，附以学生各属性掌握情况和常模平均的对比表；学生可以查看每道测试题的属性编码、详细解答过程、思路点拨、易错点分析，同时还有个性化配置的学习资料。Sun等在对小学六年级学生进行认知诊断之后，提供了2个层面的反馈信息：一是根据学生在每个属性上的准确率，用雷达图展示学生的答题表现；二是对学生进行聚类分析，在群体属性掌握档案中提供每个聚类属性的完成概率[5]。

杜金榜提出以诊断报告为核心的电脑化诊断测试模型，并探索该模型在阅读上的应用路径[58]。该研究将一系列阅读技能划分为识认、重组、欣赏3个层次。为了促进学生个体化学习的发展以及采用电脑化诊断测试提高反馈的效率，研究者设计了包括“补习”“题目编写”“题库管理”“施测”“数据处理”“诊断报告”6个部分的模型，并将重心放在“诊断报告”部分。测试过程记录了大学二年级学生对答案的肯定程度、每篇阅读遇到的难词数目、难句数目及每篇阅读的熟悉程度；此外，测试还记录了学生阅读使用的时间、答题回看文章的次数、改作次数等。作答完成后，对学生能力的分析结果根据标准差的数值，将能力划分成高、中、低3个水平。诊断结果采用文字描述、曲线图和直方图等不同形式进行报告：文字描述主要针对学生的整体阅读能力和分项能力进行刻画；曲线图展示个体阅读要素能力和最高能力的对比；直方图主要反映回答正误、阅读速度和肯定程度与最高能力的对比。反馈报告将受试群体中的最高水平作为参照标准，这种常模参照的反馈形式，可能对学生学习目标的设定及达成产生消极影响。

4.3 自身参照

诊断性评价反馈的参照系统是采取常模参照还是标准参照，研究者观点不一。最近的研究又出现了一种新的参照形式，即学习者自身参照。Jang基于对阅读的认知诊断研究研发诊断报告单DiagnOsis。该报告单包括4个部分的诊断信息：答案回顾、提高技能、如何解读技能掌握和技能描述。该研究采用了学习者自身参照体系，将自评融入到认知诊断信息当中，形成技能档案，将学习者自评信息与认知诊断成绩一起呈现给学习者，为学习者自身学习目标的设定、学习调整和规划提供参考[45]。

5 结束语

诊断性评价的使用非常广泛。认知诊断测试的兴起为个体化反馈提供了思路和方向，响应了自主性学习的倡导；但是，认知诊断在我国还处于理论研究的阶段，在大规模测评项目应用较少。利用认知诊断模型的优势，与现有成熟的非认知诊断测试融合可以提供新思路。此外，CD-CAT有良好的发展前景，但是，如何在大规模考试实践中应用认知诊断模型和CAT以及在实践中会遇到什么问题，尚有待进一步探索。

诊断能力的提出不仅响应了培养评估素养的呼吁，也丰富了评估素养的内涵。诊断性信息的正确解读和有效使用的能力成为重要的评估素养之一。诊断性反馈有效性的评估仍然有待进一步研究。目前，许多诊断性系统仅涉及反馈层面，很少对反馈信息的使用和效果进行追踪和研究。有研究发现：学生对反馈报告的态度不一、对利用该报告的效率并不理想，学生需要更多的指导才能高效利用反馈报告，并对其目标的设定产生影响[59-61]；同时诊断性反馈的使用效果受到不同的因素影响，如学生不同的学习能力水平、学习态度、学习目标、或者学习情境等[42]，也受到反馈关注的内容、评价性或描述性等反馈性质的影响[62]。如果要全面发挥诊断性评价反馈的价值，则需要对报告的使用方法进行追踪，改进反馈内容，提高诊断能力。

随着我国加大对教育监测、教育评价的重视，诊断性测试在未来的教育实践中将发挥重要的作用，为课堂教学决策提供大数据参照[63]，也为考试分数报告提供可参考的模式和路径。如果利用认知诊断模型的优势，顶层设计基于学生表现的诊断性评价、反馈的参照体系和形式等，并与计算机考试迅速发展的优势相结合，诊断性评价将会有更广泛的发展前景。