APP下载

现代教育测量理论在教育测量评价中的应用

2020-04-08廖树山陈锦琪刘迪

广西教育·B版 2020年10期
关键词:教育评价数据

廖树山 陈锦琪 刘迪

【摘 要】本文针对广西教育测量评价中存在的教学评价失真、命题参数失据、评卷质量失准等问题,提出现代教育测量理论的应用思路,主要从建立大规模教育考试命题参照体系、为大规模教育考试的考后分析提供数据、参与大规模教育考试的评卷质量监控等三方面论述现代教育测量理论在大规模教育考试中的具体应用。

【关键词】现代教育测量理论 大规模教育考试 数据 教育评价

【中图分类号】G  【文献标识码】A

【文章编号】0450-9889(2020)38-0053-04

随着高考、省级和市级的学业水平考试等大规模教育考试普遍采用无纸化阅卷,考后往往形成海量的应答数据,通过合理的方式进行计算、分析这些数据,对教学评价和命题质量评价都有重要的意义。因此,采取适合的教育测量手段进行数据分析,使结果科学、有效、令人信服,是教育从业者十分关注的问题。长期以来,广西基础教育领域采用的教育测量技术都限于经典测量理论,测量的结果存在教学评价失真、命题参数失据、评卷质量失准等问题。笔者及所在团队引入现代教育测量理论,通过滚动提升发展的模式,研发出数据分析系统,在广西普通高中学业水平考试和市级初中学业水平考试等大规模教育考试中展开应用,为大规模教育考试的命题建立参照体系,为考后分析提供动态数据,为评卷质量监控提供新的技术手段。

一、广西教育测量评价中存在的主要问题

教育测量在教育评价中的地位是基础性的。长期以来,作为欠发达地区的广西及其所辖设区市,在教育评价中采用的教育测量技术都限于经典测量理论(CTT),并且基本上以真分数的识别为主,即简单地以原始分、平均分、最高分、优秀率、低分率等为测量依据。这种测量的最大优点是简单明了、浅显易懂,但也存在较大的问题。

(一)教学评价失真

简单的真分数比较,不能真实完整反映教学效果,以此进行的教学评价,本身就存在理论缺陷。例如,不同试卷的总分、最高分、区分度不同,就无法用真分数来比较不同学科之间的教学水平,同样也无法比较不同年级相同科目之间的教学水平。但实践中这种评价常常被教育管理者引用,极易引起教师群体的反感,甚至成为不稳定的因素。

(二)命题参数失据

由于 CTT 不能从根本上解决试题参数依赖特定被试样本的问题,区分度数据只能简单地反映一个区分结果,不能准确地反映具体区分的考生层次群体。如果仅仅依靠 CTT 参数指导大规模教育考试的命题,实测的结果往往与预设存在很大差异,进而严重影响命题质量。

(三)评卷质量失准

当前广西各类大规模教育考试在评分细则设定环节,其质量控制唯一可以依靠的是试评专家的经验。由于试评的样本极为有限,评卷专家也不可能保证对每一个细节都有持续正确的预判,因而评分细则带有隐患。高利害大规模教育考试的结果,对考生、家长和社会的影响不言而喻。没有经过数据检验的评分细则,没有数据图像支撑的评卷过程监测,评卷质量是让基础教育界严重顾虑的。

随着无纸化阅卷的全面普及,大规模教育考试数据采集难度已经大大降低,这为解决上述问题提供了大数据的基础。依托大型数据库的分析技术,用现代教育测量理论对各类数据进行定量分析,无疑是解决上述问题最直接、最有效的手段。

二、现代教育测量理论的应用思路

现代教育测量理论,以概化理论(GT)和项目反应理论(IRT)为代表,在发达国家的应用始于 20 世纪 50 年代,70、80 年代发展至高峰,并形成了大量的成果。托福、雅思和 PISA 考试就是依托这些理论来设计的,具有较高的权威性。我国大约于 20 世纪 90 年代引入现代教育测量理论,教育部基础教育质量监测中心、上海教育考试院、华东师范大学、江西师范大学等都对该理论进行了研究,而作为欠发达地区的广西在这一领域的研究水平较为落后。

2013 年初開始,笔者对现代教育测量理论展开系统的研究。通过比较,笔者发现该理论在广西的应用之所以落后,受制于三个因素:一是理论水平低。广西是欠发达地区,对外交流有限,新理论传播缓慢、接受程度低;二是研究水平低。欠发达地区整体教研水平有限,对于晦涩难懂、涉及数学公式繁杂的现代教育测量理论,绝大多数教育从业者无法理解,甚至听不懂其对测量结果的解释;三是技术水平低。现代教育测量理论的数据演算软件工具复杂,操作困难,远远超过欠发达地区一般教师和教育管理者的信息技术水平,由于无法演算出结果,理论也就无法落地。

为此,笔者对现代教育测量理论在广西大规模教育考试中的应用设计了如下思路。

第一,以技术突破为前导。通过研发现代教育测量理论的软件系统工具,将数据演算的操作难度降低,低至具有数据库基础的教师都能够操作的水平,使这一理论具备大规模使用与推广的可能性。

第二,采用滚动提升发展模式。即在试验中成熟,成熟之后逐步推广和重复试验。这一模式主要包括三个方面的内涵:一是应用的考试规模从小至大,涉及的学科由少至多,在实践中不断验证理论的科学性与可操作性。例如,先从市级期末质量抽测考试的单一学科开展应用,逐步拓展到多学科。取得成功后,再应用于市级学业水平考试。在技术相对成熟后,拓展至自治区普通高中学业水平考试。二是应用的考试属性从低利害逐步扩展到高利害,不断在真实数据的情境中提升应用水平以及分析与解释数据的水平。先在影响较小的范围内测试,取得经验并获得一线教师认可后,逐步向与教学评估相关的考试展开,再逐步延伸到自治区级的相关考试中。数据分析的结果,最初应用于单一试题的分析,逐步拓展至全卷的定量评估;最初用于考后的数据检验,逐步拓展为全面的分析、评估与预测。三是应用的领域从试卷分析发展至命题指导,再延伸至评卷监控,逐步提升应用难度、应用的时效性以及大规模教育考试的参与程度。

第三,在实践中不断丰富与发展理论。创新大数据背景下现代教育测量的理论建构,特别关注“数据挖掘”在数据分析与解释方面的新思路与新方案。

三、现代教育测量理论在大规模教育考试中的具体应用

通过自主研发,笔者搭建起符合广西大规模教育考试需求的现代教育测量理论数据分析平台。依托这一平台,生成了概化理论与项目反应理论的数据及数据图像。在实践中,笔者不对理论本身的复杂数学公式进行过于烦琐的解释,不对实现这一理论的软件算法进行过于细节的描述,重点在于用通俗易懂的方式解读和分析生成的数据,特别是数据图像,探讨所生成的分析结果在不同领域的效能,进而在考试命题、质量分析、评卷监控三个领域进行系统而深入的研究与应用。

(一)为大规模教育考试命题建立参照体系

既往大规模教育考试的试题参数,是新一轮次考试命题的重要参考。但经典测量理论下,真分数提供的参数,如难度、区分度、标准差等,事实上是有较大缺陷的。首先,试题参数对考生样本具有群体依赖性,如试题难度值取决于考生群体水平,如果水平高,试题难度系数值就高,反之则难度系数值低,更换一组考生,就会得到完全不同的数据,因此并不是真实的“试题难度”;其次,得到的试题参数是静态数据,如区分度,只能获得针对全样本的单一数据,无法分辨具体的能力层次群体区分程度,也无法分辨区分的强度。使用现代教育测量理论的数据分析系统后,这些问题都得到有效的解决。

图 1 为某次考试某道试题的三参数项目特征曲线图。图中横坐标表示被试考生的能力参数,纵坐标表示被试考生正答该题的概率。一般来说,考生能力越强,正答的概率就越高。图 1 显示,正答概率 0.5 时,对应的能力为 -0.02,该数据为本题的难度,数值越大说明试题难度越大。图中曲线拐点处的斜率,为本题区分度,数值越大说明题目对被试的区分程度越高。当能力参数无限小时,被试正答的概率就是猜测度,它的数值越大,说明猜对此题的概率越高。图 2 为同一试题的项目信息曲线,它非常明显地揭示了试题区分考生能力的具体层次以及区分的强度(信息量)。

通过笔者研发的数据分析系统软件,可以绘制试卷中的每一道试题的项目反应曲线与项目信息曲线,结合命题双向细目表的预设,即可建立试题完整的参数表,进而形成全卷的参数体系,为后续的命题提供参照。以某市某学科初中学业水平考试为例,在使用该参数体系前后,考生实测分数分布图(图 3)出现了积极变化。前一年的分数分布曲线出现了“双峰”的异常情况,显示试题的难度及区分度的预设不尽合理。第二年,借助现代教育测量理论参照体系改进命题,分数分布曲线得到明显的改善,呈现为负偏态状,这是标准参照考试较为理想的曲线模型。

(二)为大规模教育考试的考后分析提供数据

如前所述,由于经典测量理论对考生样本的依赖性,不同年份之间的考试数据缺乏可比性。并且学业水平考试采取等级制,考生能力、分数与等级之间的关系复杂,采用原有的技术手段根本无法进行测量,这就给试卷质量分析与教育质量分析增加了难度。引入现代教育测量理论后,这些问题可以得到有效的解决。

图 4 为某市初中学业水平考试中某科目的考生分数、能力、等级分布散点图。横坐标为考生分数,纵坐标为三参数模型计算出的考生能力值,图中用不同灰度的圆,表示该考生根据真分数换算得到的等级。考生的“能力值”,是通过现代教育测量理论,根据考生在每一道试题上的反应,通过一系列复杂的算法拟合推演计算出来的,是最接近考生能力真实状况的数据。

图 4 揭示考生成绩与能力的分布整体上呈线性回归,说明试卷命制是较为成功的,具体表现为考生能力强则成绩高,反之亦然。同时,等级与成绩及能力之间的分布基本合理,为考试决策的信度提供了积极支持。作为一份满分仅有 60 分的试卷,图像显示此卷较好地达成命题目标。作为检测一个设区市该学科教学质量的考试,数据图像也显示教学的方向正确,今后应当坚持。与此同时,图像也揭示了教学中的不足:E 等考生的成绩与能力分布较为散乱,表现为学习困难学生的困难点繁杂,启示教学中需要多样的手段,才能实现该部分学生成績的提高。

图 5 为同次考试各个试题的项目反应曲线。图像显示全卷的三个特点:一是该卷的试题对不同能力层次的学生都实现了区分,符合命题的常规要求;二是主要区分段集中于能力值为 1~-2 区间,显示试题整体难度不高,与命题的预设相符。三是猜测度大于 0.2 的试题占有一定比例,送分题稍多,需要今后改进。

图 4、图 5 仅是笔者质量分析的一个片段,通过现代教育测量理论演算与绘制的数据图像,大幅度地增加了试卷分析的数据内涵,与真分数分析形成了良好的相互检测关系。近几年,笔者对市级各项考试及广西普通高中学业水平考试等大规模教育考试的数据进行处理,得出相应的参数与数据图像,提供给对应的质量分析组,这些数据在质量分析中得以应用,并取得良好的效果。

(三)参与大规模教育考试的评卷质量监控

由于缺乏好的技术手段,当前广西多数大规模教育考试评卷的评分细则制订环节无法实现质量监控。评分细则中隐含的问题,在大面积评卷前往往无法发现,对评卷质量构成严重威胁。笔者在市级初中学业水平考试和广西普通高中学业水平考试的质量监测工作中,逐步摸索引进现代教育测量理论进行相关的监控,取得积极效果。

例如,某次考试某个学科评分细则文本确定后,评试组开展小范围试评。笔者及时收集了试评数据,用数据分析系统进行演算,生成该题的多级项目特征曲线图(见图 6)。

图 6 中横坐标是表示被试考生能力的参数,纵坐标是被试得到具体分值的概率。一般来说,考生能力越强,得高分的概率就越高。本题的基本形态与此符合,即随着学生能力的由低至高,最可能得到的分数开始逐步上升。其中 0 分与 1 分、1 分与 2 分的分界是清晰的,但 3 分分界点不明确,由 2 分直接跨越到 4 分。笔者推断评分细则设计有问题,紧急通知试评组。试评组通过论证发现,该题的评分细则中,0 分、1 分、2 分与满分的含义明确,但 3 分的含义不明确,从而直接造成了图示的结果。经过试评组对评分细则的改进,相关问题得到有效解决,为公平评卷打下良好基础。

在正式评卷阶段,笔者同样依托大数据分析系统对评卷实施质量监控。例如某次考试,正式评卷进展到第一天下午时,某个学科的某道试题的评分分布图呈图 7 左图的态势。该图中,横坐标为该小题的分数,纵坐标为得此分数考生占已评试卷的比率,不同的曲线,代表不同设区市评卷点当前评分的状况。图 7 中的左图显示,0 分与 1 分各评卷点大体相似,2 分与 3 分却出现重大差异,14 个评卷点的趋势完全不同。这说明,一份试卷应当打 2 分还是 3 分,各评卷点都有自己的主张,评卷标准不统一。根据这一数据分析结果,笔者暂停了该题的评卷进程,通过紧急会商拟定调整补救方案,再通知各设区市评卷组执行。经过调整,最终评卷分数分布图如圖 7 中的右图,最大限度地对评卷差错进行了弥补。

随着研究的逐步深入,笔者尝试将相关成果拓展到更广泛的应用领域。由于现代教育测量理论可以通过学生应答反应测量学生的能力值,从而在分数之外增加了一个对学生学习情况进行分析评估的数据。笔者通过将这一数据与执教教师共享,共同分析学校学生群体的能力主要区间值,以及在项目曲线中该能力区段的共性特点,以此形成学生能力的判断。由于项目反应理论所计算出的能力值本身具有独立性,摆脱了群体依赖,可以对不同年龄段的学生进行横向比较,从而更有效地帮助学校准确掌握学生学习现状,为教学提供重要的参考数据。笔者也把相应的测量技术应用于学校的命题质量评估,并通过评估数据对命题教师进行指导。显然,现代教育测量理论更加精准、更加有说服力,被越来越多教师所理解并接受,教师命题水平也因此得到提升。

【参考文献】

[1]雷新勇.大规模教育考试的命题与评价[M].上海:华东师范大学出版社,2006.

【基金项目】广西教育科学“十三五”规划2019年度广西招生考试院研究专项课题“普通高中学业水平考试合格性考试‘分散评卷、集中监控质量保证体系研究”(2019ZJY046)。

【作者简介】廖树山(1971— ),男,汉族,籍贯广东梅州,学士,高级教师,现就职于柳州市教育科学研究所,研究方向为中学地理教学、教育测量与评价;陈锦琪(1991— ),男,汉族,籍贯广西梧州,硕士,现就职于柳州高级中学,研究方向为教育测量与评价;刘 迪(1988— ),女,汉族,籍贯湖北恩施,硕士,现就职于广西招生考试院,研究方向为普通高中学业水平考试政策。

(责编 王悦之)

猜你喜欢

教育评价数据
莫让“后进生”成为教育之殇
关注“人的发展”:“核心素养”观下学校教育的召唤
公路工程试验检测存在的问题及措施
基于幼儿成长的有效教育评价研究
一种借助数据处理构建的智能食堂管理系统
浅谈计量自动化系统实现预购电管理应用
中小学综合素质评价的价值取向和育人导向探析
初探教育评价的改革