APP下载

S-P表理论在数学试题质量与学生学习类型评价中的应用

2020-04-08北京师范大学珠海附属高级中学519080黄嘉鹏

中学数学研究(广东) 2020年6期
关键词:划界警告试题

北京师范大学(珠海)附属高级中学(519080) 黄嘉鹏

1 S-P 表理论简介

随着基础教育的快速发展和国内外教育交流的广泛进行,教育测量和考试评价日益成为教育关注的重点问题,大型考试的试题质量评价和考试结果对于评价学生的有效性等问题也渐渐进入公众视野.S-P 表理论作为上世纪70年代兴起的教育测量理论,以其图形直观、信息量大的特点,迅速成为了教育者研究试题和学生的重要工具.

S-P 表即学生(Student)与学生所作答的问题(Problem)之间的关系表,由日本学者佐藤隆博于1970年提出,它以试题质量与学生能力的非独立性作为理论基础,利用视觉化的图表进行结构分析,进而研究并评价试题的质量和学生整体的学习特征及应试稳定性.相比于经典测量理论,S-P 表具有如下优点:(1)能为教师教学改进、学生的个性化辅导、试题甄选等提供有效数据支撑;(2) 视觉化的图表结构令S-P 表的判读一目了然,使用者既可以掌握整个班级的情况,也能对某个学生和某个问题作出个性化的判读;(3) 在评价试题质量和学生学习类型时,可从“量”和“质”多个角度进行分析;(4) 能对习题前测、后测进行有效分析.

2 S-P 表的制作程序

设某次考试有m个学生参加,共测验了n个题目.

首先,如图1,将学生i在问题j上的得分用{0,1}中的数赋值,记为xi,j.

图1 赋值

具体赋值方式如下:

(1)对于二元计分的试题,即非对即错的选择题或填空题,模型为:

(2)对于主观题的分析,国内外研究使用的常用模型主要为:

然而单一的划界方式显然难以满足不同类型考试分析的需要,容易令分析结果产生较大误差,从而降低其对教育教学的指导作用.笔者所在的研究小组从国内教育教学和考试选拔的实际出发,针对不同需求的考试和考生作答情况提出了其他的赋值划界方式:

①针对课堂小测和阶段性考试,教师可以根据课标要求,按题目满分值的一定比例设定划界分数,以此检验学生学习情况与课标要求的吻合程度.具体常用模型有如下3 类:

·利用项目反应理论或其他数据库提供的参数,明确试题难度参数(记为b).若试题的满分值为N,则赋值划界模型为:

·若题目本身没有现成的难度参数,教师可对照2017版课标要求,将题目与质量描述中的水平一、水平二、水平三进行对应,并设定相应且合理的题目难度系数b1,b2,b3,若试题的满分值为N,则赋值划界模型如下:

·作为阶段性考试,国内最常见的做法是利用60%作为学生的合格标准.在这样的原则基础上,若我们希望对学生知识结构进行整体评价,则可以使用赋值划界模型如下(试题的满分值为N):

②针对选拔类和竞赛类的考试,教师可按照平均得分或学生排位分数设定划界分数,以此检验学生是否达到选拔标准.若某一场竞赛考试的取奖率为a,第j道试题的满分值为N,难度系数为bj,则可以使用计分划界模型如下:

其次,如图2,计算考生i的总得分并将所有考生按Xi从大到小排列; 计算问题j做对的人数并将所有问题按Yj从大到小排列.

图2 排序

最后,如图3,在学生i所在的那一行第Xi列右边画竖线,并用横线将不同位置的竖线连起来,得到S线;在问题j所在的那一列第Yj行下边画横线,并用竖线将不同位置的横线连起来,得到P线.(图中实线为S线,虚线为P线)

图3 画S 线和P 线

3 基于S-P 表的试题质量分析

在理想的情况下,我们愿意接受这样的假设:每一个学生更有可能做对相对简单的题目,然而答错相对困难的题目;而每一道题目,答对的学生应该会比答错的学生有更强的学习和考试能力.如果某次考试真的符合这种理想状态,那么所有的1 都将出现在S 线的左边和P 线的上边,从而S线和P线会刚好完全重合.现实中,绝大部分的考试并不会出现这种理想状况,而现实结果和理想假设的差异,就是我们可以研究的内容.

3.1 差异系数

差异系数体现的是S 线和P 线的不一致性.一般来讲,课程练习的差异系数在0.4 以内是比较合理的.如果是大型考试,考虑到考生的临场发挥等因素,差异系数在0.5 以内均可接受.但如果超过了这个范围,教师就要考虑试题可能存在如下问题:(1)测试内容与学习内容可能并不对应;(2)试题的排列、表达、提示等信息可能存在错误或者误导;(3)试题难度与学生水平可能并不匹配;(4)评分标准可能不统一,甚至可能存在错判的情况.

3.2 问题警告系数

问题警告系数是衡量单个问题实际的被作答结果与理想状态之间的偏离程度.第j个试题的问题警告系数:

当问题警告系数小于0.5 时,说明试题对于评价这个学生群体是相当适宜的.结合试题难度,我们可以利用试题对不同水平的学生进行有效区分与评价.当问题警告系数超过0.5 且小于0.75 时,教师应注意试题内容和质量是否存在问题.当问题警告系数超过0.75 时,说明使用这个问题来评价这批学生非常不合适,可能试题中含有异质成分,也可能含有拙劣的选项,或者题意含糊不清.

3.3 稳定性系数

稳定性系数是用来判定测验稳定程度的指标,可用于研究试题的难易程度和阅卷人的宽严程度.魏超群、罗才忠等人给出的计算公式为:

雷新勇给出的计算公式为:

利用公式①算出的结果,若不小于0.75,则认为测试的稳定性很高,否则需注意.利用公式②算出的结果,若不小于0.2,则认为测试的稳定性较好;若高于0.4,则认为测试非常稳定;若低于0.2,则需检查原因.

3.4 适宜性系数

适应性系数描述的是问题是否能正确评价学生水平的指标,研究的是问题的适宜程度,包括问题的选题和排序是否合理等方面.魏超群、罗才忠等人给出的计算公式为:雷新勇给出的计算公式为:利用公式③算出的结果,若不小于0.5,则认为测试的稳定性很高,否则需注意.利用公式④算出的结果,若不小于0.2,则认为测试的适宜性较好;若高于0.4,则认为测试与学生水平和教学目标的一致程度相当高;若低于0.2,则需检查原因.

3.5 难度、区分度、信度、效度

S-P 表理论中定义的难度、区分度、信度、效度与经典测量理论基本一致,但由于S-P 表的特殊性,其计算公式略有差别,分别定义如下:

(1)难度:问题j的难度

(2)区分度:问题j的区分度

(4)效度:试题效度,其中wj和rj分别表示问题的权重和区分度.

难度、区分度、信度、效度评价试题时的标准划界在经典测量理论中已有深入研究,大量一线教师对其也早有一定的认识和理解,此处我们不再赘述.

4 基于S-P 表的学生学习类型诊断

4.1 差异系数

差异系数不仅可以用来评价试题质量,还可以用于研究学生的学习类型.与评价试题的标准类似,对于平时测验和大型考试我们分别以0.4 和0.5 为界,若超过这个标准,则要考虑学生群体可能存在如下问题:(1)教学和测试时间间隔过长; (2)对知识和能力的掌握效果不佳; (3)整体学习意愿低下;(4)学习或考试状态不稳定.

4.2 学生警告系数

学生警告系数是衡量某个学生实际的作答结果与理想状态之间的偏离程度.第i个试题的问题警告系数

当学生警告系数小于0.5 时,说明学生能较好地掌握本次测验涉及的知识与能力,且发挥较稳定.当学生警告系数超过0.5 且小于0.75 时,教师应注意学生的学习或者考试是否存在问题.当问题警告系数超过0.75 时,说明学生的成绩和他的真实水平之间存在较大误差,该生可能存在如下问题:(1)对测试问题所涉及的知识掌握不全面,或者对问题的理解和掌握与其他学生有明显的差别;(2)学习意愿不强或学力不足;(3)紧张导致失误;(4)作答时可能出现了随机作答(瞎蒙)或者作弊的情况.

结合学生总得分,我们可以对不同学生进行有效诊断,具体标准如图4.

图4 学生学习类型分类

5 S-P 表理论在实际教学中的具体应用

S-P 表分析法虽然理论并不算特别复杂,但算法复杂,计算量大.若想使用该方法,须借助计算机程序方可实现,但业界缺乏S-P 表的通用软件,教师录入、分析考试数据的工作量过大,把计算结果对照理论分析下结论难度也比较大.笔者所在单位的研究小组将完善后的S-P 表理论及S-P 表分析法中复杂的算法、繁琐的公式计算编制成软件——S-P 表分析分析软件.用户只需把考试数据直接导入后,软件自动切分班级,选择需要的功能点击按键,即可得到:①试题评价的各项参数; ②学生考试成绩和试题情况一览表; ③学生警告系数和学习类型; ④试题警告系数和试题质量诊断结果.

在本节中,我们随机抽取本校50 名学生,使用珠海市期末统考的理科数学试题,基于S-P 表理论,运用S-P 表分析软件0.5,对试题和学生进行分析评价.

5.1 宏观分析

(1)S-P 表

从图5中可以看出,S 线和P 线均没有明显断层,说明学生样本分布比较合理,各个水平的学生都能占到一定比例,中间层学生较多,高分学生较少.试题难度分布比较均匀,各种难度的题目比例相当,其中最后两题难度较大且分值较高,所以学生考取高分的难度较大.整份试题用于鉴别不同能力水平的学生是比较有效的.

图5 样本S-P 表

(2)差异系数

整份试题的差异系数为0.39;稳定性系数(由公式②得到)为0.595,测试的稳定性较高; 适宜性系数(由公式④得到)为0.511,适宜程度较高.

这些参数说明试题的内容、叙述、编排都是比较合理的;教师阅卷的认真程度和一致性较高,使用的评分标准也比较可靠;学生整体考试状态也比较稳定.这场考试整体试题质量较高,对于评价学生有较大参考价值.

5.2 微观分析

(1)学生学习类型诊断

图6 学生样本学习类型诊断结果

学生1 和4 成绩高且警告系数低.这两位学生学习效果良好,稳定性高,他们的学习态度和学习方法很有可能都比较得当.这类学生若想进一步提高,应该在知识的深度和广度上下功夫.

学生2 和3 成绩高且警告系数高.这两位学生考试中很可能粗心大意,在做对了大量难题的情况下却做错了简单题,他们的基础应该比较好,但应试状态不稳定.教师针对这类学生的应试心里和应试技巧稍作训练,对他们的成绩提高将非常有帮助.

图7 学生样本学习类型分类

共31 名同学成绩处于中游,其中2 名警告系数偏高.这批学生知识结构中可能存在个别漏洞,针对考试结果进行查缺补漏是他们提高成绩的有效做法.另外,教师需关注学生29 和9 是否有粗心或者作弊的可能.有15 名同学(图7左下角)成绩偏低且警告系数低.这些学生本次考试状态较稳定,成绩较真实,有较大参考价值.他们基础较薄弱,学习上可能不够用功.一些最基础的训练对于他们来说是非常有必要的,这种训练能帮他们提振信心并强化基础知识和能力.

很幸运的,这次考试没有出现低分且警告系数高的学生.这类学生作答正确率很低,做对的题目是蒙对的可能性也较高.他们往往学习动机不足,对考试内容也没有充分准备.如果班级存在这样的学生,教师除了要帮他们补习基础,还需要多关注他们的生理和心理健康,帮助他们找到学习的乐趣,重振信心.

(2)试题质量评价

图8 试题质量评价结果

根据分析结果,可以发现,题目1、5、3、9、25、17、23 质量较佳,作答结果稳定,可以很好地区分低水平和中等水平学生;题目22、15、11、18、20 难度较大,但警告系数低,可以用来区分高水平学生;题目8、7、24、6、13、10、14、19、12、16 警告系数稍大,教师需注意是学生应试出了问题还是题目本身有不妥之处;题目2、21、4 警告系数很高,题目较拙劣,教师应注意其中是否有表述不清的地方,或是含有不合适的选项,这几个题目对于甄别学生的可靠性较低,用于课堂练习尚可,但不适用于选拔性考试.

6 结束语

美国著名教育评价专家斯塔弗尔比姆(Daniel.Stufflebeam)说过:“评价最重要的意图不是为了证明,而是为了改进.”运用各种现代化的教育测量理论(包括S-P 表理论、项目反应理论、概化分析理论、认知诊断理论等)对学生和考试进行分析评价,具有经典测量理论等传统理论所不具备的优越性,但其理论普遍较为艰深,数据计算也比较繁杂,给一线老师的使用造成了不便.幸运的是,现在的一线教师普遍具备一定的计算机水平,而网络上也已经有了专业软件公司研发或一线教育者自主开发的各种教育测量软件(S-P 表分析软件、IRTPRO、PARSCALE 等),我们学习一下基本的操作,就可以对数据进行分析解读,这为我们评价和改进教学带来了很大的便利.

猜你喜欢

划界警告试题
论岛屿对海洋划界不成比例的效果
——基于国际司法判决和仲裁裁决的研究
大陆架界限委员会如何处理“争端”*
2021年高考数学模拟试题(四)
实验室警告
2019年高考数学模拟试题(五)
《陈涉世家》初三复习试题
2019届高考数学模拟试题(二)
中韩海域划界首轮会谈成功举行
我国大陆架划界关键技术获重大突破
锐志车ABS、VSC、防滑警告灯点亮