数据赋能课程结果性评价的应用研究
2023-12-23周建芳张楚俊
周建芳,周 振,张楚俊
(武汉体育学院 体育工程与信息技术学院,武汉 430079)
教育评价根据作用可以分为诊断性评价、过程性评价(形成性评价)和结果性评价(总结性评价)。其中诊断性评价是在教学计划执行前进行的评价,是为了了解学生的学习情况,对学生学习过程中存在的问题进行诊断和评估。过程性评价是以改进教学为目的进行的教学评价。结果性评价是指在一个大的学习阶段、一个学期或一门课结束后对学生学习效果进行的评价,是判断学生达到教学目标的评价。
结果性评价作为检验教学成果最重要的教育评价方式,在我国沿用已久,起着选拔、甄别、鼓励竞争的作用。例如,课程的期末考试、四六级考试、中考及高考等各种通过试卷进行的考试。但是,结果性考试执行频率小(在整个教学过程中仅执行一次),最终表现为一个考试的分数,评价指标过于单一和片面,忽视了人的个性化发展,越来越无法适应新时代教育事业内涵化、现代化发展的要求。教育评价改革势在必行。
2020 年10 月中共中央、国务院印发了指导教育评价改革的纲领性文件《深化新时代教育评价改革总体方案》,明确提出“坚持科学有效”的导向,将“改进结果评价,强化过程评价,探索增值评价,健全综合评价”作为改革的重点。随着信息技术在教育领域的深度应用,通过各种教学设备、教学平台能够采集到大量描述完整教学过程的教育大数据,这些数据为新时代教育评价改革提供了重要的技术支撑和实践基础。基于教育数据的教育评价得到了长足的发展。在很多学校现行的课程教育评价中,普遍采用形成性评价和结果性评价相结合的方式,更能够体现评价的发展性和科学性。其中,结果性评价的代表——期末考试也由原来的线下纸质试卷考试迁移到教学平台的信息化考试,从组卷到考试再到阅卷环节产生的大量考试数据,为改进结果性评价提供了新的思路和手段。
一 传统的结果性评价存在的问题
(一)数据单一,难以真实客观地对教学效果进行评价
传统的课程结果性评价主要是采用期末考试的方式进行,期末考试分数作为评价学生学习效果的依据。但这个分数过于单一,难以真实客观地评价学生的学习效果,同样也不能根据班级学生的成绩分布评价教师的教学效果。
(二)试卷的质量评价数据获取和处理较为困难
由于期末考试是对整门课程的综合性考察,而且必须在限定的时间内完成,试卷的科学性评价从以下几个方面来评价。
覆盖面:试卷中的试题是否覆盖了教学大纲的要求,并突出重难点。
难度:试卷的难易程度要适中,整套试卷中不同难度题目的分布要适中。
区分度:试题对考试者的真实水平的区分度。区分度越大越好。
题量饱满度:试卷中的题量是否饱满,中等学生能否在限定的考试时间内完成答题。
在缺乏信息技术支持的前提下,试卷的质量取决于教师自身对教学大纲的理解、对学情的充分了解及对教学工作的责任心。
(三)学生无从反思
尤其是在高等学校,期末考试的完成意味着一门课程结课,期末试卷存档保存。学生在期末只能拿到一个期末考试的成绩,至于考试中自己哪些题(知识点)出错无从得知,无法对自己在考试中检验出来的知识点短板进行反思和改进,而这一点对学生来说十分重要。
以上问题存在的根本原因是考试过程中数据的产生、收集、清理及处理缺乏信息化手段支持,人工处理繁琐缓慢。在将信息技术与考试过程紧密结合的前提下,对产生的大量考试数据进行统计分析,以上问题可以得到全面解决,有效地改进结果性评价。
二 数据赋能结果性评价改进的实践
以教育技术学专业21 级的操作系统原理课程在“学习通”平台进行的期末考试为例,探讨了数据赋能结果性评价改进的实践路径和改进效果。
(一)“学习通”考试过程各环节的功能及相关数据
自2020 年新冠病毒感染疫情“停课不停学”期间第一次采用“学习通”进行期末考试以来,一直沿用至今。“学习通”的考试功能也在持续改进,目前其考试功能及考试过程中搜集的数据如下。
题库管理。支持智能导入、模板导入和手工输入的方式建立题库。题库中的题目可以标注知识点、难度、课程目标等信息。这些信息十分重要,是考试前进行智能组卷的重要前提。题库中的题不仅可供期末考试时组卷用,也可以供教学过程中平时的随堂练习、课后作业用。高质量题库的重要性不言而喻。
智能组卷。支持智能组卷和手工组卷。其中,智能组卷可以根据设定好的组卷策略,从指定题库中生成指定数量的试卷。组卷策略可以设置根据章节、知识点、难度及课程目标进行随机抽题。采用智能组卷方式组成的试卷质量与题库的质量有关。比较推荐的组卷方法是先采用智能组卷生成若干套试卷,再选取一套试卷进行手工微调,形成期末考试试卷。组卷完成后,可以对试卷进行封存,避免试卷泄露。
发布考试。考前发布考试信息,为这场考试进行相关参数设置,包括基础信息设置,如考试的开始时间,结束时间,考试时长,迟到多久不允许进入考试,允许提前多久交卷,考试结束是否自动收卷;防作弊设置,如题目乱序,选择题选项乱序防止座位相邻的同学抄袭;切屏设置,对于学生的每次切屏,设置切屏次数,切屏时长的阈值,超过阈值系统向监考老师发送通知;评分设置,多选题未选全是否给分;填空题的类型设置,如设置为主观题,需要教师手工批阅,如设为客观题,系统自动判分,判分时还可以设置是否区分大小写。
监考。学生在指定教室、指定时间进入考试,监考系统根据考试信息允许学生进入考试,考试过程进行随机抓拍,详细记录学生的答题记录、切屏记录,对于切屏次数、时长达到阈值的向监考老师发出预警信息,考试结束后进行强制收卷。其中,监考过程中生成的学生答题记录十分重要,教师可以根据学生某道题的答题行为(答题时长、答题正确度、是否反复修改答案等)判断学生对该题涉及知识点的掌握熟练情况,根据学生每道题的平均答题时间和试卷完成时间,判断试卷的题量饱满度。
阅卷。客观题系统自动阅卷,主观题由阅卷教师根据评分标准进行评分。试卷批阅完成系统生成学生的小题得分明细,教师根据班级在每个知识点上的得失分数分布情况进行教学反思,持续改进教学效果。
(二)考试数据处理
考试过程中产生的数据,有些是结构化数据,进行简单的数据清洗后就可以用于统计和分析。例如,智能组卷的组卷策略(命题计划表)、考试成绩表(小题得分明细)。有些数据是非结构化的数据,例如学生的答题记录,系统为每个学生产生一个答题记录,记录学生从进入考试到交卷的过程中的所有行为,包括答题、试卷浏览、切屏、随机抓怕的照片和人脸验证的情况。这些数据对于分析学生的考试行为和试卷的质量比较重要,需要将非结构化的数据进行解析,得到结构化的数据后再进行统计分析。
以教育技术学专业21 级的操作系统期末考试为例,主要考试数据如下。
题库数据:操作系统作为教育技术学专业的软件基础课,是一门理论与实践相结合的原理课,学生要掌握课程相关的概念、原理、算法,需要在基础记忆、理解的基础上强调知识的应用。在平时上课的随堂练习、课后练习和期末考试都要用到题库中的数据。目前该门课程的题库数据见表1。
表1 题库数据
试卷结构。采用智能组卷,从题库中根据章节进行随机抽题生成若干套试卷,选取其中一套试卷,根据考试时间和试卷题量、难度进行手工微调,得到的期末试卷构成见表2。
表2 试卷构成
答题记录。答题记录是系统记录每一个考生从进入系统开始考试到学生主动交卷或系统自动收卷的时间内学生的全部考试行为,包括人脸验证、答题、试卷浏览、抓怕和切屏等信息,以PDF 文件方式输出。该信息为非结构化数据,计算机并不能直接统计分析,需要编写代码将PDF 文件读取为文本、对文本进行解析、转换为Excel 或存入数据库成为便于计算机处理的结构化数据。而且在进行智能抽卷的过程中设置了“题目乱序”和“选项乱序”,从答题记录解析出来的结构化答题记录中不同学生试卷的相同题号对应的题目不一样,相同题目的选项也不一样,还需要将答题记录和试卷数据、成绩数据集成后将不同试卷中乱序的题目、分数对齐后再进行统计、分析、处理,得到的结果才真实有效。
经过处理转换,31 名同学的考试答题明细文件中提取出答题记录5 578 条,切屏记录81 条,整卷浏览修改答案记录271 条,交卷记录29 条,强制收卷记录2条,进入考试记录31 条。
成绩数据。完成试卷批阅后,系统会生成成绩数据:每个学生的小题得分明细。根据小题得分明细可以算出试题的难度和区分度,试卷的平均难度和区分度。
(三)考试数据分析结果
通过对以上数据进行收集、清洗、集成后进行统计分析,得到如下结果。
1 试卷质量评价
1)覆盖率:本试卷从题库中总计574 道题中抽取35 道题,从组卷策略可以看出,出题范围覆盖教学大纲中全部章节,主要知识点覆盖90%以上。分值分布与教学计划中教学时间安排大致对应,突出重点和难点。
2)难度:难度系数代表了题目的难易程度。难度系数越大,题目越容易;难度系数越小,题目越难。阅卷后根据小题得分明细统计出不同难度的题目在试卷中的分布见表3。
表3 试卷中不同难度题目分布情况
从数据中可以看出,太难(0≤P<0.3)和太容易(0.9≤P≤1)的题目占比较小,中等难度(0.3≤P<0.9)占比较大,试题难度分布合理,难易程度适中。
3)区分度:一般认为区分度在0.4 以上具有很好的区分度,0.15~0.4 区分度较好,低于0.15 区分度不好。试卷中不同区分度的题目分布见表4。整个试卷具有较好的区分度。
表4 试卷中不同区分度试题分布情况
4)题量饱满度。考试时间一般限定为一个固定的时间。组卷的时候要充分考虑题量和时间之间的匹配度,能够让大部分同学在限定的时间内完成试卷。根据学生的答题记录,统计出学生在答题过程中的答题时间见表5。其中有2 名同学时间截止系统自动收卷(本实例中考试时间为90 min)。整个试卷的题量较为饱满。
表5 学生答题时间分布
2 评价与反馈
结果性评价是检验教学效果的最重要的方式。考试数据中每个考生的小题得分明细可以甄别出每个学生对所学课程知识点掌握情况,也可以检验教师的教学效果。
1)教学效果评价。在考试试卷的科学性得到保证,学生的考试成绩真实有效的前提下,教师的教学效果可以通过学生的成绩分布(表6)进行评价。期末考试平均分为71 分,成绩分布符合正态分布。
表6 学生成绩分布
2)学生反思。试卷批阅完成后,系统生成的考生试卷电子档可以发送给学生,学生通过查看试卷反思自己的不足之处。在传统的纸质考试场景下,期末试卷需要存档保存,只有对考试分数有疑义的情况下才可以通过办理手续查阅自己的试卷。
3)教师持续改进。考试结束后,教师通过每一小题的难度统计,难度系数小于0.5 意味着有一半人出错。教师通过查看这些题诊断出问题所在,在下一轮教学设计中针对存在的问题进行教学设计和教学方法上的调整,形成持续改进机制。在本次结果性评价数据中发现,难度系数小于0.5 的题目,都是需要学生基于知识掌握的基础上,进行思辨、判断、评价的题。而这正是布鲁姆认知目标层次中的高阶认知。对于根据算法进行计算的题目,学生的得分率较高,说明学生在知识的理解和应用层次掌握较好。在下一轮教学过程中,要适当增加一些分组讨论环节,学生在讨论过程中可以给出自己的判断和评价,教师加以引导,提高学生的思辨能力。
三 结束语
基于学习通平台的考试功能和考试系统生成的数据,对数据进行清洗、转换、集成、统计及分析之后,与传统的基于纸质试卷的考试对比,在以下方面可以得到改进。
丰富的考试数据。通过教学平台进行的考试,从试题库的建设与管理、组卷、考试、监考和批阅等各个环节都能采集到考试数据,为结果性评价的改进提供了数据支撑,评价结果更加真实客观。
试卷的质量评价有数据依据。覆盖率、难度、区分度、试卷题量饱满度等指标的计算都有相应的数据支持,而且计算出来的指标可以用来综合评价期末试卷的质量。与传统的“命题(组)教师负责,教研室审核”相比较,得到的结果更加真实可信。
精准反馈、持续改进教与学。学生通过考试数据能够了解自己本次考试主要是哪些知识点掌握不牢,及时进行反思和改进。教师通过试卷中普遍失分的知识点进行教学反思,回顾教学过程中该知识点讲授过程中是否存在教学设计不够科学,知识讲授是否不够透彻,在下一轮教学中进行改进。