智能阅卷的发展及应用
2022-07-07胡丹丹
钟 玲 胡丹丹
(深圳技术大学,广东 深圳 518118)
一、研究背景
进入新世纪以来,信息技术的快速发展不仅带来了我国各层次教育和教学理念及教学方法的更新,也带来了教育和教学领域各个环节的深刻变革。教学内容不再局限于单一的纸质课本,教学形式也不再局限于线下一种课堂,连教学测评也不再局限于某种单一形式的测试。在外语教学领域,多媒体、多平台、多手段、过程性成为信息技术支撑下外语教学的基本特征。信息技术在带来这些变革的同时,也暴露出一些学校在教学管理方面的理念滞后和效率低下等问题,如面对招生规模扩大和国家对大学教育教学质量的更高要求,有的学校并未同步采用信息化手段改革试卷评阅的问题,而是仍然沿袭传统纸质阅卷和存储方式,导致教师阅卷负担加重。因此,如何利用信息技术在为教师教学和学生学习提供教学便利的同时,也为教学管理尤其是试卷评阅和储存带来便利,提高教学管理的智能化、快捷和精细化水平是本文讨论的主题。
二、教育信息化是现代教育的基本特征
2016年6月教育部发布《教育信息化“十三五”规划》(以下简称规划)。规划指出,“十三五”期间,教育信息化工作“要更贴近教育改革发展中的重大现实问题和融入教育改革发展的核心领域,为教育改革发展增添动力与手段”。强调教育信息化的全面、深化以及与教育教学和教育管理的深度融合,提出信息化要服务教育教学,聚焦教育教学中的关键问题和难点问题,优化教育教学管理,使教学更加个性化、管理更加精细化、决策更加科学化。2018年4月13日教育部《教育信息化2.0行动计划》也指出,教育信息化的目标之一是“持续推动信息技术与教育深度融合,促进两个方面水平提高。促进教育信息化从融合应用向创新发展的高阶演进,信息技术和智能技术深度融入教育全过程,推动改进教学、优化管理、提升绩效”。2018年10月,教育部教高〔2018〕2号文件《关于加快建设高水平本科教育 全面提高人才培养能力的意见》再次指出,高等学校必须主动适应国家战略发展新需求和世界高等教育发展新趋势,积极推进现代信息技术与教育教学的深度融合。2019年2月,《中国教育现代化2035》印发,也强调要加快信息化时代教育变革,建设智能化校园,统筹建设一体化智能化教学、管理与服务平台。强调没有信息化就没有现代化,教育信息化是教育现代化的基本内涵和显著特征,是“教育现代化2035”的重点内容和重要标志。
这些文件、政策和措施无一不强调教育信息化和智能化的重要性,指出教育信息化不仅是个别点和面的问题,而是要全面和深化,要与教育教学深度融合,要融入教育教学的全过程。同时强调创新管理模式,推进教育治理方式变革,优化管理和提升绩效。在这些政策措施的指引和激励下,近些年许多企业、高校,以及高校通过校企合作等方式,建设了一批智能化线上教学平台,打造一批精品课程,很大程度上丰富了教学内容和教学资源,更新了教学理念、扩展了教学形式。
但是需要指出的是,教学理念、教学内容和教学形式的信息化和智能化并未自动带来教学管理的信息化和智能化。在教学管理的某些环节,观念保守、方法陈旧、耗时耗力、效率低下仍是高校普遍存在的问题。就试卷评阅而言,最突出的问题就是面对全校性大规模统一测试,如公共外语和思政课程测试,许多高校仍停留在传统纸质人工评阅阶段,教师既是批量试卷的搬运工,也是所有题型的评阅人,不仅阅卷效率低下,阅卷质量也因分数汇总中的错登和漏登等情况而大打折扣。除此以外,考试数据分散,缺乏系统、规整的数据体系和统一管理,造成众多数据孤岛,并且阅完的纸质试卷厚且重,需要大量的文件袋、文件夹和文件柜等存储,而且一存多年,占据大量的家具和空间。因此,改革传统阅卷方式,采用智能机器评阅试卷,既是信息技术与教育教学和管理深度融合的具体体现,也是提升一个学校智能化管理水平、实现精细化作业的重要举措。
三、我国智能阅卷历程
根据已有研究,一般认为我国的智能评阅起步于中英文口语评测,主要形式有普通话机测机评和英语听说机测机评。2005 年,我国普通话等级考试开始全面采用口语智能评测技术;2012 年,科大讯飞在广东高考英语口语考试中首次使用英语智能口语评测技术,目前已推广至全国20多个省市的中高考英语口语考试中,该系统利用智能语音识别、评测、语义理解等技术进行自动化考试和评分(竺博,付瑞吉,等,2019)。相比较而言,纸笔测试的智能化进程则较晚。追溯其历程,大致可分为三个阶段。第一个阶段是2000年前的非智能化阅卷时期。这一阶段,由于计算机普及应用程度及具备计算机使用能力的人相对有限,外语测评主要为纸质形式,除大型考试及部分学校客观题部分为基于光学标记阅读机的机器扫描评阅之外(徐锦峰,2019),大多数题型的评阅几乎都是靠人工来实现的。第二个阶段是2000年到2010年的半智能或网上阅卷时期。这一阶段,伴随我国信息技术飞速发展和计算机的快速普及,基于计算机和信息技术的教学及测评开始在较大范围内应用,但网上评阅主要限于大规模考试阅卷,如2005年6月上海开始在大学英语四、六级考试阅卷中使用机器评阅,2006年7月北京开始在高考英语中使用机器评阅,2007年6月全国大学英语四、六级考试开始全面启用计算机网上评阅,2008年南京在中考英语中也开始使用机器评阅。这一时期,不仅试卷的客观题部分全部实现了机器扫描和评阅,主观题部分也实现了机器扫描基础上的人工评阅。评阅完成的试卷,机器还可以实现全部客观题和主观题的分数加总。第三个阶段是从2010年到现在的智能阅卷时期。这一阶段,基于对标准语料库数据的比对以及云计算等技术,试卷评阅已经实现了对作文、翻译、简答等主观题型的机器自动评阅,如批改网在2010年开始上线使用作文自动评阅功能,由外语教学与研究出版社和上海外语教育出版社研发的作文自动评阅系统也在近几年相继投入使用。但由于不同人群对该技术的接受程度不同,导致目前智能评阅还只限于在特定范围内使用。
四、智能阅卷基本原理
将人工智能技术运用于大规模教育考试的组织和管理目的在于实现考试组织和管理的智能化,提高考试组织和管理的效率,节约人力和物力成本。与此同时,人工智能对于大规模教育考试的题库建设、大规模教育考试的具体实施、大规模教育考试的阅卷和反馈,以及大规模教育考试的评价也都有非常突出的表现(蒋培杰,熊斌,2020)。就人工智能在试卷评阅方面的具体应用而言,技术层面主要包括文档图像识别技术、基于深度神经网络建模的评分模型训练和多维度计算机智能评分算法三个方面。智能阅卷技术通过生物芯片扫描仪可以实现精准的图文识别(任日丽,李莹,2017;李莹,任日丽,2019),同时通过海量的文本检索技术,可以准确地从十万级甚至更多的考生样本中,筛选出与目标文本相似的作答片段;对于特殊作答、套作、雷同等样本也能够快速地提取并进行标注,该技术对于辅助提升人工阅卷评分的准确性和公平性有极大的便利。此外,智能阅卷技术对于空白答案卷、异常卷及特殊答案卷的检出也提供了一种全新的和更为合理的评价手段,它不仅能够实现对纸笔考试中主观性题目的智能扫描识别和辅助评分,还能够及时发现各类异常试卷,辅助人工进行阅卷质检以提升整体阅卷质量。已有的研究数据表明,基于人工智能的计算机自动评阅系统在现有网评过程中已经能够在自动化程度、智能化程度、算法先进性、结果准确性、快速高效性等方面展示出较大的优势,其强大的数据处理能力,完备的辅助质检功能,能够在更大程度上保证试卷评阅的客观公正(何屹松,孙媛媛等,2018;竺博,付瑞吉等,2019;蒋培杰,熊斌,2020)和准确有效,也能在很大程度上解决人工阅卷存在的工作量大、人员需求量多、组织工作繁琐、易受主观因素影响、难以有效监控等问题。此外,基于考后数据构建的考试知识图谱能够有效实现对考试质量的智能化评价,有助于发现考生在知识、技能、能力和素养上的优势和不足,可以为教师改进教学、为学生改善学习和激发学生学习潜力提供建议,也有利于发挥考试的积极导向作用。
事实上,基于人工智能的赋能原理以及机器评阅的实际表现,智能阅卷的应用应不仅仅局限于大规模考试、大规模试卷的管理、数据处理及反馈,只要运用得当,即主客观题型分类评阅,运用机器+人工双模式,智能阅卷是可以在中小规模考试中推广使用的,为考试的组织、实施及管理以及教师本身带来便利,真正实现教育教学信息化,教育管理智能化。
五、实例分析
以某高校2021年1月大学英语(一)期末测试试卷评阅为例。本次测试为线下形式,除答题卡需要按照智能机器评阅要求制作外,其余与传统考试无异。参与考试后机器评阅的教师共13位,评阅试卷共1269份,试卷总分为100,含听力25分、词汇辨析10分、阅读30分、翻译20分和写作15分,既含客观题型(听力、词汇辨析、阅读,共65分),也含主观题型(听力填空、翻译1和翻译2、作文,共35分)。
(一)阅卷速度
所有试卷答题卡以班级为单位(约30人/班)逐个扫描,总耗时不到4个小时,之后教师通过登录各自校园账号进行在线评阅。客观题部分全部为机器评阅,计时0.01秒,瞬间完成,这对于教师人力的解放和阅卷效率的提高是不言而喻的。听力主观题部分一共有10个填空题(词汇或短语)。速度最快的教师用时19秒/份,最慢的用时31秒/份。如果取中间值25秒/份,教师评阅100份的时间约为42分钟。翻译题1(5个汉译英短句,每句约40字,共计205字),教师阅卷速度均值为31秒-50秒/份。取中间值40秒/份,100份试卷总耗时约1小时11分。翻译题2(1篇英译汉短文,120词)教师的阅卷速度均值为31秒-49秒/份。同样,取中间值40秒/份,教师评阅100份的时间约为1小时11分。数据同时显示,教师评阅一篇120词的英译汉短文并不比评阅一组总计200字的汉译英短句更节省时间,反之亦然。对于一篇不少于150词的作文题,教师的评阅时间从62秒到119秒不等。如果取中间值90秒/份,教师评阅100份作文总共花费的时间约2小时30分。如果所有项目的阅卷时间都按中间值计算,那么教师评阅100份试卷所花的时间大致为5.5小时。也就是说,教师通过在线阅卷,在连续工作状态下,大约 5.5小时可以完成100份试卷的阅卷量。阅完全年级1269份试卷的总时间约70.40小时(表1)。
显而易见,尽管该校目前学生和教师规模都偏小,但智能阅卷在整体阅卷速度提升方面显示了与传统纸质阅卷的明显差别。在传统阅卷方式下,教师阅完100份试卷所需的时间一般为两到三天。此外,智能阅卷因其网络在线形式,不受时空限制,教师可以在只要有网络的地方随时评阅,不仅省去了搬运试卷和阅卷期间反复翻阅答案卷的耗时和不便,使得阅卷的连续性增加,更重要的是,阅完每道小题和所有题型后,机器的自动计分及加总功能也在很大程度上超越了教师人工计分的速度和准确性,避免了教师因人工计分失误导致的不公正和不公平,这一点对学生来说无疑十分重要。
(二)考情分析
智能阅卷的另一大便利是阅卷结束后,教师还可通过查阅系统各项指标了解班级学生的总体考情,如班级最高分、最低分、平均分、优秀率和及格率,也可以了解学生的具体答题情况,并据此分析每个题型的难易程度、区分度以及学生对各个知识点或能力点的掌握情况(表2)。这一过程将激励教师对前期教学进行反思,并形成对后期教学的反拨效应,用以改进之后的教学方法、提升教学效果。
作为管理员的教师还可通过系统数据了解整个年级甚至全校的考试情况,了解试卷的难易程度、所有学生的成绩分布以及各个年级或班级的考试表现,及时对考情进行分析、评判和总结,方便优化后续教学管理,使智能系统真正服务教学和管理。
六、智能阅卷的效应
从以上实例可以看出,基于大数据分析的智能评阅为试后教学提供了的充分的反拨效应,具体体现在:第一,教师层面可以通过评阅每一份试卷以及系统所反馈的单个和班级学生的测试成绩及相关分析,了解学生对老师所期望考察的知识点或能力点的掌握程度,同时针对某些高频错误题指标及时反思教学漏洞,调整教学方法和教学策略。第二,教师还可以通过阅卷系统提供的试卷分析了解试卷难度和区分度,分析试卷的可信度,并及时反思总结出题经验,为下次精准把握出题难度和区分度积累经验。第三,针对系统详尽的考情分析,教师还可以了解学生的学习状况,了解学生对某些知识或能力的掌握程度,并及时反馈给学生,使学生在后期的学习中有针对性的改进或提高。
表1 某高校2021年1月大学英语期末试卷阅卷时间
表2 某班学生分项得分情况
对于管理者而言,通过阅卷系统的大数据分析,还可以比较直观和全面地了解整个考试的情况,及时监测或调整出题方向、出题内容、比较评估所有教师是阅卷质量,同时对系统的某些分析指标还可以通过参数设置或代码编写等与智能机器阅卷供应商进行不断优化或完善,提升智能阅卷及管理水平。此外,无纸化的答案卷存储也在很大程度上节省了传统纸质答案卷占用空间及搬迁的不便,使得试卷管理更加智能化和方便随时监测查阅。
七、结语
智能阅卷是信息技术应用于教学环节,应用于教学管理,以及创新教学管理方式、提升教学管理水平、真正为教师减负的有效举措。智能阅卷不仅因为其便于操作及自动评阅和计算加总功能在很大程度上减轻了教师阅卷的负担,克服了时空的限制,节省了阅卷的时间,也因为其强大的储存功能而使得电子化试卷存储和管理变得更加便利。尽管目前不少学校和个人对于主观题型的自动化评阅还持有怀疑态度,因而只是部分或是有条件地在使用智能评阅手段,但不可否认的是它正在悄悄改变我们有关试卷评阅的认知,正在不断使用于各种规模的考试中,提升我们的阅卷效率,改进我们的试卷管理方式和管理水平。随着智能阅卷技术的日渐成熟和人们认知的改变,相信不久的将来智能阅卷将有更多有效的应用。