APP下载

人工智能技术在中考评卷中的应用

2020-01-16余永玲杨宏生

中国轻工教育 2019年6期
关键词:评卷科目调研

余永玲 杨宏生 黄 涛 范 鹏

(天津市教育招生考试院,天津 300060)

一、传统网上评卷的问题

试卷评阅是对考试成绩的评判与核定,是招生工作中的重要环节。天津市教育招生考试院(下简称“天津考试院”)组织中考实行网上阅卷已有十几年,积累了丰富经验的同时,也显现了一些问题。

1.工作组织流程长

目前天津市中考考生近8万,文化考试科目有语文、数学、外语、物理、化学。评卷量可谓庞大。由于中考评卷采用教师人工多评、专家确定合理阈值参数进行复审的模式进行,使得中考评卷工作的工作量巨大,动用教师及工作人员众多、评卷工作组织流程较长。

2.评卷教师的趋同心理

长时间大量的中考评卷工作,双评教师之间容易产生为了规避问题卷的产生和复审量的增加,容易选择较为安全的评分尺度给出中间分,造成评分倾向缺乏区分度。

3.评分有一定波动性

主观性试题,尤其是语言类科目的作文项目评分,容易产生对评分标准和尺度把握的主观差异性、评卷教师的主观情绪倾向性、长时持续阅卷可能带来的评分波动性等,这些都会给保持评分尺度的一致性增加难度。

随着大数据技术的长足发展,为机器深度学习、人工智能提供了数据保障。基于大数据和智能学习的人工智能技术在国内教育考试领域不断开花结果,已有不少成功应用的案例。人工智能技术在考试评卷中的作用,尤其对于语言类科目其优势发挥的十分充分。

为了探讨人工智能评卷技术是否能够引入天津市中考评卷中进行应用,引入的具体方式为何,应用于哪类具体科目较为适合,社会公众对人工智能评卷技术的接受度和信息程度如何等问题,天津市教育招生考试院(下简称“天津考试院”)专门成立了“人工智能技术在中考评卷中的应用”课题组,对这一问题展开了专题调研。

二、人工智能评卷可行性探索

为深入探索人工智能评卷的可行性,课题组通过问卷调查、电话调研、走访座谈等多种方式,从命题学科专家、评卷骨干教师、人工智能技术专家、区县考试机构、考点校、生源校等多个层面展开了调研。

1.问卷调查情况

课题组就人工智能在考务中的应用等问题,在各区教育局、考试中心、考点校范围内开展问卷调研。共发放问卷150份,回收有效问卷133份。其中主要调查情况如下。

(1)人工智能评卷技术取代教师对主观题评卷的问题

关于人工智能评卷技术是否可以取代教师对主观题评卷的问题,12.50%的受访者认为人工智能评卷技术可以取代教师对主观题评卷;63.49%的受访者认为可以部分取代;25.40%的受访者对此不予认同。

图1 人工智能评卷技术是否可以取代教师对主观题评卷调查

(2)关于考生和家长对人工智能评卷结论的可信度调查

仅有16.67%的受访者认为考生和家长对人工智能评卷的结论可信任;71.67%的受访者认为不完全信任;11.67%的受访者则认为不信任。

(3)现阶段影响人工智能技术在考务管理中应用的主要因素

受访者认为,对现阶段影响人工智能技术在考务管理中应用的主要因素包括:配套管理措施不到位(26.89%);考生和家长不理解(25.00%);技术不成熟(24.60%);经费投入不足(23.41%)。

图2 考生和家长对人工智能评卷结论的可信度调查

图3 影响人工智能技术在考务管理中应用的主要因素

由此可见,对于人工智能技术可以辅助评卷提高效率与质量,教育考试领域的工作者是较为认同的,但现阶段对于技术成熟度和社会接受度仍有疑虑。该项技术在实施层面是可行的,但还需要做大量的宣传解释工作,已获得考生、家长、社会的认可与信任。

2.电话调研情况

课题组分别通过电话调研的方式致电北京市、江苏省、安徽省有关考试机构,就三省市目前进行人工智能评卷的现状和优缺点进行了调研。经调研,目前三省市对人工智能评卷的应用主要在语言类科目和部分科目的主观性试题,而且基本都是采取人工智能评卷与教师评教同时进行,互为补充、相互校验的方式进行。从兄弟省市的经验看,引入人工智能评卷技术与教师评卷并行,作为辅助和校正将是极为有益的补充。同时,语言类科目主观性试题的人工智能评卷确实比学科知识类科目主观题评卷有优势,学科知识类科目的主观题,除了语言流畅性、思想情感等衡量要素外,学科知识点是评卷的重点,需要相当长的时间建立学科知识资源库并进行机器模拟学习才能较好的实现。

3.走访座谈情况

(1)命题专家和评卷骨干教师专题调研

课题组走访了有关中考命题专家和评卷骨干教师,就目前将人工智能评卷引入中报评卷的可行性和引入方式进行调研。各学科命题专家认为人工智能评卷的引入对于监控评卷质量、确保评卷的科学性和公正性将起到很好的作用,但现阶段人工智能评卷采取脱离教师评卷的独立运行方式,还不够成熟,但可以作为辅助与补充,与教师评卷同步运行互相校验,形成双轨并行的质量监控机制。同时,学科命题专家也认为,人工评卷的重点应用领域还在于主观性试题,尤其是语言类科目应用效果更为明显,学科知识类科目需要以更为全面的学科知识资源库作为依托才能取得较好的效果,这需要一定的时间进行收集和积累。评卷骨干教师认为:目前中考评卷采用的教师双评复核机制是有效的,同时人工智能技术基于大数据的语言库采集对于抄袭卷、雷同卷的筛查确实比教师评卷更有效率。

(2)人工智能评卷技术专家调研

课题组还专门走访了广东讯飞启明科技发展有限公司的有关人工智能评卷技术专家,就人工智能评卷技术的原理和实现方式,目前的发展状况以及未来的发展方向进行了专题调研。

人工智能技术专家认为:目前天津市中考采用的人工智能评卷技术主要是计算机通过学习专家打分标准,训练机器可用的评分模型,以统一的评分模型完成对主观题的智能评分。同时通过对作答内容的异常检测,能够对作答内容中存在的“空白题”、“相似卷(作答内容与试卷题干相似、与外部范文相似、考生之间相似)”进行检测,一方面可以在评卷前提前筛选出异常卷进行批量处理,减轻评卷老师现场评卷的工作量;另一方面可以在评卷过程中作为异常预警辅助老师评卷,辅助教师提高评卷的准确性和统一评卷标准,让评卷结果更加精确。

(3)考试机构调研

课题组专程到武清区考试中心针对人工智能评卷进行了专题走访调研。调研中,重点就考生和家长对人工智能评卷的信任和接受程度与武清区考试中心进行了座谈。武清区考试中心作为直接接触考生和家长的一线基层单位,对考生和家长的情况和反应有更为直接的了解和较为准确的估计。他们认为,人工智能评卷引入中考评卷是对考生的高度负责,是守初心、担使命的具体体现,是维护考试公平、公正的有效手段。但同时,要对考生和家长做好人工智能技术成熟度的解释和普及工作,在对外宣传中要着重强调人工智能评卷是与教师评卷同时进行,是教师评卷的辅助和校正,而不是将评卷工作全部交由机器进行,从而打消考生和家长的疑虑,将好事办好。

4.调研结论

通过多手段、多层面的调研,课题组认为人工智能技术引入中考评卷是完全可行的。通过调研可以看出,学科专家、评卷教师、人工智能技术专家等了解学科特点、技术特点和评卷过程的受访对象,普遍对人工智能评卷引入中考评卷充满信心,也认可其确保考试公平、公正,评卷科学、准确的预期效果。但参与评卷具体技术性工作较少而接触考生和家长较多的区县考试机构,从社会实际接受能力出发,对此技术的社会公信力仍抱有疑虑。因此,课题组认为应该将人工智能评卷引入中考评卷的方式界定为辅助和校正,而非脱离教师评卷的机器独立评分,其结果将作为教师评卷质量监控与差异调整的重要参考,最终的评卷结果应该是评卷学科组专家在充分考虑人工智能评卷与教师评卷比对数据后综合做出的。此外,为了确保切实为民服务的同时,不造成群众的误解与疑虑,应加强人工智能评卷技术和实际实施效果的宣传,同时做好人工智能评卷在中考科目中引入方式的宣传和解释工作。

三、实施结果与前景展望

1.人工智能评卷在中考中的实施情况

基于调研结论,天津考试院在2019年中考语文作文正式引入人工智能评卷技术,实现智能技术辅助网上评卷及质量监控。

通过人工智能评卷技术,以语言库为基础对中考语文试卷进行了智能评分,并将此结果与教师人工评卷结果进行了比对,对差距较大的试卷再次请评卷组专家组进行了专门的人工判断,确定是否需要重新评分。此外,还进行了考生答卷之间以及考生答卷与范围库和题干内容的比对,从而检测出相似程度较高的答卷,同时对空白卷也进行合理自动检测。最终在2019年中考语文作文评卷中,通过智能评卷从已经评阅的全部试卷中挑选出36份疑似问题卷,经过学科专家再次评阅,对1份试卷的结果进行了调整,评卷校验功能初步显现。

2.对未来考试阅卷智能化应用的展望

(1)智能评卷技术试验验证阶段

2019年天津考试院首先利用往年中考数据进行了智能评卷技术验证。在中考语文智能评分效果验证中,语文作文智能评分结果与老师评分的相关度为0.95,一致率为92.31%;英语作文智能评分结果与老师评分的相关度为0.93,一致率为95%,并且,机评与人评的一致率达到或略高于现场人工两评的一致率。这证明了计算机智能评卷具有很好的评分准确性,达到了与人工评卷教师相当的评分水平。为进一步验证效果,2019年中考评卷期间,将机器智能评卷与人工评卷并行进行。结果证明人工智能评分系统对辅助质量监控起到精准定位、精细复核、精确评分的作用,从而能够在更大程度上保证评分的客观公正。

(2)智能评卷替代人工一评或部分替代人工评阅

通过智能评卷技术的多次运用,我们认为人工智能评卷可以替代人工一评,与教师人工评卷的二评结果互为检验,或者可以作为双评之后的校验手段对整个教师评卷结果进行有效校验。这一是基于目前文字转写识别率的大幅提高,二是基于自然语义理解等核心算法的人工智能评卷,维度多元且准确度较高。同时智能评卷技术的引入,可以帮助教师评卷进行前期的重复率、相似度、空白卷等筛查,大大提高了教师评卷的效率。

(3)智能评卷向多科目、多题型应用扩展

通过在语言类科目作文题型的尝试,我们认为人工智能评卷可以在其他主观性作答较多的科目和题型应用扩展。对学科知识类科目需要以更为全面的学科知识资源库作为依托才能取得较好的效果,这需要一定的时间进行收集和积累,但这并不影响智能评卷在多科目、多题型的应用前景。

四、结束语

人工智能评卷引入中考评卷可有效确保考试的公平、公正,实现评卷科学、准确的预期效果。但人工智能评卷引入中考评卷的方式目前还应界定为辅助和校正,而非脱离教师评卷的机器独立评分,其结果将作为教师评卷质量监控与差异调整的重要参考,最终的评卷结果应该是评卷学科组专家在充分考虑人工智能评卷与教师评卷比对数据后综合做出的。此外,为了确保切实为民服务的同时,不造成群众的误解与疑虑,应加强人工智能评卷技术和实际实施效果的宣传,同时做好人工智能评卷在中考科目中引入方式的宣传和解释工作。

猜你喜欢

评卷科目调研
多科目训练见招拆招练硬功
高校开设专业的首选科目和再选科目要求浅析—以法学(类)专业为例
“三注重”扎实做好调研工作
2019年对口升学考试网上评卷考生答题注意事项
人大到基层调研应做到“三不”
调研“四贴近” 履职增实效
高考“新科目”
“画海”评卷
大规模考试网上评卷中趋中评分的成因探析
高考评卷岂能草菅人命