APP下载

卷积循环神经网络在高考数学填空题评阅中的应用

2023-05-30沈晨林正闻冯朝君

电脑知识与技术 2023年1期
关键词:高考数学填空题深度学习

沈晨 林正闻 冯朝君

摘要:在高利害型考试中(例如高考),阅卷是一项时间有限、条件有限的细致工作。当前,深度学习神经网络是人工智能领域中非常成功的算法,它能够模拟人来处理识别文字图片等数据。对于填空题这样的客观题型,利用深度学习技术,可以进一步提高阅卷效率和阅卷质量。文章将构建并训练可用于识别手写字符的神经网络模型,以实现高考数学中填空题的机器自动智能批阅。具体实现大致如下:首先对答题扫描图片进行预处理,然后用训练好的深度神经网络模型对答卷进行自动化批阅,最后对比人工阅卷结果进行差异化分析。结果表明,机器智能识别评分的准确率达到90%以上,对正确作答的召回达到甚至超过了预期水平。相比之前智能通过采样少量样本预测评分得分率,智能阅卷可以利用全部答卷(即总体),给出更加准确的得分率,这对评分细则的制定十分有益。此外,通过差异化分析,智能阅卷还能辅助阅卷质检人员,尽量避免可能存在疑问的答卷图片。

关键词:自动阅卷;卷积网络;深度学习;高考数学;填空题

中图分类号:TP18        文献标识码:A

文章编号:1009-3044(2023)01-0024-04

中国作为全球教育考试体系较为完善的国家,每年都有大量的阅卷需求。高考、中考作为高利害性考试,从出题到阅卷的各个环节要求都十分严格。据统计,上海作为中国教育发达地区之一,参加中考的学生人数从2015年的7.9万人,逐渐增长到2021年的近10万人,到了2022年,总人数在11.4万人。从人口统计数据可以预见,2023年参加中考的学生人数将会达到新的峰值在18万人左右;同时,2022年参加上海高考的考生人数也在7万左右,并逐年呈上升趋势。

随着考生规模的不断扩大,人工评阅的工作量显著增加,因此利用智能算法来自动化阅卷将是一种非常有潜力的解决方案。作为高考常规考试题型,填空题具有客观性、多样性等特点,相较于计算题、主观题这样灵活性较高的题型而言,填空题容易实现自动化阅卷,从而在一定程度上降低人工评阅的工作量;然而,相较于选择题这样答案固定的题型而言,填空题的多样性增加了自动阅卷的难度。另外,填空题采用的是考生用笔书写的作答方式,因此,答卷中不可避免地带有考生各自独特的书写习惯,这将是智能自动阅卷需要重点解决的问题。本研究旨在探索卷积神经网络这一智能算法,在高考数学填空题评阅中的应用和该评分系统的效度,为其进一步的使用和推广奠定基础。

1 研究背景

1.1  数学填空题的特点

数学填空题是一类常规的客观题型,需要考生在规定的位置书写答案,其形式简单,答案较为固定,例如:

这类题型中每一空格的答案较为固定,但正确答案的形式可以有多种等价表述,即具有答案多样性。以某次考试的填空题为例:

在第1题中,正确答案可以是[2-i]也可以是[-i+2];再例如第2题中,答案[(1,2)]也可以写成集合的等价形式:{x|1

數学符号的书写特点,填空题的答案不但可能包含多重元素,如数字、数学符号、汉字、标点符号等,还可以有左右,上下甚至嵌套等结构。例如:分数可以写成[1/2]的左右结构,也可以写成[12]这样的上下结构;再例如:[5]是一种数学符号与数字的嵌套结构,因此数学填空题答案具有元素和结构复杂性。除此以外,部分数学符号的手写近似程度很高,例如:中括号与小括号,逗号和点号,字母x及其大写X等,即具有一定程度的混淆性。

总的来说,数学填空题答案的多样性、元素和结构的复杂性以及易混淆性,成为了正确评阅填空题的难点,也正是本研究要解决的主要问题。

1.2 卷积神经网络算法对手写数学符号的识别

当前人工智能(Artificial Intelligence, 简称AI) [1]在制造、交通、金融、教育和医疗等都有相当广泛的应用。例如:自动驾驶系统、身份识别、大数据风控、智慧供应链等都是AI的技术的成功应用场景。人工智能赋能千行百业,万物智能化是技术发展的前沿的趋势,在教育领域,智能化阅卷是智慧教育的一个非常有潜力的研究领域。

卷积循环神经网络(Convolutional Recurrent Neural Network,简称CRNN) [2]是一种用于解决序列图像问题的端到端的识别方法,是人工智能领域的重要算法之一。CRNN集成了卷积神经网络(Convolutional Neural Network,简称CNN) [3]和循环神经网络(Recurrent Neural Network,简称RNN) [4]两种网络的特点,可直接从图片中预测序列。该模型在印刷体文字的识别上已经达到了相当的准确率,其优点在于:1) 无须预先分割所要识别的文字,这将解决数学填空题中出现的结构复杂性问题。在以往的尝试中,分割数学字符就已经是非常困难的任务,由于考生书写习惯的不同,其手写数学符号往往带有连笔,这样的答案几乎是无法分割的,但CRNN的端到端的特点十分有效地解决了这一问题[5]。2) 采用(Connectionist temporal classification,CTC) 结构作为网络的训练目标函数[6],将解决文字书写的对齐问题,这样一来,无论符号之间留有多少空白区域,都可以对应正确的识别输出。3) 非常容易迁移学习,这将有助于提高神经网络的训练速度,也有助于扩大训练的样本种类,继而一定程度上克服数学符号的多样性和易混淆性问题,并使得模型具有更好的泛化能力[7]。

2 评阅流程

2.1 神经网络构建与模型训练

在神经网络搭建过程中,卷积循环网络的结构采用了经典的网络参数配置[8-13],并使用成熟的Keras框架进行构建;在网络的训练过程中,输入的训练数据包含了国内外开源数据集合,例如:MNIST数据集,IAM数据集等,并从中学中现场采集了部分数据集,基本覆盖了数学符号、集合、分数、根号、英文字符、标点符号等种类。整个训练过程包含了预训练,迁移学习,增加数据集,再训练这样若干次反复迭代过程,这也是本研究的创新点之一。通过这样的迭代式训练,整个网络能力在不断提升,有助于持续获得最佳数学填空题的识别效果。

2.2 评阅实施技术细节

首先,需要对考生的答案图片进行预处理,其中包括对各个试题的分割,例如图3、图4中,要对1~6和7~12题分别进行题目分割,即把每一题的区域提取出来。在图片的扫描过程中,整体图片位置与大小等特征方面基本没有差异,由此笔者针对每一道题目只要按照少量图片为基准进行选框,并对所有图片以框为单位对框内的图像进行提取即可得到该题所有考生的答案图片。当然,这里可能需要注意的是,扫描机器的精度有限,每一张答题卡间的在横坐标与纵坐标上都有着细微的差异,因此在选框的过程中要在接近题号的部分进行留白,在上下限的划分则需要根据经验判断选框区域。这里需要注意的是,画框的合理性会决定最后的准确率,框的不合理可能会导致有一部分图片中没有把全部答案框选进来,从而导致预测的錯误。

在完成选框后,下一步进行的是对所有考卷按照选定的图像进行图像切割。切割后的图片无论是尺寸、颜色或是位置特征可能会有一些不符合模型要求,因此在切割的过程中需要对图片进行处理,处理流程如下:

1) 根据选定的图像框坐标进行图片提取;

2) 对图片进行0-1二值化处理,即将图像中的值转化为0或1;

3) 计算全为0的行与列,并将四周的无用部分去除,即找到最小矩形区域选出所有含有1的特征;

4) 计算长宽比例,将长或宽进行0填充至60:270的比例(训练数据图像比例);

5) 将图像缩放至32:256的大小,将图像反色后按题号导出至指定文件夹。

在完成预处理的所有流程后,将根据选框数量得到数个文件夹,每个文件夹中包含所有考生该题的答案图片,以供后续预测使用。

然后,按照图5的流程进行阅卷评分,其中主要包括:利用训练好的神经网络模型识别考生答卷中的数学符号以及文字,比对评分标准进行评分,在评分结束后自动生成评分结果并提交给使用者。

2.3  评价指标设计

在智能阅卷过程中,将同时对每一题的得分率进行预测,最终将与人工评阅结果进行对比。因此,智能评阅系统将有如下的几个评分指标:1) 考生得分预测准确率;2) 预测每一题得分率的准确率;3) 差异化分析后的混淆矩阵和结果。

3 智能化阅卷实施效果

以某次考试的具体阅卷实施为例,智能化阅卷(下文中称机器评阅)所预测的考生得分结果与人工评阅的比较如图6所示。

可见,其准确率达到了90%以上,已经非常接近人工评阅的结果。其次,对于考生作答正确的情况,其召回率也超出了预期,如图7所示。

可见在大部分题目(题1、题4-10) 中,机器评阅能最大限度地把做对的考生寻找出来,其表现能力要优于人工评阅的情况。

机器评阅所预测的得分率情况如表1所示。可以看到,经过机器评阅全部试题后,可以预测每一题的得分率。另外,由误差矩阵,还可以进一步对预测的得分率进行修正。得分率乘以每题总分,既可以获得得分情况,结果表明,机器预测的得分结果更加接近真实成绩。事实上,这一优势来自机器评阅是对全部试卷进行评分,而人工评阅只能通过采集部分少量样本进行预测。

机器评阅后,将进行差异化分析之,获得的混淆矩阵如图8所示。

从图8可以看出,各题在人工判对的情况下机器判对的概率都在98%以上,但在人工判对的情况下机器判错的概率并不低,这是由于机器阅卷中设定的标准要严格一些,例如:出现涂改的地方往往判定为考生答错。在具体的应用过程中,基本可以完全确定肯定对和肯定错的部分,这对正确评阅试题非常有帮助,此外,对于误差矩阵中判错的部分,还将分析其差异性的来源,帮助质检人员寻找可能有疑问的答卷。

基于差异化分析的结果,可以得出以下结论:

1) 尽管机器评阅已经解决了一部分有涂改痕迹的图片的问题,但还有很大的提升空间,机器评阅的错误大多来源于此,另外,涂改会造成学生答题位置的改变,例如,将第1题的答案写在了第1、2题的中间位置,这为机器评阅增加了难度。

2) 机器评阅可以帮助质检人员检测出大部分可能有疑问的答卷,从而尽量减少了由于人工疲劳和惯性思维导致的问题。

通过评阅一致性对比,见图9,其中“假阳性比例”是预测为真、真实为假的比例,“假阴性比例”是预测为假、真实为真的比例。可以看出,机器的批阅更加严格。

4 结论与讨论

卷积循环神经网络模型对手写识别的准确率在纯数字,根式与分式都有较高的准确率,普遍达到80%,甚至90%以上,这可能是这些情况相对容易识别,但在区间与集合上的情况中,模型的表现能力弱一些,这可能与括号的准确识别有关,尤其是中括号和小括号的手写体,即便是人工批阅都有一定程度的主观性,而数学公式讲究严格性,中括号与小括号的区间含义不同,这就为识别造成了较大的困难。对于端到端学习,笔者采用了组合多种多样的手写区间与集合的训练集来增强其泛化能力。

因此,若将现阶段模型用于考试填空题的预测,对于只包含纯数字序列、根式与分式的题型可以直接进行预测识别。但对于区间和集合,笔者建议先使用少部分的数据用于迁移学习,再用于全部答卷的预测识别。

通过机器实际评阅下来,笔者发现,如果要进一步提高准确率,可以采用以下几个方面的策略:1) 答题纸最好能够确定每一题的答题范围,这样就能保证图片按题切割的成功率;2) 对于手写涂改样式进行明确要求,可以有效提升机器和人工的识别准确率和效率;3) 采用多个独立的智能算法机器阅卷模型,可以尽可能减少人与机器在批阅时同时误判的情况,从这方面讲,机器阅卷如果要在未来完全脱离人工进行独立阅卷还有很长的路要走。

基于本论文的研究结论,笔者将继续完善和丰富手写字符数据库和训练集,继续针对数学填空题的评阅优化提升预测精度,着重处理涂改等技术难题;并且尝试扩展填空题的适应范围,探索机器智能阅卷系统在英语、语文考试中的应用场景。笔者相信,机器阅卷通过努力最终会成为非常有潜力的“阅卷员”。

参考文献:

[1] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.

[2] 尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):48-59.

[3] 郭华.深度學习及其意义[J].课程 教材 教法,2016,36(11):25-32.

[4] 郭丽丽,丁世飞.深度学习研究进展[J].计算机科学,2015,42(5):28-33.

[5] 宋睿,陈鑫,洪宇,等.基于卷积循环神经网络的关系抽取[J].中文信息学报,2019,33(10):64-72.

[6] 王鑫,吴际,刘超,等.基于LSTM循环神经网络的故障时间序列预测[J].北京航空航天大学学报,2018,44(4):772-784.

[7] 李柯泉,陈燕,刘佳晨,等.基于深度学习的目标检测算法综述[J].计算机工程,2022,48(7):1-12.

[8] 周凯龙.基于深度学习的图像识别应用研究[D].北京:北京工业大学,2016.

[9] 纪国强.基于机器学习的图像识别研究[D].沈阳:沈阳理工大学,2018.

[10] 张雁.基于机器学习的遥感图像分类研究[D].北京:北京林业大学,2014.

[11] 张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305.

[12] Shi B G,Bai X,Yao C.An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(11):2298-2304.

[13] Choudhury A,Sarma K K.A CNN-LSTM based ensemble framework for in-air handwritten Assamese character recognition[J].Multimedia Tools and Applications,2021,80(28/29):35649-35684.

【通联编辑:唐一东】

猜你喜欢

高考数学填空题深度学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
抛物线定义在教学中的应用
新课程改革背景下高考数学题的教学导向