人工智能技术在网络化教育考试领域的应用价值研究

2022-11-29刘博佳

电脑知识与技术 2022年29期

刘博佳

（国家开放大学，北京 100039）

人工智能AI技术是用人工的方法在机器（计算机）上实现的智能技术，或者说人们智能在机械上的模仿技术，即人们使机械产生了相似于人的智能。这是在神经生理学、语言哲学、控制论、信息论、计算机技术等课程的基石上进一步发展出来的又一个课程。现在，对人工智能的科学研究通常采取以下三种途径：一是通过生物学的研究方式，弄清人类智慧的实质；二是应用计算机科学方法研究问题，如使用以网络为首的连接机制，或使用人工神经网络，模拟人的形象思维，该方式能够处理无法用符号描述的东西，三是应用生理学的研究方法。运用人工智能技术的研究方式能够进行试题的自动化处理，提升考试的效能并减少应试的成本。

1 人工智能技术在考试命题中的应用

随着现代科学技术的飞速发展，在新课程改革理念的指导下，人工智能技术已成为世界潮流并广泛应用于各行各业。人工智能技术已逐步融入我国教育领域，不断推动我国学校教育教学的发展与改革[1]。

人工智能技术的发展对考试测评也将形成影响，命题、考核实施、评卷方式等都将形成重大变革。

题库是命题的辅佐用具，它不但要求同时具备试卷管理工作和组卷的功用，而且更主要的是搜集试验数据信息并对这部分数据信息加以计算与解析，以便于据此发掘试卷制作中的实际问题、老师教学中的实际问题，以至学生过程中的实际问题。题库的建立不但会产生命题模式和老师工作方式的变化，同时也将逐步促使学生进行教育考试的规范化，有助于促进学校学生能力评估模型的重大变革，从而促进教学考核的变革。所以，从长远发展的视角，题库建立可以推动当前教师专业技术水平考试中命题理论与技能的发展提升[2]。

题库建立过程包含了许多主要问题，这部分问题主要包含：对成为题库基础单位的提问的命制、过滤、分级和管理工作；以提问形成考试的过程、措施、打分和评价；试题库体系的设计和研究、硬件和软件方面的特征设计和管理工作以及测试题库应用与保护的基本原则等[3]。伴随着人工智能技术的进展，人工智能技术在试验难度预测和等值管理方面也能够起到很大作用。

难度预测的技术路线一般有两个分支：人工特征工程方法和深入学习方法。人工特征方法一般是运用人工方法设计与难度相关特征的计算规则，让机械按照规律从考卷中获得这种特性，进而通过对复杂性做出重新回归，并以此估计考卷的难易系数；而深入学习方法则不要求机械运用人工方法设计特性提取规则，因为机械只能运用更深入的神经网络，自发地在试卷中提取与难易系数有关的特性，从而直接做出难易预报。两类方案都各有优劣，但由于深入学习方法要求大规模的考试数据分析，当资料总量相对较小的时期，人工特性方法所能够获得的性能比深入学习方法要好一点，而且深入学习方法的特性能力随着资料总量的增长可以有固定且显著的提高，甚至明显地超越了人工特性方法。以下着重介绍了深度学习方法的技术路径。

自2014年起，在很多领域，影响深度学习的最主要因素并不仅仅是更深入的神经网络，还是更强的模式语言表达技巧。一项特别关键的因素就是深度学习中递归神经网络的注意建模机制与计算。学习中的注意力建模机制计算给出了神经网络系统中一种巨大的能力，就是神经网络系统中可以在每个决策阶段对当前的输入信息，一致地选择有助于决定的信息内容，而忽视了在此时对于决定来说毫无意义的信息内容。这种能力十分类似于我们在听、说、读、写的过程中集中注意力的能力。在运用神经网络进行文章难易预估时，要求神经网络在预估文章每道题的难易程度时，都可以很精确地从文章全文中找出所有与该题目有关的内容，这样的功能也恰好可以通过注意力机制来实现，不过要使神经网络精确地把注意力机制掌握好，不但需要相当高的大数据分析能力，还必须设计精密巧妙的网络结构。

以英语试题为例，运用深度学习方法实现英文难易预测技术的大致基本思路为：首先通过较深入的神经网络，先提取出被测试文章的最深层基本语义特性表示；然后通过神经网络获取某篇文章问题的基本语义表达特性信息；再利用特定的网络注意力模式确定问题的文本深层语义特征表与对应回答的信息；最后利用神经网络抽象出本问题的所有选择回答的语义特征表数据并设计用中枢神经网络度量所有选择回答与语义特征区间的距离关系，以此确定该问题的难易系数。实验研究结果表明，人工专家之间对试卷难易预测的相关系数分析仅有0.4～0.5，而通过计算机的辅助难度预估后，人工专家之间对试卷难易预估的相关系数分析可能超过了0.7～0.8，但未来由于信息量的扩大，效率还将有更进一步的提高。

2 人工智能技术在英语听说考试中的应用

听说能力考试是外语教学中不能缺少的测试形式。传统的英语听说考试一般采取人工面授授课、电脑录音和人工打分的方式。但是，由于测试实施较难且运行成本高，易对测试结论形成主观影响，因此不利于大面积推行。

听说智能评估是学校计算机课堂上通过人机对话和智能评估的一种新型评估方式。据称，智能评估系统可以整合考试前、中、后的各种工作，从而有效减少人工工作量，不仅节约了人力资源的生产成本，还提高了评估的准确性和一致性。这是考核体系组织方式的重大创新，听说智能考试系统如图1所示。

图1 听说智能考试系统

听说智能考试系统的内核就是人工智能技术。人工智能技术在考场应用的考核子系统以及在考核后应用的智能评价子系统中充分发挥了关键作用。

评分子系统的目标是在错综复杂的考场自然环境中对学生的答卷过程做出最清晰、最全面的记录并解决各种紧急情况，如断开、死机、噪音过大等。所以，在控制系统方案设计中，不但要充分考虑各类异常情况的出现以满足考试的顺利进行，而且还要运用智能音频质量监测技术实时监视各类音频数据以及在考场内实时监测各类语音数据并参与考场，以保证从监视器接收到的语音数据的物理参数（如音量、信噪比等）符合规定。如果检查到试卷的话音数据结果不完全或是音质很差，系统将进行警告并由监考教师及时做出处置，在必要时也可设置到下一数重试，以防止到了评分阶段后才出现数据不能用。

智能评估子系统的主要任务是完成利用计算机技术手段对朗读题、问答题、话题表达题等非完全的开放性题目实施智能化评估，其中核心内容的项目便是智能口语评估科技。智能口语评估技术将首先从测试口语训练数据中收集反映在口语训练的标准化、速度、准确性、语调等主要方面的身体特征；然后，通过系统分析噪声对实际环境中不同声物理特性的影响因素，通过累积分布函数匹配等正则化过程逐步形成从带噪音物理特征到干净噪音物理特征区间的反馈，以此达到对噪音影响因素在噪音打分特性层次上的补偿，最后使噪音评估体系达到较好的抗噪特性；最后，经过收集大量的噪音数据，让人工专家对数值特性做出更精确的标注，用标注结果培训计算机逐步形成噪音物理特征与人工专家相对评价和检错结果间的精确反馈模式，然后完成了计算机自主评价。

目前，计算机智能口语评分技术已在我国许多大、小考场得到应用。例如，自2013年起，广东省高考英语听说试卷采用了科大讯飞的智能口语评分技术，每年大约有70万名学生接受评估，计算机可以在两天内给所有学生打分，并且编制了若干人工专家对计算机打分结论予以复核，从而确保了打分结论的客观公正性，大幅度降低了试卷的编制复杂度，大大提升了效果。另外，计算机的智能口语评价技术也在江苏、杭州、重庆、山东、辽宁等地的中考英语听说试卷中也得到使用。

智能口语评分技术不仅可以在大型正式考场中使用，而且对学校模拟考试和一般教学都有广泛的影响。在日常教学中使用计算机不仅可以实现自动评分，有效减轻教师的压力，还可以为每个学习者提供详细的诊断分析报告，提示学习者当前存在的主要问题，自动生成有针对性的教学资源。在教学过程中，计算机还可以实时评价学习者的发音，伴随着学习者的整体教学流程，从而提升教学兴趣与效果[4]。

此外，最近几年由于现代微电子科技的蓬勃发展，考试专门耳麦也开始逐渐打破了原来单纯的耳机加话筒的架构，向着更加专业性、智能方面迅速发展。有些较新型号的备考专门耳麦通过现代微电子机械体系（MicroElectromechanical System,MEMS）话筒阵列，并辅以较优秀的降噪计算，能够在喧闹的听说试卷考场中收集到较为纯正的录音。另外有些比较智能的耳机则内部有微处理器设计和储存芯片设计，能够把考试中的话音数据信息直接保存到耳机中。虽然关于智能耳机的发展趋势在此处不再展开，但是能够肯定的是，创新硬件的应用将会给听说智能考试的举办提供很大的方便。

3 人工智能技术在纸笔考试评卷中的应用

由于信息技术的不断进步，人工智能近年来已成为一种普遍探讨的议题。人工智能技术以深度学习为基石，呈现出很高的发展趋势。例如，AI围棋大师"阿尔法狗"席卷围棋领域的所有专家，让人们意识到AI的发展已经超出了人们的想象。社会各界逐步引入人工智能技术，为其发展注入了新的活力。人工智能在考试中的应用是促进考试向专业化和高效化转变的一项措施[5]。

20世纪80年代以前，中国的各种考试和评分基本都是手工的。但由于学生数量的增多，人工评卷工作所花费的时间、精力也大大提高，因此评卷完成后的计算分数工作也就显得十分艰苦。1991年，中国自主研发光标阅读器（又称“OMR技术”），考试答题卡直接用扫描仪扫描成图片，并在扫描操作流程中对客观试题自动判分。1999年，使用OMR科技的电脑网络评卷系统在广西的高考考试中率先进行使用。相比常规的手工评卷，该种方法具有多评机制、答卷保存、流程监控等多种优点，科学化程度明显提升，对考试的评卷工作具有很大保障意义。

随着超高精确度的手写文本辨识、自然语言理解、智能评估等科技的进展，用电脑评阅主观题已变成可能。从20世纪60年代开始，中国海外就开始有不少专业人员和研究者致力于新型的人工智能技术在主观题评卷范畴的应用研究，从而产生了多个截然不同的自主评卷体系，例如美国的管理类研究生考试(GMAT)、托福考试等先后于2000年和2010年就使用了E-rater体系，中国的英语教学和研究机构以及其他专业也对语言能力等级评定量表进行了相关研究。国内外也有个体科技企业从20世纪90年代末开始研究和开发口语智能评分技术，并逐步扩展到主题问题的智能评分，在中英文学科试题智能标注方面取得了较为完善的人工智能科技成果。将新一代人工智能的语音识别、手写文本识别、自然语言理解等关键核心技术应用于试题评估，已具备了科技应用的先进性，有着重要的技术突破意义。

主观题的智能评卷技术通过对各个科目、各个类别试卷专家学者评判准则的掌握、调节和程序式设计工作，使打分准则能够在更大规模内被“具有专家学者打分水准”的计算机系统规范化地操作和执行。另外，具有专家学者打分水准的智能打分体系能够被系统设计为类专家学者评判准则来应用，以全面合理地提升人工打分的品质；此外，在以客观验证为最合理的前提和规范要求下，它还能够用作对特定试卷或特定分值段的一个打分，以逐渐取代在多评情形下的人工打分或最终打分，以合理地节约人力资源并减轻评卷工作人员在短时内强烈的压力。类似于这种人机融合的智能评卷方式能够合理优化配置人员所投入的成本，从而确保了评价效果提高。而主观题智能评卷的工作流程如图2所示。

图2 主观题计算机智能评卷流程图

智能评卷技术采用了精准的图文识别和文本检索等高新技术，可以精准地在大量的学生样品中甄选出与目标文本内容相似的回答片段，以有效提高对学生回答规范化测试问题的准确度。针对特殊作答、可疑套作、疑似雷同等样品可以迅速获取和标记，可以辅助提高人工评卷打分的准确度和公正性。智能评卷科技通过对空白答卷、非正常答卷的检出，创造了一个全新的质检校核打分合理性的评价机制。

2016年3月，教育部考试中心与科大讯飞集团组建了共同研究室，联合进行智能评卷的关键核心技术研发工作并已获得了阶段性进展。从全国大学英语专业四、六级、高考、中考等各种科目的数据上加以测试，结果显示，计算机在中文和英文试卷主观题（包含写作）评估上已超过了现场评卷师的水准，已经能够适应大规模考试的现实要求。

而且，计算机不但可以实现智能打分，还可以在语言、词汇、内容表现等各个层面提供检测分析报表，进行智能化作文批改，适应学生平时练习与提升的需求。

4 结束语

人工智能技术作为一门先进技术，对于改变传统的教育形式以及促进中国教育现代化与发展都有着巨大的意义。特别是随着国家素质教育改革的不断深入与实施，对我国学生的考核要求将会愈来愈高，而在试卷中运用人工智能技术可以更有效地协助老师对考卷进行命题与评审工作，让学生的考核得以顺利开展，从而帮助学生在考核中取得进步。