APP下载

推进考试领域智能化阅卷系统实施的挑战与对策

2024-03-19赵天齐ZHAOTianqi

价值工程 2024年6期
关键词:要素智能化考试

赵天齐 ZHAO Tian-qi

(北京建筑大学,北京 100097)

0 引言

随着当今信息化时代的来临,社会各领域都在积极探索互联网信息化的创新发展之路,希望以此来突破传统工作模式的束缚,实现新时期的新发展。根据国务院对国家行政管理部门“放、管、服”的指示精神,具体到考试工作领域而言,传统的纸笔考试形式正在依托计算机信息技术和电子扫描技术,逐步转变为上机考试、试点开启智能化评分阅卷等趋势,这将进一步减少人为失误而导致的评卷失误,提高评阅卷的准确性和工作效率。

当前,考试领域内的智能化阅卷系统主要由参与方、数据、设备、环境这四个要素所构成,这四个要素之间彼此联系,相互影响,只有在这四个要素的共同作用下,才能顺利地实施智能化阅卷。但目前,智能化阅卷系统还并不完善,现实中存在一系列阻碍智能化阅卷系统实施的困难与挑战。本文具体分析推动考试领域智能化阅卷系统实施所遇到的问题,并提出相对应的解决方案。

1 智能化阅卷系统的国内外研究现状

1.1 国外智能阅卷现状

智能化阅卷研究在国外兴起较早,最早可以追溯到二十世纪六十年代,美国率先开始了对自动评分系统的研发,主要是源于美国写作测试逐渐增多,学生的作文数量激增,大大增加了教师评分的工作量,导致作文无法及时批改。而且人工评分耗时、耗钱,评分者还存在固有的主观性。因此,不得不通过技术措施解决这一难题,开发作文自动评分系统。随着计算语言学技术的发展,作文自动评分技术不光解决了学校批改作文的部分负担,也带来了技术的发展和竞争,并随之出现了一些自动评判系统应用于学生作文批改。如: Project Essay Grade (PEG) 系统、Electronic Essay Rater(E-Rater)系统、Conceptual Rater(C-Rater)系统、Intelligent Essay Assessor(IEA)系统,其中应用较广泛的为Electronic Essay Rater(E-Rater)系统。

E-Rater 系统是由美国教育考试中心的Jill Burstein领导开发的使用NLP 技术的在线写作系统,并且已经被美国国家考试中心于2005年开始应用于TOEFL 的考试中。但是E-Rater 是仅从写作风格、修辞等角度来判断写作水平,不进行文章内容理解,因此无法判断写作内容是否符合要求。所以该系统只能辅助判断写作水平,并不能单独完成作文的评判,这极大地限制了系统的推广。

1.2 国内智能阅卷现状

目前,部分考试已经开始了智能化阅卷的研究。我国的很多认证考试、等级考试和一些高校的部分课程考试都开发了相应的考试系统,最广泛应用的就是计算机等级考试系统,GRE 外语上机考试系统等。

我国目前开展智能阅卷研究的主要有以下三种考试类型:①选拔类考试,人工智能阅卷全程质量监测。如部分省高考、中考、公务员类的申论考试等,题型主要是选择题、论述题、简答题、填空题、作文、数学应用题等。②职业资格类考试,人工智能提供评分数据作为参考,如:消防工程师考试、中级会计师考试等,题型主要是选择题、论述题、简答题等。③在线模拟考试,人工智能阅卷为在线模拟考试平台的学生试卷打分,如在线模拟考试,英语周报、翻译平台等,题型主要是音频类语音题等。

由传统的人工阅卷转型至智能化阅卷,既可以降低阅卷成本,又避免了人工阅卷的主观意识,还提高考试的公正性。智能化阅卷由于数据精确准、信息量、处理速度快,在很大程度上提高了阅卷速度,减少从试题命制到成绩生成的流程,减少了流程中人的参与次数,提高阅卷保密安全性。

目前,国内各种考试评阅系统对客观题的评阅技术已经非常完善,而对主观题和操作题而言,评阅时一般还是采用人工评阅的方式,并没有真正实现机考、阅一体化。因此,需要及时地找到问题并提出针对性的解决方案,才能有效地推进考试领域智能化阅卷系统的实施应用。

2 智能化阅卷系统的组成要素

考试领域内的智能化阅卷系统主要由参与方、数据、设备、环境这四个要素所构成(如图1 所示)。参与方指的是考试阅卷过程中的各阶段主要参与者,包括了考生、试卷扫描人员、试卷评卷人员;设备指阅卷时所用到的必要设备,包括了扫描设备和阅卷设备;数据是该系统所需要的基础信息数据和所呈现的最后结果信息数据,包括了考生数据、客观题数据、主观题数据、通过率等数据;环境则是指该系统所处的现实背景环境,各地区的实际环境各不相同,包括了自然环境与社会环境。

图1 智能化阅卷系统组成要素

智能化阅卷系统的四个要素彼此之间相互影响,互相作用。首先由所有考生作答考试内容,经汇总后由扫描人员用特定的扫描设备,将考生作答的试题答案扫描进计算机中,形成电子数据,存储在阅卷系统中。其次,评卷专家登录评卷设备,对上传至系统中的主观题进行评分,客观题则由系统根据设定好的答案顺序,自动评分。最后,系统将评阅完成的客观题数据与主观题数据进行汇总,形成本次考试的最终数据信息,可显示本次考试报名人数、实考人数、缺考人数、通过人数等信息,并计算出本次考试的通过率,再反馈给相关考试部门,考试部门根据数据结果进行再分析,做好为下一次考试的研判工作。以上涉及的各阶段内容都是发生在不同的实际环境中的,受自然环境和社会环境影响。自然环境包括了地震、暴雨等极端天气影响,可能导致阅卷场所丢失数据,造成人员伤亡等情况。社会环境是指在政策、制度等方面的内容,教育政策和考试制度的变化会直接影响考试的设计和评分标准。政府的教育政策以及教育部门的规定会对考试题目和评分标准产生重要影响。

3 智能化阅卷系统的现存问题

3.1 现有文献显示的智能化阅卷现存缺点

通过梳理相关文献,与传统的人工阅卷模式相比,智能化阅卷虽然具有效率更高、安全性更强、评判尺度一致等诸多优点,但是仍存在不少现实困难。

3.1.1 前期研发成本较高

开发智能化阅卷系统需要使用复杂的自然语言处理、机器学习和人工智能等技术,这些技术需要高水平的专业知识和大量的研发投入。研发团队需要投入大量时间和精力来设计和实现能够准确评估学生答案的算法和模型。为了训练智能化阅卷系统,需要大量的人工标注数据以及学生答案的样本数据。数据的采集、清洗和标注工作需要投入大量人力和时间成本。

3.1.2 文本转化率不可控

纸笔考试需先进行文本转换,每个人书写汉字的字体不统一,存在字体大小不等、字体倾斜、连笔等现象,导致文本转换准确率受到一定程度的影响。

3.1.3 考试内容受评分技术的影响有所限制。

涉及文字论述题型时,就需要对作答的科学性以及逻辑性进行判别。例如专业名词存在同义词、部分工作顺序变化也是正确答案等情况,智能化阅卷计算模型还需要通过实践检验和调试。目前尚处于研发阶段,主要用于辅助人工阅卷阶段。

3.2 ISM 模型分析

3.2.1 ISM 模型定义

ISM 模型是解释结构模型的简称,是美国沃菲尔德教授在1973年所开发的一种模型。解释结构模型化(ISM)技术是通过寻找系统构成要素、定义要素间关联的意义、给出要素间以二元关系为基础的具体关系,将其整理成图、矩阵等较为直观且易于理解的形式,最终逐步建立起复杂系统的结构模型。

ISM 模型常用于分析解释现实复杂的系统问题,目前已广泛地应用于认识和处理各类社会经济系统的问题。

3.2.2 确定组成要素

在ISM 分析中,首先需要列举出影响智能化阅卷系统实施的影响因素。通过查阅相关文献,归纳总结出了7个关键影响因素,并用S1-S7 分别与之一一对应,具体的对应情况如表1 所示。

表1 影响智能化阅卷系统实施的因素

3.2.3 判定二元关系

在判定要素之间的关系时,需要用到方格图来表示元素的相互关系。在方格图中,可以直观地看出各要素之间的二元关系,其中V 表示方格图中的行(或上位)要素直接影响到列(或下位要素),A 表示列要素对行要素有直接影响,X 表示行列两要素相互影响,具有强连接关系。图2为影响智能化阅卷系统实施的要素方格图。

图2 影响智能化阅卷系统实施的要素方格图

3.2.4 建立矩阵

在得到了影响智能化阅卷系统实施的要素方格图之后,再加上反映自身关系的单位矩阵,就可以建立起可达矩阵。可达矩阵反映了系统各要素间的直接或间接关系,影响智能化阅卷系统实施的可达矩阵如表2 所示。

表2 可达矩阵

根据要素级位划分的思想,在具有强连接关系的要素(S1 与S6)中去除S6(即去除可达矩阵中“6”所对应的行和列),可得到缩减矩阵(如表3 所示)。

表3 缩减矩阵

按照缩减矩阵中每行“1”元素的多少,由少到多顺次排列,调整矩阵的行和列,进行层次化处理后得到一个新的矩阵,从矩阵的左上角到右下角,依次分解出最大阶数的单位矩阵,并加注方框。每个方框表示一个层次。如表4所示,可见,该系统中的要素分为4 个层次,S5、S7 属于第一层次、S4 属于第二层次、S3 为第三层次、S1、S2 为第四层次。

表4 层次化处理

3.2.5 多级递阶有向图

根据层次化处理后的缩减矩阵,可以绘制多级递阶有向图,能更直观地表示该模型的层次和结构,如图3 所示。影响智能化阅卷系统实施的原因的多级递阶有向图共分为4 个层级,节点表示系统构成要素,有向弧表示要素之间的二元关系,其中S1 与S6 属于强连接关系,两者同处于同一层级,其他层级与缩减矩阵层次化处理后的层级一致。

图3 多级有向阶梯图

3.2.6 解释结构模型

在绘制出多级递阶有向图后,根据S1-S7 各元素之间的对应关系,可以构建出解释结构模型,如图4 所示。

图4 ISM 模型图

通过使用ISM 模型进行分析可知,若想进一步推进智能化阅卷系统的实施,就需要额外关注以下几个方面:

从长期性和根本上来说,推进智能化阅卷系统的实施取决于这个阅卷系统的基础数据(S6)、阅卷人员的专业背景知识(S1)和阅卷缺勤率(S2)的共同作用。第一,智能化阅卷系统需要大量的基础数据来训练模型,以提高阅卷的准确性和效率。这些基础数据包括试卷内容、答案、评分标准等。如果基础数据不准确或不完整,将影响阅卷系统的性能和可靠性。第二,阅卷人员的专业背景知识对阅卷结果的质量和准确性至关重要。如果阅卷人员缺乏相关的专业背景知识,将难以对试卷内容进行准确理解和评估,导致影响阅卷结果。第三,阅卷缺勤率是指阅卷人员实际参与阅卷工作的比例。如果阅卷缺勤率过高,将导致阅卷工作无法顺利进行,影响阅卷效率和质量。

从间接来说,阅卷所用的专业设备和阅卷专家的讲解培训水平是间接影响智能化阅卷系统进一步推进的原因。如果阅卷所用的设备性能不稳定或存在缺陷,将直接影响阅卷的准确性和效率。如果阅卷专家能熟练清晰地讲解试卷的评分标准,将有助于快速地培训出一批阅卷人员,使所有阅卷人员清晰准确地了解试题采分点,有助于提高阅卷效率和准确性。

从短期和直接性来说,阅卷场所的环境情况(S5),阅卷系统的资金投入水平(S7)是推动智能化阅卷系统进一步实施的因素。第一,阅卷场所的环境情况对阅卷效率和质量有着直接的影响。一个宽敞、明亮、舒适的阅卷环境可以让阅卷人员更加专注和高效地工作,从而提高阅卷效率和质量。相反,如果阅卷场所环境恶劣,如噪音、光线不足等,将会影响阅卷人员的专注度和工作效率,从而影响阅卷结果。第二,阅卷系统的资金投入水平也是推动智能化阅卷系统进一步实施的重要因素。智能化阅卷系统的研发和实施需要大量的资金投入,包括硬件设备、软件开发、人员培训等方面的费用。如果资金投入不足,将无法保证智能化阅卷系统的稳定性和可靠性,进而影响阅卷工作的顺利进行。

4 推进智能化阅卷系统的对策建议

4.1 霍尔三维模型

霍尔三维模型是一种系统工程方法论,这种方法可以直观地展示出系统工程各项工作内容的时间维、逻辑维、知识维这三维结构图。本文通过霍尔三维模型,展开研究智能化阅卷系统的三维逻辑,在三种维度上对如何推进智能化阅卷系统进行进一步分析。

如图5 所示,构建了智能化阅卷系统的霍尔三维模型图。根据知识维、逻辑维、时间维三种不同逻辑,分别罗列出了该系统不同维度的组成要素。通过分析该模型,找出并优化可能对推进智能化阅卷系统进一步实施的因素。

图5 霍尔三维模型图

知识维指的是系统中所涉及的知识、信息和数据。这包括系统设计中所需的专业知识、技术资料、规范标准、历史数据等。知识维关注的是系统所涉及的信息和知识的获取、管理和应用。该模型下的知识维包括了保密安全教育知识、阅卷人员相关学科背景知识和所涉及考试阅卷人员的保密教育知识等内容。

逻辑维通常指的是系统工程中所涉及的逻辑结构、功能关系、流程设计等方面。包括了系统各个模块之间的逻辑关系等内容。

逻辑维中共分成六个阶段:第一步,接收基础数据。是指接收经过保密处理的考生编码和考生作答信息,进行数据检验和核查。

第二步,接收人工阅卷数据。指接收部分由人工产生的阅卷数据,进行数据校验。

第三步,进行样本选择和模型训练。从产生人工阅卷的样本中抽取训练样本,抽选的样本按不同分数段抽取有代表性的样本进行多模型训练,在验证集上进行模型优选。

第四步,开展智能化阅卷。利用优选的模型对考生作答内容进行评分,形成智能化阅卷评分数据。

第五步,提交复合卷,将智能化阅卷评分数据反馈至专家组进行复审。

最后一步,进行统计分析。即对全部考生数据的智能化阅卷评分数据、人工阅卷数据进行综合分析,形成智能化阅卷报告。

时间维通常指的是系统工程中与时间相关的各种内容,包括时间约束、时序逻辑、时序行为等。这包括系统的时间性能要求、实时性需求、事件发生顺序等。时间维关注的是系统在时间维度上的特性和要求。在该时间维模型中,按照时间进程划分成八个阶段,每一个阶段都可以看作是下一个阶段的准备工作。整个工作流的核心是第七阶段,即正式评阅阶段,这也是保证阅卷质量的重点阶段。

4.2 对策建议

通过查询国内外相关文献,并针对推进智能化阅卷系统的实施因素构建了ISM 模型和霍尔三维模型图,本文提出了对推进智能化阅卷系统有效实施的部分对策。

4.2.1 加大技术系统的投资建设

通过ISM 模型可知,阅卷系统的资金投入水平是推动智能化阅卷系统进一步实施的直接因素。智能化阅卷系统需要投入大量资金进行技术研发和购置相关设备和软件。这包括用于自然语言处理、机器学习、图像识别等方面的技术开发和购买高性能计算设备、服务器等硬件设备。资金投入的充足与否直接影响到系统的技术水平和性能。同时,智能化阅卷系统需要专业的技术人才进行系统的开发、维护和优化。资金投入可以用于人才的培训和引进,以及保障人才的稳定性和持续的技术支持。

4.2.2 加强培训阅卷人员相关专业知识水平

根据霍尔三维模型可知,在时间维的逻辑下,正式评阅阶段是保证阅卷质量的重点阶段。在正式评阅卷时,阅卷人员的缺勤率、专业知识水平决定了本次阅卷的效率与质量,具备相关专业知识的阅卷人员可以更准确地理解评分标准,避免主观评分的偏差,从而提高阅卷的一致性和公正性。高质量的人工评阅基础数据有利于智能化阅卷系统的进一步学习。同时通过培训,阅卷人员能够更好地理解智能化阅卷系统的工作原理和技术特点,从而更好地配合系统进行工作。

4.2.3 增加对阅卷设备和阅卷环境的重视程度

根据ISM 模型的相关结论可知,阅卷所用的专业设备和阅卷专家的讲解培训水平是间接影响智能化阅卷系统进一步推进的原因。良好的设备和环境能够提高系统的运行效率,能够提供稳定的工作条件和良好的数据输入,有利于智能化阅卷系统的准确性和稳定性,可以缩短阅卷时间,提高工作效率,减轻阅卷人员的工作负担。关注阅卷设备和环境有助于提升阅卷工作的舒适度和安全性,改善阅卷人员的工作环境,提高工作积极性和工作效率。

5 结语

本文首先研究梳理了智能化阅卷系统的国内外研究现状,再列举出了智能化阅卷系统的组成要素,理清了各要素之间的相互关系与共同作用情况。在分析推动智能化阅卷系统实施所遇到的困难时,使用了ISM 模型进行研究分析,并得到了相应结论。通过使用霍尔三维模型,将该系统的时间维、知识维、逻辑维进行细分梳理,最后结合ISM 模型和霍尔三维模型,试图找出所遇困难的解决对策。本文以系统工程的知识逻辑框架为指导,为改善实际工作中所遇到的问题提供了解决思路。

猜你喜欢

要素智能化考试
智能化战争多维透视
印刷智能化,下一站……
掌握这6点要素,让肥水更高效
观赏植物的色彩要素在家居设计中的应用
论美术中“七大要素”的辩证关系
Japanese Artificial Intelligence Robotto Take Entrance Examinations
基于“物联网+”的智能化站所初探
也谈做人的要素
你考试焦虑吗?
石油石化演进智能化