APP下载

基于人工智能技术的二级建造师执业资格考试智能化阅卷研究

2023-04-05崔冬

中华建设 2023年4期
关键词:建造师评卷主观题

崔冬

建造师执业资格考试是建筑行业的重要考试之一,近年来报考人数达到百万之众。考试阅卷工作在公平、公正、安全的前提下有序、高效地开展才能保障每名考生的权益。主观题阅卷工作量大,工作流程复杂,持续时间长。利用人工智能技术开展智能化阅卷工作能够大大节约社会资源,提高阅卷工作效率。本文分析了建造师考试的特点以及采用智能化阅卷的可能性,在二级建造师考试主观题人工双评模式阅卷工作结束后采用智能化阅卷进行了辅助质检,并将智能化阅卷结果与人工阅卷结果进行对比分析。结果表明,智能化阅卷与人工阅卷的一致性较高,可以为人工阅卷提供有效的质量监控。

一、智能化阅卷发展情况

人工智能技术是一门利用计算机模拟人类智能行为科学的统称,它涵盖了训练计算机使用其完成自主学习、判断决策等人类行为的范畴。人工智能技术在信息处理等方面的应用已经非常广泛,文字和语音识别、人工智能应答等应用随处可见。在我国各类升学考试、职业技能类考试参与人数迅猛增长,主观题阅卷工作的面临着极大的挑战,阅卷规模不断扩大,投入的人力、物力也在不断增加。我国在国民经济和社会发展第十四个五年规划中明确提出,要利用人工智能技术对社会资源进行优化整合。教育领域、职业技能类等考试的主观题阅卷大规模阅卷工作可以利用人工智能技术开展智能化阅卷工作。开展智能化阅卷可以提高阅卷工作效率,提升保密安全性,优化社会资源配置,绿色节能环保,更好的保障考试的公平、公正。

最早对于人工智能技术运用将在考试评分工作是2005年美国教育考试服务中心利用作文自动评分系统进行托福考试的作文评分。我国对于利用人工智能技术进行主观题考试阅卷工作的研究的起步相对较晚,发展至今,已经有在高考英语作文、语文作文等考试中作为质检手段进行应用,人工评分和人工智能评分一致率达到90%以上。职业技能类考试有全国中级会计师考试、消防工程师采用了智能化阅卷作为正式评卷手段进行评分。在考试阅卷的工作领域中,智能化阅卷在技术上已经具备了一定的基础。

二、建造师考试

1. 建造师考试情况

建造师是从事建设工程项目总承包和施工管理关键岗位的执业注册人员,建造师是掌握管理、技术、经济、法规多方面技术的综合型技术人员,既要具备相关的理论知识,又要有现场实践经验和组织管理能力。建造师必须通过执业资格考试获得资格并注册,才能担任施工管理的项目施工负责人或其他符合法律规定的业务活动。建造师作为建筑行业发展的中坚力量,建造师执业资格考试作为建筑行业准入类考试,需要把握好人才选拔的标准。

建造师执业资格考试分为综合知识与能力和专业知识与能力两个部分,其中,一级建造师的专业知识与能力共划分为10个专业类别,二级建造师的专业知识与能力共划分为6个专业类别。综合知识与能力考试题型为客观选择题,专业知识与能力考试题型分为客观选择题和实务操作与案例分析题。实务操作与案例分析题考核内容以考察施工现场实践经验为主要目的,从多方面检验考生的知识结构和能力。每道实务操作与案例分析题包含多个问题,根据建筑、市政、水利等各个不同专业类别需要的知识储备进行考核。考核的建设工程知识能力分层次递进。作答内容包括文字论述、复杂公式计算、作图等多种类型。

2. 建造师考试阅卷

建造师执业资格考试近年来报名人数都达到百万人以上。建造师执业资格考试采取人工双评阅卷模式,主观题阅卷工作量极大。建造师执业资格考试的主观题目考生作答字数较多,每道大题的作答字数在都在百字以上,且书写字迹远不如高考考生的工整、好辨认。人工阅卷工作需要在考生作答的海量内容中筛选出有效信息,并在专业范围内判断考生作答内容的科学性和逻辑性是否与标准答案一致。阅卷工作枯燥繁琐,且工作持续时间长,以一级建造师考试为例,阅卷工作时长至少三周。阅卷工作不仅要保障准确率,同时还要做好各项安全保密措施。

人工智能技术通过深度学习能力模仿人工阅卷。现今,少数有关考试采用智能化阅卷的研究已经取得了一定成果,但针对作答内容较为复杂的建造师执业资格考试的主观题阅卷工作适用程度尚未可知。本文在与建造师考试主观题题型和作答类型相近的考试中,选取已经采用智能化阅卷作为正式评卷员之一职业技能考试—全国中级会计师考试与建造师考试进行比较。建造师考试题型和作答内容在影响智能化阅卷实施效果的关键技术节点上依然很多不同之处:

(1)考试题型不同:会计考试题目不含作图题目,近年一级、二级建造师考试部分科目中含有进度计划网络图、关系绘制等作图要求;

(2)作答内容复杂:会计考试提问针对性强,建造师考试考核内容广泛,作答内容层次多,可能包含多个工作顺序或者多个计算步骤;

(3)评判标准不同:会计考试计算题答案唯一,建造师考试计算题适用公式不唯一,计算最终结果也可能不唯一。某些建设工程知识名称不唯一,工作顺序不唯一,或者某些工程问题现场有多种处理办法导致答案都不唯一。

与已经采用智能化阅卷的全国中级会计师考试不同,建造师考试实施智能化阅卷还需对阅卷的适用性和阅卷效果进行检验。

三、智能化阅卷应用

1. 智能化阅卷工作开展背景

2021年度云南省开展了二级建造师执业资格考试计算机化考试。计算机考试作答方式减少了智能化阅卷工作的开展技术上的困难,消除了由识别于作答字迹带来的误差。

本次考试的专业科目主观题考核作答内容包括文字论述、工程计算、工作顺序等。智能化阅卷工作是在人工双评模式阅卷工作完成后作为辅助质量检测开展的。

2. 智能化阅卷工作流程

结合二级建造师的现有的阅卷工作流程,智能化阅卷的工作流程如下:

(1)接收基础数据:接收经过保密处理的考生编码和考生作答信息,进行数据检验和核查。

(2)接收人工阅卷据:接收部分由人工产生的阅卷数据,进行数据校验。

(3)样本选择和模型训练:从产生人工阅卷的样本中抽取训练样本,抽选的样本按不同分数段抽取有代表性的样本进行多模型训练,在验证集上进行模型优选。

(4)智能化阅卷:利用优选的模型对考生作答内容进行评分,形成智能化阅卷评分数据。

(5)提交复合卷:将智能化阅卷评分数据反馈至专家组进行复审。

(6)统计分析:对全部考生数据的智能化阅卷评分数据、人工阅卷数据进行综合分析,形成智能化阅卷报告。

3. 智能化阅卷效果

以二级建造师计算机化考试答卷作为智能化阅卷软件的阅卷能力进行检测,针对阅卷时长、阅卷信度、阅卷准确度等方面进行分析对比。本次测试的试卷份数约5万份,包含五个专业科目约20万道试题。

(1)阅卷时长

智能化阅卷选取模型训练样本,训练完成后进行正式阅卷。单科目约4万道试题从模型训练到完成阅卷需要大约2小时;多科目阅卷工作可同时进行,20万道试题单评模式阅卷花费时长约3~4小时,双评模式不超过8小时。相同的工作采用人工阅卷双评模式的工作时长约为23小时。采用智能化阅卷的工作时间大大缩短,不到人工阅卷花费时间的一半,效率非常高。人工阅卷工作中由于试卷量大导致工作持续长,不可避免地带来评分准确率下降和效率降低等问题。采用智能化阅卷辅助阅卷工作能够帮助避免以上问题的发生。

(2)阅卷信度分析

信度是指测量结果的稳定性程度。使用同一工具反复测量,多次测量结果间的一致性就被称为信度。信度高的测量是不因操作者或者操作时间等方面发生变化而使得测量结果发生较大变化。

评分者间信度是指多个评分者对同一批考生的答卷进行评分的一致性程度。智能化阅卷的信度高,则说明智能化阅卷与人工阅卷的评分一致性较高时,能够说明智能化阅卷已经成功掌握标准答案和评分规则,已经具备正式阅卷工作的评分能力。

本文将基于经典测量理论选择评分者信度的测量方法,根据评分人数、数据类型选择Spearman相关和Pearson积差相关进行智能化阅卷的评分信度进行测量。本文采用SPSS软件针对五个专业科目的四道主观题智能化阅卷评分值和人工阅卷评分值进行了数据分析,结果如图1所示。

图1 五科目Spearman相关和Pearson积差数据

由图1可得知,五个实务科目的Spearman相关和Pearson积差数值均在0.9以上。当数值越接近1时,智能化阅卷和人工阅卷的评分一致性越高。

由人工阅卷与智能化阅卷的各分数段评分分布的情况也能够直观的看出,智能化阅卷和人工阅卷的评分趋势非常接近,一致性高。

图2 科目1各分数段评分分布图

图3 科目2各分数段评分分布

图4 科目3各分数段评分分布

图5 科目4各分数段评分分布

图6 科目5各分数段评分分布

(3)阅卷准确度

某实务科目的主观题共四道题目,每题20分。以5000份人工评分作为学习样本,共计11750份试卷,4×11750=47000道题。以10%(2分)的误差率进行控制。

四道题的智能化阅卷与人工阅卷的2分差以内的评分一致率分别为:97.02%、98.15%、94.73%、99.06%。智能化阅卷与人工阅卷的分差统计如表1所示:

表1 智能化阅卷与人工阅卷分差统计

以10%(2分)作为误差控制的情况下,智能化阅卷与人工阅卷的分差最大分差7分,仅有3例。出现智能化阅卷与人工阅卷分差大于误差限值时,人工智能评卷系统将提示进行评卷复检。下面针对同一题目人工阅卷和智能化阅卷评出的不同分值进行分析。

①分差分析

从表1中可以看出其中题目三的“分差>2分”一栏的百分比较其他题目高,分析其原因包括以下几点:

a.该题目采分点较多;

b.该题目每个采分点分值高,智能化阅卷与人工阅卷评分不同时,分差也更大;

c.训练模型问题,针对该题目作答内容模型无法捕捉到重要得分点的有效特征,出现错评;

d.该题目评分规则比较复杂,难以形成较为统一的评分标准。

由以上几点分析可以看出,智能化阅卷的训练模型需要根据考试作答特点,增加训练模型中习得多种、复杂评分规则的能力;在判断得分方面不局限于个别关键词语,不依赖于语句顺序。

②误评分析

针对该科目阅卷工作中智能化阅卷和人工阅卷产生的分差,对产生分差的题目进行复检。在复检过程中,将存在的几种误评类型总结如下。

a.智能化阅卷与人工阅卷都错误:

该题包括两问,共6分。本题目智能化阅卷与人工阅卷零分差率达到97.37%。该题目的评分对比如表2所示:

表2 考生作答评分情况对比1

按照标准答案,该考生作答内容应得4分;智能化阅卷与人工阅卷评分都不正确,需要修正考生得分。

b.人工阅卷错误:

该题共一问,共1分,零分差率达到99.06%。

表3 考生作答评分情况对比2

按照标准答案,该考生作答内容应得1分,需要修正考生得分。

c.智能化阅卷错误:

该题共两问,共6分,零分差率达到92.62%。

表4 考生作答评分情况对比3

按照标准答案,该考生作答内容应得0分。

根据智能化阅卷的情况,智能化阅卷产生错误的原因可能是:模型训练样本数量少,训练程度不够;评分逻辑复杂,模型学习效果不能实现复杂评分规则;模型对考生作答内容“理解”错误。

智能化阅卷作为人工阅卷的质检手段可以很好地检查错误评分情况。人工阅卷采用双评模式作为减少错误评卷控制的手段,但题目分值较低时,双评模式对低分值的错误或误差感知不明显,智能化阅卷作为质检手段可以很好地帮助减少错误评卷。

四、结论与展望

智从本次阅卷工作看出,能化阅卷优势非常显著:

(1)智能化阅卷速度快,工作效率高,大大减少人工阅卷的人力物力投入。

(2)智能化阅卷与人工阅卷一致性高,已经具备正式阅卷工作的评分能力。

(3)智能化阅卷错误率低,能够感知低分值评分错误,更好地保障考试的公平、公正。

(4)阅卷工作是一项保密工作,标准答案、评分标准以及考生作答内容等都需要严格保密,采用智能化阅卷能够严格控制保密内容的知悉范围,保密安全能够得到有效控制。

智能化阅卷智有明显的工作特点和适用范围:

(1)能评卷适用范围有数量限制,数量太少不适用智能评卷。本次评卷数量约5万份,约20万道题目。评分题目数量较少,出现的问题也比较少。在将来建造师考试的大规模试卷阅卷工作还应进行测评和调整,以发现更多的问题。

(2)作为训练模型的初始样本筛选很重要。保留各个不同分数段的得分样本之外,还应针对不同评分人群以及筛除误评样本之后在进行正式阅卷。正确的、多样的、优秀的样本才能在将模型训练成为一个拥有一定判别能力的合格 “阅卷员”。否则,模型就是一个拿着错误答案的“阅卷员”,无法公正共公平的完成阅卷工作。用于模型训练的初始样本数量最小值和样本筛选规则需要在技术上有更新的突破才能更广泛的适用于阅卷工作。

适用于建造师考试阅卷工作的智能评卷模型需要有进一步调整,首先要进一步准确“掌握”评分规则。除了对作答内容的科学性、逻辑性等内容进行判断之外,还应包括在评判正确、错误之后的比较复杂的赋分规则。

其次,现今智能化阅卷尚未实现作图题目的阅卷功能。建造师的考试是与工程实践相结合的考核,需要对考生有作图方面的综合能力进行考核。智能化阅卷需要在该方面的技术有待研究。

除此之外,智能化阅卷的训练模型无法完成建设工程行业知识、规范和标准的深层次内容的累计,模型训练的每次学习从“零”开始。如果训练模型可以针对题目选择保留知识内容或者一直累知识,只清零赋分规则,则非常有利于复杂问题的评判。

人工阅卷工作在面对大规模考试时候需要消耗大量的社会资源,智能化阅卷能够很好的辅助阅卷工作,甚至成为正式阅卷的评卷员之一。推进智能化阅卷的应用将在主观题阅卷工作中大大降低安全保密、人力、物力、方面的支出,更加绿色环保,更加高效,优化社会资源配置,更好的保障考试的公平、公正。

猜你喜欢

建造师评卷主观题
浅谈“立体几何主观题”的复习备考
浅谈高中政治“认识类”主观题答题技巧
极坐标方程主观题考点分析
由模仿而来的“小小建造师”
高考政治主观题对学生思维能力的考查
吉林省建造师资源配置分析
2019年对口升学考试网上评卷考生答题注意事项
一级建造师考试现状分析与评价
“画海”评卷
大规模考试网上评卷中趋中评分的成因探析