人工智能介入语文主观题评卷工作的思考
2021-12-29陈霞
摘要:人工评卷是目前语文测评中主观题部分评卷的主要方式,但容易出现评分者效应。将人工智能运用于语文作文评卷,可发挥其精确高效的优势,减少人工评卷的不利因素,确保评卷工作的公平性,对促进教育公平必将利大于弊。因此,引入人工智能评阅语文主观题,宜有可为,且应有可为。
关键词:人工智能;人工评卷;评分者效应;语文主观题;作文评阅
在大规模的高利害考试中,语文主观题的评卷工作一直是难点,主要原因有二:一是语文主观题题量大,答题书写量大,需要的评卷员数量多;二是评卷工作强度大、难度大,评卷标准执行水平不一,评卷质量参差。因此,近年来,能否引入人工智能评阅语文主观题成为语文测评工作的思考热点。笔者在一次涉及约4万名学生、160名评卷员的语文模拟考试作文评卷工作结束后,对评卷的工作质量数据做了统计,并面向一线语文教师发起问卷调查,了解教师对人工智能评卷的支持度。经过调研和讨论,笔者试着从语文教育者以及测评工作组织者的角度,提出人工智能技术适度介入语文主观题评卷工作的设想,或许本文能为人工智能研究专家及测评专家提供一定的参考价值。
一、人工评卷的“评分者效应”
人工评卷是目前语文测评中主观题部分评卷的主要方式,虽然使用了评卷平台,但评分这一具体工作由人工完成。评价人工评卷的质量,目前主要依据评卷平台统计的评卷员工作吻合指数。该指数由两项数据计算而成:一是该评卷员在回评考核中与自己首次评分的吻合度;二是该评卷员个体与评卷团队整体评分的一致性。回评考核是指评卷平台不定时将评卷员已完成评分的同一份试卷重新发送给他,根据其第二次评分与第一次评分的情况计算吻合度,以此评判其自评吻合质量。评卷个体与集体的一致性考核是将该名评卷员的评分情况与评卷团队的评分情况做比较。例如,语文的作文评卷设置双评,同一篇作文由两名评卷员评分,当二人分差超过设定的标准(一般设定为6分),该作文将被发送至第三名评卷员。三评完成后,差距符合设定分差的两位评卷员之评分为有效分,另一位评卷员的评分则视为无效分,由此可统计每一位评卷员评分的有效度和无效度,作为评卷员个体与团队评分一致性的参考数据。
在常见的模拟考试中,人工评卷的质量到底如何?下面以一次高三模拟考试语文学科的作文评卷工作为例。本次模拟考试共有4万份考卷,作文为双评制,评分差距8分以上将进入三评,最终作文评卷的任务总量82 017份;评卷人员160人,人均工作量512.6份。评卷结果表明,160名评卷员产生的无效评卷1 639份,约占任务总量的2%。评卷有效度从89.01%到100%不等。其中,有效度低于90%的1人,有效度在90%~95%(不含95%,下同)的8人,95%~98%的47人,98%~99%的103人,有效度100%的1人。从人工评卷速度来看,160名评卷员的平均速度为55.32秒/份,其中速度最慢的148.7秒/份(约2.5分/份),速度最快的19.8秒/份。用时30秒以下的有6人,31~40秒的有21人,41~50秒的有41人,51~60秒的有46人,61~70秒的有29人,71~90秒的有17人,90秒以上的有5人。
再看本次考试作文成绩分布情况。去除0分试卷后,共有37 454份有效样本,根据作文评分细则的6档分别统计:35分以下的有795人,占总数的2.12%;36~39分的有2 242人,占总数的5.99%;40~44分的有17 456人,占比46.60%;45~47分的有12 607人,占比33.66%;48~53分的有4 306人,占11.50%;54~60分的有48人,占比0.13%。值得关注的是,本次作文评卷没有满分,最高为59分(1人),且55分以上的仅有18人。以本市高三学生的写作素养,应不至于如此惨淡。如果合计40~48分(也就是第二至第四档)的人数占比,发现数值高达91.77%,这说明本次模拟考试的作文评卷出现了“评分者效应”中的“趋中漂移”,且情况颇为严重。在主观题评分过程中,评分员自身以及不同评分员间在多次评定上的不一致性,直接导致分数信度和效度的降低,这种现象被称为评分者效应。随着评分进程的推进,一些评分员会更频繁地使用量尺的中间类别,表现出一种逐渐的范围限制,这种现象被称为趋中漂移[1]。在高中语文作文评卷场上,这种趋中漂移现象已成为常态,评分员惯于在均分上下趋中评分。这样既快速又安全,因不打极高分和极低分,就能降低被留意到和被管理的概率。
受趋中漂移影响,本次模拟考试作文题的区分度仅为0.0838,而作文之外的其他主观题共12题,区分度在0.3~0.48的有5题,在0.2~0.3(不含0.3)的有4题,在0.1~0.2的有3题。这说明评卷员所给分数趋中性已经严重影响作文测评的区分度。这样带来的弊端不仅仅是一次考试测评的质量判断不准确,更严重的是写作试题的区分效果不理想,由此造成高考语文的区分功能减弱,中学不重视写作教学[2]。
基于进一步了解评卷员工作心态的需求,模拟考试评卷结束后,笔者面向本市高中一线教师开展了一次调查,共回收有效答卷570份。在关于“目前的人工评卷所存在的不足”这个问题上,认为“耗时长、效率低”的占78.77%,认为“同一个评卷员出现前后状态不一现象”的占72.81%,认为“评分标准执行过程中存在因人而异现象”的占85.26%。这个问卷调查的结果与评卷平台数据反映的事实有一致性,说明评分者效应是不容忽视的。一方面,一些评分员因练习效应准确性得以提高;另一方面,疲劳和厌倦也可能导致评分误差随着评分进程加剧。此外,有些评分项目会对评分员进行持续的培训或者阶段性校正,这些措施也会导致评分员的准确性发生变化[3]。
因此,人工评卷的质量参差是毋庸争议的事实,这在评阅主观题时表现得极为突出。评阅主观题常用传统的“采点”评分法,具有评分标准客观、操作性强的优点,但在实践中存在以下问题:倚重专家经验却缺乏理论指导,评分的科学性和规范性有待提高;侧重学生回答的“量”而非“质”;参考答案仅给出少数作答样例,须根据个人理解评分,主观倾向性突出,降低了考试的信度;参考答案不能涵盖所有作答,特别是有创新性的见解和方法,不能真正评价高水平的学生,降低了考试的效度[4]。
基于人工评卷的种种不足,是否可以借助人工智能技术辅助语文主观题评分呢?
二、人工智能评阅主观题的可行性
1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能”(artificial intelligence,AI)这一概念,标志着人工智能学科的诞生。人工智能能否代替人类完成一部分工作?经过深度学习后,人工智能是可以做到的。深度学习是一种基于深度神经网络学习的图文识别技术,是为了“训练原始数据和正确答案、其他数据之间的对应关系。在人类给出正确答案之前尽量提升精度,调整各个层次组织”。所以,深度学习与其说是一种“学习”,不如说是一种“训练”[5]。2017年5月,谷歌公司的人工智能AlphaGo成为第一个击败中国围棋世界冠军柯洁的电脑程序。5个月后,AlphaGo迭代出AlphaGo Zero[6]。这可能是目前最接近人类智能的一种人工智能模式,其利用的主要技术就是深度学习。目前,随着图像文字转写识别、自然语言处理、深度学习和评分算法等核心技术的发展,运用人工智能技术完成诸如语文作文和英语作文等智能辅助评分已经成为可能。人工智能技术辅助评分的要点可概括为两个方面:一是对考生答题内容进行文字(含公式等)识别,转换成文本;二是基于深度神经网络建模的评分模型训练和多维度计算机智能辅助评分[7]。
人工智能若能运用于语文作文评卷,应可具备以下优势。一是高效率,人工智能评卷比人工评卷速度更快,这是毋庸置疑的。首先,人类的记忆力参差影响评卷进展,不少评卷员时常需要重新查阅评分标准,影响速度。其次,人工评卷的双评、三评机制也需要消耗大量人力和时间。二是准确性,人工智能一旦被输入评分标准,即能完全根据标准评分,避免人工评卷员可能存在的前后标准不一致的“评分者效应”。三是公平性,人工智能不知疲倦,不受任何外界影响,也不存在自身情感、情绪等各种因素影响,不存在“评分者效应”,确保了评卷工作的公平性。
人工智能在这些方面恰恰可弥补人工评卷的不足。近几年,不少地市开始在评卷工作中引入人工智能。2017年,湖北襄阳在中考评卷工作中引入智能评分系统作为评分辅助手段,实现对除选择题以外的所有题型的空白题检测,还有效地检测出语文和英语答卷中学生抄袭范文的异常答卷,减少了主观题人工评卷的工作量。2018年,湖北黄石市也在中考评卷中引入人工智能阅卷技术,针对异常卷、空白卷、雷同卷以及疑似作文“套作”等进行检测,让绝大多数的作弊行为无处遁形。更能体现出人工智能优势的是浙江外国语学院国际学院的一次应用。该院在2017年的一次中文测试中,使用人工智能评阅11位外国留学生的中文写作答卷。人工智能技术精确圈画出留学生写作答卷上的错误,并准确使用“多词”(redundant)、“缺词”(missing)、“选词”(selection)和“词序”(word order)等评语标注错误,完成对留学生中文写作的批改。该人工智能被“投喂”了庞大的中文语言材料库后,处理一篇200字左右的作文只需5秒钟,其准确度和细致程度已经超出人工评卷的水平。在2021年广东等八省的高三适应性考试评卷工作中,广东省语文学科的名句名篇默写题已经使用人工智能评卷,但基于考试工作保密的原则,详情无从得知。
从以上事实来看,人工智能辅助评阅语文主观题,在技术层面应该是可行的。
三、人工智能用于评卷的几种方式
基于对人工智能的粗浅认识,人工智能运用于语文考试主观题评卷可以有以下方式。
(一)人工智能完全介入,独立评卷
语文试题中的名句名篇默写是有标准答案的,这样的评卷工作可以全部交由人工智能完成。因为与人相比,人工智能更擅长记忆、基于准则的推理、逻辑运算等程序化工作,擅长处理目标确定的事务。例如,数学、物理、计算机等理工科作业,评价标准客观且容易量化,自动化测评程度较高[8]。
(二)人工智能适度介入,形成“人工+智能”的评卷方式
采用“人工+智能”而不是全程“人工智能”的方式,这是一线教师比较支持的。在570份问卷数据中,赞同全部由人工智能评阅的占21.93%,赞同部分环节(错字、病句等有明确标准的部分)由人工智能评阅的占60.7%,赞同人工智能用于人工打分后二次质检的占17.37%。
“人工+智能”可以阶段性介入的方式,再细分为“先智能后人工”和“先人工后智能”两种情况。前者是先由人工智能识别宿构卷、套作卷或者抄袭卷等,减少人工评卷的难度和烦琐程度,经过第一步骤人工智能的筛选后再由人工评阅,提高评卷效率。或者人工智能完成初评,将问题卷或存疑卷提交评卷员人工评分,或者提交评卷组长仲裁。“先人工后智能”则相反,先进行人工试评,根据答卷情况和人工评定试评结果,调整形成人工智能可执行的评分标准,再交由人工智能阅卷。
使用“人工+智能”的方式评阅作文已有先例。2017年,首届中国汉语写作大会暨第五届楚才作文网络大赛使用了“人工智能汉语写作评价系统”,参照主题表达、破题立论、扣题结论、主题一致性、修辞与表达、字词文雅、用词能力、词汇量等标准,对作文进行加减分考核,而后经过专家人工修正,系统自我修正、自我完善评审规则,最终得到评价结果。
今天的人工智能必须依赖人类的参与才能运行。所谓“人类计算”,就是人类与人工智能协同工作。这是代码与人类智慧的融合,它正在迅速发展[9]。既然自动驾驶系统可以变成“司机助理”,那么,人工智能评卷系统也可充任“评卷助理”,成为测评工作的得力助手。如此,优质的评卷员不一定是人工智能,也不一定是教师,而可能是会使用人工智能的教师。
(三)不适合人工智能介入的评卷工作
完全开放、没有单一标准答案的主观题,涉及情绪情感、哲学思辨、审美鉴赏等,连人工评卷都存在诸多争议的题目,不适合人工智能介入。因为人工智能没有动机、责任感、伦理观念等,它不会被任何人操控,也无法自己发现问题,思考解决问题的方法。目前看来,人工智能尚不具备脱离人类独立、自主的能力,也没有掌握人类常识和基础知识的能力[10]。
四、人工智能用于评卷工作的障碍
目前,人工评卷的工作人员主要是一线教师,教师对人工智能的了解程度和支持度不甚乐观。570份样本的问卷调查中,在“您是否知道人工智能”这个问题上,选择“知道而且非常了解”的占19.65%,选择“知道但不是很了解”的占79.12%,选择“不知道”的占1.23%。对于“您是否知道人工智能已经运用于一些语文测评工作”的问题,选择“知道而且非常了解”的占9.47%,选择“知道但不是很了解”的占68.6%,选择“不知道”的占21.93%。以上两项数据说明,一线语文教师对人工智能以及人工智能应用于语文评卷工作的情况普遍不够了解。但这不妨碍较多教师支持人工智能评卷,在是否支持人工智能应用于语文评卷的问题上,接受人工智能应用于语文主观题评卷的教师占78.95%,选择“不接受”的占11.75%,9.3%的教师认为“无法选择”。
假如运用人工智能评阅语文主观题,一线教师认可的优点有哪些?认为“效率高”的占97.89%,认为“准确度高”的占31.93%,认为“精细度高”的占35.96%。显然,在繁重的评卷工作压力下,“效率高”是评卷教师的集中期待。那么,假如运用人工智能评阅语文主观题,教师的担忧是什么? 担心“机器做不到像人工一样认知,将导致误判”的占78.42%,担心因此影响教学、“误导学生迎合机器的标准答题”的占52.81%,担心“误导教师迎合机器的标准备考”的占44.56%,有9.65%的教师未做选择。教师具体担忧的内容比较庞杂,如:对于开放探究式题目,答案不固定,人工智能能否灵活处理?人工智能能否精准识别学生的手写答卷并评定?人工智能阅卷会不会导致同一意思不同表述的试卷被误改?人工智能阅卷会不会错过优秀答卷?总而言之,一线教师主要担心因文字表达的模糊性部分答案无法经由人工智能判断高下。也有教师不是出于对人工智能工作质量的担忧,而是认为人类不应该被机器选择和控制;人类不应片面追求效率和速度,而应更负责任、更人性化地对待考生,因为高利害的考试影响的是一个人、一个家庭乃至社会的未来与前途。
人工智能目前仍存在技术瓶颈,自然语言处理技术仍未足够成熟,其技术障碍将影响评卷的精确度。2020年,美国一款服务两万所学校的人工智能阅卷系统遭到质疑。该系统通过关键词评分,学生只要输入相应关键词,即使关键词之间并无关联,也能轻易获得高分。避免考生利用类似的漏洞作弊,识别关键词拼凑式的表达,应该是必须解决的技术问题。目前仍不能过高估计人工智能的技术水平,大多数现实世界的任务是在难以预判情况的前提下开展的。这意味着人工智能系统要完成现实世界的任务,就需要对世界上万事万物的运行规则有深入的了解和认识[11]。
除了技术障碍,财力障碍也是影响应用的一个因素。例如,AlphaGo本质上是一个通过中央处理器和图形处理器工作的围棋智能机器人,在挑战欧洲冠军的比赛中,需要1 202台中央处理器、176个图形处理器以及反映3 000万局数据的预测器和探索器。一场5小时的比赛,它耗能为3 000兆焦耳,需要消耗的电费为3 000美元,可见人工智能需要高昂的运营成本。
即便技术障碍和财力障碍都能克服,仍有一个最棘手的伦理障碍不能忽视。尽管笔者调查的近80%的教师乐意接受人工智能参与评卷,6D042zt0aE/XfYFlCw1hjg==但如果面向学生和家长开展调查,支持度恐怕会大为降低,没有考生敢于把自己的试卷或者说命运交给一台目前不知道是否已经成熟的机器。即便已经有了若干地市中考、外国语学院中文写作考试使用人工智能评卷的成功先例,但考生对人工智能的不信任将是其使用的最大障碍。
著名物理学家马克斯·普朗克说:科学在一次一次的葬礼中进步。曾经输给IBM深蓝计算机的世界国际象棋冠军加里·卡斯帕罗夫说:与其担心机器会做什么,我们更应该担心它们还不能做什么。在2020年人工智能与教育大数据大会上,中国教育国际交流协会会长刘利民表示,教育领域已成为人工智能重要应用场景之一,目前人工智能已经与教育领域深度融合,利用大数据开展的个性化学习已覆盖超千万学生。在2020年高考阅卷工作中,已有9个省针对语文、英语作文等主观性命题引入机器阅卷。所以,用科技将人们从单一的、机械的工作中解放出来,从事富于生产力和创造力的工作,这是科技进步带来的自由与发展,我们理应抱持乐观态度。
我们常说教育公平,它通常可以概括为起点公平、过程公平和结果公平,测评公平是结果公平之一种。如果人工智能技术介入测评,发挥其精确高效的优势,减少人工评卷的不利因素,对教育公平必将利大于弊,所以我们有理由期待科技带来的公平。因此,引入人工智能技术评阅语文主观题,宜有可为,且应有可为。
其实,人类对于人工智能的不足够信任,才是推行人工智能评卷的最大难题。
参考文献
[1][3]赵海燕,辛涛,田伟.大规模教育考试作文评分的趋中漂移和不准确性漂移研究[J].中国考试,2020(3):13-20.
[2] 佟威,赵静宇.高考语文写作整体评分与分项评分的实证研究[J].中国考试,2020(3):6-12.
[4] 温红博,杨建强.高考语文阅读主观题评分方法对考试质量的影响[J].中国考试,2020(3):1-5.
[5][10][日]野村直之.人工智能改变未来:工作方式、产业和社会的变革[M].付天祺,译.北京:东方出版社,2018:109,250.
[6][9][美]玛丽·格雷,西达尔特·苏里.销声匿迹:数字化工作的真正未来[M].左安浦,译.上海 :上海人民出版社,2020:14,2.
[7] 何屹松,孙媛媛,张凯,付瑞吉.计算机智能辅助评分系统定标集选取和优化方法研究[J].中国考试,2020(1):30-36.
[8] 任萍萍.智能教育:让孩子站在人工智能的肩膀上适应未来[M].北京:电子工业出版社,2020:34.
[11][意]皮埃罗·斯加鲁菲.人工智能通识课[M].张瀚文,译.北京:人民邮电出版社.2020:254.
(作者系广东省深圳市教育科学研究院高中教研中心语文教研员,中学高级教师)
责任编辑:孙建辉