英语作文自动评分发展历程的探究*
2015-07-24周志莲
周志莲
(桂林电子科技大学 外国语学院,广西 桂林541004)
一、引言
美国的埃利斯·巴滕·佩吉(Ellis Batten Page)在60 年代提出了使用计算机批改作文的想法,1997 年后PEG,IEA,E -Rater,Intellimetric,BETSY 等多个英语作文自动评分(Automated English Scoring,简称AES)系统相继在美国的大规模考试中得到应用。我国已经自主研发了一些AES 系统,如梁茂成的计算机辅助评分系统、句酷批改网、冰果、东方批改网,但是就信度、效度和应用范围来说,远远不如美国的AES 系统,而且无一系统能在我国大规模考试中得到应用,与之相关的学术介绍和研究也是鲜见。目前国内外关于AES的研究主要体现在三个方面:英语作文自动评分系统的总体介绍、基于各种自动评分系统的效度和信度研究和自动评分系统的技术介绍。本文将从AES 产生的教育背景和研究团队来介绍国外作文自动评分的发展历程,以期对我国AES 系统的研发与应用提供具有参考价值的研究资料。
二、作文自动评分发展的背景
作文自动评分是利用计算机技术在短时间内对大规模的学生作文进行自动批改,提供分数、甚至评语和改错建议等功能的机器批改行为。作文自动评分技术从探索到应用已经经历了四十个春秋。它的起源离不开测试和计算机辅助教学(Computer Aided Instruction,以下简称CIA)的发展。
1.作文测试评估的发展
(1)作文评估浪潮。教学理论往往影响测试题型。传统的外语教学方法主要是语法翻译法,因此传统的测试方法十分重视考察学生的语法、词汇、阅读、翻译和写作,但是当时的命题人因缺乏理论知识,常常忽略测试的可信性、客观性和科学性。对于现代的写作测试,Yancey 提出三次作文评估浪潮,第一次是1950 -1970 年的客观题测试,第二次是1970 -1986 年的作文全面评估(holistical writing assessment),第三次是1986 至今的porftolio 评估。三个浪潮是重叠的,第二个浪潮时期,写作的客观题测试题仍然存在,第三个浪潮时期,作文全面评估和客观题测试题依然用于写作评估的方式。
以选择题形式进行的写作测试在当时颇受欢迎,成为Yancey 描述的第一次写作评估浪潮的基石。例如,托福考试在相当一段长时间内只有客观性试题,直到1986 年7 月开始加试作文。1970-1986 年的作文全面评分(holistical writing assessment)主要指为保证测试的效度,模仿教室的写作教学进行主观题测试。同时为了提高测试的信度,设计了写作提示、评分导向以及计算评分的措施。第三次写作评估浪潮是1986 年至今的porftolio 评估,即指通过布置不同的多次作文进行评估,例如在教室环境下完成多次不同体裁的作文、比一次评估更有效。只要能解决测试成本、提高评估效度,这种常规评估是最合适的。porftolio评估目前已成为形成性评估或者一种学习方式。我国大学英语教学中,一般都采用porftolio 评估,一个学期布置四到五次写作作业来评估学生的平时学习成绩。
(2)AES 思想的形成。美国率先开展对自动评分系统的研发主要是源于中学生的作文量太多,无法及时批改,其次,聘人批改作文的成本高。总体而言,美国写作测试逐渐增多,不仅为教师增加了评分负担,而且人工评分耗时、耗钱,评分者还存在固有的主观性。因此,这个国家不得不通过技术解决这一难题,开发作文自动评分系统。
2.CIA 的发展与AES 的萌芽
如果说现代英语作文评估有四次评估浪潮,那么第四次就是作文自动评分。AES 的核心技术是计算语言学,它的实现离不开计算机技术的发展。埃利斯·佩吉和迪特尔·保卢斯1968 年出版的《计算机的作文分析》是研究作文自动评分的最早文章。但是以当时的技术,计算机作文评分的成本高、信度较低,遭到许多人的质疑,因此他们的AES 系统研发进度在后来的二十年里相当缓慢。
20 世纪90 年代以后,CAI 发展到新的阶段,主要表现在建构主义(constructivism)学习理论的应用和多媒体、计算机网络的广泛应用。在这一时期,虚拟现实在教育中得到应用,它允许学生与虚拟环境中的各种信息进行交互,学生在学习中的主动性、创造力得到较好的发挥,因此许多国家如美国、加拿大、澳大利亚等国都在学校中进行虚拟现实应用的实验,并取得引人注目的效果。90年代后,各国在发展计算语言学技术的同时,发展作文自动评分技术,其目的不完全在于解决学校批改作文的负担,有时是技术发展和竞争的结果。
二、国外作文自动评分的研究团队
1.PEG 和埃利斯·巴滕·佩吉
佩吉(1924 - 2005)被普遍认为是自动作文评分之父。1962 年佩吉到康涅狄格州大学担任教育心理学教授和教育研究局主任时,受到计算语言学,人工智能技术的启发,于是结合他的高中英语教学经验,从1964 年下半年开始研发PEG(Project Essay Grade )软件,主要使用代理量度标准(proxy measures)和最佳模拟人工评分的回归系数进行作文自动评分。1966 年应美国大学委员会的请求在康涅狄格大学与同事们创建初始版本,1973 年获得成功。1979 年到2002 年,佩吉到杜克大学任教,更新了PEG,直到1993 年,成立Tru-Judge 公司,挖掘此软件潜在的商业应用价值。该系统修改后的版本发布于20 世纪90 年代,通过使用自然语言处理工具增强了评分模型,如侧重语法检查器和语音终端标注(part of speech tagging)的句法分析。1997 年用于GRE 测试评估。
自动作文评分是探索计算机评估和学生写作,尤其是作文得分的一个多学科领域。自1966年佩吉提出计算机作文评分的可能性和出版相关的著作和介绍PEG 的程序,他发表了大量关于教育心理和教育评估的文章。佩吉在60 年代中期开发PEG 软件的开创性工作为紧随其后的20 世纪90 年代电脑作文评分技术的实际应用奠定了基础。
2.IEA 和皮尔逊知识技术集团
IEA(Intelligent Essay Assessor)系统由商业公司皮尔逊的知识技术集团(Pearson Knowledge Technologies)开发,使用托马斯·兰道尔开发的“知识分析技术”评分引擎,于1997 年首次投入GMAT 的评分使用。2004 年皮尔逊购买知识分析科技公司(Knowledge Analysis Technologies)后,成立皮尔逊知识技术集团。这家公司于2008 年收购了Ordinate Corporation,2011 年收购INTEGRE。知识分析科技公司由三位大学教授托马斯·兰道尔,彼得·福尔兹和达雷尔·拉罕姆1998年成立。当他们意识到需要改进测试评分,于是创造了唯一的自动文本分析技术,用于评估书面段落。统筹公司Ordinate Corporation 由两名斯坦福大学的教授贾里德·伯恩斯坦和布伦特·汤森于1996 年成立。他们认为有必要使用语音处理技术、计算语言学和心理缩放来开发口语测试系统并申请此专利。INTEGRE 由唐纳德·迪兰与山姆·杜利于1991 年创建。唐纳德是MathQuery的原创者,MathQuery 是构建- 响应数学的一个以标准为基础的自动化评分技术。山姆·杜利是W3C 数学组中的“特邀专家”。MathQuery 可以实现局部的信用评分,提供详细的分析和报告,并为学生提供纠正反馈。
皮尔逊知识技术集团综合了三家公司的实力,成为教育评估领域的佼佼者,具备了听说读写四种技能的测试评估系统。除了IEA,还拥有帮助提高和评估读写技能的WriteToLearn 系统、提高和评估阅读总结技能的Summary Street 系统、口语测试系统Versant 和汉语口语测试系统Spoken Chinese Tests。IEA 是基于潜在语义分析(LSA)技术基础上开发,利用线性代数模型分析作文的深层意义。该系统非常适合科技、社会研究、历史、医药或商业说明文的分析与评分,虽然主要在于评价文章内容方面的质量,但也包含了对语法、文体以及操作细节方面的评分与反馈。
3.Intellimetric 和华帝学习公司
Intellimetric 是华帝学习公司(Vantage Learning')的AES 引擎,一个投资超过千万美元的商用系统,于1996 年开发和1998 年用于商业用途。基于人工智能创建的Intellimetric,被世界各地领先的评估机构利用于高风险及进展性评估。Intellimetric 采用AI 和NLP 技术评估作文中的语义、句法、篇章三个层次的300 多项特征。Intellimetric 需要采用专家级评卷员已经评好分数的作文集进行训练,构建模型,然后用小点的测试集检测模型的效度和概括度。两项得到确认后,便用于作文自动评分。
自1990 年以来,华帝学习公司为学生成绩和学校改进提供了问责制的解决方案(accountability solutions)后,就以满足教育行业的需求为目标,不断提供成熟的技术和开发专业的资源来培养学生、家长和教师之间的有意义互动。凭借如人工智能,自然语言理解和基于Web 的学习对象、在线评估、教学计划和可定制的数据管理系统领域等技术,华帝学习公司被公认为教育行业的领导者。
4.E-Rater 和ETS
教育考试服务中心(ETS)提供的电子评价者是一个自动作文评分程序E -Rater,于1999 年2月第一次用于商业。ETS 的CriterionSM 在线写作评估服务使用电子评价者引擎E -Rater 提供分数和有针对性的反馈。E-rater 采用NLP 工具包分析所有的句子,包括词性标注器、句法分析器、篇章分析器、词汇相似度量器。E -rater 采用语料库方法建模,使用统计和自然语言处理技术来提取待评分文章的语言学特征,然后对照人工阅卷的标准作文集进行评分。E - rater 从1999年开始,已评阅超过750,000GMAT 作文,也被用于托福考试作文的评分。
吉尔·伯斯坦(Jill Burstein)是团队的领队,具有深厚的语言学学术背景,专业研究涉及计算语言学、自然语言处理、语料库语言学、文本分析、教育技术、教师培训等多个方面。她的产品和发明包括:E -rater 自动作文评分系统和ETS 的基于Web 的自动作文评价体系Criterion。
5.BETSY 和劳伦斯·拉德纳
BETSY(Bayesian Essay Test Scoring Ystem)由美国教育部投资、马里兰大学的劳伦斯·拉德纳(Lawrence M. Rudner)基于训练语料对文本进行分类而开发的程序,可以免费在线使用。文本分类采用的是朴素贝叶斯模型,系统也因此得名。
劳伦斯·拉德纳于1971 年获雪城大学(Syracuse University)的数学以及初级教育学士专业的理学学士,1973 年获西康涅狄格州立大学得教育理学硕士学位,1977 年获美国天主教大学的教育心理学博士学位,1991 年获马里兰大学的工商管理金融与创业专业的硕士。劳伦斯·拉德纳担任研究生入学管理委员会研究和发展会(GMAC)的副会长,工作包括测试验证,适应性测试,专业水准,QTI 规范,测试安全,数据取证,以及GMAT考试的监督合同。
从以上五个系统和研究团队的介绍,我们可以发现美国的AES 系统具有强大的团队、长久的高额投资,学术研究型的领军人物,并且获得广泛的应用,如表一。
三、国外作文自动评分的未来
美国的作文自动评分仍然在如火如荼地发展。2012 年,休利特基金会资助一个叫做学生自动评估奖(Automated Student Assessment Prize ,简称ASAP)的Kaggle 在线竞赛,目的在于表明AES是可靠的或者比人工评分更可靠。201 名挑战者参加比赛,被要求使用AES 系统预测评委打出的作文分数。在这场比赛中,9 个供应商的AES 系统对ASAP 数据进行独立的演示,结果表明自动作文评分能像人工评分一样可靠。美国教育部资助两个跨州联盟PARCC (artnership for Assessment of Readiness for College and Careers)和SBAC (Smarter Balanced Assessment Consortium)开发下一代的评估,这两个评估体系正在努力钻研,争取在2014 -2015 年学年实现基于计算机的测试。美国的作文自动评分正在有条不紊地进行,扎扎实实地迈向更高水平。
表1
四、总结
美国的PEG,IEA,E - Rater,Intellimetric,BETSY 系统拥有强大的团队,坚强的后盾和跨学科知识,并且不段更新系统,追求技术的成熟和应用的价值。然而,这些国外系统在评估中国学生的英语作文时,其评分结果与教师的人工评分结果存在着明显差异,并且它们也无法很好地检查与纠正中国学生英语作文中的常见英语单词错误与常见英语语法错误。如果我国对英语作文测试的信度和效度要求越来越高的话,作文自动评分将会成为我国大规模作文测试的主流方式。国外各种智能评分系统的技术涉及专利问题,虽然还未完全公开,但是丰富的理论研究对我国的研究团队不无裨益。只要我国继续在技术、人力和资金等方面加大对AES 研发的投入,同时教育部门提供相应的支持,我国的AES 将会拥有更加美好的前景。
[1] Herrington,Anne,and Charles Moran. “What Happens When Machines Read Our Students’Writing?”College English 63.4 (March 2004):480 -499.
[2]Semire Dikli. (2006). An Overview of Automated Scoring of Essays. The Journal of Technology,Learning and Assessment. Volume 5,Number 1.
[3]Semire Dikli,(2006)Automated Essay Scoring.Turkish Online Journal of Distance Education-TOJDE,ISSN 1302 -6488 Volume:7 Number:1 Article:5.
[4]Shermis,M. D.,Burstein,J.,Higgins,D.,&Zechner,K. (in press). (2010). Automated essay scoring:Writing assessment and instruction. In E. Baker,B. McGaw& N. S. Petersen (Eds.),International encyclopedia of education (3 ed.). Oxford,UK:Elsevier.
[5]Shermis,M. D. & Burstein,J. (2003). Automated Essay Scoring:A Cross Disciplinary Perspective. Mahwah,NJ:Lawrence Erlbaum Associates.
[6]Yancey,Kathleen Blake. “Looking Back as We Look Forward:Historicizing Writing Assessment.”CCC 50:3(Feb 1999):483 -503.
[7]陈潇潇,葛诗利. 自动作文评分研究综述[J]. 解放军外国语学院学报,2008,(9).
[8]葛诗利.面向大学英语教学的通用计算机作文评分和反馈方法研究[D].北京语言大学,2008.
[9]梁茂成,文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学,2007,(10).
[10]梁茂成.中国学生英语作文自动评分模型的构建[M].北京:语教学与研究出版社,2011.
[11]梁茂成.大规模考试英语作文自动评分系统的研制[M].北京:高等教育出版社,2012.
[12]何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教育技术,2003,(5).
[13]张梅,印勇.英语作文计算机评分技术综述[J].外语电化教学,2010,(11).
[14]张仲德,李雅萍.基于文本基础上冰果智能英语作文的分析与研究[J].长春大学学报,2013,(8).