网络作文自动评分系统的评述和发展
2014-03-13吴晓萍
吴晓萍
(闽江学院,福建 福州 350108)
网络作文自动评分系统的评述和发展
吴晓萍
(闽江学院,福建 福州 350108)
基于计算机网络的作文自动评分系统能够在一定程度上解决教师作文评阅负担重和人工评分存在主观影响的问题。本文对国内外出现的作文自动评分系统及相关研究现状做了评述,认为依靠计算机系统评阅作文的信度和效度还有待进一步证实。
作文自动评分系统 英语写作 作文自动评阅 人工评分
1.引言
写作是语言学习的四大技能之一。在语言测试中,作文常常作为检测学习者综合应用能力的手段。英语写作和评阅是我国高校英语写作教学中的重要环节,然而,大量英语教师反映作文评阅是最费时费力的工作。另外,由于作文评阅带有极大的主观性,即在作文评阅过程中分数的给定依靠评阅人的主观判断。而大规模评阅过程中评阅人个人因素可能会影响对作文质量的客观评价,从而影响作文得分。近几十年来,随着计算机技术的快速发展,自然语言处理技术得到了很好的发展,国内外相继开发出了一些作文自动评分系统,使长期困扰英语教师的作文评阅难题有望得到解决。
2.作文自动评分系统的简介
作文自动评价系统 (AEAS,Automated Essay Assessment System)是一个通过计算机和网络实现对书面作文进行评估打分并提出改善建议的应用软件,主要应用于大规模作文测试评分。该系统的应用大大改善了教师批改作文耗时耗力的状况,具有快捷、省力等优势。而且,计算机评分不存在人为因素的干扰,评阅结果更具客观性。近年来,国外许多考试研发机构均已将计算机自动评阅系统应用于作文评分过程。一些大规模国际化英语考试,如托福、GMAT等也已开始广泛应用计算机自动作文评阅系统。目前,国内出现了一些依托网络的英语作文自动评阅系统,比较知名的有“冰果智能作文评阅系统”和“句酷批改网”等。这些系统不仅可以为学生的作文评分,还能利用计算机智能识别技术,快速找出作文中的错误,并通过网络实时反馈给学生。
3.自动作文评价系统的研究综述
3.1 国外研究现状
自动作文评价系统在上个世纪60年代就已经在国外开始研发。目前国外已经成功研发出了如PEG,IEA,E-rater,IntelliMetric,Jess等多种作文自动评分系统。梁茂成和文秋芳对国外最具代表性的三种作文自动评分系统:PEG(Pmjeet Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater进行了述评。PEG是资格最老的作文自动评分软件,PEG基于浅层的语法特征,主要对作文形式进行分析,其不足在于只衡量作文的语言质量,并未涉及作文内容和篇章结构。而IEA注重对作文内容的分析,能合理客观地分析作文内容的质量,不足的是其未顾及作文的语言质量,对文章的篇章结构也不做分析。在用GMAT作文所做的一次试验中,IEA与人工阅卷的基本一致性在85%到91%之间[1]。然而,对作文进行评分一般要从语言、内容和篇章结构三个主要方面对作文的整体质量加以衡量。以上两种系统的评分效度受到较多质疑。E-rater是ETS(Educational Testing Service)开发的一套作文自动评分系统,从1999年开始已被应用于GMAT的作文评分环节。E-rater采用的是整体评分方式,而非传统的分析性评分方式。由于综合使用了统计方法和自然语言处理技术,E-rater提取的反映作文质量的语言特征更符合人工评分标准。据称,E-rater应用于GMAT的写作评分时,与人工评分的一致性高于97%[2]。相对于PEG和IEA,E-later既注重形式又注重内容,考虑到了更多的作文评分要素,因而更符合写作测试的要求。梁茂成、文秋芳认为虽然这些评分系统在训练及作文人工评分方法和机器评分效度等方面存在一些问题,但不可否认的是这些作文自动评分系统为我国自主开发作文自动评分系统提供了借鉴[3]。
3.2 国内研究现状
我国对基于计算机的自动作文评价系统的研究起步较晚。最早涉足自动作文评分领域的是梁茂成。他开发的“大规模考试英语作文自动评分系统”已于2005年申请了国家专利,并得到了很多知名学者的肯定。他的研究采用220篇已评分的作文样本,以其中120篇样本作文为基础得到评分模型后,再通过另外100篇作文样本对该模型的可信度进行了交叉验证[4]。梁茂成的建模方法兼顾了PEG和lEA的长处,取得了较高的评分准确率,与人工评分相关系数高。但由于作文样本来源数量少,范围窄,且提取的特征主要是文本浅层特征,未涉及文章的句法结构及搭配和词块的使用,因而有待于进一步验证与加强。
国内一些企业开发了适用于高校的英语作文自动评分系统。2009年,浙江大学外语学院与杭州一家网络科技公司联合开发了一款名为“冰果英语智能作文评阅系统”的计算机自动评阅系统。据称该智能评阅系统的准确率可达到95%。但部分使用该系统的老师表示电脑打分与人工打分有出入,而学生则反映电脑无法指出作文错误所在。由于该系统侧重作文整体评分,只给出总体得分和评语,而没有指出单词拼写、语法和篇章结构等方面的错误,因此该系统还需进一步改进。
目前各高校正在推广的另一款作文自动评阅系统叫句酷批改网(www.pigai.org),是一项基于语料库和云计算的在线英语作文自动评改系统。该系统的原理是比较学生作文和标准语料库之间的差距,并通过固定的算法得出分数和评语。对于每篇作文,该系统除了生成总分外,还可得出词汇、句子、篇章和内容四个方面的分数。同时,对文章生成总体的评语,还能通过比对语料库生成信息,对拼写错误、语法错误、中式英语、高分句型和易混词汇等做出点评和提出修改建议。学生可以根据这些反馈信息对自己的作文进行多次修改,在不断修改的过程中提高作文水平。因此,该系统在减轻教师批改英语作文工作量的同时还能提高学生的英语写作能力。此外,教师还可以在自动评阅的基础上对机器生成的分数和评语进行人工修改和补充,做到机器智能和人工智能互补。
目前,对以句酷网为代表的在线写作自动评分系统的使用,国内一些语言研究者如石晓玲、顾成华等做了相关实证研究,通过实验和问卷调查发现该系统在使用过程中的一些问题。例如,石晓玲认为,在线写作自动评改系统的实时反馈能力有效激发了学生的写作兴趣,增加了作文的修改频次,达到了以评促学的目的。但由于系统自身的技术特点,仅在词汇和语法层面给予学生帮助,在篇章结构、内容逻辑性和连贯性层面的优势并不明显[5]。顾成华认为,为了降低网上批改不恰当的点评对学生带来的不良影响,教师必须添加人工批阅意见,需要花费很多时间在电脑上录入,反而增加了教师的工作量[6]。
4.作文自动评分系统存在的问题及未来发展
基于计算机网络的作文自动评阅系统虽然对减轻教师评估作文负担和避免人工评分的主观性有很大帮助,然而,短时内在线自动评阅仍无法完全替代人工评阅。目前,自动评分系统只能针对学生的语法、词汇难度及句法进行基本评价考核,而对学生作文的语义、内容与主题的关联度,以及作文是否符合任务要求等却无法判断。因此,作文自动评阅系统的评分只是对作文语言质量的一个大概评估,无法全面评估学生的英文写作水平。
梁茂成等认为,作文自动评分系统在对评分模型进行训练时,应该最大限度地模拟人工评分过程,使用分析型评分方法以提高作文评分信度。分析型评分虽然耗时费力,但若组织为数不多的几名资深评分员采用分析型评分方法对训练集作文进行精细评分,考虑作文的语言质量、内容质量和篇章结构质量等评分要素,以相对较小的投入对计算机评分模型加以训练,换取大规模考试中较高的评分信度,理所当然是值得的[3]。
尽管现行开发的电子评阅系统与人工评分已有较高的相关系数,但依靠计算机系统评阅作文的信度和效度还有待进一步证实。如何将计算机客观评价学生作文与教师主观评价巧妙结合起来,在省时省力的同时兼顾作文评分的信度和效度,是未来语言教育者需要解决的问题。
[1]Valenti,S.,F.Neri&A.Cucchiarelli.An Overview of Current Research on Automated Essay Scoring[J].Journal of Information Technology Education,2003(2):319-330.
[2]Burstein,J.The E-rater scoring engine:Automated essay scoring with natural language processing[C].M.D.Shermis &J.Burstein.Automated Essay Scoring:A Cross-disciplinary Perspective.Mahwah,NJ:Lawrence Edbaum Associates,2003:113-122.
[3]梁茂成,文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学,2007(5):18-24.
[4]梁茂成.中国学生英语作文自动评分模型的构建[D].南京:南京大学博士论文,2005.
[5]石晓玲.在线写作自动评改系统在大学英语写作教学中的应用研究——以句酷批改网为例[J].现代教育技术,2012(10):67-71.
[6]顾成华.基于句酷批改网的大学英语写作教学实证研究[J].云南社会主义学院学报,2012(3):213-214.