英语写作中同伴互评评分量表设计初探
2016-06-17尹元山西传媒学院基础部山西榆次030619
尹元(山西传媒学院基础部,山西榆次,030619)
英语写作中同伴互评评分量表设计初探
尹元
(山西传媒学院基础部,山西榆次,030619)
[摘要]按照五个步骤为英语专业写作课堂同伴互评设计评分量表:制定评分细则;设定量表等级,描述各等级并赋值;分配权重;修订评分细则;效验评分标准。结果表明,设计的三级二十项分析性评分量表具有一定有效性和可行性。
[关键词]同伴互评;课堂评分标准;英语写作
一、研究背景
同伴互评是过程写作教学法的必要环节之一,指的是在写作过程中同伴之间相互审阅,并提出反馈意见的一种教学活动。近年来,同伴互评因其特有的优势已被广泛应用到英语写作教学中。不少研究者探讨了同伴互评在大学英语写作中实施的有效性和可行性。研究表明,同伴互评能够提高学生的自主学习能力(Lee,1998)[1],激发学生的写作兴趣(张春玲,2008)[2];学生通过阅读同伴作文发现问题的过程,可以帮助他们树立文本输出过程中的读者意识(Keh,1990)[3];实施同伴互评可促使学生在讨论、反思过程中分析问题、解决问题,有利于培养学生的思辨能力(刘建达,2013)[4]。此外,同伴互评可以极大地减轻教师批阅作文的工作负担。
在实施写作同伴互评活动的过程中,评分标准是不可或缺的一部分。一方面,作为评阅者的学生需要一个统一的、便于操作的评分标准,以保证评分过程的客观公正、有据可依;另一方面,被评阅者通过评分标准及评分报告,能清楚地了解自己作文的优点和问题,进而采取相应修正训练,不断提高写作水平。然而,目前已有的英语写作评分标准是针对大规模测试的,不适用于课堂测试。白丽茹(2012)[5]尝试编制了针对大学英语基础写作中记叙文和说明文的同伴互评反馈模式测量评价表。本研究设计的英语写作课堂评分标准为师生提供了清晰完整的教学反馈信息,且易于理解、便于操作。
二、研究设计
Weigle(2002)[6]从信度、结构效度、实用性、作用和真实性等方面总结了整体评分量表和分析评分量表的优缺点。根据比较结果,我们认为分析评分量表能提供较详细的诊断信息,更适用于课堂测试。因此,我们为写作同伴互评设计了分析性评分量表,设计过程包括五个步骤:制定评分细则;确定量表等级,描述各等级并赋值;分配权重;修订评分细则;效验评分标准。
(一)评分细则的制定
在制定评分量表细则过程中,我们着重考虑了两个方面的因素一是英语专业写作教学大纲(2000)[7]的要求。大纲除对字数、写作速度及应用文和毕业论文的要求外,明确说明了英语短文写作方面的入学要求(无严重语法错误,意义表达清楚)、二级要求(内容切题,条理清楚,语言正确)、四级要求(内容切题,结构严谨,条理清楚,语法正确,语言通顺,表达得体)、六级要求(语言正确,表达得体,具有一定的思想深度)和八级要求(内容充实,语言通顺,用词恰当,表达得体)。由此,我们概括出英语专业写作教学的目标是从内容、结构、语法和语言等方面来设定的。二是英语专业四、八级作文评分标准。从评分标准可以看出,国内较为权威英语测试写作评分标准包括:能够按照题目要求完成内容相关、体裁正确的文章;能够按照英语语言习惯合理组织文章;能够写出语法正确的句子;能够根据写作目的和目标读者选择恰当的表达;能够正确使用标点符号、大小写及拼写等。综合考虑,我们提炼出写作评分的五条标准:内容、组织、语言、体裁和机制。
结合英语写作课堂教学及文章基本构成要素,我们从词汇、语句、段落、篇章、任务要求、对读者的吸引力和写作格式等方面具体描述了五条标准,共25条细则。基于这些细则,我们设计了五分制量表调查问卷,邀请了17名大学英语教师参与问卷调查,要求他们结合自己的作文评改经验,根据细则的重要程度进行打分。得分相对低(平均分低于3.00)的细则被剔除(第3、12、25项),其余22条细则的描述性统计见表1。
表1 22条评分细则的描述性统计数据(N=17)
(二)评分细则等级的确定
考虑到该评分量表主要为学生互评设计,而学生的等级区分能力逊于有经验的专业教师,三级评分量表更易于学生把握,因此,每项评分细则被划分为优、中、差三个等级。在描述评分细则时,我们采用了《Classroom Assessment for Student Learning》(R.J. Stiggins, et al.,2004)一书中提到的方法。具体做法如下:从山西省五所高校随机选取150名学生就同一题目(My View on Online Shopping)完成作文,再请两名有教学经验的英语教师将这些文章按22条细则粗略分成优、中、差三类,并提供每篇文章的归类依据。我们将分类依据整理、合并、修改,形成了21条评分细则、三个不同等级的描述。
该评分标准拟用于不同体裁的英语作文评分。英语作文体裁根据语篇形式,可以分为记叙文、描写文、说明文和议论文(Weigle,2002)[6],四种体裁在功能、组织和语言上均有不同,具体差别见表2。在写作评分中,我们应根据体裁的不同,调整评分细则。本研究以议论文为例。
表2 四种作文体裁之间的区别
注:引自Designing Tasks for the Assessment of Writing (Ruth & Murphy,1988)。
(三)权重
关于写作评分标准的权重,学界有不同的观点。Hamp-Lyons(1991)认为,如果同一标准中某一评分细则的权重高于其他评分细则,采用整体评分法更合适。Weigle(2002)[6]认为,给写作评分细则分配不同的权重可能会给最终得分带来不利影响,并给基于分数的决策以及数据分析带来问题。另一种较为普遍的观点认为,与形式、规范等相比,评判性思考技能(如内容)应被赋予更大的权重(Jacobs,et al.,1981)。
作文评分标准的权重体现的是各细则的重要程度。在实际应用中,我们建议教师根据不同教学内容来确定权重,这样最终成绩更能体现课堂教学的实效。为了方便采集数据,我们采用的是等值权重。
(四)评分细则的修订
该评分量表拟应用到同伴互评中。在最后阶段,我们考虑了学生评分员使用该量表的感受和建议,随机选取了山西某高校10名英语专业二年级学生参与修订实验。我们将评分标准、评分报告和一份学生作文样本分别发给10名学生参与者。在没有进行培训的前提下,要求学生根据所给标准对作文进行评分,并填写评分报告。评分完成后,要求学生书面回答:在使用评分标准过程中是否遇到困难?如有,请说明。根据学生的反馈意见,我们对评分标准作了如下修改:删除了“内容创新性”这一细则;“用词恰当”这一细则表述不够明确,进一步补充了“在特定语境下能从近义词中做出正确选择”。
三、评分标准的效验
初步成型的评分标准需要进行最终定稿前的试测,以此来判断该标准是否具有信度和效度。我们主要效验了量表的评分效度(信度)、效标关联效度和结果效度。
(一)参与者描述
参与效验量表的是山西某高校英语专业大三的30名学生,他们已经通过英语专业四级考试,且在写作教师指导下进行过同伴互评训练。
(二)评分员的培训
由于写作评分是主观性评分,评分员之间和评分员内部不可避免会出现不一致。Bachman和Palmer(1996)认为,导致这种不一致性的主要原因在于:(1)对评分量表的理解不同;(2)对评分标准的宽严把握不同;(3)对评分标准以外因素的考虑不同。他们提出,解决这个问题最有效的方式之一是对评分员进行培训。我们对评分员进行了两小时的培训,帮助其理解和熟悉评分量表。我们为评分员逐一详细解释了每条细则的含义,评分员根据评分标准独立为同一篇习作评分,并按要求给出每条细则的分数和总分,同时记录评分依据。若在评分过程中遇到问题,评分员可以与教师和同学讨论。学生评分完成后,我们给出教师的评分结果,并做出相应解释。最后,学生评分员和我们共同讨论评分差异。通过培训,评分员进一步明确和统一了评分量表的使用。
(三)数据的收集与分析
受试的30名学生在课后完成我们布置的作文题目(My View on Income Gap),作文样本收集后,统一编号,但不署名。数据的收集过程,具体分为三个阶段。第一步,将评分量表(附录1)、评分报告(附录2)和作文样本随机分发给受试者(要避免学生拿到自己的作文),每人一份。要求学生在50分钟内按照评分量表为作文评分,并填写评分报告。在评分过程中,允许学生互相讨论或者请教老师,但不许在原稿上标注任何评论和分数。评分完成后,与同桌互换作文,再评一份。这样,每份作文有两个评分,两个成绩的平均分为最终学生评分。第二步,30份作文样本分别由两位英语教师按专业英语四级作文评分标准评分,两位教师的平均分为最终教师评分。第三步,选取其中15名学生,按专业四级考试成绩分为三组,每组5名。75分以上为高分组,67-75分为中等成绩组,67分以下为低分组。三组学生按第一步评分要求为30份作文样本评分。所收集的数据通过SPSS15.0软件进行处理。
(四)效验结果与讨论
1.描述性统计。从表3可以看出,作文样本中修辞平均分最低(0.95),标点和大小写最高(4.9);标准差显示,各细则离散趋势较小,因为每条细则只有三个等级,且各等级间分差较小;偏值和峰值显示,除主题句、篇题句、修辞和标点及大小写外,其他各项都呈正态分布。忽略样本大小的影响,我们认为原因在于受试学生对主题句、篇题句、标点及大小写掌握较好,对于修辞的应用较差。
表3 评分细则的描述性统计(N=30)
2.内部信度,即评分员内部一致性。本研究中,信度是通过计算阿尔法系数效验的,表4显示了高、中、低三组学生评分员的相关性。平均分从低分组评分员到高分组评分员逐渐增加,而标准差逐渐降低。三个学生评分组之间的相关系数(0.984 8)较高,原因有三方面:一是因为三组学生均通过了专业英语四级考试,英语水平相差不大,由自身语言能力对评分造成的影响不大;二是由于评分前进行了认真、充分的培训,一定程度上减小了评分误差;三是说明所设计的评分量表细则表述详尽,有效减少了学生评分员在理解量表时的不一致。
表4 不同水平学生评分的相关性(N=30)
3.效标关联效度。效标关联效度是指测验分数与某一外部效标间的一致性程度,即测验结果能够代表或预测效标行为的有效性和准确性程度(Bachman & Palmer,1996)。本研究中,我们检测的是所设计的评分量表与专业四级评分标准之间的一致程度。使用SPSS15.0计算教师评分和学生评分的斯皮尔曼相关系数(见表5),其中,教师使用的是英语专业四级作文评分标准,学生使用本研究设计的评分量表。效验结果表明,相关系数为0.767(p<0.01),相关度较高。这表明,两个评分标准所测量的内部特质基本一致,两者具有较高的效标关联效度。
4.后果效度。后果效度用以度量测试对于社会、学校和个人的作用及影响。本研究中,我们与参与实验的两位教师和六名同学进行了访谈。教师们认为,使用新的评分量表后,学生评分过程更加顺利;通过阅读评分报告单,他们能够明确学生写作中存在的问题;详细的评分报告有助于为下一步教学提供诊断信息;学生的评分态度和责任心会影响评分结果。学生们普遍认为,使用评分量表参与评分过程使他们进一步明确了写作要求,发现同伴写作存在问题的同时,对照检查自己是否存在同样问题;通过对照量表,和老师及同学讨论解决问题,思路更清晰,印象更深。
表5 教师评分和学生评分的相关性
从效验结果可以看出,不同英语水平的学生使用该量表评分并未出现较大不一致,即内部信度较高。师生评分的相关系数较高,表明研究设计的写作评分量表与英语专业四级写作评分标准所测的写作特质基本一致。访谈结果进一步说明,使用新评分量表的同伴互评可以产生积极的后效。总之,新设计的评分标准在一定程度上是有效可信的。
四、结语
新评分标准对英语写作教学和测试改革有重要意义。首先,它能为师生提供更完整详实的反馈信息,有助于学生了解自己写作的长处和问题,教师可利用获得的反馈有针对性施教。其次,它能提高学生写作互评的能力,使课堂写作互评成为可能,既减轻教师评改负担,又使学生成为课堂活动的中心,从而提高英语课堂写作教学和评价的效率。尽管设计力求考虑周密,但本研究仍是探索性的,有必要对不同实验对象进一步进行大样本的实证研究,从而避免对研究结果的误用。
[参考文献]
[1]I.Lee.Supporting greater autonomy in language teaching[J].ELT Journal,1998(4):282-289.
[2]张春玲.在英语教学中开展同伴互评的探索性研究[J].首都经济贸易大学学报,2008(2):126-128.
[3]C.L.Keh.Feedback in the Writing Process:a Model and Methods for Implementation[J].ELT Journal,1990(44):294-304.
[4]刘建达.创新英语专业测评体系,引领学生思辨能力发展[J].中国外语,2013(1): 4-9.
[5]白丽茹.大学英语写作中同伴互评反馈模式测量评价表的编制[J].现代外语,2012(2): 184-192.
[6]Weigle,S.C.Assessing Writing[M].Cambridge:Cambridge University Press,2002:95-142.
[7]高等学校外语专业教学指导委员会英语组.高等学校英语专业英语教学大纲[Z].北京:外语教学与研究出版社,2000:8-11.
[责任编辑:康光磊]
The Design of a Rating Scale for Peer Assessment in EFL Writing Classroom
YIN Yuan
(Department of Basic Courses, Communication Universityof Shanxi, Yuci 030619, China)
Key Words:peer assessment; rating criteria in classroom; EFL writing
Abstract:This paper intends to design a rating scale for peer assessment in EFL writing classroom. It’s was developed through five phases: formulating the detailed rating rules of writing; setting the number of rates, describing their performance standards and assigning a numerical value; assigning the weight properly; making the revision; making the validation. The research shows that the three-level analytic rating scale that including twenty items is reliable and practical to some extent.
[中图分类号]G642
[文献标识码]A
[文章编号]2095-106X(2016)01-0062-04
DOI编码:10.13782/j.cnki. 2095-106X.2016.01.014
[收稿日期]2016-01-20
[基金项目]山西省软科学研究项目“通识教育理念下英语专业综合英语教材处理研究”(507)
[作者简介]尹元(1985-),女,山西原平人,山西传媒学院基础部教师,主要研究方向是应用语言学及语言测试。