大学英语写作的评分标准维度研究*<br/>——基于Writingroadmap和批改网的评分对比

大学英语写作的评分标准维度研究*
——基于Writingroadmap和批改网的评分对比

2015-03-13左映娟冯

现代教育技术 2015年8期

关键词：评分标准维度实验组

左映娟冯蕾,2

（1.北京交通大学语言与传播学院，北京 100044；2.北京外国语大学中国外语教育研究中心，北京 100089）

大学英语写作的评分标准维度研究*
——基于Writingroadmap和批改网的评分对比

左映娟1冯蕾1,2

（1.北京交通大学语言与传播学院，北京 100044；2.北京外国语大学中国外语教育研究中心，北京 100089）

分项式评分标准对英语写作教学的正面作用及缺陷均受到了研究者的关注，而在诊断性评估中使用何种评分维度也一直是困扰学界的主要问题。文章基于两个诊断性写作测试网站对大学生写作能力的评分，分析了27名实验组学生和90名对照组学生使用不同分项式评分标准之后的成绩。通过数据采集和分析，并借助写作教学、写作测试的理论，文章发现：分项式评分标准适合大学英语写作教学的诊断性评估，但是评分标准的呈现方式以及成绩的呈现方式都影响写作能力的提高；同时，分项式评分标准对学习者写作能力不同方面的影响受写作教学时间长短的影响。

大学英语写作；分项式评分；评分标准维度

引言

评分标准的维度设定以及呈现方式是诊断性写作测试研究的关键问题，原因有三:一是教师会依据评分标准对学生的作文水平做出评价；二是在诊断性写作测试中，学习者会经常参照评分标准调整自己的写作方式，以获得较高水平的作文；三是在课堂教学中，教师会依据评分标准为学生讲解写作中应注意的问题。

随着诊断性写作测试在教学中的使用，诊断性写作测试评分标准维度已经引起了研究者的关注。但在目前的教学实践中，教师大多仍然采用整体式评分标准或者简单的分项式评分标准来指导学生的写作、评价学生的写作水平。开发何种维度的分项式评分标准以适应目前大学英语诊断性写作测试，是写作测试界及教学界亟需解决的问题。

本研究建立在目前有关诊断性写作测试评分标准研究的基础上，以某校大学一年级新生为研究对象，探究适合大学英语诊断性写作测试的分项式评分标准维度，以推动大学英语写作教学的发展，并探求诊断性写作测试评分标准维度设定的原则。

一文献综述

随着整体评分法反映出的问题凸显，分项式评分法逐渐引起了英语写作教师和研究人员的关注。研究文献显示，对分项式评分标准的研究主要集中在三个方面:一是其有用性研究，二是对它的质疑，三是对评分标准维度的探讨。

研究显示，在诊断性写作测试中，分项式评分标准有助于学生提高写作能力。Knoch[1]从理论的角度分析了分项式评分标准在诊断性写作测试中使用的可行性，并通过对评分者的访谈发现，如果分项标准准确、详细并经过实验验证，可以使评分员更好地区别写作能力的不同方面。Knoch[2]还在学术英语写作测试中进行了整体评分标准和分项式评分标准的对比研究，结果也证明分项式评分标准更有优势。李清华等[3]通过实证研究，分析了分项式评分标准在我国大学英语专业四级写作评分中的使用，认为其“能够为写作教学提供详尽的反馈信息，更全面地反映受试者的写作能力”。李清华[4]还对比了大学英语专业四级写作评分中整体式评分标准和分项式评分标准的质量，指出分项式评分标准在评分员评分的一致性、稳定性、公平性及区分能力等方面优于整体式评分标准。在将分项式评分标准的问题应用于我国大学英语写作教学的研究中，冯蕾等[5]的实证研究显示，在诊断式写作测试中采用分项式和整体式混合的评分方法，可以有效帮助学习者了解写作的要求，并能通过不断练习掌握写作的技巧、提高写作的能力。

与此同时，对分项式评分的质疑仍然存在，一些研究者认为分项式评分标准不能公正地评判写作样本。如 Hill等[6]的研究发现，分项式评分标准的各个维度可能会互相干扰，教师对各个维度的重视程度也会有差别。罗娟[7]对比了整体评分和分项式评分标准在写作测试评分中的作用，发现整体评分法比分项式评分法效率更高。Weigle[8]认为分项式评分的缺点在于，习惯使用整体法的评分员在使用分项式评分时仍然会调整各个分项得分，以迎合最后的整体评分。

分项式评分标准的另一个研究问题是使用何种评分维度，这是此研究领域中存在的主要困惑。目前较为著名的分项式评分标准包括:Jacobs等[9]提出的评分量表，包含5个维度；孙海洋等[10]通过实证研究提出，分项式评分标准中的维度应该包含语言、内容和思想。将这些评分标准的维度应用于诊断性写作测试的研究中时，Knoch[2]在学术英语写作测试的实证研究中使用了8个维度的分项式评分标准，包括准确性、流畅性、复杂性、规范性、读者和作者的交互性、内容、连贯性和统一性。

上述研究成果为我国大学英语诊断性写作测试中评分标准的研究提供了借鉴，但目前对诊断性写作测试中使用何种评分维度尚未形成定论，对不同分项式评分标准的对比研究也不多。本研究试图在这方面做一次尝试。

二研究问题及研究设计

1 研究问题

本研究的主要内容是通过实证研究，探讨某校大学一年级学生英语诊断性写作测试的评分标准维度，为此设计了下面三个问题:

（1）诊断性写作测试的分项式评分标准是否会对学生的写作水平产生影响？

（2）诊断性写作测试的不同评分标准维度对学生产生的影响主要体现在什么方面？

（3）什么样的诊断性测试的评分标准维度对大学生的英语写作水平更有帮助？

2 研究对象

本研究以非英语专业的136名大学本科一年级学生为研究对象，他们被分成实验组和对照组两个组，分别使用不同的写作教学辅助网络平台，以完成写作教学的诊断性测试。其中，实验组包括1个教学班，共34人，使用Writingroadmap；对照组包括2个教学班，共102人，使用批改网。根据最终收集的有效样本，实验组有27人，对照组有90人。在一个学期的实验周期中，两组的学生在同一位老师的指导下学习英语综合课程，教学内容相同；教师对两组学生的写作指导也基本相同，即结合教学单元中的阅读文章讲授写作；写作练习方式也基本相同，即先在网络平台上布置写作任务，待学生完成、评分系统打分后，教师挑选其中的两篇文章(一篇是优秀作文的代表，另一篇是有明显缺点的习作)在课堂上讲评。所不同的是讲评时侧重的评分标准有所不同——实验班根据Writingroadmap的评分标准，而对照班根据批改网的评分标准。

3 研究工具及其特点

本研究使用的工具是Writingroadmap和批改网这两个写作教学网络平台，它们的共同点是都将整体评分和分项式评分相结合，不同之处体现在其分项的维度、反馈的方式和分值的设定三个方面。

Writingroadmap从篇章结构（Organization）、思想内容（Development）、句子结构（Sentence Structure）、词汇语法（Word Choice / Grammar Usage）和写作规范（Mechanics）五个维度评分，每个维度满分均为6分；此外还就整体水平进行总体评分，满分也是6分。这五个维度和总体评分分别打分，其分值并不是各分项按一定比例的合成。学生提交作文、得到系统打分后，可以得到各个维度的评分，并即刻得到网络系统基于语料库的写作指导。该指导会描述学生习作在每个维度的具体表现及其和标准之间的差距。

批改网的整体评分分值为100分，在整体评分的同时，还会将词汇、句子、篇章结构和内容相关度列入评分范围，但这几个维度不出现具体分数，而是以滚动条的形式显示各项实现的程度。除了分数的反馈，批改网还提供“句酷提示”、“体检报告”和“按句点评”，前两者是词汇、段落、句子、从句和词性等各方面的统计，而“按句点评”会具体提示学生习作中出现的各种语法错误、拼写错误、用词不当、标点符号错误、中式英语等。

从两个网络平台的评分维度和反馈方式可以看出，Writingroadmap的评价标准注重语言和内容的全面评价，而批改网对语言评价关注得更多。

4 实验过程

当实验开始时，两组学生都参加了本研究的前测。前测要求学生在 40分钟的时间内，以“Purpose of Education（教育的目的）”为题，完成一篇150字的短文写作。题目中给了一句引言“The primary purpose of education is not to teach you to earn your bread, but to make every mouthful sweeter.（教育的首要目的不是教你怎样挣来面包，而是教你每一口都吃得香甜）”作为引导，使学生对这个题目的范围有明确的理解，写作的方向相对统一。同时，考场受到严格控制，保证学生都是在限定的时间内独立完成写作任务。

之后，两组学生分别在两个网站完成3篇英文习作，且实验组和对照组的题目相同:第一篇题为Health or Wealth（健康或财富），同样用一句引言引导:“So many people spend their health gaining wealth, and then have to spend their wealth to regain their health.（许多人为获得财富而牺牲健康，却不得不为重获健康而花费钱财）”；第二篇题为Let the Classics be Classics（让经典永为经典），题目后给了中英文说明:“Some people hold the view that the classics are classics because they have stood the test of time. Therefore, they are to be treasured by people of all generations, ours being no exception. Others believe that the classics represent the wisdom of the past. As we are advancing towards the future, it is our responsibility to venture into the unknown and generate new understanding of man and nature. What is your view on this issue? （有些人认为经典作品之所以经典，是因为他们经受住了时间的考验。因此，每一代人都应该将他们视为珍宝，我们这代人当然也不例外。也有些人认为经典著作代表着过去的智慧。我们正大步迈向未来，我们的责任是探索未知的世界、发掘对人与自然的新认识。对此，你有何看法？）”第三篇题为Film-goers and TV Watchers（电影观众和电视观众），这是一篇图表作文，学生根据统计图描述看电影和看电视的人数变化情况，并分析这一现象。实验结束前，两组学生参加了本研究的后测，后测的要求和方式与前测相同。题目为 What does Education Mean（教育的意义何在）？同样用一句引言“Education does not mean teaching people to know what they do not know; it means teaching them to behave as they do not behave.（教育的意义不在于教给人们他们不知道的东西，而是教给他们原本不会的行为方式）”作为引导。

三研究结果

1 成绩总体对比

在此次诊断性写作测试实验中，两组学生使用了不同的写作测试软件。对比实验组和对照组前测和后测的成绩（如表1所示），可以发现实验组的同学在实验结束后，成绩没有显著提高（0.327〉0.05,说明两次考试之间的成绩没有显著差异）；而对照组学生的成绩有了显著提高（0.000〈0.05,两次考试之间有了显著差异）。这个结果说明，经过一个学期的练习，使用批改网的对照组学生，获得网络平台的帮助较为明显，写作水平的提高幅度较大；而实验组学生获得Writingroadmap网络平台的帮助不明显，进步幅度也不大。

表1 实验组和对照组前测后测对比

2 实验组成绩不同维度的变化

实验组的学生所使用的网站给出了学生作文每一个维度的得分，来对比学生实验前和试验后的作文水平，如表2所示。

表2 实验组不同维度的前后成绩变化

上述结果显示，学生在五个维度上均未表现出太大的差异:篇章组织前后对比的p=0.615〉0.05，论点发展前后对比的p=0.129〉0.05，句子结构前后对比的p=0.510〉0.050，词语语法前后对比的p=0.396〉0.05，篇章连贯前后对比的p=0.474〉0.05。这些对比数据说明，尽管学生在这五个方面的前后成绩没有显著差异，但是学生在不同方面的发展不一致:词语语法方面的进步最大，之后分别是篇章连贯、论点发展、句子结构和篇章组织。

3 对照组成绩不同维度的变化

对照组的学生经过五次作文练习，对所得的五次诊断性测试的成绩进行对比后发现:除第一次作文和第二次作文对比的 p=0.273〉0.05，说明这两次作文没有显著差异之外，其余次数对比的p=0.000〈0.05，说明各次作文均呈现了显著差异，如表3所示。这些对比的数据显示，对照组学生的作文成绩发生了明显的变化。

表3 对照组成绩变化对比

四结果分析和启示

1 结果分析

研究数据显示，实验组和对照组的学生在一个学期之后呈现了不同的变化:实验组在整体写作成绩上并未有太大的变化，但是对照组学生在五次测试中的成绩出现了显著差异。结合对学生的访谈和观察，本研究认为出现这种情况，可能受以下几个因素的影响:

（1）受试人群。写作中欠缺思想内容不外乎两个原因，一是作者本身思想不缜密，逻辑性差；二是囿于表达能力，词汇句式贫乏，无法表达出丰富的思想内容和很强的逻辑性。该实验的对象是大学生，他们对周围的事物已形成自己特有的观点和价值评判，也已具有比较固定的思维方式。第一种情况在短期内很难改变，更无法通过几次写作练习就能扭转过来；而对第二种情况，语言仍然是影响学生英语写作水平的决定因素，也是他们亟待提高的方面，但实验过程中对思想内容的评价转移了他们对语言的注意力，使他们在语言的提高方面没有付出更多的努力。对于语言有一定功底的人群（如英语专业的学生）或英语为母语、但认知思维能力尚不成熟的儿童来说，思想内容的评价对写作能力的提高可能有更大的促进作用。

（2）反馈的方式。Writingroadmap提供了评价量表，对每个维度都有详细的描述，但对存在的问题没有定位，学生得到反馈后只有一个笼统的认识，无法进行针对性的修改；而批改网的“按句点评”更为具体，句式、用词上的优缺点一目了然，有利于学生进行针对性的修改。

（3）实验对象的级别设定。对照班使用的是“大学英语四、六级写作打分公式”，其评价标准按照非英语专业的大学本科生设定，与实验对象对评分标准的认识习惯相似。而Writingroadmap将实验对象设定为 8级，缺乏足够的依据。数据表明，实验班的学生在前测和后测中Below Basic的比例分别是100%和93%，说明8级对这些学生来说偏高，即使付出一定的努力也无法达到要求。

（4）分值设定。批改网满分为100分，分数跨度较大，因而即使文章质量的差别很小也可以反映出来；而Writingroadmap实行6分制，分数跨度小，分数区分度不大，同一个分数的作文可能在质量上会有所差别，只是分数的设定影响了区分度的表现。

（5）实验时间。写作的提高是一个漫长的过程，这次试验进行了一个学期（16个教学周），研究对象完成了5个写作任务，从周期和练习的频率上来说都存在不足。尽管词汇、语法和句式等语言方面有可能在短期内会有一定的提高，但思维方式、逻辑性等却不容易改变，尤其是对于思想和思维方式已相对成熟的大学生来说更是如此。

（6）样本数量。这次试验为了控制学生所得到的指导一致，特选取了同一个老师的三个班，但实验组和对照组的人数悬殊，特别是实验组的样本偏少，代表性就差了一些，可能无法充分反映评价标准的公正性。

2 研究启示

在本次试验中，本研究采用两种诊断性写作测试评分维度，研究过程和结果给分项式评分在写作教学中的使用提供了以下启发:

（1）在评价非英语专业大学本科生的英语写作时，要仔细甄别作文的弱点是由语言造成的，还是由思维造成的。如果是语言表达能力不足，应着重对语言的评价，以此引导学生重视语言基本功；随着表达能力的提高，学生在作文中所表现出来的篇章布局和逻辑性也会相应地提高。如果是思维方式缺乏条理，则要重点评价思想内容和连贯性，以此促进学生在文章条理性和逻辑性方面的提高。

（2）对学生习作的反馈应点面结合，既要有每个维度整体的描述，也应指出具体问题，使学生不但知道自己的弱点，还知道应如何去改正。

（3）评价标准要适应学生的实际水平，标准过高学生努力之后也达不到，就会挫伤学习的积极性；而如果标准很容易就达到，学生同样会失去前进的动力。正如Knoch[1]所言，在诊断性测试中，分项式评分标准设计应考虑的内容之一，就是水平级别的设定须符合标准使用的环境。本研究认为，一个好的评分体系最好有配套的分级测试。而本次实验的结果，向研究者展现了如何制定动态的诊断性写作测试评分标准。

（4）分值的设定要有足够的区分度。写作能力往往需要通过日积月累才能获得点滴进步，只有区分度高的分值才能体现这种微小的进步，而过于笼统的分数很难体现学生的小幅进步。

五结语

本研究中，实验组和对照组的成绩变化给大学英语诊断性写作测试评分维度的开发提供了参考。首先，在诊断性写作测试中，不同评分维度的设定会对学习者产生一定的影响。其次，基于评分维度的打分方式和评语的呈现方式也会对学习者产生一定的影响。由于研究时间短，一些评分维度的作用并未表现出来，这是本研究的一个局限。但本研究可以作为后续研究的一个方向，推动我国大学英语诊断性写作测试中评分维度研究的进一步深入。

[1]Knoch U. Diagnostic writing assessment: The development and validation of a rating scale[D]. Auckland: The University of Auckland, 2007:2.

[2]Knoch U. The assessment of academic style in EAP writing: The case of the rating scale[J]. Melbourne Papers in Language Testing, 2008,(1):34-67.

[3]李清华,孔文.TEM-4写作新分项式评分标准的多层面Rash模型分析[J].外语电化教学,2010,(1):19-25.

[4]李清华.TEM-4写作分项式评分标准与整体式评分标准对比研究[J].外语测试与教学,2013,(3):12-20.

[5]冯蕾,高淑芬.评分方法在大学英语写作形成性评估中效应实证研究——整体评分与混合评分方法对比分析[J].北京交通大学学报(社会科学版),2012,(3):126-131.

[6]Hill K, Storch N. Analytic rating scales: How diagnostic are they?[J]. Melbourne Papers in Language Testing, 1994,(1):50-65.

[7]罗娟.作文整体评分与分项评分方法的比较研究[D].长沙:湖南大学,2007:55.

[8]Weigle S C. Assessing writing [M]. Cambridge: Cambridge University Press, 2002:120.

[9]Jacobs H L, Zinkgraf S A, Wormuth D R, et al. Testing ESL composition: A practical approach[M]. Rowley, MA: Newbury House, 1981:91.

[10]孙海洋,韩宝成.英语写作分项评分和整体评分比较研究[J].解放军外国语学院学报,2013,(6):48-54.

A Study on Dimensions of Analytic Rating Scales in College English Writing——Based on a Comparative Study of Writingroadmap and Pigai

ZUO Ying-juan1FENG Lei1,2
(1. School of Languages and Cummunication, Beijing Jiaotong University, Beijing, China 100044; 2. National Research Center for Foreign Language Education, Beijing Foreign Studies University, Beijing, China 100089)

The positive washback of analytic rating scales for writing assessment is testified, but dimensions which should be contained in analytic rating scales are discussed a lot and this is still an unsolved problem. Based on two diagnostic writing assessment websites, this study analyzes experimental group’s (27 students) and control group’s (90 students) scores of their writing assessment. The results show that analytic rating scales are suitable for college English diagnostic writing assessment; the presentation styles of the writing scales and the scores could give effect on students’writing ability improvement; the period of instruction also influences students’ improvement in their writing ability.

college English writing; analytic rating; dimensions of rating scales

G40-057

A【论文编号】1009—8097（2015）08—0060—07【DOI】10.3969/j.issn.1009-8097.2015.08.009

编辑:小米

本文受中央高校基本科研业务费专项资金“基于模糊语言学的大学英语教学与测试研究”（项目编号：2014JBM140）资助。

左映娟，讲师，硕士，研究方向为英语教学及翻译，邮箱为yjzuo@bjtu.edu.cn。

2015年1月19日