英语写作评分标准模型的建构及其效度研究

2018-11-07吴雪峰柳烨琛

外国语文 2018年5期

吴雪峰柳烨琛殷缘

(南京林业大学外国语学院，江苏南京 210037)

0 引言

英语写作测试包括“独立型写作”(independent writing)与“综合型写作”(integrative writing)两种类型。独立型写作指考生不依赖其他语言技能(如阅读)，就给定的话题或图表等进行写作。综合型写作则要求考生运用其他语言技能(一般为阅读和听力)完成写作任务，包含读写结合与听读写结合两种形式，前者在各类英语考试中的使用频率远高于后者。相比独立型写作而言，读写结合型写作更具测试真实性，应用更加普遍(Shin et al., 2015)。两种类型的写作测试均属“做事型”测试，具有极强的主观性，需开发科学合理、方便操作的评分标准以确保评分质量和信度(Becker, 2016)。然而一直以来，在评分标准的开发方面，国内外各类英语考试大多各自为政，评分标准的质量参差不齐。本文在回顾、分析和总结国内外主要写作测试评分标准的基础上尝试构建“英语写作测试评分模型”，并以“概要写作”为例，依据该模型设计相应的评分标准并通过多层面Rasch模型验证该评分标准及评分模型的效度，以期为各类英语写作评分标准的研制提供可参考的操作性框架。

1 英语写作评分标准概览

1.1 独立型写作评分标准概览

国内方面，高考英语、四、六级(CET-4/CEF6)、研究生入学英语考试(以下简称“考研英语”)及全国公共英语等级考试(PETS)等均包含独立型写作测试。下面以考研英语和PETS-5考试中的独立型写作测试为例，简要分析其评分标准。限于篇幅，本文在概述各评分标准时仅以评分标准中最高档的描述语为例。

由表1可知，考研英语写作评分标准可分为个5维度：写作内容(描述语①)、衔接连贯(描述语④)、语言措辞(描述语②③)、写作规范(描述语⑤)，交际效果(描述语⑥)。PETS-5的评分标准则亦分为5个维度：写作内容(描述语①②)、语言措辞(描述语③⑤)、衔接连贯(描述语④)、写作规范(描述语⑥)、交际效果(描述语⑦)。PETS-5与考研英语的评分维度整体上完全一致，但在内容维度上对写作的开头和结尾提出了具体要求。

表1 考研英语及PETS-5独立型写作测试评分标准

国外方面，雅思、托福、剑桥英语考试(Cambridge English，以下简称CE)等均包含独立型写作测试。下面以雅思和CE-Proficiency为例，简要分析其独立型写作测试的评分标准。

表2 雅思、CE-Proficiency考试独立型写作测试评分标准

由表2可知，雅思独立型写作评分标准包括四个维度，其中维度C、D是对词和语法层面的要求，均属“语言”维度。维度A、B分别侧重写作内容的完整和丰富、句际段际的衔接和连贯。CE-Proficiency的评分标准也分为四个维度，除了与雅思相仿的写作内容、文章结构及语言措辞等维度外，该标准还单独设置了“交际效果“维度，强调写作内容对读者的影响力和说服力。

综上所述，写作内容、篇章结构及语言措辞已成为各类独立型写作测试评分标准的“常规”维度。PETS-5及考研英语评分标准均含有对写作交际效果维度的考查，但其描述语似乎过于抽象和笼统，仅强调“对目标读者产生预期效果”，评分员在评分过程中对此恐难准确解读。CE-Proficiency的评分标准中亦包含该维度，但其描述语相对更为详细具体，强调考生应能有效阐释写作内容中复杂的观点，增强写作内容的说服力，使评分员在评分时在该维度上“有法可依”。此外，PETS-5及考研英语评分标准还在写作格式和语域的恰当使用方面提出了明确要求，而上述两项国外考试的评分标准均无此要求。

1.2 综合型写作评分标准概览

多语言技能融合的综合型测试任务已成为21世纪语言测试的显著特征之一(金艳等，2013)。目前综合型写作测试主要包括如下两种类别：(1)写概要,包括“只写概要”(如上海英语高考)和“写概要+议论”(如TEM-8、CE-Proficiency)；(2)读后续写(如浙江英语高考)。我们对上述综合型写作测试各举一例简要介绍和分析其评分标准。

2016年新版TEM-8写作测试评分标准由三个维度组成，详见表3。

表3 2016版TEM-8写作测试评分标准

由表3可知，TEM-8写作评分标准既包含直接针对“概要”和“议论”的不同写作要求，又包括同时适用于上述两个板块的“共同要求”。对于写概要环节，评分标准聚焦“内容阐述”维度，强调考生文本在主题、中心内容及要点覆盖方面与源材料的吻合度；而“篇章组织”和“语言运用”两个维度的要求同时针对“概要”和“议论”两个写作任务。

读后续写是将材料的结尾抹去，让学生阅读截留部分，再续写和补全内容。该题型将语言的模仿与内容的创新有机结合起来，是促学外语最有效的方法之一(王初明, 2015)，2016年首次被纳入浙江英语高考。该题型评分原则包含如下几点：(1) 与所给短文及段落开头语的衔接程度；(2) 内容的丰富性和对所标出关词语的应用情况；(3) 应用语法结构和词汇的丰富性和准确性；(4) 上下文的连贯性；(5) 拼写与标点符号的准确性；(6) 书写是否整洁。读后续写的评分首要关注学生文本与所读文本在情节发展或内部逻辑等层面的衔接程度(教育部考试中心，2015)。此外，评分标准也在传统的写作内容(第2点)、语言措辞(第3点)、衔接连贯(第4点)、写作规范(第5、6点)等方面提出了明确的要求。

由此可见，综合型写作测试通过将阅读与写作有机结合的方式测试考生的英语写作能力，这一特征决定了综合型写作测试的评分标准既要突出与自身题型匹配的独特评分维度，又要包含与独立型写作测试相似的“通用型”评分维度，从而构成对考生文本进行科学、客观衡量的全方位、立体化的评分依据。

2 英语写作测试评分模型的构建

目前，国内外英语考试种类繁多，评分标准的制定方法也不尽相同，有的考试借鉴甚至照搬其他考试的写作评分标准(Perlman, 2013)。鉴于此，本文在梳理和分析各类英语写作评分标准的基础上，将“独立型写作”与“综合型写作”有机结合，尝试构建了英语写作测试评分模型(以下简称“模型”，如图1所示，见下页)，以期对今后写作评分标准的制定提供可参考的操作性框架。

由图1可知，模型由两个版块组成，分别对应独立型和综合型写作测试。综合型写作测试评分标准囊括了独立型写作评分标准，并提出针对综合型写作测试的“特殊”要求。独立型写作测试评分标准可分为五个维度，其中写作内容、篇章结构、语言表达为构建评分标准时的必选维度，是各类写作测试评分标准均应包含的一般性维度；就“写作内容”维度而言，其具体的能力要求因写作体裁的变化而变化，如议论文强调论点鲜明，论据充分，论述有说服力；记叙文则要求考生叙述生动，情节完整等。“篇章结构”维度考查文章是否脉络清晰，段落划分是否合理，是否前后连贯，衔接自然。“语言表达”维度则在准确度和复杂度两个方面要求考生准确运用多样化的词汇、句型及语法组构知识。“交际效果”和“写作规范”为备选维度，可根据不同写作形式灵活选用。前者侧重写作文本对读者的感染力和说服力，可选用在演说稿、公开信等类型的写作评分标准中；后者聚焦格式、语域等方面，亦可供编制各类写作测试评分标准时灵活抽取使用。备选维度纳入该模型可使评分标准的制定过程更具动态性、灵活性，考试开发者可根据不同写作任务在必选和备选维度中灵活搭配使用。

图1 英语写作测试评分模型

对综合型写作测试进行评分时，除了考虑独立型写作测试的五个维度(3个必选+2个备选)之外，还应重点突出以下两个方面：一是对源材料理解的准确度，判断考生是否正确解读给定的阅读材料，可在“写作内容”维度提出具体要求；二是考查写作文本与源材料之间的关系，关注如下三个方面：要点覆盖完整度、直接引用源文程度(即是否照抄源文语言)、与源材料的衔接程度(如读后续写)。上述三个方面可分别呈现在“写作内容”“语言表达”及“篇章结构”三个维度。

3 英语写作评分标准模型的应用

依据上述模型我们设计了概要写作评分标准(以下简称“标准”)，将其试用于实际评分中，为验证其效度，我们利用FACETS软件(3.58.0版)进行多层面Rasch模型(Many-facet Rasch Model，简称MFRM)分析。上海某高校英语专业本科二年级在校生(n=25) 在30分钟内针对一篇约450词的短文撰写概要，写作篇幅要求为100词左右。评分员共计六人(R1-R6)，均为该校英语语言文学专业在读博士生，男性、女性评分员均为三人，平均年龄30.6岁，副教授四人，讲师两人。

3.1 概要写作评分标准的设计

概要写作是在阅读基础上考核写作能力的特殊写作任务(吴雪峰，2018)，属于典型的综合型写作测试。根据图1中的模型，其评分标准首先应关注独立型写作测试的评分维度，写作内容、篇章结构和语言表达是“必选”维度。对于备选维度，鉴于概要写作仅考查考生对源文的提炼和概括能力，并不具有典型的交际功能，因此交际效果维度可不予采用，也不必关注“写作规范”维度的格式、语域等方面。受试考生采用计算机打印稿提交概要写作，亦无须考量卷面书写整洁度。但概要写作要求考生用规定的篇幅简明扼要地阐述源文的主要信息(Sun et al., 2016)。基于这一构念，“写作规范”维度中的“写作篇幅”应当纳入标准。但考虑到“写作规范”中的其他三个方面无需体现在标准中，因此该维度显得过于单薄，无法与其他维度构成平行关系，故本标准拟规定在各维度评分结束后，对未满足篇幅要求的概要写作文本酌情扣分。

考虑到概要写作属综合型写作测试，我们根据模型在写作内容维度增加了突出概要写作测试构念的描述语，将要点覆盖完整度及是否直接抄袭源文分别有机融入“写作内容”和“语言表达”两个维度，起草了概要写作评分标准初稿。大多数研究表明分项式评分更适合外语写作测试(Knoch, 2011; 孙海洋等, 2013; Weigle, 2002),因此本研究亦开发分项式评分标准，初定满分为10分，由三个维度组成，各维度均包含三个档次。概要写作中的关键技能是从源文中识别和提取重要信息(Kim,2001)，因此“写作内容”维度应占据较大的分值。本研究受试均为EFL学习者，语言表达应是与写作内容并驾齐驱的重要维度；相对而言，篇章结构只能视作次要维度。鉴于此，各维度分值分配方案如下：写作内容与语言表达各4分，篇章结构2分，最终定稿的评分标准见表4。上海英语高考从2017年起增设概要写作题型，其评分标准也是迄今高风险英语考试中比较正式的概要写作评分标准(上海市教育考试院，2017)。与之相比，本研究根据模型所编制的评分标准同为分项式，但在维度划分及描述语措辞等方面更加全面和完整，体现了针对大学生受众群体的更高的写作要求。

表4 概要写作评分标准

3.2 效度验证

MFRM是写作评分标准效度验证的重要方法(陈建林, 2016)，可将各层面(即考生、评分者、评分标准等)在共同的logit标尺上进行度量，并计算每个度量值的估算误差、对模型的拟合程度以及各层面之间可能的交互作用(何莲珍等，2008)。本文据此检验依据模型设计的概要写作评分标准的效度，聚焦如下两个方面：(1)评分标准的难度和分值使用；(2)评分员与评分标准之间的偏性交互作用。

3.2.1 总体分析

图2是各层面的总体分布情况。最左边一列(Measr)是logit量尺。第2列(raters)表示评分员评分的松严度，越往上评分员对应的logit值越大，表明其评分越严格；反之则评分越宽松。第3列(examinees)表示考生概要写作的能力，越往上考生的logit值越大，表明其写作能力越强；反之则越弱。第4列(criteria)表示评分标准三个维度的难度，越往上表明该维度难度越大，考生越不易得高分；反之则难度越低。最后三列(S1、S2、S3)显示三个维度分值的使用情况。我们可以得到如下几点结论：

(1)评分员松严度基本呈正态分布，1号评分员最为严格(0.49 logit)，6号评分员给分最松(-0.6 logit)，两者相差1.09 logits。所有评分员的洛基值分布在±1.0 logit之间，评分员之间一致性较高。

(2)受试层面，考生概要写作能力基本呈正态分布，全体考生能力分布全距为5.22 logits(-1.35-3.87)，说明评分标准能较好区分受试的概要写作能力。此外，评分员严厉度分值全距(1.09 logits)不到考生能力值全距的1/4，表明评分员之间的严厉度差异总体不会对考生的成绩产生决定性的影响(Myford et al., 2000)

(3)评分维度层面，语言措辞和文章结构两个维度最难，在这两个维度上考生较难获得高分；相对而言，考生在写作内容维度最易获得高分。

图2 总层面图

评分员具有较好的内部一致性，原因可能在于所有评分员都是在读博士研究生，其就读高校、所在年级和专业全部一致，对评分标准的理解和把握大致相似，且都在评分前接受了统一培训。但评分员的评分严厉度仍有一定差异，这与大部分研究成果(Eckes, 2005; 刘建达, 2010)相似。作为纯主观测试的评分，写作测试的评分员严厉度差异似乎不可避免。语言表达和篇章结构两个维度难度较大，说明受传统英语学习和测评习惯的影响，评分员对语言层面的错误及文章的内部结构非常敏感。概要写作题型要求考生将大量信息浓缩归纳成数个最重要的信息点，考生在写作内容方面很大程度上受限于源文的内容，一般不会轻易跑题或偏题。此外，本研究中考生为重点高校英语专业本科生，均能在准确解读源文的基础上用自己的话来表达源文的主要内容，因此考生在“写作内容”维度上的得分相较其他两个维度更高。

3.2.2 评分标准层面分析

为进一步验证评分标准的效度，我们对评分标准及其各维度的数据进行了分析。

表5显示，三个维度分割系数为5.26，分割信度0.97，卡方值121.5(df=2)，p值为0，说明三个维度的难度存在显著差异。三个维度的加权均方拟合统计量(Infit MnSq)均在0.5～1.5的可接受范围之内(Lumley, 2005)，| Z |均小于2，因此不存在过度拟合或非拟合的评分维度，模型拟合较为理想，评分员在这三个维度没有过多使用某一或某些分数段(张文星等, 2015)。

表5 评分标准各维度Rasch分析结果

Separation: 5.26; Reliability: 0.97; Fixed chi-square: 121.5;d.f.: 2; significance: 0.00

FACETS还提供了评分标准三个维度的统计结果。表6是写作内容维度的统计结果。

表6 写作内容维度Rasch分析结果

由表6可知，写作内容维度的2～3分使用频率最低(9%)，4～7分的使用相对比较均匀，各分值及其所占百分比依次为：4分(23%)、5分(22%)、6分(32%)、7分(17%)，评分不存在显著的趋中现象。此外，未加权均方拟合度(Outfit MnSq)可用来判断评分员是否随意使用某分值，如Outfit MnSq值大于1.5，则表明评分员非正常地使用了某分数段(李清华，2010)。表6显示在2～7各分数段上均无非拟合项目，评分员未随意使用任何分数段。一般来说，分值的Outfit Mnsq>2.0，说明得到该分值的考生其预测分数和实际分数有较大的差距，即该分数不能准确反映考生水平(Linacre, 1999)。表6中各分数段Outfit MnSq值均在2以下，这表明评分标准中写作内容维度的各分值均能很好地反映考生在该维度上的实际水平。

其次，在篇章结构维度上，表7显示：1分、4分的使用频率最低(5%)，2-3分的使用相对比较均匀，分别为2分(52%)、3分(44%)，不存在显著的趋中现象。此外，从Outfit MnSq值来看，各分值均无非拟合项目，评分员未随意使用任何分数段；各分值能较好地体现考生在该维度上的实际写作水平。

表7 篇章结构维度Rasch分析结果

最后，在语言表达维度上，表8显示：2～3分及八分的使用频率最低(8%)，4～7分的使用相对均衡，各分值及其所占百分比依次为：4分(17%)、5分(21%)、6分(45%)7分(10%)，不存在显著的趋中现象。但从Outfit MnSq值看，3分段(即原标准中的1.5分)存在非拟合现象(Outfit MnSq>1.5)可能存在评分员对该分数段随意使用的现象，需对分数段的设置做进一步的调整。

表8 语言措辞维度Rasch分析结果

综上，标准的三个维度在难度上存在显著性差异，数据与模型拟合较好。在写作内容与篇章结构两个维度上各分数段数据拟合较好，但语言表达维度的1.5分存在非拟合现象，与模型预测差异太大，说明评分员对该分数段的使用比较随意。可能是因为在标准中，一、二档的分值分别为0～1与2～3，1.5分在标准中未能明确予以标出。因此，评分员在评分时对1.5分这一分值可能无法准确把握和使用，需重新划分档次并对该分数段做适当调整。

3.2.3 评分员与评分标准的偏性交互作用分析

在FACETS中，偏差分析可以帮助我们判断各个层面之间的交互作用，考察一个层面对另一个层面的影响是否具有统计意义，亦可作为评分标准效度验证的重要方法(Linacre, 2005)。在Rasch模型中，如果某个交互作用的Z值大于2，则评分员对该维度的评分比对其他维度更为严厉；如果Z值小于-2，则说明此评分员在该维度评分更为宽松(刘建达，2010)。评分员与评分标准各维度的偏差项目(empirically biased terms)共18个，表9显示具有显著意义的偏性交互作用共三次，约占16%(其中过于严厉一次、过于宽松两次)。2号评分员在语言表达维度上评分过严(Z=2.55>2)，而在写作内容维度上评分过松(Z=-2.40<-2)；1号评分员则在篇章结构维度上评分过于宽松(Z=-2.44<-2)。可能的原因在于上述个别评分员对评分标准的理解和把握还有所欠缺，需要接受进一步培训，或是评分标准自身在文字表述和内部逻辑上存在一些问题，这一点有待通过对评分员采取有声思维(Think-aloud protocol)或深度访谈的方式进一步加以探究。

表9 具有显著意义的评分员×评分维度偏性交互作用

Fixed chi-square:40.7;d.f.:18; significance: 0.00

3.3 数据分析

MFRM的数据分析表明：概要写作评分标准中，各评分维度的难度存在显著性差异。FACETS提供的总层面图及各维度分值使用情况表明：评分标准能够区分受试不同的概要写作水平，具有较好的区分度。尽管各维度分数段的使用整体分布不够平衡，但也未显示出明显的评分集中趋势。此外，评分维度总体分析(表5)及写作内容、篇章结构(表6～7)两个维度不存在非拟合或过度拟合的情况，但在“语言表达”维度上，3分(原1.5分)的使用存在非拟合现象。在Rasch模型分析中，效度的意义是如果非拟合的情况较少，则有证据说明该评分标准的效度较高(Wright et al., 1982)，因此总体而言该评分标准具有较好的效度，和一定的推广价值。但在三个评分维度上评分员与评分标准间均产生了显著的偏性交互作用，部分评分员对评分标准的理解和把握还有待提高。评分过程是评分员将自己对文本的感知与外在的、概括的评分标准之间达成一致的过程(Lumley, 2005)。为使评分员的主观理解与统一、客观的评分标准尽可能地形成吻合，有必要在现有基础上加强评分员培训，在正式评分前帮助评分员全面理解和消化评分标准。另外，鉴于“语言表达”维度的个别分值使用存在非拟合现象，且“语言措辞”与“写作内容”所占分值完全相同，可在现有基础上给这两个维度增加两个评分档次，使新标准共由五个档次组成。“篇章结构”维度分值仅为两分，且Rasch模型分析数据显示该维度各分值使用拟合度很好，因此该维度的档次和分值分配维持原样。

原标准中的三个档次成为新标准中的一、三、五档，增加的档次为二档和四档，从而将原标准中的分数段化整为零，对0.5、1.5等非整数的分数段的定位和使用予以明确化(图3)，并对新增加的档次设计体现明显层级差异的描述语，进一步打磨和润色描述语，以期帮助评分员更加科学合理地使用各分数段，尽量减少评分中随意使用某分数段的非拟合现象，从而进一步提高评分标准的效度。

图3写作内容、语言措辞维度原标准与新标准分档情况对照

4 结语

在语言测试中，制定或者选择什么样的评分标准对于由评分员判定结果的行为测试十分重要(陈建林，2016)，直接关系到评分质量的高低与考试的公平性。在回顾和总结国内外独立型、综合型写作测试的评分标准的基础上，我们构建了写作能力测试评分模型，并依据该模型设计了概要写作题型的评分标准。基于MFRM的证据表明评分标准总体而言具有较好的效度，一定程度上可以说明写作能力测试评分模型是合理、可行的。尽管如此，在设计和研制英语写作测试评分标准的过程中，该模型也绝非是唯一的参考，还应与其他各种权威的评分标准研制框架结合起来(Dawson, 2017)，从而使写作测试评分标准研制工作有章可循、有法可依。此外，效度验证是一个持续性过程，本研究受试规模较小，仅局限在评分标准及评分员与评分标准的偏性交互作用两个层面，且只研究了“概要写作”这一种题型的评分标准。今后还需将评分模型运用到其他写作题型，在分析中增加受试层面、评分员层面、评分员与受试的偏性交互作用等数据，并通过有声思维、访谈等质性手段深入探究评分员的心理活动，以期收集更为全面的数据来验证评分模型的效度。