高考英语科写作新题型的概化理论研究

2018-05-30陈康

中国考试 2018年3期

陈康

（教育部考试中心，北京 100084）

2014年9月，国务院发布《关于深化考试招生制度改革的实施意见》（以下简称《实施意见》），启动了我国自恢复高考以来最为全面和系统的考试招生制度改革。《实施意见》提出，要深化高考考试内容改革，依据高校人才选拔要求和国家课程标准，科学设计命题内容，增强基础性、综合性，着重考查学生独立思考和运用所学知识分析问题、解决问题的能力。英语作为全国统考科目之一，内容改革势在必行。

写作是英语语言运用能力的重要表现形式，高考英语试卷自20世纪80年代以来一直包含写作，并由短文改错和书面表达2种题型组成。2015年，教育部考试中心发布了供高考综合改革试验省份使用的英语科考试说明，在写作部分，以读写结合的新题型取代短文改错题，增加了直接型写作任务的比重，强调读与写的综合考查[1]。

对大规模考试而言，测试的信度非常重要。高考英语试卷结构重新设计后，写作题包括2节，第1节是应用文写作，要求考生根据给定的任务情境和要求写1篇短文；第2节是读写结合题型，要求考生在阅读1篇文章的基础上按题目要求续写或完成1篇内容概要。写作题均需人工评阅。改革后写作题的测量误差怎样？如何保证评分信度？这些都是测试设计者需要研究和解决的问题。本研究针对高考英语科写作新题型，组织实施模拟测试并应用概化理论（generalizability theory）模型对测试结果进行分析，探究测量误差的来源，验证高考英语科写作新题型在测试信度上的表现。

1 理论基础

概化理论是一种用来具体分析测试分数中不同来源变异的测量模型。经典测量理论假设观察分数由真分数和随机误差构成。随机误差不可再分解，因此，无法提供误差来源的具体信息以及有效控制误差的方法。而概化理论则能提供许多途径分析不同测试情境和测量侧面产生的测量误差。应用概化理论研究问题包括2个步骤：概化研究（generalizability study，简称G研究）和决策研究（decision study，简称D研究）[2]。G研究的主要内容是在明确测量侧面和观测全域后，依照测量设计和测量模式收集样本资料，进而估计各种因素（测量目标以及其他测量侧面）的效应及因素之间的交互效应，分析测量误差来源。D研究的主要内容是以概化研究的结果为基础计算概括全域上的概化系数（G系数）和依存性系数（Φ系数），并通过调整测量设计中的各种因素探索控制测量误差的方法。此外，研究人员还可以根据需要确定不同的概括全域，进行多个D研究后观察各概括全域上的G系数和Φ系数，进而确定所对应测验设计的效果，为设计者决策提供参考。

概化理论在语言测试理论研究，尤其是测试效度研究中得到了进一步发展和深化。Messick认为概化力是构念效度的一个侧面，可以从信度和迁移2个角度来理解[3]。概化力作为信度，是指考生表现在不同测试任务、情境和评分者之间的一致性；概化力作为迁移，是指根据考生在测试任务中的表现可以推测出其能够完成的真实语言交际任务的范围，因此它既依赖于概化理论，也离不开构念理论的支撑。Bachman和Palmer将概化力定义为一个特定语言测试任务与目标语言使用任务在任务特点上的一致性程度[4]。这种一致性程度越高，说明测试任务的概化力越强，即基于考生在测试中的表现得到的分数解释力越强。

在英语写作测试中，除学生的语言运用能力外，还可能有很多其他因素会引起分数变异，比如写作任务要求、评分者、评分标准等。对写作测试进行概化理论研究有助于分析这些不同侧面对分数变异的影响，进而检验测试设计的效果，明确误差来源并采取有效措施控制误差，提高测试信度。

2 研究方法

2.1 参加人员

研究者在我国中部某省的一所普通高中拟随机抽选600名高三学生参加测试，并从该校聘请了4位有丰富教学经验和一定大规模考试写作题目评分经验的高三年级英语教师作为评分者。参加测试的学生和评分者普遍表示对应用文写作题型十分熟悉，但是对读写结合题型相对陌生。因此，研究者向他们详细介绍了读后续写和概要写作2种题型的要求和评分标准。

2.2 测量工具

高考英语科写作的第2节读写结合新题型包括读后续写和概要写作2种形式，它们在不同考次不定期交替使用。为了将考试中可能出现的2种不同情况都纳入研究范围，研究者准备了2套试卷，分别为测试1和测试2。测试1包括一个应用文写作任务和一个读后续写任务，测试2包括一个应用文写作任务和一个概要写作任务。2套试卷均经过命题专家审查和校对，符合高考英语试题质量标准。

2.3 数据收集

测试1和测试2同时进行，实际有575名学生参加测试，281名学生参加了测试1，294名学生参加了测试2。测试结束后，4位评分者分为2组，其中2位负责评阅测试1，另外2位负责评阅测试2。评分采用双评制，每位评分者对所负责的所有学生作答独立进行评分，不与其他人讨论。针对测试中的应用文写作和读写结合题目，评分者均按照高考英语科写作部分评分标准中的5个档次进行整体评分，评分结束后研究者核查了学生名单和分数，确保无误。

2.4 数据分析

为了分析测试1和测试2中题目和评分者对测试信度的影响，研究者采用p×i×r两面交叉设计分别对2个测试的评分结果做G研究。其中，p代表学生的英语写作能力；i代表题目侧面，有2个水平；r代表评分者侧面，同样有2个水平。题目侧面和评分者侧面均为随机，使用GENOVA软件进行数据处理。

3 结果与讨论

3.1 G研究

本研究针对测试1和测试2的结果分别做了G研究，通过p×i×r交叉设计可以得到p、r、i3种主效应以及pr、pi、ri、pri4种交互效应，结果见表1和表2。

表1 测试1各效应的方差成分估计值及标准误

表2 测试2各效应的方差成分估计值及标准误

在测试1和测试2各效应的方差分量中，最大的均为考生方差分量，即真分数方差分量（分别占各自方差分量总和的44.0%和39.6%），这表明2套试卷对考查目标的测量都比较准确，测试成绩的总变异主要来自于考生英语写作能力的差异。

方差分量位居第二的均为考生与评分者交互效应的方差分量（分别占各自方差分量总和的20.3%和24.9%），位居第三的为考生、评分者与题目三者间交互效应的方差分量（分别占各自方差分量总和的16.8%和18.7%），评分者主效应的方差分量排在第四位（分别占各自方差分量总和的9.5%和13.0%），而评分者与试题交互效应的方差分量很小（均分别占各自方差分量总和的0.1%）。这说明评分者误差存在，并且主要表现在某些评分者在一些学生作答的评分尺度上缺乏一致性。

在测试1和测试2各效应的方差分量中，试题主效应的方差分量均比较小（分别占各自方差分量总和的2.0%和0.1%），说明使用不同试题考查学生写作能力不会有很大差别，试题设计较科学合理。试题与评分者交互效应的方差分量非常小，而试题与学生交互效应的方差分量相对较大（分别占各自方差分量总和的7.3%和3.6%），说明评分者在不同题目之间的评分一致性很高，而考生在不同题目上的表现差异较大，这可能是学生对新题型不熟悉的缘故。

3.2 D研究

在对测试1和测试2的结果G研究的基础上，又进行了D研究，采用P×I×R交叉设计，并假定题目全域和评分者全域都是无限的，可以通过调整题目面和评分者面水平数来观察G系数和Φ系数的变化。

3.2.1 G系数

概化理论中的G系数是测量目标的有效变异占有效变异与相对误差变异之和的比值，也可以理解为全域分数变异与观测分数期望值之比。图1和图2分别显示的是在测试1和测试2中将题目数量和评分者数量由1个增加到4个时G系数的变化情况。当评分者数量固定，题目数量由1个增加到2个时，G系数的提高幅度最大（测试1约0.10，测试2约0.06），之后继续增加题目数量，G系数变化不大。当题目数量固定时，评分者数量由1个增加到2个时，G系数的提高幅度最大（测试1约0.13，测试2约0.15），之后继续增加评分者数量，G系数变化不大。对于提高G系数而言，增加评分者数量的效果优于增加题目数量效果。测试1和测试2中均有2道写作题和2位评分者，其G系数均在0.7左右，说明2个测试的信度较高。

图1 测试1题目面和评分者面数量变化时G系数的变化

图2 测试2题目面和评分者面数量变化时G系数的变化

3.2.2 Φ系数

概化理论中的Φ系数是测量目标自身的分数变异在全体分数变异中所占的比率。图3和图4分别显示的是在测试1和测试2中将题目数量和评分者数量由1个增加到4个时Φ系数的变化情况。当评分者数量固定，题目数量由1个增加到2个时，Φ系数的提高幅度最大（测试1约0.08，测试2约0.05），之后继续增加题目数量，Φ系数变化不大。当题目数量固定时，评分者数量由1个增加到2个时，Φ系数的提高幅度最大（测试1约0.14，测试2约0.16），之后继续增加评分者数量，Φ系数变化不大。对于提高Φ系数而言，增加评分者数量的效果优于增加题目数量效果。测试1和测试2中均有2道写作题和2位评分者，其Φ系数均在0.6～0.7之间，说明2个测试中评分者一致性程度较高。

图3 测试1题目面和评分者面数量变化时Φ系数的变化

图4 测试2题目面和评分者面数量变化时Φ系数的变化

3.3 研究局限

本研究存在以下不足：第一，采用模拟测试的方法获取数据，学生的作答动机和评分者的评分状态与正式高考存在差别，若能以正式高考的数据进行分析，则结论会更具说服力。第二，虽然向参加测试的学生和负责评分的教师详细地介绍了读写结合的新题型，但是学生缺乏充分训练，评分者对评分标准不熟悉等因素依然对测试和评分结果有一定影响。

4 总结与启示

通过对高考英语科写作2种新题型同时进行模拟测试并对测试结果进行概化理论分析可以得出：第一，高考英语科写作题目方面的误差较小。此外，高考英语科写作题直接型写作任务由1个增加到2个，在一定程度上提高了该题的测试信度。第二，影响高考英语科写作题评分的主要因素是评分者，采用双评制有助于测试信度保持在比较理想的水平。

上述结论也对高考英语科写作题的命题工作具有一定的启示：第一，对于新设计的题型，需要持续跟踪研究评分情况和反拨效应，收集各方面的意见和建议，为继续完善做好准备。第二，需要聚焦评分者层面，加强评分标准与评分质量控制研究，进一步提高写作题评分信度。

[1]教育部考试中心.普通高等学校招生全国统一考试英语科考试说明（高考综合改革试验省份使用）（第一版）[M].北京:高等教育出版社,2015.

[2]杨志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003.

[3]MESSICK S.Validity and washback in language testing[J].Language Testing,1996,13（3）:241-256.

[4]BACHMAN L,PALMER A.Language assessment in practice[M].Oxford:Oxford University Press,2010.