高考作文改革与评分误差控制:基于测量学的视角

2016-06-05关丹丹

中国考试 2016年5期

关丹丹

关丹丹

从测量学角度来看，高考作文因其评分主观性强影响了对考生写作能力甚至是语文能力的测量。如何改革作文才能进一步减小评分误差、提高考试的公平性，是落实此次考试招生制度改革的一项具体任务。研究一表明，与西方采用的小评分量表相比，我国高考采用的60分制大评分量表评分趋中效应更为严重，评分标准更为宽松，不同评分者对评分标准的掌握一致性较差，据此建议改革高考作文评分量表的设计，将目前的大评分量表改为小评分量表，成绩单独报告。研究二表明，增加作文任务数量有助于明显提高评分信度，据此建议将高考作文由一个大作文变为一大一小两个作文。

考试招生制度改革；作文改革；评分量表；评分误差

1 研究问题的提出

2014年9 月，国务院发布了《关于深化考试招生制度改革的实施意见》，对高考考试内容与形式改革提出了明确的要求，其中关于“改进评分方法，加强评卷管理”的具体要求，其终极目标指向就是要减少评分误差，确保考试评分的公平公正。作文评分质量一直是心理与教育测量领域研究重点关注的问题之一。国内外许多研究证实，作文评分中存在很大误差，因此作文评分中的误差控制一直是考试研究中的一个重点。从测量学的角度来讲，作文最致命的弱点在于信度，因其评分无法客观，信度难以保证，更无从谈及效度。

影响作文评分的主要因素有三个层面：考生层面、作文层面和评分者层面。就考生层面而言，主要是考生的写作能力，这也是测量的目标，但显然考生的书法质量会带来评分误差；就评分者层面而言，造成评分误差的原因多种多样，评分者对标准的掌握、评分的宽严程度，评分者的个人喜好、疲劳程度，以及在评分过程中的犹豫等个体差异都会损害评分信度[1]。就作文层面而言，作文任务类型会同时影响考生的作答和评分者的评分，作文任务难度和评分标准等也会引起评分员评分的差异。

近些年，网上（无纸化）阅卷技术为作文评分过程带来了巨大的便捷，考生的作文图像通常要经过两名评分者“背对背”评阅，有的甚至要经过三评、四评，最终得出一个合理的分值。虽然网上阅卷系统通过阈值设置和误差监控等对评分者评卷过程和质量进行了一系列控制，但对评分一致性的过分关注造成了习得性的“越保守，越安全”的趋中评分现象[2]。其中语文作文评分最为明显，以某年高考语文、英语的作文得分为例，总体来看，语文作文的平均分较高，但标准差过小，这就表示考生的得分集中在中等偏上的高分区，且评分出现了比较明显的趋中效应，因此对考生的中文写作能力没有很好地区分开；相比较而言，从英语作文得分的统计指标来看，对考生英语写作能力的区分比较好（见表1）。

从测量学角度，高考作文如何改革才能提高作文评分的信度呢？从前面提到的影响作文评分的三个层面的因素来看，考生因素可以暂不考虑；因网上阅卷系统已有比较成熟的质量评价体系，评分者因素只能是“加强评卷管理”；作文因素，或者说作文设计本身如何改革，也许更值得考试工作者研究和思考。

从测量学技术手段分析，关于作文评分误差的早期研究多采用经典测量理论（CTT），主要关注评分主体即评分者的一致性。随着研究者对评分误差来源的深入认识，以及测量理论和计算机技术的发展，近些年，开始越来越多地关注评分标准的科学性、评分者的数量、试题的形式，以及上述因素的交互作用等对评分误差的影响。这些误差来源使用传统的经典测量理论无法有效评估，概化理论（GT）和多面Rasch测量模型（MFRM）则在不同程度上解决了此类问题，成为当前探讨作文评分误差的主要手段[3][4][5]。

本文聚焦作文本身的改革，探讨作文评分量表的设计以及作文任务的数量对评分信度的影响。研究者分别采用多面Rasch模型和概化理论模型，试图从现代测量学的视角为减少作文评分误差提供一个可能的改革思路。

2 改革作文评分量表设计：大小两种评分量表的评分误差比较

2.1 研究背景

目前国内外涉及作文的大规模考试中，只有我国作文部分的分值较大（大评分量表），不论是汉语作文，还是外语作文，且作文成绩计入总分；而美国、英国、德国、澳大利亚等国的考试项目作文部分的分值均小于10分（本文称为小评分量表），且报告分数独立于总分（见表2）。

表2 国内外大规模考试作文部分评分分值比较

国外考试为何都选择小评分量表？在对比国内外考试作文评分量表时，我们最关心的是评分量表的大小是否影响评分效果？具体来说，同一组评分者如果采用两种评分量表评价同一组考生的作文，我们会问：（1）评分的趋中效应是否存在差别；（2）对评分标准的掌握是否存在差别；（3）评分的稳定性是否存在差别。

表1 我国高考语文和英语作文部分得分的描述统计

2.2 研究设计与研究方法

6位评分者先后分别采用大评分量表（0～60/0～40）和小评分量表（0～6），分别对某次考试中113名考生（每名考生完成两篇作文）的226篇作文进行评分。研究者采用多面Rasch模型，使用FACETS软件对数据进行了分析。

2.3 研究结果

研究发现：

（1）大评分量表趋中评分现象严重，不能很好地区分考生的写作能力（见图1、图2）；而且，大评分量表中，评分者使用的有效分数范围没有涵盖理论值，作文的满分值越大，评分者使用的有效分数的比率越低，60分制中，有40%的分数值没有被使用。

（2）大评分量表下评分者对考生作文的评分标准更为宽松，评分比率排名前三的等级集中在高分区，即对考生能力普遍高估（见表3）。

（3）大评分量表下，不同评分者之间对评分标准的把握不一致，差异显著（Separation=3.37，Chisquare=63.3，p＜0.05）；小评分量表下，评分者宽严标准上差异不显著（Separation=0.83，Chi-square=8.5，p＞0.05）。

（4）大小两种评分量表下，评分者自身一致性均较好（内拟合度均方和外拟合度均方均在可接受范围0.7～1.3内）。

总的来看，与小评分量表相比，大评分量表虽然分数点较多，但并没有能很好地区分考生，反而因“趋中”带来了更大的误差，使考试评分的准确性和公平性受到威胁。因此，评分量表的设计对作文评分效果有很大的影响，应该引起考试设计者的关注[6]。

图1 40/60分制评分的层面图

图2 6分制评分的层面图

表3 两种评分量表下评分等级的比较

3 改革作文任务数量设计：作文任务数量对评分信度的影响

3.1 研究背景

GRE、IELTS等国际知名考试的作文部分一般都包含两个写作任务，北京2014年也将高考语文作文部分由一篇大作文变为一大一小两篇作文。从考试抽样的角度来讲，增加作文任务的数量，显然有助于考查考生的写作能力。那么从心理测量学角度，增加作文任务的数量会在多大程度上提高评分信度，作文任务数量增加至几篇最为合适呢？

3.2 研究设计与研究方法

3位具有一定阅卷经验的评分者对某次考试113名考生的作文进行评分，每位考生有两个写作任务:作文1要求考生分析所给篇章段落存在的缺陷与漏洞，并评述论证的有效性；作文2为一篇论说文。根据研究一的结果，两篇作文均采用6分量表进行评分。研究者采用概化理论模型，使用GENOVA软件研究了作文与评分者数量变化对评分信度的影响。

3.3 研究结果

研究发现：

（1）在概化研究中，题目水平为2，评分者水平为3，此时概化系数为0.823，评分信度比较高。

（2）当决策研究采用P×I×R交叉设计，并假定评分者全域和题目全域都是无限的（两面随机），可以通过改变评分者面和题目面的水平数来看概化系数的变化（见图3）。

图3 概化系数随评分者面和题目面水平数的变化图

增加评分者的数量和作文任务的数量均能直接提高作文评分的准确性，且回报都遵循边际递减原则。具体为：在评分者人数不变的情况下，作文任务的数量由1题增加至2题，概化系数的增幅最大；在作文任务不变的情况下，评分者人数由1人（单评）增加至2人（双评），概化系数增幅最大。作文任务为2题，评分者采用双评，概化系数接近0.76，已比较理想。总的来看，考虑到我国大规模考试主观题阅卷操作已经实现双评的前提，增加作文任务数量对作文评分效果有直接影响，应该引起考试设计者的关注[7]。

4 政策建议

根据以上两项研究的结果，提出政策建议如下：

（1）考试设计者可以从作文的评分量表设计上减少评分误差，提高评分信度。具体为借鉴西方考试机构做法，将高考作文部分由大评分量表改为小评分量表，并单独报告作文成绩。值得注意的是，操作上，高校招生也要相应地改变以考试总分作为录取唯一依据的传统做法。

（2）考试设计者可以从增加作文任务的数量上减少评分误差，提高评分信度。具体为将高考作文部分由一篇写作任务增加至两篇写作任务。值得注意的是，操作上，作文任务数量的增加要同时考虑到任务难度和考试时间的相应变化，以及考后阅卷工作量的增加等。

5 结束语

作文作为考查语言表达能力的重要手段，在我国许多大规模教育考试中占据重要地位。控制作文评分误差，提高评分质量，是确保考试公平公正的重要保障。

作文评分误差的控制是个世界性的难题，完全避免作文评分误差是不可能的，但是我们可以无限地减小和控制作文评分的误差。

[1]Lane，S.，＆Stone，C.A.Performance assessment[M]//R.L.Bren⁃nan.Educational measurement.Washington，DC:American Council on Education，2006:387-431．

[2]王博，等.主观评分保守现象的形成机制与控制研究[J].心理学探新，2012（5）:429-438．

[3]Engelhard，G.J.The measurement of writing ability with a manyfacet Rasch Model[J].Applied Measurement in Education，1992（5）:171-191．

[4]刘远我，张厚粲.概化理论在作文评分中的应用研究[J].心理学报，1998（2）:211-218．

[5]刘红云，陈阅，骆方.学业水平测试中作文评分误差的多面Rasch分析[J].心理科学，2010（4）:925-927．

[6]关丹丹，等.两种评分量表的评分效应比较研究[J].教育研究与实验，2011（4）:92-96．

[7]关丹丹.研究生入学考试写作评分的概化理论研究与多面Rasch分析[J].心理学探新，2014（5）:437-440.

College Entrance Essay Reform and Scoring Error Control: From the Perspective of Psychometrics

GUAN Dandan

From the perspective of psychometrics,college entrance essay scoring is so subjective that much impact on measure of writing ability,as well as measure of the candidates’language ability.In order to further reduce the scoring error and improve the fairness of the examination,essay reform is to implement a specific task in the system reform of the Entrance Examination and Enrollment.The first study shows that,compared with small scoring scale in western countries,large scale such as using 60-point rating in China turns out to be more serious effect of tending toward the middle,scoring criterion is more relaxed,and different raters show poor consistency on scoring. So the first suggestion about essay reform is that scoring scale should be designed to be smaller than present large scale,and report the essay scores independently.The second study shows that increasing the number of writing tasks will improve the reliability of scoring.So it is proposed to design two writing tasks instead only one in college entrance essay.

Examination and Enrollment System Reform；Essay Reform；Scoring Scale；Scoring Error

G405

1005-8427（2016）05-0012-5

关丹丹，女，教育部考试中心，副研究员，博士（北京 100084）