大规模标准化考试网上评卷中的误差控制研究

2012-12-25天津市教育招生考试院范鹏张景华

中国轻工教育 2012年1期

□天津市教育招生考试院范鹏张景华

□天津市教育招生考试院范鹏张景华

如何保证考试的公正、公平，减少评分误差，始终是个世界性的难题。为试图从根本上解决主观题部分的评分误差问题，90年代末国家在部分省份推行实施了高考等大规模标准化考试的网上评卷工作。在今天的大规模标准化考试中，网上评卷已经成为整个考试流程的一个重要环节，而能否更有效地进行网上评卷误差控制，直接影响到考试结果的信度与效度。就网上评卷环节而言，仍然存在一些主观因素制约着网上评卷的误差控制。如何厘清并有效地解决或减少这些问题，对于保证评卷质量，维护考试公平公正都具有重要意义。

标准化考试；网上评卷；误差；控制

一、研究背景及意义

考试已有一千多年的历史，作为一种选拔学生和评价教育的手段，其在中外历史上发挥了重要作用。但是，如何保证考试的公正、公平，减少评分误差，始终是个世界性的难题。从上个世纪中期开始，西方教育测量学家对标准化考试进行研究并有了一定的认识。研究认为，解决评分误差必须从标准化入手，我国从上世纪80年代至今，逐步在考试的命题、实施和客观题部分机器评阅等重要环节实行了标准化。为试图从根本上解决主观题部分的评分误差问题，90年代末国家又在部分省份推行实施了高考等大规模标准化考试的网上评卷工作。截止到2011年，已有30个省区市在高考、自考、成考等大规模考试中采取全部或部分科目网上评卷。

网上评卷主要是利用高速图像扫描与识别技术、计算机网络技术、大型分布式数据库及存储技术来进行辅助评卷。与传统评卷方式不同，网上评卷首先利用高速光电阅读机将所有考生答卷扫描成加密图像,同时按照评卷具体情况对答卷图像自动切割,然后通过局域网随机分派给评卷教师进行评阅。网上评卷与传统的人工评卷最大的区别，评卷教师不再直接对考生的原始答卷进行评分，而是在计算机终端上对电子化的答卷图像进行评阅。网上评卷将多年来人工评卷积累起来的丰富经验和现代高新技术有机地结合起来，与传统评卷相比,主要优点有以下几个方面：

一是节省人力物力。网上评卷将传统评卷中的试卷保管、分发、转运、评卷、回收、核分等过程合并简化为只有评卷一个过程，大大节省了整个评卷中的人力物力，提高了工作效率，缩短了评卷时间。

二是保证评卷质量。网上评卷开始前，由组长进行讨论并设定统一标准，同一试卷要经过两评或三评，给分更趋于公平、合理；评卷过程中，组长能够随时通过评卷系统的统计功能直观地监控每个评卷教师的工作量、给分情况和评卷质量，随时调整评卷进度和给分偏差，使评卷质量和进程都能在一个良好的控制中。

三是答卷更加安全。考生的答卷采用电子数据加密存储，评卷过程中任何人不会接触到考试的原始答卷，不会像传统试卷那样不易保存、保管；任何与考生相关的信息都已经屏蔽，评卷人员无法看到考生基本信息，也无法对原始试卷进行改动，更加保证了评卷工作的公平、公正，维护了考试的严肃性。

网上评卷的优势还不止于此。当前，教学质量评价信息化已成为教育评价的追求目标，是现代教育条件下提高教学质量的重要手段。教学质量评价信息化的发展趋势主要表现为从评卷系统到评价系统、从考试评价到教学质量诊断、从试卷评价到教育学评价、从封闭式评价到开放式评价的逐步提升。采用网上评卷这种方式，既能实现对考生成绩更加细化、多元化的统计，又可体现出无纸化、灵活化、网络化、低成本的信息化优势。利用先进的数据挖掘技术，教育部门可以更加清楚地看到不同地区的考生的具体境况，在进行定性定量的统计分析后，可以有针对性地制定并实施相应的措施来改进教学效果。这将比过去完全依靠教师的传统教学经验更加有的放矢。

在今天的大规模标准化考试中，网上评卷已经成为整个考试流程的一个重要环节，而能否更有效地进行网上评卷误差控制，直接影响到考试结果的信度与效度。但就网上评卷环节而言，其实施主体仍然是评卷教师，因此，仍然存在一些主观因素制约着网上评卷的误差控制。如何厘清并有效地解决或减少这些问题，是本文研究的重点，以期在此方面取得进展，进而推动网上评卷工作的发展，促进网上评卷技术的提高，这对于保证评卷质量，维护考试公平公正都具有重要意义。

二、相关概念说明

1.误差

误差就是测定的数值与事物客观具有的真值之差。在考试学里事物客观具有的真值称为真分数。所谓误差即是考生考试所得分数与考生真实水平的真分数之差。本文提到的误差为产生于较为主观性试题中的误差。

2.双评差值

在对主观题评分时，由两名或两名以上的评卷教师对同一考生作答进行评分，两名评卷教师评分之差称为双评差值。

3.双评误差阈限

双评差值的最大允许值称为双评差值阈限。网上评卷评分过程中，双评差值阈限一般不能大于题目满分的1/6。

4.误差控制

误差控制是根据考试的性质、目的和要求，通过各种途径纠正命题、考试过程和评分过程中出现的误差。本文所研究的是在网上评卷过程中的误差控制。

三、研究现状和研究重点

对于评分误差控制的研究，当代多名学者都进行了大量的研究。章熊、郑日昌等人都对主观题特别是高考作文评分误差控制进行了研究，张昌应、马世晔等人进行了网上评卷及其误差控制的相关问题研究，提出了误差控制的五种方法。扈涛等人从评卷队伍建设等方面对主观题的评分误差控制和评分方法进行了研究。这些研究提出了网上评卷误差产生的多方面原因，并注意到评卷教师评分的差异性。研究者们的努力及其获得的成果值得学习和借鉴，为进一步的深入研究奠定了基础。但随着网上评卷的逐步开展，仍然有一些问题没有得到很好解决。主要表现在以下几个方面。

1.专家组指导作用发挥不明显

专家组因其权威性，可以起到控制整体评卷局面的作用，以免出现整体偏差，其意义重大。但在评卷实践中，专家组除了一般评卷管理外，主要进行一些特殊卷的处理。往往通过抽查监控的方法来进行评卷教师个体的管理，无法对整个评卷教师的控制发挥作用。专家组控制评分误差的作用应主要体现在整体控制上，但由于种种原因，专家组评卷实践中的指导作用还没有充分发挥出来。

2.评卷教师给分存在趋中倾向

当专家组不能充分发挥其作用时，则是由全体评卷教师的评卷分、标准差、评分曲线等来控制个体评卷教师。用全体的指标来衡量个体的话，容易造成趋中倾向。

“趋中倾向就是既不给高分，也不给低分，评出的分数高度集中在中部偏上的狭小区间内。”趋中倾向在网上评卷主观题评卷中普遍存在，而产生这一现象的主要原因就是“打中间分”。

以作文题目为例，打中间分就是个体评卷教师习惯在平均分上下给分，既不给太高的分，也不给低分，不能客观地反映出学生作文的真实水平，是产生评分误差的重要因素之一。究其原因，主要有以下三点。

一是现在的主观题评卷多采取三评的评卷方式，如果打分与其他两个评卷教师的评分差距过大，会使自己所评的试卷成为无效卷。在网上评卷中，无效卷数量指标是组长们认为的衡量一个评卷教师评分水平的一个重要指标，无效卷数量多被认为是评分标准没有掌握好，评分水平低。

二是网上评卷要求既要保质又要保量，打中间分则能做到在保证评卷速度的前提下，还不会出现无效卷，不会增加整个组的三评率，进而增加工作量。

三是现有的双评误差阈限模式有缺陷。仍以作文题目多采用的三评方式为例，当双评误差阈限设置为7分的时候，若一个评卷教师为一篇作文打了58分，而第二个评卷教师打了46分，第三个评卷教师打了50分，那么按照现行的评分规则，第一个评分成为无效分，该题的最后得分是取46分和50分的平均值48分；而如果第一个评卷教师打53分，那么该题的最后得分应是53分和50分的平均值51.5分，比打58分时多出3.5分，打低分的情况正好与之相反。

3.双评误差阈限设置相对静态

《国家教育考试网上评卷统计测量暂行规范》规定：“评分过程中，双评差值阈限一般不能大于题目满分的1/6。”根据此规定，满分为60分的高考作文题目，双评差值阈限最大值为10分。但这种仅对最大值的限定远不能满足对评分误差控制的需要。

还有一种观点认为，双评差值阈限设置越小，就越能控制评分误差。其实，未必如此。根据现行的网上评卷管理办法，双评差值超出阈限的试卷会发给三评进行仲裁。仲裁为评卷组长单评，评分并不与一、二评进行比较，得分即为该试题的最终得分。如果双评误差阈限太小，仲裁率会迅速上升，大量本应双评的试题变成了单评，有违利用双评控制评分误差的初衷，反而会增加评卷的评分误差。

四、解决思路

针对上文提出的网上评卷中的不足，我们做了相关的理论和实践研究。

1.校正原有双评误差阈限，弥补静态设置不足

双评误差的客观性，决定了它是与全体评卷教师的双评差值相关的。全体评卷教师对每道主观题的双评差值集合是双评误差阈限的真实反应，而并非固定的设置成某一数值。通常来说，阅卷前设置的双评误差阈限只能初步地区分评分波动较大的试卷，但在双评误差真实值与初始双评误差阈限这个区间的内双评差值，尤其是靠近初始双评误差阈限这一部分则没有相应的控制手段。因此，需要对初始的双评误差阈限进行校正。

首先，由专家组对某一题目各个层次一定数量的试卷进行评分，根据试题类型、难度、总分等情况设置E1，即该题目评卷前导入系统的初始双评误差阈限。

然后，按照评卷程序，将全部试卷进行评分，然后选取各份试卷该题目的两个评分差值，筛除终评卷、异常卷等无效数据形成实际评卷误差集合A2，将集合A2取算术平均，记为E2，即实际评卷的双评误差。

最后，理论上E2≤E1，对于双评差值大于E1的部分在正常评卷过程中就以三评卷的形式进行了仲裁，小于E2的部分则是两个评卷教师给分趋于一致，能够反映考生该题目的真实分数。双评差值在（E2，E1]区域内的集合D，是由于双评误差阈限初始设置和其真实值之间的差距造成的，将这部分试题再次评阅，然后与之前两评比较得出最终成绩，可以达到对初始双评误差阈限的校正效果。以某次考试一道主观题为例，E1初始设定为7，E2计算结果为4.67，可以得知D集合中涉及试卷数为8636份，校正前后最终得分曲线图1所示，图中纵轴表示最终评分，波动比较大的为校正后最终评分曲线，可见较原有最终评分离散程度更高。

这种校正方法有一定的优势。首先，不用对现有的评卷系统进行程序上的改动，避免由于程序问题造成的误差；其次，简便易行，可操作性强，在整体评卷后稍加操作即可完成；再次，集合D中涉及的试卷数量有限，不会占用太多的人力就可完成。但也有不足之处，若评卷教师打分过于离散或趋中，则会对双评差值真实值E2产生波动，所以此方法必须配合现有的质量监控手段共同实施。

图1 双评误差阈限校正前后对比

2.增加专家评分曲线，强化专家组指导作用

通常对于评卷教师评卷质量的监控，往往将全体评卷指标曲线作为个人评卷的校标。如果评卷教师曲线与全体曲线近似吻合，就会认为该评卷教师评卷质量较高。但这种以“全体”指导“个体”的方法容易产生趋中倾向。究其原因，主要是由专家校标的缺失造成的。现有的评卷模式，专家组的作用多在试卷试评、评分细则制订、问题卷处理上，往往忽视了专家校标对于评卷整体趋势的指引和把握。因此，如果增加该学科较权威的专家的评卷规模，并以此生成专家曲线作为参考，配合全体曲线对评卷教师的评卷质量进行监控，就能更准确地把握评卷教师的整体评卷质量。

3.建立质量监控模型，开发自动质量监控系统

目前使用的网上评卷软件都提供了一定程度的质量监控功能，在评卷过程中积累了大量的实时数据。有效利用这些数据可以提高监控效率，提升评卷质量。研究认为，对于每位评卷教师评卷质量的监控，有以下几个维度的考量指标。

（1）标准差

标准差代表了评卷教师给分的离散程度，标准差值越大，说明给分越分散，反之，说明越集中。在实际评卷过程中，评卷教师往往容易产生两种倾向，即趋中和发散，这两种倾向对于评卷的准确和公平都是无益的。目前，可以采用与全体评分标准差进行比较的方法度量个体评卷教师离散程度的大小。

（2）平均分

在实际评卷中，评卷教师容易出现偏松或偏严的情况，就可以用个体评卷教师对某题目的平均分与该题目所有评卷教师的平均分进行比较，来度量其对标准宽严的掌握程度。

（3）有效度

评卷教师对某份试卷的评分与其他评卷教师对该试卷评分的差值不超出双评误差阈限，则这份试卷属于有效评卷。每题目每位评卷教师的有效评卷数量与其评卷总数量的比值为有效评分率。该数据值越大，证明有效评卷越多，评卷质量越好。

（4）评卷速度

指单位时间内评卷教师评卷数量，其中速度过快和过慢的评卷教师都是需要监控的重点。

（5）一致性

是对评卷教师在不同时段打分的比较。主要有三种监控方法。一是在不同时段，对某位评卷教师评卷标准差、平均分、有效度和评卷速度的比较。数据越接近，说明其一致性越好；二是对评卷教师给分相同的试题进行复判，检测不同试卷间的评分标准掌握是否一致；三是随机抽取教师已评试卷，再次发给本人重新评分，比较两次评分差值，差值越小或者零差值，说明其一致性好。

在目前使用的网评软件中，大多内置了这几个方面的质量监控功能，但相对独立，不成体系，更不能从这五个维度综合地评价评卷教师的评卷质量。并且，在实际操作过程中，需要评卷管理人员进行人工干预监控，这样既提高了工作难度，又不能达到实时监控的目的，多数的数据没有及时正确地发挥功效。如果由计算机定期定量地对评卷教师的评卷数据进行分析，根据五个维度对评卷教师综合进行监控，当某位评卷教师一个或多个维度产生问题时，计算机自动提醒组长注意，验证评卷教师评阅数据的合理性，将会大大提高质量监控的效率。

五、研究发展

通过研究不难看出，评卷作为标准化考试的重要环节，无论是传统方式评卷还是网上评卷，其主体并没有发生变化，评卷教师依然是影响评卷质量最重要的因素。因此做好评卷教师的遴选、培训和评卷过程质量监控工作，建立一支专业化、高水平的评卷教师队伍，并深入研究与之相对应的评卷教师评卷质量评价体系、方法和模型，将会为领导决策提供数据支持，也将为网上评卷误差控制研究提供技术基础，为确保评卷公平准确提供理论保障。

[1]赵世明.主观题无纸化评分中的误差控制[J].河南大学学报：社会科学版，2007，47（1）：155-158.

[2]陈志国，芮南.高考作文网上阅卷双评过程中的质量监控[J].中国语文教学，2009（2）：12-17.

[3]赵海燕，芮南.双评作文题网上阅卷评卷教师评卷水平评价维度的确定[J].中国考试，2009（2）：12-17.

[4]王跃武.大学英语四、六级考试作文网上阅卷实验研究[J]外语界，2004（5）：78.

[5]娄庆华.高考作文评分误差控制[D].浙江师范大学，2007.

G647

项目名称：国家教育部考试中心教育考试“十一五”规划2009年度课题。项目号：2009JKS3064。