新疆学业水平质量监测汉语试卷的纵向量表化实证研究

2014-11-28袁硕彭恒利

中国考试 2014年7期

袁硕彭恒利

袁硕彭恒利

作为一种典型的增长模型，纵向量表化（Vertical Scaling，也称垂直等值、垂直标定等）方法常用于评估被试的学业或能力发展状况。本研究以新疆少数民族四至六年级学生在2011年至2013年三次学业水平质量监测汉语考试中的答题数据为样本，采取共同题设计进行数据收集，并运用Thurstone方法和IRT同时标定的方法进行量表分数构建，最终完成了三个年级间的分数连接，实现了对新疆双语班四至六年级学生汉语学业水平增长的测量，为学业水平监测工作提供了可参考的量化指标。

纵向量表化；Thurstone方法；IRT同时标定；学业质量监测

1 引言

1.1 新疆学业水平质量监测

《国家中长期教育改革和发展规划纲要（2010—2020年）》（以下简称《纲要》）明确提出，要“建立国家义务教育质量基本标准和监督制度”，完善“推进素质教育实施和创新人才培养”的考试招生制度。以此为蓝图，《教育部2012年工作要点》明确提出了“全面提高教育质量，着力提升人才培养水平，构建国家基础教育质量监测评价体系，对基础教育质量进行全面监测和科学评价”的具体要求。

与国外重视学业成就概念，将教育测量领域的先进技术广泛应用于学业质量评价中的做法相比，以往国内的学业评价制度仍强调“甄别与选拔”的功能，忽视了学业质量评价在促进学生全面发展、提高教师教学水平及改进教学等方面的作用，以考试成绩代表学业成就的“一考定终身”的状况并未得到根本性扭转。

为贯彻《纲要》的要求，近年来，国内相继开展了形式多样的学业评价研究。在此背景下，新疆在双语教育体系初步建成的基础上，决定在全区进行旨在检验双语教育质量的学业水平质量监测工作。希望采用科学、有效的监测手段，了解和掌握全疆双语教学质量的现状和发展水平，研究提高双语教学质量的途径和方法，探索双语教学质量监测的有效手段和方式，为在全区逐步建立中小学双语教学质量保障体系，最终形成县（市）、地州、自治区三级联动的监测模式和工作机制奠定基础。

新疆的双语教学质量监测工作始于2011年，采用考试结合问卷调查的方式进行。监测工作首先从汉语学科入手，采用等比例抽样的方式，选取了七个地州的50个县（市）双语实验班的四年级和六年级学生进行样本采集。随后两年，采用同样的方法，完成了四年级学生升入五年级和六年级的样本采集工作。监测工作委托专业测试机构命制了四至六年级的学业水平质量监测汉语试卷，并设计了面向校长、教师、学生的调查问卷。汉语试卷遵循与中国少数民族汉语水平等级考试（MHK）相同的构念命制而成。

1.2 新疆学业水平质量监测采用的测量技术

从监测目的来看，新疆进行学业水平监测不仅关注所测年级的学习状况，更关注其发展趋势和增长状况，这就是说，不只是静态的监测，而是动态的监测。由此，一个现实的问题是，如何刻画学生的学业发展，实现跨年级的分数连接？就跨年级的学业水平测验而言，各个水平测验所涉及的知识内容、测试难度和参加测验学生的能力分布等均存在差异，而且每一个年级的教学目标也不一致，通过同一个测试工具（比如编制一份包含所有测试年级学习内容的试题）施测来评估其发展水平，测得的结果既不好解释，也不可靠，更无法满足水平等值的条件。另一种方法是根据不同年级学生的实际情况，编制特定的测试工具（试卷）来施测。虽然这些不同的测试工具在构念上相同，但在难度和测验内容上均不一致，加之被试的水平也存在差异，其结果也无法直接进行比较。

由此可见，学业水平测试显然不同于一般的成绩测验和水平测验，其特殊性加大了对学业发展进行量化的难度。为解决这一难题，研究者提出了许多新的方法，以此实现跨年级的分数连接，刻画学生的学业水平发展情况。这些方法主要包括两类模型：增值模型和增长模型（Briggs&Weeks,2009）。作为一种典型的增长模型，纵向量表化（Vertical Scaling）是指在测验的构念相同、信度相似，但考试难度和被试总体不同的情况下，将被试在符合上述条件的不同测验中的分数转换到同一个分数尺度上进行比较的过程，这一分数尺度通常被称为纵向量表或发展性分数量表（Developmental Scale）。在实现原始分转换到量表分的同时，研究者可以基于自身理论假设为这一量表分数赋予各种意义，通过发展性量表来获得学生在特定知识领域中的发展信息，并据此评估被试的学业水平或能力的发展情况。

据上，新疆学业水平监测要实现其监测目的，就要进行系统设计，不仅要遵照相同构念，并根据所测年级的实际情况编制针对不同水平学生的试卷，也要采用纵向量表化的方法实现跨年级试卷间的分数连接。

2 实证研究

纵向量表化是“一个受多种因素影响的复杂过程”（Kolen and Brennan，2004），包括数据收集设计、测验内容覆盖范围、测验结构、量表分转化方法甚至研究所使用的程序等环节在内，任何一者发生变化都可能影响到最终的结果。因此，数据的收集设计、量表分的构建均需结合研究样本的实际情况预先进行精心设计。就本研究而言，具体包括数据收集设计、原始分数计算、量表分数转换以及对发展性分数量表进行初步解释等过程。

2.1 研究样本

本研究所采用的样本为新疆双语实验班四至六年级学生2011—2013年度在新疆学业水平监测汉语试卷上的答题数据。由于研究数据的选取对纵向量表化的研究结果存在一定程度的影响，为了使计算结果更有说服力，最大限度减少重复测验导致的误差因素，同时结合客观情况，本研究将相邻年级样本分为“交集”和“总体”两个研究组。其中，交集指参加过低年级学业水平监测考试并升入高年级的学生，总体是指该年级包含“交集”部分考生在内的全体考生。测验题目的命制兼顾了学业水平质量监测评价体系的完整性和延续性，以MHK考查“汉语实际运用能力”的理念为命题依据。对四、五年级学生，使用根据MHK理念而研发的新试卷；对六年级学生，虽然使用的是MHK一级试卷，但通过共同题使五年级和六年级试卷间建立了联系。监测试卷是以《全日制民族中小学义务教育阶段双语教育汉语课程标准》为参考标准的标准参照式测验，测量的结构、覆盖范围、考察的能力以及题目的格式等都经过了严格的规定，题目在命制过程中均经过了专家组的审阅和试做。

在构建发展性量表，或者进行其他任何有关学业水平的测量时，检测不同等级的试卷是否都在测量同一构念，即测验是否满足单维性假设，是保证测验分数得到有效处理的重要前提条件。本研究以三个年级听力、阅读、书写及作文四个分测验的原始分数为对象，通过SPSS软件（16.0）的主成分分析法进行了因子分析。结果表明，测验呈现明显的单维性特质，最终确定提取出一个具有高度解释性的“因子”，将其定义为“综合汉语交际能力”。这说明测验考查学生实际汉语运用能力的预期构念得到了较好的满足。

本研究的全部原始数据都经过了专业的“雷同答卷判定程序”的处理，均为剔除了作弊嫌疑的“干净”数据。具体信息如表1所示。

表1 原始数据信息

2.2 纵向量表化方法的具体决策

数据收集设计及量表分数的构建，是纵向量表化方法的研究过程中最重要的两部分内容。数据收集设计主要包括共同题设计（Common-item De⁃sign，CI design；Kolen and Brennan，2004）、共同组设计（Common-group Design，CG design）及量表测验设计（Scaling-test Design，SC design）三种传统数据收集方法。量表分数的构建分为计算测验分数的原始分及进行分数转换两个步骤，最终目的是将各年级测验原始分转换到具有同一尺度的量表中使其相互可比，并向测验的使用者及相关教育机构报告纵向量表化的研究结果。量表分数的构建方式主要包括Hieronymus方法、Thurstone方法及IRT方法。目前，对量表分数的评价标准集中于三个方面：年级间的学业发展幅度的增减；年级间发展差异性的增减以及年级分布间隔的大小。

在纵向量表化的实证研究过程中，研究者需要做出很多决策，而不同的决策通常会得出不同的发展性分数量表，进而产生不同的报告分数，使相关教育者做出不同的决策。根据国外相关实证研究，结合现实因素的考量，本研究选取了Thurstone（1925）和Thurstone（1938）方法和IRT同时标定方法（3PLM模型，使用Bilog Ver 3.09和Parscale Ver.4.1）进行量表分数的转化，以从理论角度比较不同量表转化方法以及不同软件对研究结果的影响。最后，将通过量表分数转化计算出的平均数、标准差和在此基础上计算得出的效应值（Effect Size）作为学业增长情况的参照指标。

2.3 数据收集设计

参加监测的学生由当地教育部门抽样选取，来自全疆的多个地区。在这一背景下，共同题设计显然是最实际可行且最可靠的数据收集方法。四至六年级的监测试卷均包括听力、阅读和书面表达三部分，由于三个年级书面表达的题型不同，且均包括主观性试题，因此，共同题只在听力和阅读两个分测验中设置，所有题目均为0、1记分的多项选择题。共同题设计方案如图1所示。

图1 共同题设计方案

共同题选取的原则是选择难度大且区分度高的题目。难度、区分度主要依据MCAT软件计算出的题目通过率及点双列相关这两项指标。根据以往等值研究的经验，确定共同题的选取标准是通过率低于0.5，点双列相关大于0.3。

2.4 量表分数转化

本研究所采用的量表分数转换方法包括Thur⁃stone方法及IRT方法两种。

Thurstone方法方面，包括 Thurstone（1925）、Thurstone（1938）两个版本。Thurstone方法的计算公式如式（1）、式（2）所示：

及

其中μL=0且σL=1

Thurstone方法在计算前需要进行原始分数转换。原始分数转换是该方法两个版本的不同点所在：在（1925）版本中，对两个相邻年级而言，通过被试的作答反应计算每题的通过率（P值），然后通过反向累积正态函数（Inverse Cumulative Normal，也称Logit-transform，即Logit转换）将每道题目的P值进行正态化处理，转换为Z分数；在（1938）版本中，通过两个相邻年级的原始分频次分布（Raw Score Fre⁃quency Distribution）获得同一年级内每个被试原始分数所对应的百分等级，然后对每个百分等级的值通过Logit转换进行正态化处理，使用经正态转换后的百分等级分数取代正态转换的P值。

其次，需对数据进行效度检验，检测数据是否满足Thurstone方法的两个假设：假定年级内考生的分数呈正态分布；假定年级间考生的分数呈线性相关。前者需要生成数据的双变量散点图（Bivariate Plot），后者需要计算两者的皮尔逊相关系数（Pear⁃son Correlation）。效度检验的目的是测试Thurstone方法是否得到了有效的使用。

IRT方法方面，本研究选取在满足单维性假设条件下更为便捷、稳定的同时标定方法，即对所有水平测验上的所有反应项目同时进行参数估计。在IRT模型上选取对客观性测验的计算结果更为精确的三参数模型（3PLM），如式（3）所示。同时，分别通过Parscale（4.1版本）和Bilog（3.09版本）软件进行计算。

效应值（Effect Size）方法将相邻年级之间的分数差异进行了标准化处理，需要使用到量表分数转化方法计算出的平均数及标准差。效应值与学生的学业水平发展程度呈正相关：其值越高，表明学生学业水平的发展程度越高；反之亦然。

3 结果分析

3.1 研究结果

表2对不同纵向量表化方法的计算结果进行了对比。表中的数值即为三个年级原始成绩通过两种分数转化方法所得到的发展性分数量表，包括平均值、标准差以及效应值三项指标。

3.2 结果分析

在所有的方法中，低年级的平均值都被设定为0，标准差被设定为1。其中，平均值指标的正负，反映的是学生汉语学业水平的增长或降低；效应值的大小反映的是学生汉语学业水平的增幅大小；标准差指标跟1的大小关系，反映的是年级间汉语学业水平增长差异性的扩大或缩小。根据表2，本研究的具体结论包括下述三个方面：

表2 发展性分数量表

（1）通过四种方式计算出的平均数和效应值两项指标显示，所有研究组学生的学业水平都实现了不同幅度的增长。其中，五年级到六年级（总体）学生的汉语学业水平增幅最大（平均数指标均值为0.36，效应值指标均值为0.87），五年级到六年级（交集）学生的学业水平增幅最小（平均数指标均值为0.07，效应值指标均值为0.22）。

这表明多次参加学业水平汉语测验的学生并没有体现出更高幅度的学业水平增长，意味着学生整体实际汉语水平的高低，对于学业水平发展幅度的影响更为显著。

（2）通过四种方式计算出的标准差指标显示，多数研究组学生的汉语学业水平增长差异呈现了并不一致的发展趋势。其中，4个研究组的标准差均值依次为0.86、1.00、0.92及1.16。

这表明两个相邻年级间学生的汉语学业水平增长幅度与其学业水平增长变异性发展并不呈线性相关，即某一年级学生汉语学业水平幅度较大，并不意味着其中学业水平增幅低的学生与学业水平增幅高的学生之间的差距也变得更大，反之亦然。

（3）通过不同量表分数转化方法得到的结果显示，各研究组学生的学业水平增幅或发展变异的程度并不一致：平均数指标方面，Thurstone（1938）＞Thurstone（1925）＞ IRT-Con（Parscale）＞ IRT-Con（Bilog），其均值依次为0.24、0.25、0.09及0.19，Thur⁃stone方法的计算结果显示了更为显著的学业水平增长；标准差指标方面，IRT-Con（Parscale）＞ IRTCon（Bilog）＞ Thurstone（1938）＞ Thurstone（1925），四种方式计算出的均值依次为0.85、0.97、1.02及1.10，IRT同时标定方法的计算结果显示了更为显著的学业增长变异；效应值指标方面，Thurstone（1925）＞ IRT-Con（Parscale）＞ IRT-Con（Bilog）＞Thurstone（1938）四种方式计算出的均值依次为0.84、0.21、0.51及0.65。

两类方法内部，除了效应值指标，Thurstone两种方法及IRT同时标定方法使用两种软件计算出的结果，均无显著差异，结果较为接近。这一结论从实证角度再次证明了纵向量表化研究过程中，在研究样本、数据收集方式等基本决策相同的情况下，不同量表分数转化方法计算出的结果存在差异。

4 结论

本研究基于标准化的学业水平测验，并进行了单维性假设检验及效度检验，其结果具有较强可靠性。研究结果证明纵向量表化方法适用于学业水平质量监测工作，同时从实证角度证明了新疆少数民族学生的汉语学业水平呈现出发展上升的趋势，为新疆学业水平质量监测汉语教学工作提供了可参考的量化指标。研究结论如下：

（1）各年级之间的“交集”研究组是参加多次学业水平汉语测试的学生，但其结果显示，他们并没有体现出更高幅度的学业水平增长，这意味着学生整体水平的高低对于学业水平发展的影响更为显著，说明“为了考试而考试”的应试教育方式并不会带来更好的成绩。学校应致力于提升实际教学水平，学生应通过更为有效的学习和应用，才能切实提升汉语水平与汉语考试成绩。

（2）两个相邻年级间学生的汉语学业水平增长幅度与其学业水平增长差异性并不呈线性相关，即学业水平增长幅度大，并不意味着增幅低的学生与增幅高的学生之间的差距也变得更大。但标准差指标中大部分研究组的结果都小于1，说明低水平学生的汉语学业水平发展幅度多大于高水平学生的汉语学业水平发展幅度，即两者的差距在缩小。意味着学生整体基础方面，有了较为明显的提高。

从本研究可以看出，纵向量表化主要以某一特定范围的学生总体为研究对象，而增值性评价主要针对每个学生、教师及每所学校进行个体评价研究，两种研究的结果相结合，可以为考生、学校、教育主管机构等相关方面提供更具有参考性、更为科学的量化评价指标及更为全面的反馈信息，有利于教育行政部门今后开展更加科学、公正、积极、健康的教育评价工作，实施更具针对性的教学指导与规划。

[1]Andrews,K.M.The effects of scaling design and scaling method on the primary score scale associated with a multi-level achieve⁃ment test[C].Unpublished doctoral dissertation,The University of Iowa,Iowa City.1995.

[2]Briggs,D.C.&Weeks,J.P.The Impact of Vertical Scaling Deci⁃sions on Growth Interpretations[J].Educational Measurement:Is⁃sues and Practice，2009，28(4),3-14.

[3]Brennan,R.L.Educational measurement(4th edition)[M].ACE/Praeger.2006.

[4]Kolen,M.J and Brennan,R.L.Test Equating,Scaling and Linking:Methods and Practices(Second Edition)[M].New York:Springer-Verlag New York Inc.2004.

[5]Kyoko Ito,Robert C.Sykes,and Lihua Yao.Concurrent and Sepa⁃rate Grade-Groups Linking Procedures for Vertical Scaling[J].Ap⁃plied Measurement in Education,2008，21,187-206.

[6]王烨晖，边玉芳，辛涛.垂直等值的应用及最新发展述评[J].心理学探新，2011，31（5）：472-476.

[7]叶萌，辛涛.矩阵设计的垂直量尺化在大规模测验中的应用[D].第十届海峡两岸心理与教育测量学术研讨会——暨全国教育与心理测量学术年会文集，2012：125.

[8]张布和.我国学业成就评价改革现状及对策[J].中国教育学刊，2009（4）：50-53.

（责任编辑周黎明）

An Empirical Study on Vertical Scaling in Chinese Test the Quality Test of Academic Achievement in Xinjiang

YUAN Shuo and PENG Hengli

As a typical growth model,Vertical Scaling is a method that aims at measuring and evaluating students’academic performance and learning ability.This research qualifies the improvement of Chinese proficiency of Han-Uygur Bilingual students from 4th grade to 6th grade in Xinjiang by collecting sample from the results of Chinese test in the Quality Test of Academic Achievement from 2011 to 2013.Same questions are designed to collect the data.The method of Thurstone and IRT concurrent calibration are adopted to construct the scaled score and achieve the score linking among the chosen three grades.By quantifying the improvement of students’Chinese academic development in the sample,this study provides referable quantitative indicators to assess academic performance.

Vertical Scaling；Thurstone;IRT Concurrent Calibration；Quality Monitoring for Academic Achievement

G405

1005-8427(2014)07-0003-7

本文系国家语委“十二五”科研规划重点项目（编号：ZD1125-6）的研究成果之一。

袁硕，男，国家图书馆外文采编部，助理馆员（北京 100081）

彭恒利，男，北京语言大学教育测量研究所，副研究员（北京 100083）