我国现代教育测量发展述析

2014-08-15李夏妍

哈尔滨师范大学社会科学学报 2014年2期

李夏妍

(广东金融学院，广东广州 510521)

我国从夏商周三代至清末废科举时止，为古代教育测量时期;清末废科举至现在，为现代教育测量时期。

一、我国现代教育测量的出现并快速发展时期

“教育测量”一词，是美国桑代克在1904年提出来的。20世纪初期，我国进入现代教育测量阶段。笔者认为，我国现代教育测量的产生，主要源于我国以科举考试为特征的古代教育测量和西方以智力测验量表以及调查问卷为特征的心理测验和学绩测验，受西方心理与教育测量学影响较大。现代教育测量的主要特征是:第一，测量类型的多元化。我国古代教育测量只是学业考试。现代教育测量除了学业考试，还有智力测验、品德测验、能力倾向测验等。既有个别测验，又有团体测验。第二，客观性、科学性和标准化。古代教育测量大多偏于主观经验性测量，如口试、凭经验观测、主观评判等，现代教育测量开始注重客观依据和科学标准，测量手段、工具更先进、更科学、更有效。从测量标准、命题、测量过程到评定都讲究客观性和科学性。19世纪，冯特时代的心理实验十分强调控制实验情景。到了20世纪，实验控制的思想在测验中就演变为测量的标准化问题。现代教育测量强调在一个标准化的情境下观察所有受试者，使测量走向科学化、规范化。第三，教育统计学在教育测量中的应用。教育统计学的发展提高了教育测量结果的数量化水平，使测量结果的描述从模糊性到精确性。第四，经典测验理论的形成。经典测验理论讨论了测量的信度、效度、难度和区分度等问题，使我们能对测量结果的稳定性和有效性进行评价，从而更好地改进测验工具。

20世纪初，科学的教育测量学从西方引进中国。1915年，美国的克雷顿 (Creighton)对广州500名小学生进行机械记忆、比喻、交替等内容的测验，并比较中美儿童智力差异的情况。这是西方教育测量理论与方法在中国运用的最早案例。1917年，樊炳清首先向国人引入和评述比内—西蒙量表。1918年，西方学者使用推孟的修正智力量表对北京大学和清华大学的学生进行智力测验。

在西方科学教育测验工具在我国运用的同时，我国学者也开始自编测验。自编的教育测验的种类五花八门，包括书法测验、算术测验、默读测验、文法测验、常识测验、学校各科教育测验等。这些测验测量的对象主要是中小学生。1918年，江苏省立师范附小的俞子夷编制了小学生毛笔书法量表［1］。1922年，我国聘请美国测量学家麦柯尔 (W.A.McCall)来华指导编制各种教育测验，并培训教育测量人才。麦柯尔在中国与全国各地教育专家合作完成了五十多种测验［1］。1925年前后，南京高等师范学校廖世承编制了《廖氏团体测验》;此外，还有艾伟编制了中小学各年级各学科测验、小学儿童能力测验及智力测验，进一步促进我国自编教育测验的发展。西方科学的智力测验量表的引进使用及我国自编标准化教育测验的发展，是我国20世纪初现代教育测量的出现并快速发展的重要标志。

二、缓慢和停止发展时期

抗日战争开始后，我国教育测量的发展速度减慢，但在学校施测并没有停止。新中国成立后至1966年，学校重视知识教学，关注学业成绩测验和升学考试，但不重视对教育测量理论和技术的研究，教育测量学缓慢发展。

“文革”期间，凯洛夫教育学被打成修正主义“黑货”。心理学被打成伪科学，教育与心理测验被视为禁区，取消高考与中考，导致教育测量学停止发展。

三、蓬勃发展时期

20世纪70年代末至80年代时期，主要表现在:第一，我国学者从西方国家引进了传统的经典测验理论 (Classical Test Theory，简称CTT)以及现代的概化理论 (Generalizability Theory，简称GT)和项目反应理论 (Item Response Theory，简称IRT)。第二，1979年，林传鼎、张厚粲等人在参考国外资料的基础上编制了少年儿童学习能力测验，用于测量小学毕业生的语言能力和推理能力。1980年开始，在张厚粲的主持下，北京师范大学高考研究组对每年的高考试卷进行系统的统计分析。从1985年开始至1990年，我国全面开展高考标准化改革实验。第三，1982年，叶佩华教授等人翻译美国桑代克、哈根合著的《心理与教育的测验和评价》(Measurement and Evaluation in Psychology and Education，1977年版)一书。教育测量学方面的学术著作大批出版。第四，1988年，全国教育统计与测量研究会成立。同年，我国加入国际教育成就评价协会 (International Association for Educational Assessment，IAEA)，并与国际教育成就评价协会合作，在我国进行了全国规模的教育测量抽样研究。

四、21世纪初我国现代教育测量理论和方法的新发展

(一)教育测量理论的前沿研究

21世纪初我国教育测量理论的前沿研究主要表现在三个方面:一是多维项目反应理论的研究与应用;二是认知诊断理论的研究与应用［2］;三是测验等值理论的研究与应用。

传统的教育测验以经典测验理论为依据，主要用于教学中的人才选拔考试、学生成绩诊断和描述性评价等方面。经典测验理论存在统计量的样本依赖性大，信度估计不精确，不能同时对题目难度和被试能力进行估计，测验结果的预测力缺乏等问题。项目反应理论具有能对被试的能力或潜质特质进行估计，针对每个被试提出其能力估计值的测量误差，项目参数不依赖于样本等优点，弥补了经典测验理论的不足。项目反应理论的研究主要关注不同参数的等级反应模型、规则空间模型、不同条件下对各种参数估计的影响等，研究方法主要采取模拟数据和实测数据相结合。多维项目反应理论是把知识分解为多个维度，分别估计被试在每个维度的能力值，来实现对被试知识结构的诊断［2］。多维项目反应理论对测验中的每个维度都分别计算被试能力和项目区分度参数，同时估计题目与被试的交互作用。

经典测验理论给人们提供的只有分数，只能提供被试在知识与能力上的排序信息，而缺乏深入了解被试认知结构和认知水平的诊断信息。认知诊断理论 (Cognitive Diagnostic Theory，简称CDT)的研究则可解决这一问题。认知诊断理论突破了经典测验理论忽视被试心理学实际意义的不足，结合认知心理学的最新研究，注重被试的心理学实际情况，成为新一代测验理论的核心。它以现代测量理论为基础，根据认知学习理论，运用精致的数学模型，以测量被试的知识结构、认知过程和认知策略为目标［3］，注重测量被试的多维认知能力，可以给被试提供掌握知识与技能情况的诊断信息。

以多维项目反应理论和认知诊断理论为代表的现代教育测量理论的兴起反映了人们不满足于单一的测量分数、希望得到更加详细的诊断信息的现实情况。将测量理论与教育评价和考试等实践领域相结合，产生了增值性评价、自适应测验以及计算机化自适应多阶段考试等应用性的研究。目前大多数前沿领域，如认知诊断和计算机化认知诊断测验，还处于理论研究的阶段，尚未在大规模测评项目中应用。

在教育测量中，人们常常遇到需要比较不同地区、单位、时间的考试分数的问题。教育管理部门希望对不同学年学生的学业成绩与水平做出公平的评价，这就需要测验等值的技术方法把不同的测验关联起来。测验等值可以把不同测验分数之间进行等值，也可以对测验题目的参数进行等值［4］。总之，现代测验理论的不断发展和成熟，弥补了经典测量理论的不足，为教育测量与评价提供更多样化、科学化的工具。

(二)教育测量新方法的研究与应用

未来一段时期内我国教育测量新方法的研究应用主要关注以下三个方面:

1.计算机自适应测验

以项目反应理论为基础，结合计算机技术形成的计算机自适应测验已经被广泛应用于教育测验。计算机自适应测验 (Computerized Adaptive Testing，简称CAT)是项目反应理论的一个重要应用。计算机自适应测验是不同于传统纸笔测验的一种新型测验。它应用项目反应理论来建立测验的题库，通过计算机自动选择与被试能力相符的测验题目施测，应用数学模型对被试能力水平进行估计。因此，不同于传统纸笔测验通过一份试卷考查所有被试，在计算机自适应测验中，每个被试接受与自己能力相符的独特的测验。计算机自适应测验也不同于一般的计算机化测验，一般的计算机化测验只有呈现题目、输入答案、自动评分、得出结果的功能，而计算机自适应测验需要根据被试对试题的不同回答，自动选择最适合被试的试题让被试继续作答，最终达到对被试能力做出最恰当估计的目的。在计算机自适应测验中，测验试题的选择和呈现、被试对试题的解答以及被试的能力计算都是通过计算机来完成的，因此，对计算机的性能要求比较高。计算机自适应测验关注试题曝光率的控制、测验终止的原则对计算机化掌握性测验的影响、选择试题的策略以及计算机自适应测验的结束规则等方面。美国教育考试服务中心 (ETS)GRE考试的General Test和GMAT计算机考试都属于计算机自适应测验。我国大学英语四六级考试目前正在尝试推动这种考试方式的改革。

2.高级统计方法在教育测量中的应用

高级统计方法的发展极大推动了教育测量的研究。结构方程模型 (Structural Equation Model)计算方法是目前最常用的高级统计方法，它在现代教育测量与教育研究中的应用已日益广泛。结构方程模型中的验证性因素分析为测验结构效度的检验提供了新的方法。结构方程的路径分析思想拓展了教育测量研究的思路——由过去的只研究单变量变为研究多变量，由分析主效应到同时分析主效应和交互效应，由对单指标和直接观测变量进行研究到对多指标和潜变量进行研究［5］。统计分析方法的另一大突破性发展是多层分析的理论和方法。在教育测量的研究中，取样往往存在嵌套结构，如学生嵌套于学校。多层分析方法可以减少传统回归分析方法导致的估计误差，并且可以避免由人为选择分析单位而可能出现的错误。新一代统计方法的发展还体现在对追踪数据和发展模型的处理上，目前最为广泛接受的是基于结构方程的追踪数据分析方法和基于多层分析技术的发展模型方法。这些高级统计方法对提高研究的严谨性、结论的科学性带来很大帮助，必将有力推动教育测量的研究向更高层次的发展。

3.国际学科能力测验的新方法

教育评价的国际比较研究为人们在解释一国的表现时提供了更大的参照系，因而加强国际合作已成为当今世界评价学生基本素质的一大发展趋势。当前国际上影响力较大的三个基础教育学科能力评价项目PISA(Programme for International Student Assessment，国际学生评估项目)、TIMSS(Trends of International Mathematics and Science Study，国际数学和科学评测趋势)和NAEP(National Assessment of Educational Progress，美国教育进展评价)的考试科目和内容的确定、测验命题、考试组织、成绩评价等全新的方法引起国内研究者的关注。目前，我国上海等城市的学生已参与PISA测验。中国大陆还没有参加 TIMSS测试。2012年，在四年一届的TIMSS项目中，中国香港和台湾地区学生参与其中，并取得骄人成绩。国际教育比较研究可以侦测每个国家相对擅长和不足的学科领域，为国家的教育政策、学校课程、教学以及学生的学习提供导向。

［1］张厚粲，余嘉元.中国的心理测量发展史［J］.心理科学，2012(3).

［2］辛涛，乐美玲，张佳慧.教育测量理论新进展及发展趋势［J］.中国考试，2012(5).

［3］吴强，钟志强.教育测量理论发展研究［J］.鞍山师范学院学报，2013(4).

［4］张敏强.20世纪教育测量学发展的回顾与现状评析［J］.教育研究，1999(11).

［5］侯杰泰，等.结构方程模型及其应用［M］.北京:教育科学出版社，2004.