浅议现代考试研究方法的转变

2012-07-09王喜军

文教资料 2012年5期

王喜军

摘要：考试研究方法对高效、科学的考试研究具有重要的方法学意义，更新考试理念，创新考试研究方法是我国考试研究的发展方向之一。本文从理论基础、数据处理、变量关系、结果解释四个方面探讨我国考试研究方法发展的新方向，并从这四个方面分别介绍了新进考试研究的转向。考试研究方法的科学发展有利于完善我国的考试研究。

关键词：考试研究方法转向

我国隋朝产生的科举考试制度是后期西方现代文官考试的源头，因此可以说现代化的考试最早起源于我国。考试是一种考查学生学习水平，从而合理分配教育资源的活动。作为世界人口第一大国，从规模、覆盖范围、人员参与度等多种因素来讲，我国的考试规模空前庞大、绝无仅有。然而，我国的考试研究却有些落后。科学、公正的考试制度是高效人才培养的保障，如果考试本身没有什么问题，那么现今对于考试的批评又如何解释呢？瑞典著名教育社会学家胡森提出教育公平理论：教育公平依次表现在效率优先的起点均等论、公平优先的过程均等论和突出个性发展的结果均等论。在考试中也表现为考试前（试卷编制），考试中（考试过程控制），考试后（考试数据分析及考试后效）。

对于考试研究要从动态的过程中合理把握，考试研究方法是研究考试过程的基本工具。自从科学化测量理论建立以来，考试研究方法不断发展，本文主要从以下四个方面阐述。

一、基本理论——从经典测量理论到现代测量理论

考试研究的理论基础是基于测量理论，真正意义上的标准化的考试产生于西方，其标志是1905年比纳与西蒙编制的应用于智力测量的比纳—西蒙量表。传统的经典测量理论（CTT）在五六十年代走向成熟，标志是1950年Gulliksen Theory of Mental Test一书的出版，理论上总结经典测量理论发展脉络，以及主要成果。CTT有其自身的不足：首先，对误差的估计粗糙；其次，考试结果的推论范围不恰当；再次，考生的能力参数严重依赖试题样本；最后，题目难度参数与考生的能力参数定义在不同量表上。

正是CTT的不足，催生了概化理论（GT）与项目反应理论（IRT）。概化理论将实验设计的思想引入对测验的分析，突出的特点是：对一次测量，可以根据研究目的不同提供多个测量信度。目前，概化理论应用于高考研究、表现性评价与结构化面试等领域。项目反应理论将项目特质与考生的能力参数定义在相同量表上，这就意味着不同测量量表的分数可以统一。项目反应理论通过项目特征曲线对各种项目分析的资料进行综合研究，可以直观地看出项目难度、鉴别度等项目分析的特征，从而起到指导项目筛选和编制测验比较分数等作用，其在计算机自适测验、测验等值问题研究、题库建设方面有广阔的前景。

二十世纪九十年代，一种理论对以上三种提出了挑战——认知诊断理论。综合运用认知心理学的理论与测量理论，对于测验的编制到结果解释的全过程提出了不同于以往理论的新的关注点。认知诊断理论，注重对学生学习的认知过程、认知方法的解释，不瞒于经典理论的线性的解释，在评价分数的背后应该阐明学生在认知方面的优势与缺陷。目前这一理论的应用范围不广泛，只在美国的PSAT中应用，但是越来越多的人承认，这是今后测量理论发展的新方向，某种程度上具有革命意义。

二、数据处理——定性方法与定量方法的转变

数据处理问题上传统的数据分析要求所研究的数据是连续变量并且正态分布，这一要求在物理、化学等领域中是比较容易获得的，但是在教育之中有许多特质是不能用严格的比率量表测量的，满足不了对于数据处理的要求。这是对于数据的横向比较。对于每一个个体的纵向比较而言，依据总分对个体评价也是不合适的，相同总分的个体不代表他们的能力特质与结构相同，虽然总分相同，但是题目的作答组合有很多，所体现的能力也很可能有质的差异。潜在类别模型（LCM）是探讨潜在变量的模型化分析技术，潜在类别分析处理的是类别变量。类别变量虽然没有连续变量的技术特征，所得结论与统计方式都相对单一，但是在实际应用中类别变量在教育中有广泛的适用性，尤其在考试研究中许多变量类型属于潜在变量。潜在类别分析的优势在于把类别数据与潜在变量的观念加以结合，提高了类别变量的分析价值。潜在类别分析方法能体现考生具体的能力倾向，尤其是在多维的试题中或者是需要综合各科成绩进行分析时，能更客观地刻画考生在各种能力维度上的表现。

三、变量关系——线性与非线性的转变

考试研究中变量关系的分析，往往关注变量之间的直线关系，运用一元或是多元线性回归，探讨变量之间的数量关系。回归分析通过建立变量间的数学模型对变量进行预测和控制。有时研究者会关心两个学科之间是否存在相关关系，是否可以用一科成绩预测另外一科成绩，这时候就要运用一元回归分析。如果自变量的控制不是一个，那么预测源的分析就要用多元回归。但是这种回归分析只能在两变量或多变量是线性关系时才适用。在考试研究中许多特质之间存在非线性相关，例如，考试焦虑与学习成绩之间的关系，可以用耶克斯—多德森定律来解释呈倒U型关系。这就是一种非线性相关，可以运用曲线回归来解释变量之间的关系，可是现在没有一种软件用来进行多元曲线回归。而且，回归分析并不能说明变量之间的因果关系。

为了克服变量之间关系探讨的多形态、多维度，以及因果关系的分析，考试研究中引入结构方程模型（SEM），展开探索性与验证性分析。探索性因素分析是在研究的初始阶段用来简化数据与初步探索潜在维度，以统计为导向的；验证性因素分析与探索性因素分析的不同在于，验证性因素分析是以理论为导向，先是进行理论建构，之后再对其检验。20世纪80年代以来结构方程在社会科学中的应用被誉为是应用统计的第三次革命，尤其是验证性因素分析，通过建立测量方程与结构方程，探寻全变量之间的关系。对考试试卷的潜在维度分析、题目与所测特质一致性关系分析，以及题目本身性质，均可以运用结构方程。

四、结果解释——单维与多维的转变

考试结果的解释是考试研究中重要的一环，可以说对结果解释正确与否决定了考试分析过程的意义。传统上的考试结果解释，运用信度、效度、难度与区分度四大指标。以难度为例，难度通常用通过率来表示，通过率越高说明题目越简单，实际上用通过率表示是值得商榷的。难度是一个相对指标，与被试群体特质相关，被试群体能力越强，同一题目的难度就越小，难度的解释是相对的。如此来说，运用某一指标来解释考试分析结果受外在因素影响，应该从多维度角度来阐释考试结果。在大规模考试中，像中考、高考这样的考试往往人员涉及多，社会影响大。同时考试的群体来自差异较大的不同省、市、自治区，不同类型的学校。通常会以地区平均值等指标来评定考试状况，实际上不同水平被试由于其自然与社会条件所限，某些群体之间的比较会掩盖一些更小群体的特性。将所处不同地位的群体分开来研究的思想正是基于此。多层线性模型运用不同层面嵌套的方法处理不同分层的群体。例如上面提到的学生嵌套于学校，学校嵌套于地区。多层线性模型考虑了变量之间的不同水平，符合考试的实际情况。

整体看来，在我国现代考试研究中还没有一种思想与方法是可以解决所有的考试中的问题，不同的研究者依据自己的研究目的，立足不同视角。最终的目标就是在传统考试的基础上构建一个科学的教育与考试评价体系，实现从考试到评价的跃升，这既是对现有考试制度进行改革的核心问题，又是教育改革的关键所在。

参考文献：

［1］邱皓政.潜在类别模型的原理与技术［M］.北京：教育科学出版社，2008.

［2］张厚粲，徐建平.现代心理与教育统计学［M］.北京：北京师范大学出版社，2007.

［3］戴家干.从考试到评价——论我国考试与评价制度的改革［J］.中国考试，2010，（2）.