统一构念效度及其特性

2015-09-10赵栋

考试周刊 2015年13期

赵栋

摘要：随着心理测量理论的发展，统计方法和计算机技术的更新，以及人们对于考试维权意识的增强，效度概念的内涵和外延在不断发展变化。效度在考试质量评价中的地位不断得到提升，已经成为测量评价中最重要的方面。本文通过对Messick的统一构念效度理论的阐释，总结统一构念效度在实际运用中所具有的特性，以加强对统一构念效度的理解与运用。

关键词：效度构念构念效度

构念效度的出现是在二十世纪五十年代初期美国心理学会为弥补心理测量中概念的不足而引入的（Cronbach，1988），构念是指具有个体差异而又不可捉摸的特征和能力的理论抽象。构念是一种能力，指成功完成特定任务所要求的人类特性（Wiley，2002）。构念不是一种客观存在，而是为了某种测量目的而假设的抽象概念。Bachman（1990）对构念效度做出了如下定义：构念效度是关于测试表现与此测试基于某种能力理论或构念理论所做出的预测的一致程度。Messick从测量构念的本质做出了定义：构念效度即测量个体拥有或能展现出多少构念。而Heppner，Kivlighan和Wampold（1992）对构念效度的定义则体现了其测量假设检验的性质，即测试者所选取的测量变量能在多大程度上体现出其假设构念的本质特性，换言之，即所测量的变量是否能够代表其假设的构念。Chapelle（1999）也对语言测试的假设检验本质指出：语言测试中的检验假设是指一项测试所能测量的（即从测试分数所得出的推论）及所得测量分数的应用（即基于测试分数的决定）之间的假设。

将构念效度提升成为在心理测量与语言测试学界核心地位的是由Messick所提出的效度框架，在此效度框架中Messick（1995）主张引入价值含义（value implication）和社会影响（social consequences）方面。他认为，统一构念效度的本质是，分数推断要恰当（appropriateness）、有意义（meaningfulness）和有用（usefulness），这三方面具有不可分割性；这种综合解释力来源于以实证数据为支持的分数解释（p747）。Messick（1995）设计并阐述了被称为效度层面渐进矩阵（facets of validity as a progressive matrix），区分统一构念框架下，相互联系的效度层面（facets）。随着统一构念框架的提出，构念效度对测试分数的合理解释已具有核心作用。统一效度概念即把内容效度、效标关联效度作为证据支撑，而将构念效度置于核心地位。Messick（1998：1015）对构念效度的地位做出了总结：构念效度的确是一个统一概念，它将效标与内容效度融合到一个共同框架之中，为基于某理论的假设提供证据支持，因此统一效度即指构念效度。

Messick（1998：3）指出效度是一个统一的概念，即只有一种效度——构念效度，而非传统意义上对效度进行的多种定义。统一意味着在效度检验中分数所具有的意义体现在基于分数所做出的推断之中。构念效度作为统一效度的代名词，Linn和Gronlund（2000：75-6）总结了统一效度的一些特性。

首先，效度是对测试结果解释和使用的一种属性，而不是测试和分数本身的性质。Cronbach（1971）指出效度并不是测试本身的特性，而是分数所蕴含的意义，他进一步指出被认为有效的并不是测试或观察的手段，而是从分数或其他指标中所获得的推断。即便如此，也经常能看到或听到有某一测试的效度或某一分数的效度的说法，Bachmann（2004：260）指出这种用法是不准确的，更确切的说法应是测试分数作为有效的指标或者作为某一能力的有效测量。其次，对使用的某一测试的效度只是一个程度问题。一个特定的测试分数一定不能全面准确地测量出某个特定能力，分数解释和使用的效度要依赖于解释理论的逻辑理据和支持这种理据的实证依据的充足程度。因此，Bachman（2004：260）强调我们无法证明我们对分数的解释和使用是有效的，我们最多能提供依据说明，我们意欲进行的解释和使用比其他可能的解释和使用是更有道理的。再次，效度总是针对一定的测量目的而言的，不具有普遍性。当一个测验被设计和使用时，测验的使用者总是对分数的解释和使用有一系列的目的。因此，特定测试的分数并不适用于其他情况和其他目的。对分数的特定解释取决于测试设计者如何定义所测能力或构念，并且针对不同的使用目的和不同的受测者，对于特定能力的定义也会不同。最后，效度是一个关于整体的评价性判断。首先，效度是一种评价性判断。Cronbach（1988）指出效度是对测量意义和结果的实证性评价。实证性评价，Messick解释道，是指效度验证过程既是科学性的又是说理性的，都需要有证据和论点的支撑。其次，实证性评价并不是单方面的。典型的效度论证需要好几部分，并且需要各种不同的论据支撑，单独的论据并不能有效地验证对于某个特定测试所期望的解释和使用。

Messick（1995）区分出效度是统一概念的六个方面，是教育与心理测量中效度评判的标准。这六个方面为解决验证分数解释和使用中所涉及的多种类相互联系的效度验证问题提供了方法。