APP下载

教育测量和评估中多元概化理论的应用

2014-06-07董婉玲沈阳大学师范学院辽宁沈阳110041

沈阳大学学报(社会科学版) 2014年1期
关键词:概化测验信度

董婉玲(沈阳大学师范学院,辽宁沈阳 110041)

教育测量和评估中多元概化理论的应用

董婉玲
(沈阳大学师范学院,辽宁沈阳 110041)

介绍了在教育测量和评估中运用多元概化理论的优势,使用多元概化理轮的过程步骤,以及能够提供给研究者的各种结论和信息。认为可以帮助初学者了解多元概化理论,并为使用者提供了使用方法。关 键 词:教育测量;教育评估;多元概化理论

在现代的标准化教育测量和评估中,信度是一个不可或缺的重要指标。以往研究者都采用以经典测验理论(Classical Test Theory,CTT)为基础的各种信度指标,如重测信度、分半信度、评分者信度等。然而,由于受经典测验理论所要求的条件限制,这些信度指标往往并不能尽如人意。在这种情况下,概化理论(Generalizability Theory,GT)为教育测量和评估信度的研究提供了新的方向和策略。

概化理论的优势在于,它不仅能为研究者提供一个信度指标,即概化系数,更关键的是能将测量和评估中的各种误差来源进行分解并估计。因为概化理论是一种把测量误差作为模型参数来处理的测量理论。这样,研究者就可以在之后的测量或评估中有针对性地更好地控制误差,从而提高教育测量和评估的信度。

以往的教育测量和评估通常都由若干部分组成,以考核被评估者的不同能力或表现,也就是说某一项测量或评估包含若干个分测验[1]。但这些分测验并不是绝对独立的,而是既相对独立又存在联系的。比如中考和高考中包括语文、数学、外语、综合,普通话测试包括读字、用词和说话等方面的能力测查[25]。那么,对于这种涉及到多个不同能力而且能力之间又存在着一定相关性的测量评估,近些年逐渐发展起来的多元概化理论(Multivariate Generalizabilit Theory,MGT)就有独特的优势。因为多元概化分析的结果中不仅包括一元概化分析的所有结果,还可以给研究者呈现各个分测验的信度及各个分测验之间的关系。

一、确定测量目标和测量面

概化理论区分了测量目标和测量面这两个概念,并在实施测量之前首先确定。测量的目标一般是指所要测量的心理特质或能力。测量面则是指测量的一组条件,也就是影响测验过程和测量结果的各种情景,可以将它理解为测量误差的各种来源。比如一次普通话测试(包括三个分测验,分别测试三种不同的能力),被试者p的普通话水平就是测量的目标。测试所选用的题目i和评分者r就是两组影响测验过程和结果的条件,因此就是测量的两个面。在测量时,人们总是希望测量目标对测验结果的影响达到最大,而测量面的影响最小[4]。

二、测量设计

根据测量目标和测量面之间的关系,测量可分为交叉设计、嵌套设计和混合设计。在上例中,如果所有被试做了所有的试题,而所有的评分者又评定了所有被试的全部试题,则被试、试题和评分者全部都是交叉的,计为p·i·r。如果每个评分者只评定了一部分被试,则被试就是嵌套于评定者的,记为p∶r。一个设计中既有交叉又有嵌套,就是混合设计。比如上例中,如果全部被试都做了全部试题,但每个评分者只对几个被试的全部试题评分,则被试嵌套于评分者,而被试与试题又是交叉的,记为i·(p∶r)。

三、G研究与D研究

多元概化理论与一元概化理论一样,也分为两个步骤,即先进行G研究,再进行D研究。

1.G研究

概化理论研究中,首先要估计不同来源的误差大小,在此基础上确定测量的信度,或是通过改变测量设计方案以尽可能地减少误差,进而达到提高信度的目的。在概化理论中,除测量目标外的来自各测量面的影响都称为误差。G研究就是通过G研究的设计,借助方差分析技术将误差分解,估计出不同来源的方差成分的大小。

以某一次中学期末考试为例,假设一个班50名学生都参加了语文、数学、外语和综合4项测验,只进行最简单的p·i设计。那么经过专门的统计软件计算后,系统将生成一个表1样的矩阵图,呈现G研究的结果。

表1 期末考试G研究方差与协方差分量的估计

表1中的一、二、三、四分别代表语数外综合4项测验。由于只是最简单的p·i设计,因此只有p、i和p·i在4项测验上的各个效应。

其中主对角线上的元素为各效应在相应分测验上的方差分量估计。方差分量越大,表明所在的分测验对整个考试测验的作用越大。

主对角线以上元素为分测验间的相关系数的估计,主对角线以下元素为各效应在不同分测验间协方差分量的估计。协方差分量大,表明各个分测验在预测考生能力水平的顺序方面,彼此的功能是一致的,各分测验得分合成的总分可以直接用来对考生能力水平整体排序。反之,若相关系数及协方差分量小,则不适合将直接合成的总分作为整体评估的指标。

2.D研究

D研究的主要任务是在G研究的基础上对测量精度作出评价,并针对误差来源,通过改变取值区间或固定某些测量面等方法,考察减少测量误差、提高测量信度的具体策略。在现代教育测量与评价中,多元概化理论可以为我们达到以下两个最基本的目的。

(1)多元概化的D研究在G研究的基础上估计当前实施方案的信度等指标。包括以下几项:①各个分测验的估计精度,其中有各个分测验的全域分方差分量,即将当前的考试作为一个样本,推论其在相同条件的总体中的方差分量;各个分测验的各种误差(相对误差、绝对误差、均值误差);误差因素的各个分测验的G系数(类似经典真分数中的新度指标)和φ系数(可靠性指标)。②各个分测验所占权重,权系数的常用确定方法是直接把某一分测验中所拥有的题目数量占总数的比重作为权系数值。③确定了各个分测验的权重后,多元概化分析将把各个分测验整合,合成整个一次考试或测验的总分,然后估计出这个合成总分的G系数和φ系数。④多元概化分析会计算估计在这次考试中各个分测验对总体成绩的贡献率。

(2)在多元概化的D研究中,研究者可以调整测量面,选取最佳的教育测量或评价方案。例如,增加或减少测试题目、改变评委人数以调整信度系数。通常,增加测试题目和评委人数会提高信度系数。但是当题目数或评委数增加到一定程度时,信度系数(G系数)的提高幅度会渐渐变得不显著。多元概化分析中的D研究会估计出不同条件下的G系数。研究者可以根据自身的条件和需要,选择一个节省人力物力财力的相对最佳方案[2]。

四、结 语

实际上多元概化理论最初就是在教育测量与评估中研究应用并逐渐发展的,因此在教育测量与评估领域中应用的多元概化理论相对更加熟练和完善。在国内也有越来越多的学者都运用多元概化理论分析现代教育测量与评估,例如普通话测试、高考、研究生入学考试、教育教学评估等[2]。分析多个应用概化理论研究教育评估的课题发现以下几点:①应用概化理论研究教育评估不论是从各变量来看还是从整体来看都具有较高的评估信度。②评估中,对不同变量的评估,其信度不等,其中对高校学术队伍的评估信度最高,而对高校工作条件的评估信度相对较低。③评估专家数的改变会影响评估信度。综上所述,采用多元概化理论对教育评估进行信度分析有强大的功能。它深入分析各个分测验的信度及其综合信度,而且能有效地考察评估情景的变化对评估信度的影响,能有力又有预控性地改善和提高评估的信度和准确性,对实际工作有更强的指导价值。因此可以认为,多元概化理论能使人们站到新的理论高度,是一种发展前景宽广,值得推广的现代测量理论和工具。

[1]蔡艳,陈抚良.多元概化理论在教育评估信度分析中的应用研究[J].江西师范大学学报:自然科学版,2007,31(3): 306 310.

[2]Brennan R L,Xiaohong G,Colton D A.Generalizability Analyses of Work Keys Listening and Writing Tests[J]. Educational and Psychological Measurement,1995,55(2): 157 176.

[3]关丹丹.心理学专业基础综合考试的多元概化理论研究[J].中国考试:研究版,2007(7):45 49.

[4]杨志明,张雷.用多元概化理论对普通话的测试[J].心理学报,2002,34(1):50 55.

[5]杨志明,张雷,马世晔.从多元概化理论看高考综合能力测试的改进[J].心理学报,2004,36(2):195 200.

【责任编辑 李 艳】

Application of Multivariate Generalizability Theory in Educational Measurement and Assessment

Dong Wanling
(Normal School,Shenyang University,Shenyang 110041,China)

The advantages of utilizing multivariate generalizability theory in educational measurement and assessment and the process of using this theory are described,as well as the conclusions and information that can be provided for researchers,which could help beginners understand the multivariate generalizability theory,and provide the guidance for users.

educational measurement;educational assessment;multivariate generalizability theory

B 841;G 743

A

2095-5464(2014)01-0092-03

2013 06 19

董婉玲(1982),女,辽宁辽阳人,沈阳大学讲师。

猜你喜欢

概化测验信度
《广东地区儿童中医体质辨识量表》的信度和效度研究
几种桥墩概化方法在MIKE 21FM模型中的应用及适用性分析
《新年大测验》大揭榜
两个处理t测验与F测验的数学关系
科技成果评价的信度分析及模型优化
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
结构化面试中多源变异的概化分析
中文版脑性瘫痪儿童生活质量问卷的信度
你知道吗?
拦污栅条概化试验