物理教育研究中的实验/准实验研究

2021-03-19DINGLin

物理与工程 2021年1期

DING Lin 张萍徐祯

(1 长江大学物理与光电工程学院,湖北荆州 434023;2俄亥俄州立大学教育学院,美国俄亥俄哥伦布 43210;3北京师范大学物理学系,北京 100875)

物理教育研究(physics education research,PER)中的实验/准实验研究允许研究人员通过两个或多个事件之间的比较来研究某些教学改进或干预的效果。如果这种比较涉及定量分析,那么推断统计就是一种有效的工具[1]。在PER 的实验/准实验研究中,合理使用推断统计离不开细致的研究设计[2]。

1 物理教育实验研究与物理实验研究

简单地说物理实验研究是通过改变某些变量(自变量)的值,观察另一个变量(因变量)的变化效果;而物理教育实验研究也有相似情形,研究者通常对他们感兴趣的事件进行精心的控制和操纵——引入一个干预,测量这个干预带来的差异。也就是说教育研究者也会尝试操控某种东西以决定实验效果。这种被操控的东西就被称作自变量,自变量可以是一个或者多个,通过操控自变量,观测其带来的效果,即因变量的变化。例如在一项关于“不同的教学方法影响大学生物理成绩的研究”中,教学方法是教育研究者感兴趣的自变量,学生的物理成绩则是因变量。

实验研究的前提条件是:为了建立因果关系,要对变量进行分离和控制。物理实验研究通常在实验室中进行,控制和分离变量从理论的角度比较容易实现;而物理教育实验研究则在社会情境下进行,学校和课堂不像实验室那样可以人为制造和随意组装,我们不能把人当作是可随意操控的、无生命的研究客体,因此物理教育实验研究的对象是一个复杂的系统,常常会面临不可控的内部和外部干扰和伦理困境,研究者基本上不可能在“理想”环境中进行“真”实验,通常采用一些接近真实的实验(准实验)设计[3]。

2 物理教育实验/准实验研究设计

我们先从物理教育实验研究的设计入手,说明理想状态下实验研究的本质,然后介绍在实践中可行的准实验研究的设计,从而理解物理教育实验研究设计如何在理想和可行之间寻求最优方案,实现在可行之中做到可信。

在讨论物理教育实验研究设计时有两个术语:前测和后测,常常出现在与收集数据有关的研究中。前测是指在实验处理之前对被试进行的测量或测验,后测是指在实验处理后进行的测量或测验。不是所有实验都需要进行前测,而后测作为考查实验处理效果的因变量是必须的。下面简要介绍两个实验研究设计和一个准实验研究设计。

2.1 实验研究设计:仅施后测控制组设计

物理教育实验研究设计一般包含两组或更多组学生,一次实验处理(干预)一个组(实验组),可能还有一个控制组,在实验前将被试随机分配到两个组,实验组接受实验处理。在实验结束时,对两个组的研究变量进行测量(后测)。仅施后测控制组设计对研究者来说是有效的设计,因为是随机分组,它不需要前测。仅施后测控制组的设计如下表示:

G 表示组,R 表示随机抽取或分组。X 表示实验处理(自变量),短线表示没有实验处理。O表示对因变量的测量,置于X 和短线—的左/右面,分别表示前/后测,在这个设计中只有后测、没有前测。

以前面提到的“关于不同的教学方法影响大学生物理成绩的研究”为例,使用这种研究设计,首先将学生随机分配到实验组RG1 和控制组RG2中,实验组使用一个新的教学方法讲授课程——实验处理X(自变量),控制组仍然用原来的教学方法——没有干预。在经过一学期的教学后,可以对两个班学生的物理成绩(因变量O)进行后测和比较。

在物理实验室中,将一个金属棒加热,研究者可以肯定地将所观察到的物体膨胀效应归因于温度升高,因为他们在实验中可以排除(控制)所有其他无关的因素。但是在PER 实验研究中,任何变量的变异都可能受到多种因素的影响,例如上述研究中学生的物理学习成绩的变异除了可能受到教学方法的影响外,还可能受能力、态度、动机和以前的学习成绩等因素的影响。将学生随机分配到实验组和控制组,在理论上可以减小所有可能的无关变量对因变量的影响。也就是说,除了实验变量(教学方法)之外的其他无关变量产生的影响(干扰)近似同等地分配在实验组和控制组,其产生的“干扰”效应就势必在两个组中都有,因此随机化确保了实验组和控制组的状态尽可能相当。实践中只有在保证有足够多的被试时,随机化的原则才有可能起作用。良好的PER 实验研究要求研究者能提供公正的、没有偏差的组间比较结果,为此在研究设计时必须小心翼翼确保任何组间差异能够归因于研究设计的自变量。

2.2 实验研究设计:前测-后测控制组设计

在“仅施后测控制组设计”的基础上在实验处理前加上前测,就是“前测-后测控制组设计”,表示如下:

由于是随机分组,因此,前测的目的不是保证对比组相等。对一个或多个变量的前测可以在分析时进行统计控制,计算增益(gain),它是由后测分数减去前测分数得到的。

研究人员除了使用增益来表示变量随时间变化外,还经常使用标准化增益(normalizedgain)——实际的增益与潜在的最大增益变化之间的比率:

实际增益是后测得分与前测得分的差值(gain=postscore-prescore),潜在最大增益是满分数和前测得分(maximumchange=fullscore-prescore)的差值。从Hake首次将其引入PER 以来[4],标准化增益在物理教育研究中被广泛采用。研究人员通常使用标准化增益直接与0进行比较,以检查学生前后的表现是否有显著变化。

PER实验研究的特征是随机安排被试(组)进行实验处理。然而,在进行物理教育研究实践时,被试的挑选和组合不可能总是随机的。准实验研究是指在实验中,使用原始教学班作为被试进行分组,而不是随机安排被试接受处理。如果研究者不能随机分配被试进入各组,那么原始组就会在某些因素上有所不同,并导致各组不对等。使用不经随机分配的组进行实验是有风险的,因此研究者需要做出努力使它尽可能接近“理想”实验设计。这种准实验设计是能够为教育做出有价值的贡献,但有一点很重要:研究者对实验结果的解释和推广应该特别慎重。下面介绍一个准实验研究设计。

2.3 准实验研究设计:前测—后测不等组设计

在前面“实验研究设计:前测-后测控制组设计”中,如果实验组和对照组不是随机分组,而是使用原始或自然形成的班级构成被试组时,就构成一个“准实验设计中的前测—后测不等组设计”,表示如下:

实验组G1和控制组G2不是通过随机化的方式达到对等。我们使用原始或自然的教学班作为被试组时,有可能带来取样偏差,两组之间的相似性(或缺乏相似性)必须加以考虑,研究者在一定程度上要使两组在除了实验干预因素(自变量)外的其他可以影响到因变量的干扰尽可能地相当。前测的结论对检验实验组和对照组间的相似性是非常有帮助的,因为前测是与因变量有密切关系的变量。

在物理教育研究中,除了上述几种实验/准实验研究设计外,还有所罗门四组设计,因素设计,重复测量设计,时间系列设计等。另外为了适用具体的研究情况,研究者可以对这些实验设计进行一些改动,重要的是让我们的设计适合实验的目的,只有实行了充分控制的实验,其结果才能令人信服,并且按照研究结果的适用性加以推广。

3 良好物理教育实验研究设计的特征

在物理教育准实验研究设计时,为了能提供公正的、没有偏差的组间比较数据结果,研究者需要尽力确保任何组间差异都能归因于研究的自变量里,在实验设计时,需要做到以下几点:(1)减少变量的混淆或使这种混淆处于最小程度;(2)辨别和控制无关变量,缩小或减少它们的影响;(3)通过数据获得充分的信息,以满足检验实验假设的条件和统计的精确性。理论上我们用实验效度来评价实验设计的好坏,实验效度有四种类型:内在效度关注的是因变量的变化是否由实验变量所引起的;外在效度是指实验结论的外推范围;结构效度是对自变量结构和因变量结构的明确界定;统计结论的效度是对实验组和控制组之间是否存在差异和精确性检验。

物理实验研究中遵循实验可重复性要求。在物理教育实验/准实验研究中,这个要求可能不会特别有效。物理教育实验研究是将复杂的现象分成可测量的变量,然后仅仅聚焦在其中的某些变量,如同盲人摸象,每个研究的价值在于它提供了部分信息,但无法获得整体的视角。物理教育实验研究结果不仅具有样本依赖性,而样本中的每个个体之间也存在差异。理想的物理教育实验研究是从某一个总体样本中随机性抽取实验样本,然后随机分配到不同组中,其研究结果在一定的可靠程度上可以代表对应的这个总体样本的情况(外在效度)。例如,一项以各大学文科物理课程的学生作为总体样本进行抽样的某一项物理教育实验研究,其研究结果在一定的可靠性上可以外推到不同大学的文科物理课程,但是不能轻率地外推到理工科物理课程。涉及物理教育准实验研究的效度时,研究者必须对它的缺陷有清楚的认识,对实验组和控制组间的对等性进行确定,在研究报告中需要非常详尽说明实验的条件细节,同时在逻辑上对其可能的代表性和可推广性加以论证。

4 物理教育实验/准实验研究的数据分析

本系列文章中的第2篇我们介绍了描述统计在物理教育研究中的应用[5],而物理教育实验/准实验研究更依赖于推断统计进行数据分析,数据差异的显著性检验是推断统计的重要内容,在物理教育实验/准实验研究中具有广泛的应用,其目的是对两组数据之间是否存在显著性差异进行判断。

我们仍然以关于“不同的教学方法影响大学生物理成绩的研究”为例,若该项研究使用“准实验设计中的前测—后测不等组设计”,如果两个班的前测数据之间差异性不显著,则表明两个班的测量变量在实验开始时是相当的。经过一段时间教学之后再进行后测,如果实验班的后测成绩平均值高于对照班,并且两组数据差异性检验的结果表明它们之间存在显著差异,假设没有理由怀疑两个班在其他方面存在差异(如学生能力、态度、动机、教师差异等),则结果表明实验班采用的新的教学方法对提高学生物理成绩是有效的。

有许多推断统计的方法,在统计学教科书中有详细的讲解,有一些方法在计算上很复杂,大部分数据分析可以通过计算机进行,因此对研究者而言,更重要的是理解不同方法的原理和适用条件。研究者需要根据研究目标、样本类型、数据类型[6]、数据分布形态等,选择适合的推断统计方法,表1给出一些基本的差异性检验的方法和适用条件,并以参考文献编号形式标出这些方法在PER 中的应用案例,方便读者查阅。

表1只提供了PER 实验/准实验研究中较为常见的几个统计方法及其适用条件,并不是全部。其中涉及很多专业名词,需要系统学习过推断统计才能理解。

用一盒拼图来比喻,本文试图描绘一个印在包装盒外面的那张简图,目的是提供一个指引,实践者必须自己打开盒子,对每一个碎片进行查看和研究,努力地将他们一张一张地拼接成完整的图像。物理教育研究领域是一个多元化、复杂但是非常有魅力的研究领域[15]。也是一个专业化很强、很有挑战的领域,进入这个领域需要专业化的学习。

物理教育的共同体需要证据作为评价和行动的基础,政策的制定应该建立在已有研究的基础上,将未经实验和检验的建议付诸教育实践,大规模推行是不合理的。物理教育实验/准实验研究可以增进人们对物理教育的理解,从而改善物理教育实践。