多角度理解衡量数学教育研究质量的效度

2018-11-17佛山市南海区石门实验学校唐佳丽

中学数学杂志 2018年21期

☉佛山市南海区石门实验学校唐佳丽

☉华中师范大学数学与统计学学院徐章韬

一、引言

教育研究要有意义，其前提是研究要有效、正确.人们把握数学教育规律，很大程度上是依据纷繁复杂的教育现象，“透过现象看本质”，很大程度上带有经验的性质.若要把教育经验提升为教育理论，还需要用科学研究方法的程序进行去粗取精，去伪存真.实证研究的范式是“假设—检验”，在假设某种属性已然存在的基础上，研究能在多大的程度上有效地体现和反映这种属性成为研究中最不容忽视的一个问题，这个问题即研究的效度.可以被接受的效度赋予了研究存在或推广的意义，使得研究可以被接受.通俗地说，效度就是一种测量在何种程度上测量了它本该测量的东西.研究都有效度，但高低程度可能存在不同，实证取向的数学教育研究理应追求较高的效度，以保证揭示现象背后因果关系的准确性、客观性、可推广性.本文将从误差的角度（量）、相关的角度、内容（质）的角度、属性探讨（质、量结合）的角度分析数学教育研究的效度，深化对效度的理解，以便更加有效地做好数学教育定量实证研究.

二、从多种角度理解效度

（一）从误差的角度

误差是借助物理学的术语来理解效度.定量研究企图通过对实验、测量所获得数据的整理和分析，从量的角度了解还原事物的本来貌目.但实验、测量必然会产生误差，有些误差要尽可能避免，像系统误差；有些误差不能被避免，所以我们不得不冒险接受，如随机误差.若将测量对象属性的真实值记为w，测量值记为x，则误差就是测量值和真实值之间的差值，即可建立误差模型e=x-w，其中，e和x是随机变量，e与w相互独立.在假定属性存在的前提下，e在进行无限次测验后，对测量误差取均值可将误差相互抵消；而w对于某特定的研究个体来说是一个常数.但实际中往往得不到对象属性的真实值，我们只好对研究对象实施无数次“相同”的测验取平均值来逼近真实值，这样，除去误差之后的值均视为对象属性的真实值.然而这个真实值还不全是我们需要的，还要根据研究目的进一步分解.如，目标是测量学生的计算能力，而现在测出来的是学生数学能力真实值，不仅包括计算能力，也包括空间想象能力、逻辑思维能力属性值等等，我们要将与目标无关的属性测量值提取出来.即把对象属性的真实值w进一步分为与测量目标有关的真实值——目标真实值v和与测量目标无关的真实值——非目标真实值u，亦即w=v+u，因而e=x-v-u，且e与v、u相互独立.故方差可以正交分解，得到表示i的方差）.把与测量目标有关的真实值的方差之比定义为效度系数，即rxy2，其中rxy是xy相关系数，表示所测量的心理特征引起的方差占总方差的比例.很显然，此比例越大，随机误差和非目标真实值的方差比例就会越低，研究的效度越高，反之，研究的效度就低.从这个角度可检验研究工具（问卷或量表）对此次研究的有效程度.

从误差的角度，看实际目标真实值的误差方差在总误差方差中所占的比例大小来判断效度的高低，是效度最本真的思想.但这只是理论上的研究，无法达到可算、能算的目的.其一，我们无法进行无限次的试验；其二，研究有一个假设的前提我们难以论证——属性的真实值实际存在.所以从不同角度研究效度的分类及算法很有必要.

（二）从相关的角度

相关，是把已有的权威研究当参照，是一种“以退为进”的方法.由于在实际测量和研究中，某个研究对象属性的目标真实值难以通过有限次的测量得到，或者用测量值逼近真实值的过程中总难以根除测量误差，所以通过测量得到的通常不是理论上的真实值，更谈不上理论的目标真实值了，这即是说明不会存在百分之百行之有效的研究.既然得不到理论的真实值，不妨退而求其次.可如何退？退到哪呢？数学中的化归思想告诉我们：当仅从问题本身出发难以往前，不如往后退一退，看看它与别的已被解决的问题之间的关系.也就是说，要是能够充分利用已有的研究，能够充分找一个被普遍接受的、相对靠近目标的变量，用这种能反映所测量属性的变量当成一个可参照的效度标准，即效标，用测验数据与效标数据之间的相关程度来衡量测量结果效度的高低（效标效度）就可以更快捷地评判研究的效度.以与权威测验有同样或近乎相同目标为基本前提，以权威测验的可靠性、可推广性和公信力作为基本保障，以与权威测验结果的相关系数作为效标效度来评定一个测验结果的效度，这样的想法在理论上合乎情理，在实践上也是相对便于操作，具有可行性.

从相关的角度看效度，就是充分信任已有的研究，选择合适的校标，在与校标显著相关的情况下，用校标的高效度支持现研究.通常情况下，效标的选择往往是一种与自身测验目标关联性较大的权威测验，如一些著名的智力测查量表、权威水平测试等.例如，考察一份自制数学高考模拟试卷对学生数学能力评定的效度，选择的效标可以是上一年的高考数学试卷，求出高考试卷分数和模拟试卷得分的相关系数作为模拟试卷的效标效度.从概念层面（C）到经验层面（X，x），得到效标分数和实测分数相关性的分析模型如图1.

图1 效标效度的模型

明确方法后，进一步就是解决“相关”的问题了.根据效标分数和测量分数的不同类型，可选用不同的方法和统计量进行相关计算.如果效标分数和测量分数的变量均服从正态分布，从连续的效标分数（连续变量）到连续的测量分数（连续变量），可采用积差相关的方法计算，把两者间的协方差标准化得到相关系数；将其中一种视为二分变量，计算连续变量与二分的定序或定类变量的相关性，即从连续的效标分数（测量分数）到二分的测量分数（效标分数），则用二列相关的方法计算；若两者均为定序变量，如采用特殊教学方法前后的成绩排名，则可以使用等级相关的方法分析变量的相关程度等等.

用相关法评估效度，借助与效标的相关，用一个0与1之间的数，依据数值的大小刻画研究的效度高低.但这种方法可操作性强，但不禁会让人追思这样两个根本性的问题：（1）校标一定可靠吗？（2）如何保证测验和校标所测的是同一属性？所以从这一角度也可以看出不会存在百分之百有效的研究.

（三）从内容的角度

相关的角度需要“站在巨人的肩膀上”，若是没有较为成熟可靠或适合的效度标准，则不能用效标和现测数据的相关程度衡量研究效度.此时，效度已经无法从参照、关联的角度入手考究，这就需要从研究内容的角度加以考虑.研究首先要思考的是测验时使用的测量工具能在多大的程度上代表需要测量的研究对象的相关特征，尤其是教育研究，测量工具所测量的和研究人员需要测量的是否是一致的，在多大程度上包含了研究对象的所有相关特征，成为教育测量中最根本的问题.

内容效度的确定方法与效标关联效度不同，一般不能用数量化的指标来反映测验内容的有效性程度，而是依据研究者对研究属性的理解程度作出判断，根据理解和经验编制好测量工具.请行业专家对测量工具进行内容效度评估，依据专家的评估意见进行相应的修改，取精华，去糟粕，直至获得大部分专家的认可.

这种方法的出发点是个人及专家的经验，主要活动是信息的收集、整理以及纯粹的逻辑判断，依靠行业专家的权威和公信度来确保研究的效度，含有很浓的“经验”的味道，且测试仅仅关注了内容，忽视了千差万别的被试在测验中的实际情况.

（四）从属性探讨的角度

有行业专家的意见固然很好，但有时候获取专家的意见并不是件容易的事情，且就算是专家，其观点也会具有较强的主观性.从研究“测什么”这一核心问题出发，我们不妨将重心转移到研究的属性特征上来：研究的主题不会是空穴来风，每一个研究课题都基于一定的理论知识上，因而想要测量的属性都具有一定的理论基础，从相关理论起步，编制试题后施测、评判、修改，也可获得一些效度较高的研究工具，主要的思考流程如图2.

图2 属性探讨的角度编制工具流程图

如是可以从测量的属性的相关理论入手，据相关理论的介绍和阐释，猜想属性可能包含的因素，提出假定的组成结构，并依照假设结构编制测验题.若有相关的成熟研究有已经形成的结论，就需考察自制的测验题施测后能否得到和成熟研究相同的结论，结论相同时，我们可以认为自制的测量工具和成熟的测量工具在某种程度上有相同的质，具有可以接受的有效程度；结论不同时，我们则需要对自制工具进行进一步的修订，保留符合的测验题，删除不符合的测验题，重新施测.若是没有完善的研究得到的结论，则要看最后的测量结果是否符合相应理论产生的理论结论，若验证了理论结论，则在一定的程度上说明了工具的有效性.反之，则需去伪存真，反复打磨修改.

例如，待研究的问题是“教师期望”对“学生智力”的发展是否有影响，与此有关的理论有“皮革马利翁”效应.根据理论，可提出假设（CD）：教师的期望（C）越大，学生智力发展速度（D）越快.根据这一假设编制好试题（x）后即可进行测验，分析数据得到结论（x（CD））.若有相关成熟研究（X）得到结论（X（CD）），已证实假设，则比较两个结论即可，当x（CD）和X（CD）结论一致：教师的期望越大，学生智力发展速度越快，则说明新制定的试题是有较高效度的新工具，若结论不一致，则需要修改试题，重新测验.从概念层面（C、D）到经验层面（X、x）的分析模型如图3.

图3 有成熟研究的分析模型

如果没有相关成熟的研究，也就是尚没有可接受的X研究C、D之间的关系，但有不同的研究工具分别研究教师期望和智力发展，即有研究工具（X1）研究“教师期望”（C），也有研究工具（X2）研究“智力发展”（D），则就需要将这两种工具综合使用，验证了结论CD后回到图3的分析模型再进行分析，分析模型如图4.

图4 没有成熟研究的分析模型

换个说法，当有多种不同的方法（X，x）测量相同的特征（如学生智力D）时，要想新的工具（x）有较高的效度，新的工具应该与其他方法所测结果高度一致.这种高度一致不仅表现在已经被肯定和检验的一面：获得的结论相当一致，还表现在未受到检验的另一面：新的工具是否测量了其他特征，如能力的发展.

从属性探讨的角度看效度，就是保留与属性相关的与理论结论一致的有关试题，使剩下的试题更具属性代表性，试题的选择越典型，研究的效度也就越高.同时也可看出，我们无法用有限的试题穷尽所测属性的所有方面，也就不可能存在百分之百有效的内容效度.

三、教材寻根

用数据揭示、解释本质本身就存在很大的风险，研究中的任一环节出现些许纰漏都可能使研究的效度大大降低，而可以接受的效度是任一研究发挥价值的前提.实证取向的数学教育研究，不仅要关注研究的结果，更要关注研究背后的原理，兼顾研究的多方面.概率统计处理数据的所有手段，如方差分析、相关系数、回归分析等都有其背后的原理.关注原理，才能有效准确地避免产生更大的误差，提高研究的有效性和说服力，故从质、量、质量结合等多个角度了解效度有其重要价值.

中学所学的概率统计的知识，虽没有专题学习效度的相关内容，也无需计算研究的效度，但对于教师而言，研究背后的机制不能不察，更进一步，需察而统领.在教材中，对效度的教学处理是细微之处见端倪，教材将提高研究效度的想法贯彻在概率统计教学的各个过程.例如教材中所提及的三种抽样方法：简单抽样、系统抽样、分层抽样，这是三种最基本的抽样方法，每一种方法都有自己的优势和不足，在不同的情境下选择较合适的抽样方法就是为了提高样本的代表性，让有限数量的部分尽可能代表总体.而提高抽取样本的代表性这一基本想法，就是为了提高研究的效度.再如，在进行研究的时候，有时候为了弄清楚变量之间的因果关系，我们总是采用控制变量的方法.还有教材中提及的一些试验中的注意事项，如，进行多次不同组合的试验时，试验次序尽量随机化；试验操作尽可能科学规范等；这些注意事项都以减少试验中的试验误差为目的，使观测值更加接近真实值，提高研究效度.

研究过程总是伴随着随机和偶然，有效避免误差，精致概率统计的教学，就必然要将提高自身素养作为每一个研究者和学习者的首要任务.提高自身素养，在某种程度而言，是达成高有效性研究的基石和保障，也是每一个研究者、学习者达到生活、学习、工作、研究高境界的必修功夫.