作为数学教育研究质量分析的信度

2021-07-24华中科技大学附属中学430074华中师范大学数学与统计学学院430079徐章韬

中学数学研究(江西) 2021年7期

华中科技大学附属中学 (430074) 梁玉华中师范大学数学与统计学学院 (430079) 徐章韬

1.引言

一件合格产品的问世必须经过上百道工序的锤炼、全方位品质监控体系的检测，同样地，做教育实证研究，不可缺少的一环是对研究进行“质量把关”，一项好的研究必须是稳定可靠的，多次使用获得的结果应前后一致，这是教育研究得以推广使用最基本的前提.在教育研究中，误差不可避免，但大小有所不同，我们总是尽力缩小随机误差到可接受的程度，从而使得研究结果更准确可靠.一项研究结果的稳定性和一致性如何、可靠性有多大、能在多大的程度上保证研究工具的精密是研究中最不容忽视的基本问题，这个问题即是研究的信度.不同研究的信度可能存在高低程度上的不同，教育实证研究应当追求更高的信度以保证得出研究结论的客观性、科学性和可推广性.本文将揭示信度理论的原理，从信度的理论定义走向操作定义，并作进一步细化，从平行测验的获得方法重复施测、复本替代及等值分半等得到数学教育研究中的不同信度类型，深化对信度概念的理解，以期更有效地做好数学教育定量实证研究.

2.全方位认识信度

2.1 从误差角度——理论定义

2.2 从相关角度——操作定义

既然真分数无法直接求解，不妨以退为进，设法找一些可以实际获得的已知量来代替信度公式中的未知量，由于实测分数是实验过程中唯一可直接获得的资料，做法是从实测分数出发来定义信度，使信度变得实际可操作.理论上看，同一组被试在两平行测验上的实测分数是相同的，然而在实际研究中，同一组被试在两平行测验上实测分数往往存在差异，这种差异正是由测量误差决定的，如果两个实测分数高度接近，可以推论测量误差很小，测量是可靠的.因而，一个合乎逻辑的想法是用两个平行测验实测分数之间的相关来定义信度，间接来推论测验控制误差的能力，该定义具有可操作性.

从相关角度来看，信度是通过计算两平行测验得分的相关系数得到的，信度系数介于-1到1之间，信度系数越大，测验越可靠.如果信度为负值，说明在一个平行测验中得分高的被试在另一个平行测验中得分低，当然这种情况很少出现，信度系数一般介于0到1之间，不同目的的测验对信度系数的要求不同，例如一般标准学业成绩考试要求信度在0.90以上，标准智力考试的信度应达到0.85以上，个性考试和兴趣考试则较低，达到0.70-0.80即可.用相关法评估信度，用一个0至1之间的数，依据数值的大小刻画研究的效度高低，这种方法可操作性很强，关键点和难点就在于平行测验的获得.

2.3 平行测验的获得——三种方法

要从操作层面得到测验的信度指标，就要求得两平行测验的相关性，前提是存在两组平行测验，可以说，解决信度问题的能力就取决于获得平行测验的能力.平行测验测的是同一被试属性，要求对同一足够大的被试施测后，这些实测分数的平均数和方差都相等，且所有测验与其他任一测验的相关也相等.这是按照统计学方法进行检验，在数学教育研究中，我们还应对测验内容进行分析.

(1)从时间变量来看——重测信度

如果一个测量工具和所测属性是稳定可靠的，那么测量结果应当不以时间为转移，前后一致.从这个角度出发，用同一测验对同一组被试在不同时间重复实测两次，测验的形式和内容相同，就得到一组平行测验，计算两次实测分数的相关系数得到测验的信度，称为重测信度.根据重测信度的高低，可以得知测验结果跨时距的稳定性程度，因此重测信度也成为稳定系数.例如，为了考察学生对学习数学的兴趣，就需要确定一定时间间隔，在使用某种教学方式前后分别对学生进行施测，考察两次实测分数之间的相关性，即求重测信度是获得平行测验最简单的方法，然而由于使用的是同一套测验，形式与内容完全一样，测验结果不可避免地受到练习和记忆的影响，加之时间间隔的确定不太容易，因此重测信度存在明显的局限性，测量误差较大.

(2)从功能等值来看——复本信度

为了避免使用同一测验重测带来的记忆效应和练习效应，一种自然的想法是使用两个功能相同的测验对同一组被试对象进行施测，计算两个版本得分的相关系数，这种类型信度称为复本信度.复本信度系数越高，表示两个版本的实测分数基本相同，可以相互替代；复本信度系数低，则说明两版本的实测分数不一样，不能互相替代.例如，在许多正规考试中，都会出A、B两套试卷，B卷作为备用卷，其功能在误差允许范围内与A卷是等值的.考察两个版本试卷的功能是否等同，就需要求出A卷得分与B卷得分的相关系数作为两个版本在功能上的等价程度，即复本信度.在可以被接受的信度范围内，两套试卷互为复本，相互替代，以备不时之需.

实际上，复本信度的高低反映了两个互为复本的测验在效能上的等价程度，而不是直接反映一个测验本身受随机误差影响的大小.通常要求两个版本在题目内容、形式、题数、难度等方面保持一致，这样才能保证整体测验的效能类似，从而提高复本信度系数，因此复本信度也成为等值系数.然而，在教育研究中，两个测验具体的项目难以保证“平行等值性”，内容抽样和难度匹配难以做到严格等同，并且编制两份复本测验所花费的人力物力成倍地增加，成本很高.

(3)从内部属性来看——内部一致性信度

重测信度和复本信度都需要前后施测两次，且复本信度还需要两种形式的测题.为了减少时间和成本损耗，循着使用单一形式测验只施测一次的思路，不妨从测题内部的一致性着手考察测验的信度，这样得到的信度称为内部一致性信度或同质信度.如果测验内部各测题间相关一致性强，则认为是同质的，说明测验的所有成分都在集中力量考察同一属性，那么内部一致性信度就高；相反地，各测题相关较低，则认为测验为异质的，测验的内部一致性信度就低.

内部一致性信度摆脱了传统上信度系数的定义——用两平行测验向同一组被试前后施测两次获得两批实测分数的相关性，另辟蹊径，从内部属性角度出发，用单一形式测验只施测一次求出信度系数，其原理还是使用了平行测验，具体获得平行测验的方法如下：

从分半信度到α系数和KR-20公式，这一大类单一形式测验内部一致性信度都考察测验的组成成分，直至最基本的单位即项目之间的相关性.如果它们的相关一致性强，说明测验的所有成分都集中于考察同一属性特征，这样测验的信度系数取值高，测验质量好.内部一致性信度在操作上采用了单一形式测验，但本质上仍是求取平行测验间分数的相关，因而与重测信度系数和复本信度系数一样，都是一组实现平行性要求的策略和方法.从内部属性角度考察获得平行测验的方法，还能从信度和效度两方面说明问题.它从信度与效度的关系角度提出了对测验量表内部一致性检验的思路，效度从根本上受到信度的限制，如果一个测量量表是有效的，这个量表就必须是前后一致的.

重测信度、复本信度、内部一致性信度是主要的三类信度指标，用来对研究质量进行分析各有优点和特殊适用范围，严格地说，都是信度系数的大体估计值.一般地，内部一致性系数大于复本信度，复本信度大于重测信度，复本信度和重测信度两种估计方法中，属于测量误差的因素多与内部一致性信度.在具体操作中，用来估计信度的方法应当与研究的目的相吻合，有时还需把几种方法加以综合应用，贯穿统一起来，使得在真分数理论的框架下，获得对信度完整透彻的理解和运用.

3.教材寻根

数据是数学教育实证研究的命门，没有量化数据的支撑何谈研究的客观、可靠、有效、可推广.然而从“量”的角度客观还原事物本质的同时，不可避免地会产生随机误差，使得研究信度大大降低.因此无论是数学教育研究还是概率统计相关知识的中学数学教学，都会强调控制随机误差，确保所获得资料的准确性和可靠性，提高研究的信度.

鉴于信度原理的复杂性，信度在中学概率统计部分的体现，远远不如方差分析、相关系数、回归分析这般明显，但教材中对信度概念的处理、信度思想的渗透在细微处可见一斑.例如教材中统计部分，用样本估计总体所提及到抽取样本，三种抽样方法往往只有“好坏之分”，而不是“对错之分”，评价抽样方法的优劣应该以样本的代表性为标准，为了使样本具有代表性，抽样规则应客观、公正，保证总体中每个单元被抽中的概率相等，因此等可能性是三种抽样方法赖以存在的前提和根本，这样的抽样结果才客观公正、不失代表性，提高了研究的信度.再如教材中概率部分，频率在大量重复试验的前提下可以近似地作为这个事件的概率，这就是频率与概率的关系，而“大量重复试验”正是为了减少随机误差，提高了研究的信度，保证了试验结果——概率的精准与合理，概率从数量上反映了随机事件发生可能性的大小.统计与概率关系密切，理性和严谨是数学学科的特点，借助概率知识，通过逻辑分析和运算过程，让三种抽样方法的“等概率性”变得有理有据，促进学生进一步体会抽样规则的科学、合理之处，减少随机误差和偶然，保证研究的高质量.