教育量化研究的统计“误区” <br/>——基于234篇CSSCI文献分析

教育量化研究的统计“误区”
——基于234篇CSSCI文献分析

2021-09-14葛亚波李伟健陈芳艳秦桂花

宁波大学学报（教育科学版） 2021年5期

葛亚波，李伟健，陈芳艳, 秦桂花

（1.浙江省智能教育技术与应用重点实验室, 浙江金华，321004; 2.浙江师范大学教师教育学院，浙江金华 321004；3.金华职业技术学院师范学院，浙江金华 321007）

教育研究方法是开展教育研究采取的步骤、手段和方法的总称，[1]决定研究质量和学科科学性质。[2]一般而言，我国学者倾向于将教育研究方法分为思辩研究和实证研究，其中实证研究范畴包括量化研究、质性研究和混合研究，[3,4]主张通过收集和分析数据信息推论研究结果以解决“实然”问题。[5]目前，实证研究已成为我国教育研究方法变革的新走向，受到众多教育领域专家的高度重视，相应教育实证论文也呈现逐年增多的趋势。作为实证研究的重要组成部分，量化研究强调对事物可观测部分及其相互关系进行测量（运用一定的测量工具对教育现象进行定量描述的过程）、计算和分析，以达到对事物本质的把握，[2]是分析教育现象、探寻教育规律和指导教育实践的重要手段。[6]具体而言，教育量化研究应包括“提出研究假设—收集资料—验证或否定假设—下结论”等阶段，其中验证或否定假设阶段本质上是通过对搜集到的教育现象数据的分析，得到“实然”结果以支持或否定“应然”假设。如何分析教育数据必然涉及教育统计方法的使用问题。能否正确与合理的运用教育统计方法，直接决定研究结论的可靠性，影响教育研究科学性和指导教育实践有效性。从某种意义上说，合理运用教育统计方法是整个量化研究的关键环节。然而，由于我国教育实证研究受到起步晚、底子薄、尚处于转型期等因素的影响，教育统计方法的应用仍存在一定的误区，亟待规范。例如，实验组控制组前后测实验设计是一种常用的教育实验研究设计，许多研究者在统计分析时，直接比较实验组与控制组前后测是否有差异，殊不知这种统计思路有失偏颇（后文将具体阐述），可能会导致结论错误而影响教育实践效果。又如，统计结果呈现中，不少研究者直接将显著性水平p值标为0.000，当然这可能是诸如SPSS等计算机分析软件输出的结果，但其真实结果并非等于0，而是一个多位小数四舍五入的结果，这种标法违背了概率论与数理统计基本原理，也容易误导读者，降低教育研究科学性。再如，一些研究者倾向于使用相关分析、回归分析或结构方程模式（SEM）探究多个变量之间的相互关系，但下结论时习惯用表示因果关系的“影响”“导致”等术语。严格意义上说，上述统计方法只能表示现象之间关系的密切程度，无法确定现象发生的先后顺序，故而无法支持因果关系推论。本研究基于35种CSSCI教育期刊、234篇教育量化研究文献，系统梳理当前教育统计存在的“误区”，并尝试提出应对建议。

一、数据来源与分析过程

以中国知网（CNKI）为样本文献遴选数据库。研究者对近一年（2018年6月30日至2019年7月1日）37种教育类CSSCI来源期刊（2019-2020版），篇名中含有“实证”或“调查”关键词的文献进行精确检索，用CNKI E-Study软件进行抓取，共得到相关文献310篇。

经筛选，35种教育类CSSCI来源期刊、234篇文献涉及教育统计（表1），导入E-Study组建研究数据库。

表1 234篇CSSCI教育量化研究统计参数分布表

设计《教育统计方法应用检核表》，具体包括两个维度：描述统计（如平均数、标准差、频数、百分比、Z分数、相关分析等）和推断统计（如t检验、Z检验、F检验、非参数检验、回归分析、因素分析等）。查阅样本文献，记录文献涉及的教育统计方法（表1）和归纳常见统计“误区”（表2）。

表2 教育量化研究常见统计“误区”汇总表

二、结果与分析

描述统计主要用于整理心理与教育科学实验或调查得来的大量数据，描述一组数据的全貌。[7]样本文献主要存在以下“误区”。

（一）描述统计参数代替推断统计

教育调查研究中，研究者们比较“青睐”频数和百分比，但有部分研究统计出百分比后直接下结论。例如，一项500人的教学方法偏好调查中，选A占40%，B占35%，C占25%，直接下结论认为A好于B和C。这种统计处理显然不恰当，描述统计结果不仅受到系统误差（测量工具的误差），而且会受到抽样误差（样本统计量和相应总体参数之间的误差）影响，故而描述统计结果不能代替推断统计。较为合适的统计处理是采用非参数检验中比率或百分数的配合度检验，计算χ2值并与查表所得的临界值进行比较，最后下结论。[7]这种配合度检验方法主要用于检验单一变量的实际观察次数分布与理论次数分布是否有差别，尤其适用于涉及频数统计的教育观察研究数据分析。因而，教育观察的相关研究中可以根据描述统计结果进行非参数检验，使研究结果更具科学性，结论更有说服力。

（二）相关、回归分析误作因果推论

相关关系是两类现象在发展变化方向和大小方面存在一定的联系，相关系数就是这种联系紧密程度的数字表现形式。[7]因果关系则是一种现象是另一种现象的原因，而另一种现象是结果，一般两种现象发生存在先后顺序。相关关系不可用于因果推论，许多研究者却在数据分析中走入这样的误区。例如，若一项研究发现A和B的相关系数为0.80，p小于0.05，直接下结论A影响B，这无异于“公鸡打鸣，太阳升起，我们就说公鸡打鸣导致了太阳升起”。就相关分析而言，无论是皮尔逊积差相关，还是斯皮尔曼等级相关，仅说明两组数据变化方向的一致性程度，并不能说明现象发生的先后顺序。同样回归分析也只能说明A变量对B变量存在预测作用，并不支持做出A影响B或者B影响A的因果推论。因而，严格意义上说，所有相关分析、回归分析，包括结构方程模型（SEM）均无法做出因果推论，教育研究者在对此类统计分析方法得到的结果进行解释时应慎用“影响”“导致”“原因”等表示因果关系的术语。[8]

（三）报告参数不完整，容易误导读者

描述统计参数能够给予读者关于某一教育现象的直观认知，但如果仅报告部分参数则容易误导读者。例如，（算术）平均数是应用最为广泛的集中量数，具有反应灵敏、计算简单等特点，但是不可忽视其缺点是容易受极端值影响。例如，若一组观测数据为5, 5, 5, 85，其平均数为25，我们能说25是这组数据的最佳估计值吗？显然不合适。然而，不少样本文献数据分析描述统计中仅报告平均值参数，这对于读者正确理解样本数据的全貌形成了干扰。因而，在报告平均值时需附加差异量数标准差以及置信区间，标准差能够更好的反应这组数据“波动”范围以把握数据的全貌，置信区间能够反映总体平均数分布的大致范围，表明即使再次抽样所获得的样本平均值所在的大致区间。此外，倘若样本数据出现极端值应严格按照标准予以剔除（通常为±3SD以外的数据）。

（四）忽略统计方法应用的前提条件

统计方法是在一定理论假设条件下推导所得，使用统计方法必须注意原假设是什么，即应用前提条件。例如，相关分析就分为皮尔逊积差相关、斯皮尔曼等级相关、肯德尔等级相关、点二列相关等（可参考张厚粲老师主编《现代心理与教育统计学》），各种相关都有适用条件，如积差相关需满足两列变量是连续变量且呈正态分布，而斯皮尔曼等级相关对数据分布不作要求，当然前者精确性优于后者。然而，统计软件如SPSS并不能自动为我们判定最佳统计方法，这为初学者带来一定的困惑。不少样本文献直接报告变量A和变量B的相关系数，并没有明确指出是何种相关，容易招致质疑。再如，方差分析是重要的参数统计方法，但其应用前提条件是数据必须满足样本相互独立、正态分布、方差齐性，否则就必须使用非参数检验，如克-瓦氏方差分析等统计方法。

推断统计是通过样本数据提供的信息推论总体的情形，常用于多种事物之间差异的比较以及影响事物变化因素的分析。样本文献主要涉及以下“误区”。

（五）统计方法的误用

t检验是最常用的一种推断统计方法，尤其是用于检验教学方法有效性的实验研究，主要用于检验单个自变量两个水平的差异性问题。许多样本文献采用实验组控制组前测后测实验设计（如图1所示），这种设计思路值得肯定，但数据分析大多走入误区。通过样本文献分析发现，采用此实验设计的研究者倾向于采用两种方法分析数据。其一，先将O1与O2进行独立样本t检验，再将O3、O4作独立样本t检验，若前者差异不显著，而后者差异显著，则认为处理X有效；其二，O1与O3进行配对（相关）样本t检验，O2与O4进行配对样本t检验，若前者差异显著，后者差异不显著，则认为处理X有效。以上两者处理方法看似有道理，实则值得商榷。针对这一高频研究设计，一般较为合适的处理是分别计算实验组控制组前后测差值，如O3－O1（记为O5）、O4－O2（记为O6）,再将O5和O6进行独立样本t检验，若差异显著则认为处理X有效。[9]

图1 实验组控制组前测后测实验设计示意图

（六）推断统计参数缺失

目前，教育量化研究缺乏统计参数报告规范。不少样本文献中在t检验、F检验中未报告自由度（df），更有甚者未报告任何统计参数，“经过t检验发现，A与B差异显著”，让读者不得不对其研究结果的可靠性产生质疑。此外，当检验多个水平（大于3）之间的差异性问题时，一般采用方差分析(ANOVA)，当主效应显著时需要进行事后多重比较，并提供相应的统计参数。然而，从样本文献来看，众多研究进行事后多重比较时未提供任何统计参数（主效应显著时）。再如，部分回归分析也存在未提供模型效应解释量的问题，而效应解释量是判定一个模型适配度的重要指标。因而，研究进行推断统计时应按照规范完整报告统计参数，增加研究结果说服力。

（七）忽略了效果量

假设检验能否正确地拒绝虚无假设，主要受到效果量、显著性水平、检验方向和样本容量等因素的影响。在其他因素不变的情况下，样本容量越大，统计效力越高，拒绝虚无假设的可能性越大，也即越可能获得统计显著的结果。而效果量（effect size）在特定总体中存在某种现象的程度，也即虚无假设错误的程度，一般不受样本容量的影响。[10]因而，在某种程度上而言，效果量比p值更具有参考价值。在推断统计中，常用的效果量有Cohen’s d(t检验)、η2(F检验)等。然而，在抽样的234篇文献中，仅有1篇文献报告了效果量。

（八）统计参数报告混乱

不少研究直接将p值标为0.000，这可能是由于统计软件（如SPSS）设置的输出数据位数导致，其真实性参数可能是个多位小数。诸如这种报告格式容易让初学者误认为p值为0，降低了研究的严谨性和科学性，建议报告为p＜0.001更为合适。也有研究提供了p值，仍然在p值上作上标“*”，而在统计学上，“*”一般标于检验值上，表示p值的范围，例如t(27)=8.56*，代表p＜0.05。还有研究者混用统计符号，例如，进行t检验结果却用F来表示。此外，也有研究在进行统计推断时未明确指出进行t检验抑或是F检验，这些问题都亟待规范，也呼吁我国教育量化研究领域尽快构建统一的统计参数报告格式。

除上述统计方法上存在的误区外，值得注意的是测量工具有效性问题。样本文献中数据来源于自编问卷和他编问卷（含改编）约占64.5%，未提供完整信效度的文献比例高达70.9%。而完整合适的信效度是应用问卷开展研究的前提，缺少则会降低研究科学性。

三、讨论与建议

总的来说，目前教育量化研究呈现蓬勃发展之势，但也存在统计方法误用、参数报告不规范等问题，直接影响研究结果的严谨性和科学性，原因可能存在以下几个方面。

（一）数理统计思维训练有限

一直以来，我国教育界对于教育学学科性质存在人文与科学之争，甚至有学者认为它是一门艺术。思辩研究方法一直处于主导地位，反映在教育类专业学生的培养中就是普遍缺乏数理统计思维训练，教育研究与数学割裂化。其一，在我国高等教育阶段，教育研究方法培养中注重理论知识的学习，如观察法、实验法、访谈法等，但研究方法的实操训练比较匮乏，特别是这些研究方法搜集到教育数据后，对于如何分析缺乏相应指导。总的来说，当前教育研究方法的培养重理论而轻实践，熟原理而应用难。另一方面，教育类专业课程体系中，逻辑学和统计学方法训练仍然不够。高等院校很少开设针对教育学本科生和研究生的逻辑学课程，缺乏基本的逻辑思维训练。[2]除了小学教育（数学）专业方向的本科生可能会修概率论与数理统计课程外，其他教育学专业几乎不会涉及。而逻辑学、概率论与数理统计知识是应用教育统计的基础，一旦缺乏，进行教育量化统计分析时只能“照葫芦画瓢”。按照统计软件指导书机械地点击菜单，没有深入理解各种统计方法应用的前提假设以及如何对结果进行科学解释与报告等。因而，不可避免会出现统计方法误用、报告参数缺失等问题，走入统计“误区”。其二，教育领域应积极组织教育量化研究统计方法研讨会、工作坊，高校积极开发教育统计方法应用相关的精品课程，为正在从事教育量化研究的科研工作者提供学习交流机会。

（二）缺少教育统计结果报告规范

规范统计报告能够促进同行间学术交流。例如，美国心理学会就曾颁布心理学论文写作规范（简称APA格式），国内众多心理学期刊沿用这一做法。目前，国内教育学研究领域还没有形成统一的量化研究结果报告规范，而一些期刊又未提供明确的参数写作规范，这也是容易出现统计参数报告不完整、格式不规范等现象的重要原因。此外，规范报告统计参数还可以增加研究价值，例如，同行研究者可以利用一系列相关研究的统计参数，针对这一领域中争议问题开展元分析研究（荟萃分析）等，有助于厘清争论。因此，笔者呼吁我国教育研究领域专家学者编制论文写作规范，规定量化研究的报告参数、统一参数符号、书写格式等，促进国内、国际教育学者之间的交流。另一方面，制定教育量化研究论文写作规范只是提供一种规范指南，关键是期刊杂志应严格按照统计报告的规范从严审稿、规范发表。因而，教育领域应尽快制定教育量化研究论文写作规范，期刊杂志严格按照规范审稿，我国教育量化研究论文统计分析参数报告不完整、参数报告混乱、格式不规范等问题将会得到解决。

（三）实证研究关注度不高

我国教育研究领域对于教育学的学科性质和定位一直存在争议，对于实证研究存在一定的偏见。例如，认为教育是一种复杂的社会现象，很难进行有效测量；教育实验控制额外变量与真实的教育情境存在差异等。当然这些是教育实证研究方法的缺点，但就此否定实证研究的价值不可取。总的来说，目前我国教育领域对实证研究方法的关注度仍不高。例如，我国近十年来教育学术期刊中思辩研究比例仍高达87.7%，教育研究方法过于依赖思辩研究，呈现出单一性的特点。[11]这种现状导致研究者对教育统计方法学习的热度不高，忽视统计方法合理性与统计结果报告规范性。

思辩研究旨在解决“应然”问题，对某一教育现象进行本体论、价值论与方法论分析，但“实然”如何并不清楚。实证研究就是解决“实然”问题，是教育现象研究从“应然”走向“实然”再到“应然”过程的纽带，其中教育量化研究对于分析教育现象、探究教育规律具有不可替代价值。近年来，要求加强教育研究范式向实证研究转变的呼声不断加强。2017年1月，14所大学教育科学学院长、30余家教育研究杂志主编齐聚华东师范大学，参会学者一致认为提升中国教育质量和影响力，必须加强实证研究，促进研究范式转型。[12,13]至此关于加强教育实证研究的呼声不断高涨，越来越多高校、研究机构开始主办教育实证研讨会议，教育期刊中量化研究文献呈现逐年略有上升的态势。[2]笔者认为提升教育量化统计分析质量是加强实证研究、研究范式转型的关键因素。具体而言，教育研究者的培养中应有意识地加强实证思维的训练，适当加强逻辑学、概率论与数理统计、教育统计学的课程比重。教育量化研究亟待统一规范，教育研究同行加快制定教育量化研究论文写作规范，助推我国教育实证研究的发展。

四、结论

我国教育量化研究任重而道远，教育统计方法的使用关乎研究结论科学性，必须树立客观、严谨的科研意识。当前研究旨在增强教育领域研究者科学使用教育统计方法的主观意识、提高教育统计参数报告的科学性、完整性、规范性。教育研究领域亟待制定教育量化研究论文写作规范，加强教育学专业本科生和研究生的数理统计思维能力训练和开发教育统计方法培训课程，积极举办教育统计方法研讨会与工作坊等，助力我国教育实证研究的发展。