体育科学实验研究如何确定适宜的样本量

2023-02-22张力为周财亮

上海体育学院学报 2023年2期

彭凡，张力为，周财亮

（1. 北京体育大学心理学院，北京 100084；2. 北京体育大学运动人体科学学院，北京 100084）

实验研究者往往难以对总体中的所有个体进行观测，因此，常采用抽样方式对总体进行推论，抽样的数目就是样本量，即抽取的样本中所含观测值的数量。样本量是否适宜，对统计功效（statistical power）、可信程度、效果量的估计以及可重复性均具有重要影响，因此，这一问题总是引发研究者的高度关注。对样本量的估算是研究设计的重要组成部分。不同研究问题、研究设计、研究对象以及数据处理方法对样本量的要求不同，过大或过小的样本量都有悖研究伦理——样本量过小会降低研究结果的可信度，研究结论的科学贡献十分有限，而样本量过大可能造成人力、物力资源的浪费[1]。

1 体育科学实验研究样本量问题的调查与汇总

为分析体育科学领域实验研究样本量设计中可能存在的问题，笔者选取了4种能够较好反映体育科学实验研究水平的中文期刊《体育科学》《上海体育学院学报》《北京体育大学学报》《中国体育科技》，对这4种期刊2020—2021年发表的105篇实验研究论文（共含111项实验）进行研读，分别对体育教育训练学、运动人体科学、运动心理学、运动康复与运动医学4个学科中实验研究的样本量问题进行归纳和汇总（表1）。

本调查依据各个研究的实验设计，以常用的功效计算软件G*Power的计算结果为标准，对不同学科实验研究中存在的样本量问题进行统计。由表1可知：总体而言，体育科学领域样本量达标的实验研究未过半数，其中非干预研究的平均达标率（17%）低于干预研究的平均达标率（49%）；只有个别研究（1项干预研究和2项非干预研究）报告了使用功效计算软件对样本量进行估算的结果，以及计算过程中所采用的各项指标（效果量、显著性和统计功效）；另外，样本量过大（达到所需样本量2倍以上）的实验研究有9项，占比小于10%，样本量过小（不及所需样本量的1/2）的实验研究有51项，占46%。这一结果与运动科学领域高水平期刊Journal of Sports Sciences编辑部在2020年对其3年内收到的120篇实验研究论文进行的样本量统计结果近似，该文发现，120篇论文样本量的中位数仅为19，有12篇论文（占10%）交代了研究前的样本量估算，其中还有4篇论文未能说明确定效果量的合理依据[2]。笔者在调查中发现，完整报告样本量估算过程的研究比例更低。

表1 不同体育科学实验研究样本量问题一览Table 1 List of sample size problems in experimental studies in different sport science research

以上结果揭示了体育科学实验研究有关样本量设置存在的诸多问题：①研究者对样本量的合理标准及其估算过程的重视程度不足，主要表现为相当一部分研究的样本量过小（不及所需样本量的1/2）。显然，相较于样本量稍显不足，实际样本量与所需样本量之间差距过大对研究可信度的影响会更大。②绝大多数研究未预先对样本量进行合理估算。③研究者对于样本量对实验研究的质量与可信度的影响认知可能存在盲区和误区。例如：在研究实践中，一些研究者倾向于简化甚至跳过样本量估算这一步骤，随意设置每组的样本量；当出现期望结果时，便不再继续取样，易造成样本量过低的现象；相对于大样本量的单一研究，研究者更倾向于开展小样本量的多项研究，这一操作虽有利于科学探索的系统性，但也提高了“假阳性”错误出现的概率，对研究结果的可信度造成不利影响。实验法是体育科学领域最常用的研究方法之一，在实验研究中对样本量问题的重视不足将不利于体育科学研究水平的提高。因此，本文讨论适宜的样本量对提高实验研究的统计功效、降低Ⅰ型错误的概率、准确估计效果量以及对提高实验研究的可重复性的重要意义，介绍确定适宜样本量的方法，旨在引发体育科学领域研究者对样本量问题的重视，提高研究设计的合理性，进而提高体育科学实验研究的质量和水平。

2 适宜样本量的意义

2.1 样本量对统计功效的影响

长期以来，样本量与统计功效总是相伴出现的[3−5]。统计功效在假设检验的框架下被定义，指当零假设为假时，拒绝零假设即可得到显著结果的概率[6−7]，即若某效应真实存在，能得出此效应存在的结论的概率。通俗而言，统计功效代表在多大程度上能“看见”实验效应[8]。

《美国心理学会（APA）出版手册》（第 7 版）[9]建议，在研究结果中应报告统计功效值（Power值），为其他研究者继续探索某效应提供依据：若Power值偏小，研究者需通过更多的重复研究来获得更准确的结果；若结果不显著而Power值已足够大，研究者可不必在此花费时间。所以，对其他研究者而言，Power值较高的研究具有更大的参考意义和价值。统计功效由显著性水平、效果量和样本量三者共同决定[3]，在显著性水平和效果量不变的情况下，样本量越大，Power值就越高[3,10]。所以，统计功效实际上取决于样本量的大小，而提高统计功效的主要方法是增加样本量[8]。在方差分析中，计算统计功效须从非中心F分布入手，其本质上是不同自由度F分布的一种混合分布。统计功效取决于这一分布中的非中心参数（λ=nξ），意为各分布中心与零假设的分布中心之间的距离，其中：n为各组样本量大小；ξ为由总体间不同特征而产生的均值差异，类似于效果量。非中心参数的公式清晰地描述了统计功效的变化是样本量与效果量之间的结合效应[11]。

2.2 样本量对Ⅰ型错误的影响

在实际应用中，研究者对于样本量大小对Ⅰ型错误的影响常存有误解。例如，一些研究者[6]认为，Ⅰ型错误（α）的概率是预先设定的，只要看P值是否满足不大于α（如α=0.05）即可控制Ⅰ型错误的出现概率。其实，样本量过小同样也可以导致“假阳性”结果，即Ⅰ型错误的概率升高。可以通过统计学中样本量与Ⅰ型错误（α）和Ⅱ型错误（β）之间的计算公式对此加以理解[12]。以重复测量实验数据的处理为例，各组所需样本量为m=[1+(k−1)ρ]σ(Zα+Zβ)/kδ2，其中，k为重复测量的次数，δ为容许误差，σ为总体标准差，ρ为来自同一母体的样本间的内部相关系数。在研究之前，通常先设定Ⅰ型错误（α）出现的概率（如0.05或0.01），通过查表可以得到对应的Zα（同理，可以得到Zβ），此时计算出的m是犯Ⅰ型错误和Ⅱ型错误的可能性不超过既定概率所需的最小样本量。在其他指标不变的情况下，设定的α与β越低（其中低β对应高Power值），所需的样本量越大。所以，当样本量未达到所需量m时，从统计学的角度而言，犯Ⅰ型错误的可能性就超出了既定的概率（如α=0.05）。在研究实践中也不难发现样本量对Ⅰ型错误的潜在影响：当样本量过小时，研究者更容易报告随机出现的结果；或受样本分布不均与非随机抽样（如随意或方便抽样）的交叉效应影响，报告本不存在的效应。所以，若研究者未能清晰地认识到样本量对Ⅰ型错误的影响，或为了得到“阳性”结果，选取过小的样本量或非随机取样，其研究得出的结论会更多地依赖于偶然出现的效应，这会大大影响研究的内部效度，研究的科学合理性也可能大幅降低。

研究能够正确揭示现实的程度被称为研究的正向预测价值（Positive Predictive Value，PPV）[6,13]。一项研究的正向预测价值由统计功效和Ⅰ型错误概率这2个因素共同决定[11]。研究者应力求提高统计功效（降低Ⅱ型错误概率），同时降低Ⅰ型错误的概率，在实际操作中需要考虑两者间的平衡问题。因为统计功效和Ⅰ型错误概率均与得出“阳性”结果有关，所以容易出现同时升高或同时降低的情况。例如，若想通过提高显著性水平的方法来提高统计功效（如以P<0.05替代P<0.01），此时Ⅰ型错误的概率也会随之升高。不过，仍存在提高统计功效而不必以提高Ⅰ型错误概率为代价的方法，除了提高研究工具的可靠性外，还有另一种可行的思路：增大研究的样本量[14]。

有研究[15−16]指出，样本量过大会干扰研究结果，促使显著性结果的产生。还有学者[17]认为，在一些特殊领域，如应用核磁共振原理和仪器诊断异常脑活动，大样本得到的诊断结果未必经得起可重复性检验。但在实际研究中，特别是在体育科学领域，样本量不足的现象更为普遍（表1），容易对研究质量产生较为严重的不利影响。诚然，样本量不是越大越好，但在不同的研究设计中，相对充足的样本量对研究的积极意义不可小觑，本文的侧重点正是探讨这一问题。

2.3 样本量对效果量估计的影响

除了影响统计功效和Ⅰ型错误概率之外，样本量与效果量之间也具有紧密的关联。这一关联性影响是双向的：①效果量越小，所需要的样本量越大；②样本量过小会高估效果量。

从效果量对样本量影响的角度分析，当效果量较大时不需要大样本量，而当效果量较小时则需要更大的取样来发现这一效果量。例如，在单因素组间设计中，在Power值固定为0.8的情况下，大效果量d=0.80需要n=50，中等效果量d=0.50需要n=130，小效果量d=0.20需要n=800[4,8]。这一影响就犹如使用放大镜去观察事物，效果量是观察目标，而样本量即放大镜的倍数，样本量越大“放大”的倍数就越大，样本量越小“放大”的倍数就越小。换言之，效果量越小对于大样本量的要求就越高。

从样本量对效果量影响的角度分析，样本量过小会影响对效果量的估计，过小的样本量会高估效果量，极易降低研究结果的可靠程度[14]。背后的原因体现在2个方面：①小样本增加了Ⅱ型错误的出现概率，即提高了错失真实效应的概率，只有较大的效应才被检验为具有统计学意义，而较小的效应则不容易被检验为具有统计学意义。②在论文发表过程中对“阳性”结果有所偏爱，即具有阳性结果的研究会更容易发表，未发现阳性结果的研究不易发表。以上2点原因催生了经济学中的“胜利者诅咒”现象，即发表的小样本研究论文有更大可能高估了该效应的效果量[6,17]。此外，在研究实践中，一些研究者为了论文更容易发表，只选取效果量较大的数据，或到效果量足够大时便不再选取新的样本[18]等，这一系列不规范操作均会造成高估效果量。此外，研究者有时还存在这样一种错误观念：若在小样本中发现了某个较大的效果量，这样的结论更有意义，在大样本中也必然可以得到重复[18]。这一观念源于经济学中的“易得性偏差”，即个体在决策过程中过于看重容易得到的信息，而忽视对其他信息进行深度发掘，从而造成判断的偏差[19]。

实际上，样本量不足会使研究结果对于效果量的估计产生较大偏离，致使结果不再可信。Camerer等[20]曾在2018年发表的重复性研究中揭示了效果量被高估的现象。他们尝试对2010—2015年发表于Nature和Science的21项社会科学研究进行重复，对每项研究以75%和50%原有效果量进行样本量估算，最终选取原有样本量5倍（此倍数为平均水平，75%和50%效果量分别致使所估算的样本量有3倍和6倍的增长）的样本进行重复研究。结果显示，在13篇（62%）发现了与原研究方向相同的显著效应的研究中，其效果量只有原研究的一半，而在那些显著性未得到成功重复的研究中，效果量几乎为零。Ioannidis[21]认为，效果量被高估的重要原因之一是较低的统计功效，而样本量不足会促使这一现象的发生，如Camerer等[20]发现，在样本量大幅增加的重复研究中，效果量出现了显著下降。这一结果提示，在原有的样本量相对较小的研究中，普遍存在效果量被高估的现象。类似地，多国研究者建立的开放性合作实验室（The Open Science Collaboration）开展的对100篇心理学研究的大样本重复研究也发现，效果量仅为原研究效果量的一半[22]。

效果量估计的问题在体育科学领域的一些研究中显得格外重要，如某研究的研究对象为数量较少的世界冠军级运动员，如何在实验中对效果量进行准确估计？有研究者[23]建议，如遇到这样的情况，为避免效果量被高估，可以报告校正的效果量。校正与未校正效果量的区别主要在于校正效果量更具推广性，而未校正效果量有样本局限性，以此推测总体时易高估效果量[24]。最常用的效果量校正方法是Ezekiel在1930年提出的r2校正公式。具体的校正步骤[25]共分4步：①将d转换为r，公式为r=d/[(d2+4)0.5]；②计算r2；③计算r2*，公式为r2*=r2−(1−r2)[v/(n−v−1)]，其中v为因变量的个数；④将r2*开方，得到r*，然后按照公式d*=[2(r)]/[(1–r2)0.5]得到校正效果量d*。这一方法同样适用于双变量之间效果量r的校正[26]。

此外，体育科学研究者在对大、中、小效果量进行解读时，不必一味追求大效果量，要依研究问题而异。例如，某研究旨在探究某种训练方法对精英运动员运动技能的影响，如果训练效果能达到小效果量，可能已具有不可忽视的重要价值，因为奥运冠军之争常常就在毫厘之间。总之，当样本量受到人群特殊性的限制时，研究者有必要使用校正方法对效果量进行报告，因为研究者报告的效果量对于其他研究者据此进行后续研究的样本量估算具有重要影响，后文3.1将对此再进行详述。

2.4 样本量对可重复性的影响

科学研究的可重复性问题已成为近年来科学家对科学合理性关注的重要方面。多年来在论文发表中对“阳性”结果的偏爱，即发表偏倚，是导致可重复性危机的重要原因[6]。对于研究者们得到的研究结果，具有统计学意义的差异性结果（通常P<0.05）会更容易发表[27]。然而，即使一些研究发现并不能真正反映某些效应，由于论文发表的压力，研究者们还是想尽可能地将研究成果发表出来[28]。这就带来了一系列问题，如不规范的研究设计、不合理的数据处理、过小的样本量等[13, 18]。

可重复性危机已经在许多科学领域引发强烈关注。2005年，Ioannidis[13]在一篇综述中指出，由于“可怀疑的研究实践”（questionable research practices），在所有已发表的社会科学和医学研究中，“不合理”研究的占比可能超过50%。在经济学领域，Camerer等[29]于2016年对18项高水平研究进行重复，结果只有11项研究发现了方向相同的显著性结果，平均效果量仅为原研究的66%。在癌症研究领域，两大科学机构Science Exchange和Center for Open Science精选并尝试重复发表于2010—2012年的10项癌症领域较高水平的研究，其中，只有6项研究得到了相同方向的显著性结果[30]。在心理学领域，2015年，在开放性合作实验室尝试重复的100项不同领域的心理学研究中，只有39%的研究得到了明确的可重复的结果[22,31]。在神经科学领域，面对可重复性危机，研究者[32]直接提出了该领域中存在的样本量问题：经检验，80名被试样本（总量）是应用fMRI（功能性磁共振成像）技术探测行为与脑神经关联的研究较适宜的样本量，而现阶段fMRI研究普遍只选取了20～30名样本；依据该检验报告，无论采取何种数据分析方法，这样的小样本量都很难得到可重复性高的研究结果。

至今为止，在体育科学领域，可重复问题还未引起研究者们广泛的关注与讨论。这并不意味着本领域的研究不存在可重复性低的问题。实际上，体育科学领域内有一些学者[33]已经发出呼吁，为提高研究结果的可信度，研究质量及研究方法应具有更高的标准。例如，数据建模中常用因素分析法，在实际应用中，可以使用统计模拟方法，也称蒙特·卡罗方法（Monte Carlo methods）来确定适宜的样本量大小和进行统计功效的估计[34]。另外，体育科学领域的研究者[15,35]还在综述中对零假设检验和信度做了详尽阐释，提出在发表论文时不应过度追逐“阳性”结果，同时在研究中应更加注重信度，并鼓励用多种方式同时测量信度，以保证研究的科学合理性。

在对可重复性危机的讨论中，研究者[18]开始格外关注导致“假阳性”或Ⅰ型错误过高的因素。“假阳性”意为作者在文章中报告了在真实世界中不存在的效应。在体育科学领域，导致实验研究“假阳性”过高的因素种类多样、盘根错节，其中最主要的影响因素有研究者自由度和样本量大小等[36]。研究者自由度就是研究者在收集数据、分析数据和报告研究结果时可自由选择的范围。例如，在某项有关不同体育教学方法对学生技能水平影响的研究中，如果研究者在收集数据时对接受不同体育教学方法的学生分组（即自变量）进行改变或增减，或在分析数据时随意舍弃某个技能水平（即因变量）的指标等，都会使正确的虚无假设被拒绝，从而导致“假阳性”结果的概率升高[18]。相较于显著结果的易发表性，研究者们对样本量不足给研究可重复性带来的影响缺乏认真的思考和足够的重视，这一点可能在体育科学领域表现得更为明显[2]。

样本量大小对研究结果可重复性的影响主要表现在以下3个方面：①样本量过小会降低Power值，从而降低可重复性[37]。对于某个领域的研究而言，样本量过小，效果量就会更加参差不齐，这会使各研究结论看起来更加不一致[38]。所以，如果某个领域中充斥着“低Power值”的研究，就像随处可见“难以重复”和“不一致结论”，正如Fraley等[39]在论文中所描述的：“可重复性信任危机很可能源于长期以来领域内低Power值的研究设计，而低Power值就决定了研究发现可以被重复的概率较低。”Power值直接体现了如果某实验效应为真，该实验效应可重复的概率[8]。如Power=0.3代表10次重复实验中只有3次能得到实验效应，而其他7次观察不到实验效应，这就意味着研究结果正确的概率低于二分自然概率50%，比单纯猜测是否有效应正确的概率还要低。②样本量过小易导致高虚报率，使研究结果偏离真实效应的程度增加，从而大大降低研究结果的可重复性[40]。③增加样本量是提高研究可重复性的直接而有效的方法。

鉴于可重复性危机对诸多科学领域产生的冲击，以及充足的样本量对研究的可重复性所带来的深远影响，Journal of Sports Sciences编辑部在2020年发表的社论中倡导，体育科学领域的研究者应在实验前确定适宜的样本量，并在投稿时详细介绍实验前样本量的估算过程[2]，同时报告该过程中使用的所有参数及其合理依据[41]。下文介绍确定适宜样本量的具体方法和具体参数。

3 体育科学实验研究确定适宜样本量的方法

对于体育科学实验研究而言，大部分都建立在假设检验的基础之上，研究目的通常为样本推论总体，通过组别间的比较来估计某实验效应为真的概率。通过合理的参数设定进行样本量的估算是研究设计的重要步骤之一[2]。

3.1 确定样本量的核心要素

研究者在开展研究前可用G*Power[42]、jamovi[43]、PANGEA[44]（用于方差分析）、semPower[45]（用于结构方程模型）、BUCSS[46]等工具进行功效计算（power calculation），以确定适宜的样本量。在假设检验中，既定的统计模型包含4个参数：显著性水平（α值）、效果量、样本量、统计功效。当其中3个参数确定后，可计算出第4个参数的值。以样本量的估算为例，将Power值、α值和效果量确定后便可估算出对应的样本量，这一过程在功效计算中的类别为前验（a prior）[另外两类功效计算为敏感度（sensitivity）检验和事后（post-hoc）检验，分别为以估算效果量和Power值为目标的功效计算]，也是在研究实践中应用最广泛的一类功效计算[47]。此处涉及2个关键问题：将这3个参数设定为多大才是合适的？如何阐明所设定的参数的合理性？下文对此进行详述。

（1）Power值的设定。统计学家Cohen[3,48]提出应将预期的Power值设定为0.8。同时，2020年Bakker等[49]做出的统计结果也显示，Power≥0.8是实践中大多数研究所采用的标准。但是，一些研究者[50]提出应将Power值的标准定为0.90或0.95，且已有期刊（如行为科学领域顶级期刊Cortex）开始明确要求投稿人采用0.90的Power值进行前验统计功效计算，同时，还建议研究者阐述该研究招募样本的便捷程度，意在引导研究者在研究设计过程中综合考虑研究成本和难度，提高研究的可行性。在体育科学领域，也有期刊（如体育科学领域顶级期刊Psychology of Sport and Exercise）已将样本量估算与Power值计算的参数要求写入投稿指南，将假设检验类投稿论文的Power值标准提高到0.90，并鼓励注册式投稿（registered reports），这一投稿方式将促使体育科学研究者做好研究前的样本量估算和研究计划，从而有效提高体育科学领域实验研究的可重复性[33]。

（2）α值的设定。在传统意义上，α值常被设定为0.05，即Ⅰ型错误（“假阳性”错误）的概率不超过5%[51]。但是，受可重复性危机影响，有些期刊（如Cortex）已将此标准提高至0.02。此外，在一些特殊的研究情形下，可能需要将这一概率设定得更低。例如，某研究为检验不同的锻炼干预手段对老年人心理健康产生的积极效应进行了3个相互关联的实验，并计划将结果进行多重比较时，就要使用校正的α值来进行统计功效计算（如采用Bonferroni-Holm法，设定α值为0.012 5来替代惯常所用的0.05）[52]。再如，某研究的目的为验证前人研究中已发现的某种放松训练对运动员肌肉特征产生的影响，可将α值设定为0.005，理由是如果某效应已经被发现，再次验证时研究者可期待以更小的虚报率来提升研究结论的可靠性[53]。

（3）效果量的设定。对体育科学领域的研究者而言，效果量的设定往往是前验功效计算中最棘手的部分。与Power值和α值不同的是，效果量没有一个惯常的设定。Cohen[48]提出了效果量的界定标准，d=0.2为小效果量，d=0.5为中等效果量，而d=0.8为大效果量，为诸多研究者所引用，作为其设定0.5这一中等效果量进行统计功效计算的依据[49]。但也有研究者[54]认为，这一做法并不十分可取，设定效果量不应采用“通用规则”（one size fits all），如 Cohen[48]所述，在开辟新研究领域时应力求准确，将效果量设为小效果量，相对可见的差异可设为中等效果量，而差异较明显时可设为大效果量。总体而言，效果量的设定应遵循的核心原则是，某效应预期效果量的最小估计[47]，即如果设置的效果量为d=0.5，假定预期的效果量最小也是中等效果。

在研究实践中，可以采取以下方法实现效果量的合理设定。

（1）参考前人的元分析结果。例如，若研究者想继续探索不同锻炼方式对超重人群产生的身体和心理效益，可参考Carraça等[55]的元分析结果，其中，有氧运动和阻抗运动结合的方式对总体身体效益的影响为大效果量（d=0.9），而在身体效益的一些子维度上，锻炼的效果量有所降低（如身体功能d=0.4，身体疼痛d=0.24）；但是，有氧运动与阻抗运动的结合对整体心理效益的影响不显著，在心理效益的一些子维度上产生了小效果量（如活力d=0.41，心理健康d=0.22）。研究者可以根据自己的研究目的，参考与自己研究内容相似的元分析结果。同时，在这一过程中，也要关注元分析中研究的质量和可靠程度[47]，因为元分析也是一把双刃剑[56]：当元分析纳入的各项研究具有较高的可重复性时，元分析结果可以提供颇有价值的参考；如果元分析纳入的研究存在不严谨或不规范的操作，元分析反而会致使有偏的估计进一步扩大。体育科学研究领域的强证据更有利于证据积累[57]，这一点从样本量估算角度看也显得十分重要。严谨的样本量估算和研究过程可以预防后续研究受到被高估的效果量的影响，而估算出的样本量过小会使研究结果中的效果量再次被高估。周而复始，会形成恶性循环。

（2）参考前人关键研究的结果。当同领域内的研究积累还不够多，或没有合适的元分析可供参考时，少量的前人研究可能就成了可参考的关键。如Harms等[58]在2018年的研究中试图重复前人发现的“整数价格”比“带有零头的价格”使人感觉更舒服的效应，首先参考了前人结果中的效果量η2=0.040（Power≥0.9，α≤0.05，n=318），又结合理论分析，推测实际的效果量可能比这一效果量要小，为了得到更加稳健的结果，最终计划招募600名被试样本（约为原研究的2倍），这一样本量在Power值不低于0.9的情况下可探测到的效果量为η2=0.017。该重复研究的结果未再现原研究的显著结果。这提示，原研究（n=318）远远高估了效果量，其实际效果量（如果真的存在此效应）比η2=0.017还要小，即需要更大的样本量才能将其探测出来。这说明，对前人研究积累较少的效应进行重复检验时，提高（甚至大幅提高）样本量十分必要[20,59]。笔者认为，一些重复性研究的样本量往往是原研究的2～3 倍[20, 22, 29]。

（3）参考效果量分布。当以上方法均不可用时，研究者可参考效果量的标准分布（如Cohen[48]对大、中、小效果量的界定标准），同时，有些领域可能也存在特定的效果量分布，如Szucs等[60−61]曾对认知神经科学、心理学和医学领域多个高水平期刊已发表的近4 000篇研究进行了效果量统计，发现这些领域大、中、小效果量的分布与Cohen[48]的标准存在不同程度的差异。体育科学领域的研究常与其他学科相融合，存在不少交叉学科（如运动认知神经科学、运动康复学和运动医学等），研究者既要注重体育学的应用性，也要关注这些学科在研究方法上的规范性。

3.2 确定样本量的其他因素

除对上述3个参数的合理设定之外，体育科学实验研究中确定样本量还需要综合考虑以下其他因素。

（1）研究假设。在进行t检验的样本量估算中，研究者需基于研究假设，选择单尾或双尾检验：单尾检验适用于对2组因变量数据的高低有方向性假设的研究；双尾检验的含义是仅假设2组的因变量数据有差异，但不假设孰高孰低。例如，在一项旨在探究运动经验影响专业运动员某脑电成分波幅的研究中：若研究者对运动员某脑电成分（如alpha波、Theta波、SMR波等）波幅随运动经验的增加而提高或降低依理论或实证而有所假设，即可使用单尾检验；若研究者对此没有具体的方向性假设，即可使用双尾检验。在其他设定条件保持一致的情况下，相比于单尾检验，双尾检验会多估算出约20%的样本量[62]。例如，在G*Power中计算独立样本t检验所需的样本量，设定Power值为0.8，α值为0.05，效果量为d=0.5，当选择单尾检验时，所需总样本量为102，而选择双尾检验时，这一数值则升至128。

另外，研究者还指出，在先前研究自变量对因变量影响的基础上，检验其中的调节变量会因研究假设的不同而有不同的样本量要求。例如，在探究冷环境暴露影响最大有氧耐力的运动表现中性别的调节作用[38]时：若假设存在一边倒式交互作用（knockout interaction），即在调节变量的A水平（如男性）上，冷环境暴露与最大有氧耐力运动表现关联显著，在调节变量的B水平（如女性）上，冷环境暴露与最大有氧耐力运动表现关联不显著，此时需要4倍于先前研究的样本量；当假设存在完美式交互作用（perfect cross-over interaction）时，即在调节变量的A水平（如男性）上，冷环境暴露与最大有氧耐力运动表现为正相关关系，在调节变量的B水平（如女性）上，冷环境暴露与最大有氧耐力运动表现为负相关关系，此时需要等同于先前研究的样本量；当假设存在效果减半式交互作用（50%attenuation interaction）时，即在调节变量的A水平（如男性）上，假定冷环境暴露与最大有氧耐力运动表现的相关系数为0.5，在调节变量的B水平（如女性）上，冷环境暴露与最大有氧耐力运动表现的相关系数减半，变为0.25，此时大约需要14倍于先前研究的样本量。

（2）各组样本比例。在其他设定条件不变的情况下，样本量在2组之间的分配比例为1时（即两组样本数量均等的平衡设计），所需样本量最小（如双尾检验下所需样本量为128），随着这一比例的升高（2、3、4······），样本量也会随之升高（144、170、200······）。这提示，在设计分组和招募样本时，应尽量做到组别之间样本量的数量平衡。

（3）测量指标的变异度。一些研究设计中指标变异度较小，对样本量的要求就会下降，如动物实验的样本量通常比人的实验的样本量要小一些。

（4）样本的流失率。在实验任务难度较大、包含多次测量或纵向追踪式研究的情况下，研究者在估算样本量时，不得不考虑样本流失的问题。有研究者[62]认为，为防止样本流失、数据丢失等原因导致的样本量不足，实际样本量需要比预估多10%～20%。

（5）样本的易得性。在体育科学领域，一些研究的研究对象为世界冠军级水平的运动员，这一群体的数量本身就非常有限。如遇此情况，可以在文中加以阐明。例如，Seli等[63]在一项探究心智游移的研究中，已经最大限度地招募了样本，在此种情况下，研究者还可增加统计功效计算中的敏感度（sensitivity）检验报告，用以说明特定样本量可以检验出的最小效果量[52]，作为解释样本量估算合理性的辅助信息。此外，针对数量有限的特殊群体开展的研究可采用纵向研究范式（如多重基线设计），针对具有鲜明个体特异性（如世界冠军的成长规律）的研究问题，还可采用个案研究的方法[64]。

综上所述，确定样本量的影响因素有很多，其复杂程度往往超出我们的想象。不同的参数设置（包含Power值、α值和效果量）、不同假设（如单尾检验和双尾检验）、不同群体（如样本群体的同质性及特殊性）、不同测量（如独立测量和重复测量）的研究，对样本量的要求都会有所不同[65]。因此，对于适宜样本量的估算，也没有唯一的对与错的标准[56]。现阶段已有一些中文期刊对样本量估算过程的描述提出清晰的要求[66]，研究者据此对样本量估算进行详细描述[2,66]是提高体育科学实验研究结果可靠性的有效途径和迫切需要。

4 结论与应用建议

在体育科学实验研究中，充足、适宜的样本量对论文作者和读者（包括期刊审稿人、专业读者、大众读者等）双方都具有重要意义。①如果样本量这一因素受到论文作者的重视，将促使他们在研究中选取符合数量标准的样本，减少出于方便的随意选取，降低因样本量不足导致的“假阳性”错误的出现概率，提高研究结果的可靠性和可重复性。②样本量对于论文评价也具有重要的参考价值，读者可据此对整个研究的质量进行更为合理的评价。对于小样本量研究得出的研究成果，审稿人和读者须谨慎研读和采纳。

综上所述，笔者提出与样本量相关的7条具体应用建议，供论文作者和读者双方参考：对于论文作者而言，这些建议是为了提高研究质量；对于论文读者而言，这些建议有助于评判论文质量。

（1）根据研究假设确定样本量。与有明确方向性假设的研究相比，无明确方向性假设的研究所需的样本量通常更大。

（2）根据研究性质确定样本量。例如：与预研究相比，正式研究需要的样本量通常更大；与原创性研究相比，重复性研究需要的样本量通常更大。

（3）根据研究设计确定样本量。在计算样本量时，需要同时考虑并确定效果量、显著性、统计功效、流失率等因素。

（4）根据样本的易得性确定样本量。与现场调查和现场实验相比，网络调查和网络实验期待的样本量通常更大；与精英运动员、受伤运动员等特殊人群相比，一般学生的样本量通常更大。

（5）在研究计划、研究报告以及投稿论文中，明确描述样本量的测算依据。测算依据包括但不限于研究假设、研究性质、研究设计等。

（6）在投稿论文中，明确描述测试的样本量，缺失、流失、删除的样本及原因，实际的样本量（包括总样本量和分组样本量）。

（7）样本量不是越大越好。计算样本量时，还需要考虑研究的可行性和经济性。超过适宜样本量的研究会造成人力、物力、时间等资源的浪费。

作者贡献声明：

彭凡：确定论文选题，梳理文献，撰写论文；

张力为：确定论文选题，审阅、修订论文；

周财亮：完善统计方法，审阅、修订论文。